Professional Documents
Culture Documents
Capitolul I
EVOLUŢIA ISTORICĂ A EVALUĂRII PSIHOLOGICE
I.1. Introducere
I.2. Evaluarea psihologică în antichitate
I.3. Antecedentele ştiinţifice ale evaluării psihologice
I.4. Constituirea şi dezvoltarea evaluării psihologice
I.4.1. Contribuţia lui Galton
I.4.2. Contribuţia lui Cattel
I.4.3. Contribuţia lui Binet
I.4.4. Contribuţia altor autori
I.4.5. Repercusiunile celor două războaie mondiale
I.4.6. Perioada de criză a evaluării psihologice
Capitolul II
CÂTEVA CLARIFICĂRI CONCEPTUALE
II.1. Evaluarea şi măsurarea în psihologie
II.2. Noţiunea de psihodiagnoză
II.3. Test şi testare psihologică
Capitolul III
METODE DE BAZĂ ÎN EVALUAREA PSIHOLOGICĂ
III.1. Noţiunea de metodă în psihologie
III.2. Metode nepsihometrice
III.2.1. Observaţia
III.2.2. Convorbirea
III.2.3. Ancheta be bază de interviu
III.2.4. Anamneza (Metoda biografică)
III.3. Metode psihometrice
III.3.1. Concepte fundamentale în măsurarea psihologică
III.3.1.1. Variabile statistice
III.3.1.2. Scale de măsura
III.3.1.3. Indici statistici de start
III.3.2. Chestionarul psihologic
III.3.3. Testul psihologic
III.3.2.1. Definiţie
III.3.2.2. Caracteristici generale ale testului psihologic
III.3.2.3. Clasificarea testelor psihologice
III.3.2.4. Domenii de utilizare ale testelor psihologice
III.3.2.5. Surse de eroare în testarea psihologică
Capitolul IV
PRINCIPII PSIHOMETRICE ALE UTILIZĂRII TESTULUI PSIHOLOGIC
IV.1. Standardizarea şi obiectivitatea
IV.2. Fidelitatea
IV.2.1. Definiţie şi noţiuni de bază
IV.2.2. Metode de calcul a coeficientului de fidelitate
IV.2.2.1. Metoda analizei consistenţei interne
IV.2.2.2. Metoda test-retest
IV.2.2.3. Metoda formelor paralele
IV.2.2.4. Metoda analizei fidelităţii interevaluatori
IV.3. Validitatea
IV.3.1. Definiţie
IV.3.2. Tipuri de analiză a validităţii
IV.3.2.1. Validitatea de construct
IV.3.2.2. Validitatea de conţinut
IV.3.2.3. Validitatea de criteriu
IV.4. Dificultatea şi sensibilitatea unui test psihologic
Capitolul V
ETALONAREA UNEI PROBE PSIHOLOGICE
V.1. Definirea termenilor
V.2. Eşantionarea
V.3. Metode de obţinere a normelor unui test psihologic
V.3.1. Prin transformări în clase echivalente
V.3.2. Prin transformări în vârste echivalente
V.3.3. Prin transformări în norme de vârstă mintală
V.3.4. Prin transformări în cote standard şi cote standardizate
V.3.5. Prin transformări în ranguri centile, decile şi cuartile
V.3.6. Prin transformări în clasele scalei normalizate
Capitolul VI
CONSTRUIREA TESTELOR PSIHOLOGICE
Capitolul VII
ASPECTE ETICE ALE EVALUĂRII PSIHOLOGICE
Capitolul I
EVOLUŢIA ISTORICĂ A EVALUĂRII PSIHOLOGICE
I.1. INTRODUCERE
Starea actuală a evaluării psihologice este, fără îndoială, un produs al evoluţiei istorice a
disciplinei şi al interacţiunii sale cu dezvoltarea psihologiei înseşi şi cu alte ştiinţe similare. Astfel,
nu se poate să abordăm conceptul evaluării psihologice, fără să fi trecut înainte printr-o analiză
istorică. McReynolds (1986) justifică această analiză istorică aducând diverse argumente; în primul
rând, o cunoaştere a evoluţiei istorice a evaluării oferă o informaţie amplă şi o aplicare mai bună a
stării actuale a evaluării psihologice; în al doilea rând, trecutul este important prin el însuşi,
deoarece face parte din moştenirea omenirii; şi, în al treilea rând, face posibil ca anumite aproximări
sau directive folosite de strămoşii noştri, şi uitate de atunci, să fie redescoperite.
La graniţa dintre antecedentele filosofice şi cele biologice se află contribuţia importantă din
această perioadă la evaluarea psihologică, opera lui Juan Huarte din San Juan Examen de ingenios
para las ciencias, publicată în 1575 şi tradusă în engleză, în 1698, cu titlul The tryal of wits
(McReynolds, 1986). În Spania s-a reeditat de cinci ori până când a fost inclusă, în 1581, în
catalogul cărţilor interzise din Lisabona, iar doi ani mai târziu în cel din Madrid (Buela-Casaly;
Sierra, 1997). În această operă se abordează pentru întâia oară evaluarea într-o formă explicită. Se
consideră că oamenii diferă în ceea ce priveşte talentul lor şi că aceste diferenţe trebuie evaluate
pentru a se obţine o adaptare între abilităţi, ocupaţii diferite şi tipuri de educaţie. Astfel, se consideră
că mediul influenţează învăţarea, astfel încât se recomandă ca studiile să fie realizate într-un oraş
diferit de cel natal, deoarece influenţa familiei şi a prietenilor reprezintă o piedică pentru învăţare
(Pérez-Álvarez, 1991 apud. Buela-Casaly; Sierra, 1997). Este, prin urmare, precursorul cel mai clar
al selecţionării de personal. În cercurile universitare, evaluarea apare în paralel cu crearea primelor
universităţi europene, unde se realizau în mod regulat examene pentru obţinerea titlurilor şi a
distincţiilor (Anastasi, 1988).
În definitiv, probabil că antecedentul cel mai clar al evaluării psihologice este tendinţa
naturală a omului de a-i evalua pe ceilalţi. Am putea indica o infinitate de antecedente posibile ale
evaluării psihologice; cu toate acestea, pentru a contextualiza principalele evenimente care au dat
naştere actualelor instrumente de evaluare, nu trebuie să mergem mai departe de secolul al XVIII-
lea.
Psihofizica avea ca postulat iniţial descoperirea unor legi generale pentru descrierea relaţiilor
dintre minte şi corp. Contribuţia sa la evaluarea psihologică se poate observa în studiul concret al
fenomenelor psihice, făcându-se legătura dintre experienţa subiectivă şi măsurile obiective, crearea
unor noi metode de investigare a acestor elemente şi sistematizarea teoretică a acestora (Zabrodin,
1985, apud. Buela-Casaly; Sierra, 1997). Deşi autori precum Fechner şi Weber erau mai interesaţi
de legile generale decât de diferenţele individuale, odată cu ei apare situaţia de examen psihologic;
astfel, de exemplu, Fechner utilizează deja autoraportul subiectului ca instrument de evaluare.
Psihologia educativă atinge punctul culminant odată cu modurile de abordare inovatoare
produse în ceea ce priveşte interesul crescând faţă de educaţie, cu şcolarizarea obligatorie ulterioară,
apărând astfel nevoia de aplicare a principiilor psihologice în şcoli şi cererea unei evaluări a
randamentului academic. Acest interes pentru evaluarea în mediul şcolar şi-a găsit continuitatea la
autori precum Throndike, Hall şi Binet.
Evoluţionismul marchează un eveniment important în istoria ştiinţelor umane. Legătura dintre
Darwin şi Galton a favorizat şi mai mult influenţa teoriilor evoluţioniste în încercarea de a explica
diferenţele individuale şi, în cele din urmă, inteligenţa umană. Baza evoluţionismului constă în a
recunoaşte variabilitatea membrilor aceleiaşi specii, în care caracteristicile pot fi moştenite. Astfel,
în natură se produce o selecţie naturală prin intermediul supravieţuirii membrilor celor mai puternici
sau mai bine adaptaţi. La specia umană, capacitatea diferită de adaptare se numeşte inteligenţă.
Diferenţele de inteligenţă erau perfect acceptate în societatea secolului al XIX-lea. Astfel,
darwinismul social ajuta la justificarea ordinii sociale fixe.
Antecendentele cele mai ştiinţifice ale evaluării psihologice îşi au rădăcinile în primele
laboratoare de psihologie. În 1877 s-a produs prima încercare de înfiinţare a unui laborator de
psihofiziologie de către savanţii britanici Venn şi Ward. Cu toate acestea, Senatul din Cambridge a
respins această iniţiativă, calificându-i pe cei doi savanţi drept atei (Yakunin, 1985, apud. Buela-
Casaly; Sierra, 1997). Cu doi ani mai târziu, Wundt inaugura în Leipzig (1879) primul laborator de
psihologie, acest moment fiind considerat drept naşterea psihologiei ştiinţifice. Ideea lui Wundt de a
apropia psihologia de fiziologie, în ciuda faptului că întâlnise o opoziţie clară în cercurile filosofice,
a câştigat în curând adepţi. Cu toate acestea, această idee nu era nouă, deoarece Sechenov, un
cunoscut savant rus, încercase să interpreteze fenomenele psihice dintr-un punct de vedere
fiziologic. De fapt, cartea sa Reflejos del cerebro (Reflecţii ale creierului) a fost editată în 1863,
adică, cu 11 ani înainte ca Wundt să publice Bazele psihologiei fiziologice. Într-un articol scris în
1873, Sechenov, plecând de la tradiţia materialistă a gânditorilor ruşi, susţine teza referitoare la
determinarea obiectivă a intelectului. Ideile lui Sechenov au fost foarte bine primite în rândurile
psihiatrilor şi neurologilor ruşi, ceea ce a dus la o restructurare a psihologiei din punct de vedere
fiziologic. O dovadă a acestui fapt o constituie crearea primului laborator de psihologie din Rusia,
înfiinţat de Bejteriev, în 1886, în clinica de bolnavi alienaţi şi boli nervoase din oraşul Kazan. Cu
câţiva ani mai târziu, în 1891, se constituia Societatea Rusă de Psihologie Experimentală (Yakunin,
1985, apud. Buela-Casaly; Sierra, 1997). De la crearea sa şi până la începutul secolului al XX-lea,
laboratorul lui Wundt a fost considerat centrul psihologiei experimentale, fiind exemplul ce trebuia
urmat în crearea de noi laboratoare. Obiectul de studiu al noilor psihologi experimentali era acela de
a ajunge să abordeze descrieri generale ale comportamentului uman. Diferenţele individuale nu
numai că nu interesau pe nimeni, ci ajungeau să fie considerate drept „erori de măsurare”. În
alegerea temelor şi în anumite metode utilizate se observa influenţa medicinei şi a fiziologiei.
Pelechano (1988, apud. Buela-Casaly; Sierra, 1997), consideră că tipul de psihologie experimentală
practicată de Wundt şi de adepţii săi presupunea în realitate o limitare a dezvoltării evaluării
psihologice. Wundt nega importanţa psihologiei diferenţiale, nu autoriza utilizarea chestionarelor
pentru investigarea psihologică, nu accepta posibilitatea unei psihologii ştiinţifice în afara
laboratorului şi nici studiile filogenetice şi ontogenetice ale psihismului uman. Cu toate acestea, nu
totul a fost negativ, având în vedere că psihologia experimentală a secolului al XIX-lea a ajutat la
scoaterea în evidenţă a importanţei de a controla în mod riguros condiţiile în care se făceau
observaţiile. De exemplu, se controlau caracteristicile stimulului, contextul în care se prezenta
acesta, instrucţiunile pe care le primea subiectul etc. În definitiv, se încerca evaluarea tuturor
subiecţilor în aceleaşi condiţii standardizate. După cum bine se ştie, toate acestea au fost acceptate
în totalitate în procesul de construire şi în aplicarea testelor (Anastasi, 1988).
James McKeen Cattell (1861-1934) a fost un psiholog american cu o educaţie solidă pe care a
primit-o în Europa. Teza lui de doctorat a tratat diferenţele individuale în cadrul timpului de reacţie
şi a fost realizată în laboratorul lui Wundt (Leipzig). Ulterior, a lucrat cu Galton în laboratorul
antropometric din South Kensington Museum din Londra. În 1888 a fost numit profesor de
psihologie la Universitatea din Pennsylvania. Doi ani mai târziu publică în revista Mind un articol
intitulat „Mental tests and measurements”, care marchează un eveniment important în istoria
evaluării psihologice, având în vedere că este pentru prima oară când se utilizează termenul „test” în
literatura psihologică (McReynolds, 1986), iar în el se descriau testele care se aplicau anual la
studenţii universitari cu intenţia de a evalua nivelul intelectual al acestora. Ulterior s-a mutat la
Universitatea din Columbia, unde a creat prima baterie de probe de evaluare psihologică. În scurt
timp, metodologia şi procedeul de elaborare a testelor au devenit foarte populare. În ultima decadă a
secolului al XIX-lea, testele se aplicau, în Statele Unite, la toate tipurile de subiecţi (şcolari, studenţi
universitari, adulţi...). Cu toate acestea, traiectoria strălucită a lui Cattell se opreşte, cel puţin parţial,
în faţa criticilor aduse de Wissler şi Sharp. Primul, care fusese discipolul lui Cattell, a prezentat un
studiu detaliat în care analiza rezultatele lui Cattell, demonstrând validitatea redusă atinsă de teste.
Concret, a demonstrat că coeficienţii de corelare dintre testele psihologice şi calificativele şcolare
erau relativ reduşi. Pe de altă parte, Sharp a demonstrat fidelitatea scăzută şi valoarea predictivă
redusă pe care o deţineau testele lui Cattell (Pelechano, 1988, apud. Buela-Casaly; Sierra, 1997).
I.4.3. Contribuţia lui Binet
Binet (1857-1911) era licenţiat în drept şi doctor în ştiinţe naturale şi a intrat în psihologia
„mâinii” lui Ribot, marele iniţiator al psihologiei experimentale din Franţa. Ribot înţelegea că
progresul psihologiei se află în metodele experimentale (deşi nu era cercetător), nu degeaba a fost
fondatorul primului laborator de psihologie de la Universitatea din Sorbona, în anul 1889. În anul
1895, Binet înfiinţează L’Année Psychologique, prima revistă franceză de psihologie. În această
revistă publică un articol, „La Psychologie individuelle”, în care prezintă bazele unei noi abordări a
evaluării inteligenţei. Binet manifesta acelaşi interes ca şi Galton pentru evaluarea diferenţelor
individuale, însă respingea ideea că inteligenţa umană se poate evalua prin intermediul proceselor
senzorio-motorii. În articolul lor, Binet şi Henri susţin că inteligenţa trebuie evaluată în funcţie de
preformanţele subiecţilor în diverse sarcini care implică o varietate de procese mentale complexe
(McReynolds, 1986). Binet şi Henri au început să evalueze procese ca memoria, atenţia, imaginaţia,
înţelegerea, sensibilitatea artistică şi morală, sugestibilitatea, puterea voinţei şi abilitatea motorie.
Binet include ca şi caracteristici ale comportamentului inteligent alegerea şi menţinerea unei direcţii
precise, adaptarea pentru atingerea unui scop şi autocritica (Cronbach, 1990).
Marea şansă a lui Binet soseşte atunci când este numit de către Ministerul francez al Educaţiei
membru în comisia care avea să se ocupe de căutarea unei soluţii pentru copiii cu deficienţe, care
intraseră în şcoala publică în urma punerii în vigoare a învăţământului obligatoriu în Franţa. Ca
răspuns la această cerere, Binet, în colaborare cu Simon, elaborează o scală care conţine 30 de
probleme cu grade de dificultate crescânde. Pentru a calcula nivelul de dificultate, această scală s-a
aplicat la 50 de copii normali, cu vârste cuprinse între 3 şi 11 ani şi la câţiva retardaţi mintal.
Conţinutul itemilor acoperea o mare varietate de funcţii, deşi predominau problemele legate de
înţelegere şi judecată. Proba rezultantă, care este cunoscută sub denumirea de scala 1905, a fost
considerată un instrument de evaluare provizorie (Anastasi, 1988). După cum semnalează Pichot
(1994, apud. Buela-Casaly; Sierra, 1997) „pentru prima oară se ieşise din epoca experienţelor de
laborator pentru a se intra în viaţa concretă”. Binet şi Simon continuă să lucreze la această scală, iar
în 1908 prezintă o a doua versiune la care se adaptaseră serii de itemi pentru grupe de vârstă. Vârsta
mintală se stabilea în funcţie de vârsta corespunzătoare seriei celei mai ridicate obţinută per total.
Având în vedere că fiecare serie, care corespunde cu o vârstă mintală determinată constă din cinci
probleme, se adăuga la vârsta de bază (aceea a seriei realizate în totalitate corect) 1/5 ani pentru
fiecare test realizat corect aparţinând unor serii superioare. Vârsta mintală obţinută era comparată cu
vârsta cronologică, văzându-se astfel dacă copilul urma o evoluţie normală, întârziată sau înaintată.
În 1911, se prezintă o a treia versiune a scalei, în care se mărise numărul de itemi la anumite
niveluri şi se extinsese vârsta adultă. Cu toate acestea, versiunea cea mai difuzată a fost realizată de
Terman de la Universitatea din Stanford, fiind cunoscută sub denumirea de Scala lui Stanford-Binet.
La aceasta se utilizează pentru prima oară termenul de „coeficient de inteligenţă” (CI), rezultat din
împărţirea vârstei mintale la vârsta cronologică. Ulterior au apărut şi alte versiuni, însă un interes
special îl prezintă versiunea realizată de Kuhlmann, în 1912 (Scala Kuhlmann-Binet), care a extins
scala în partea inferioară până la vârsta de trei luni, fiind revizuită ulterior în 1937 şi 1960. Terman
efectuează încă două revizuiri şi, în cele din urmă, Thorndike o realizează pe ultima de până acum,
în 1986 (Rogers, 1995).
Cu toate acestea, aceste scale nu erau lipsite de probleme. Astfel, în timp ce Galton avansa
măsurarea unei inteligenţe înnăscute sau biologice, Binet apără evaluarea unei inteligenţe de origine
socială. În curând mişcarea eugenică adoptă ca instrument testul lui Binet şi Simon, identificând
inteligenţa înnăscută cu cea socială. Pelechano (1988, apud. Buela-Casaly; Sierra, 1997) semnalează
faptul că logica utilizată de Binet în construirea şi interpretarea scalei era corectă, însă văzută dintr-
o perspectivă actuală avea câteva probleme importante:
a. Nu s-a demonstrat că comportamentele aplicate ar fi fost reprezentative pentru ceea ce se
dorea evaluat (capacitatea intelectuală).
b. Mostra utilizată pentru clasificarea punctuaţiilor nu era reprezentativă pentru populaţia la
care se aplica ulterior.
c. Utilizarea vârstei cronologice ca şi criteriu variabil pentru măsurarea vârstei mintale,
făcându-se astfel să se înţeleagă implicit că la fiecare două luni se produce o schimbare în
capacitatea intelectuală.
d. Modelul acumulativ conform căruia fiecare problemă rezolvată este echivalentă cu o
perioadă de vârstă mintală nu a fost demonstrat.
e. Presupunerea că distribuirea punctuaţiilor este egală în fiecare grupă de vârstă nu este
corectă.
O dată cu începerea primului război mondial, industria generată în jurul războiului afectează şi
psihologia, şi mai concret evaluarea psihologică. Astfel, American Psychological Association
(APA) a numit un comitet care avea să se ocupe de studierea posibilului ajutor pe care l-ar fi putut
oferi psihologia. A apărut nevoia de a se selecţiona peste un milion de soldaţi, pentru care era
esenţial să se dispună de probe colective care să permită clasificarea soldaţilor în funcţie de nivelul
lor intelectual şi de aptitudinile lor de a oferi un anumit tip de serviciu. Având în vedere că
majoritatea testelor existente erau de aplicare individuală, a fost necesar să se recurgă la toate
tipurile de teste care se puteau aplica în mod colectiv. Arthur Otis a pus la dispoziţia Armatei o serie
de teste pe care le elaborase, dar pe care nu apucase să le publice (Buela-Casaly; Sierra, 1997). Era
nevoie de probe de dificultate progresivă, cu răspunsuri scurte, o corectare rapidă şi obiectivă, cu
forme diferite (pentru a evita învăţarea) şi de aplicare colectivă. Probele construite pentru evaluarea
nivelului intelectual au fost cunoscute sub numele de Army alpha test şi Army beta test. Prima se
aplica la populaţia generală (instruită) şi consta din următoarele subprobe: îndeplinirea ordinelor,
probleme aritmetice, sinonime şi antonime, simţ practic, analogii, informaţii şi gramatică. Fiecare
subprobă avea o dificultate crescândă şi trebuia să se răspundă la ea într-un timp limitat. A doua
probă era gândită pentru persoane analfabete sau pentru persoane care nu vorbeau limba engleză;
astfel, în aceasta nu erau incluse conţinuturi verbale, ci consta din labirinturi, serii, cuburi, puzzle,
construcţii geometrice, cifre-simbol şi numere. Desigur, timpul de răspuns era, de asemenea, limitat.
Pentru a evalua simptomatologia neurotică s-a utilizat Woodworth personal data sheet, un inventar
de personalitate elaborat de Woodworth şi care a ajuns să fie aplicat la peste un milion şi jumătate
de persoane.
Influenţa acestui proces a avut o mare importanţă în dezvoltarea evaluării psihologice sub
diverse aspecte sintetizate în punctele următoare (Buela-Casaly; Sierra, 1997):
a. Primul, şi poate cel mai important, a fost considerarea figurii psihologului drept un
profesionist calificat, ce poate rezolva problemele vieţii reale.
b. Perfecţionarea metodologiei de construire a testelor şi formarea unei mari baze de date
(peste un milion şi jumătate de subiecţi) din populaţia generală.
c. Tipul de evaluare realizată în armată s-a adaptat la domenii precum cel industrial (selecţia şi
evaluarea personalului) şi cel clinic.
d. Consolidarea aplicării testelor cu conotaţia rezultantă a „psihologului care trece teste”.
Evaluarea de tip clinic nu apare la întâmplare după primul război mondial. Pe de o parte,
instrumentele de evaluare clinică nu aveau nici o utilitate în sarcinile de selectare şi plasare cerute
de armata americană, însă ele devin necesare după război pentru reintroducerea subiecţilor în
societate. Difuzarea tehnicilor proiective începe prin publicarea de către Rorschach, în 1921, a
lucrării Psychodiagnostik, deşi nu trebuie să uităm că Jung prezentase deja în 1904 proba asocierii
libere a cuvintelor (Buela-Casaly; Sierra, 1997).
Antecedentele testului lui Rorschach pot fi regăsite în vechea idee grecească, conform căreia
interacţiunea unei persoane cu o entitate ambiguă facilitează informaţii pentru cunoaşterea
persoanei respective. În Renaştere, Leonardo da Vinci îi sfătuia pe discipolii săi să-şi exerseze
imaginaţia contemplând formele sau figurile pe care le desena umezeala pe pereţi. Însă fără
îndoială, antecedentul cel mai clar este tehnica numită klebsografie (dezvoltată de Klebs), care
constă din aruncarea unor picături de vopsea pe o bucată de hârtie, care apoi se îndoaie pe la
jumătate, interpretându-se petele obţinute. La sfârşitul secolului al XIX-lea, Binet începe să
utilizeze petele de vopsea pentru a studia capacitatea imaginaţiei vizuale. Câţiva ani mai târziu,
Herman Rorschach utilizează această tehnică pentru diagnosticarea personalităţii şi tulburărilor
psihice. Din totalitatea de foi utilizate selecţionează zece cu scopul de a-şi publica metoda, ceea ce
nu a reuşit decât cu doi ani mai târziu, graţie medicaţiei lui Morgenthaler, care în plus i-a sugerat lui
Rorschach să schimbe titlul original, „Metoda şi rezultatele unui experiment diagnostic bazat pe
perceperea şi interpretarea formelor cauzale” cu „Psihodiagnostic”. La început, cartea a fost
acceptată de puţină lume. Criticile au fost puţine şi în general nefavorabile, ceea ce i-a produs o
decepţie considerabilă. Rorschach a murit fără să cunoască popularitatea pe care avea să o aibă
tehnica pe care o crease (Serrate, 1980, apud. Buela-Casaly; Sierra, 1997).
Câţiva ani mai târziu, Murray publică în 1935 Testul de apercepţie tematică (TAT) ca
alternativă la tehnica lui Rorschach. În paralel cu această dezvoltare de tehnici proiective continuă
să se facă progrese în domeniul psihometric, manifestate printr-o rafinare a tehnicilor factoriale.
Astfel, Thrustone publică în 1935 Vectors of the Mind, iar în 1938 Primary mental abilities, unde
inteligenţa capătă o natură multivariabilă (Rogers, 1995).
În 1939 se publică lucrarea Wechsler-Bellevue intelligence scale, prima scală a lui Wechsler
pentru adulţi, cu anumite diferenţe faţă de aceea a lui Stanford-Binet: fiecare subtest includea itemi
pentru fiecare grupă de vârstă, punea mai puţin accentul pe rapiditatea răspunsului şi conţinea destul
de multe componente nonverbale (Rogers, 1995). Alte publicaţii relevante din această perioadă sunt
Inventarul intereselor vocaţionale al lui Strong (1927) şi Testul gestaltic al lui Bender (1938),
(Buela-Casaly; Sierra, 1997).
După cum se întâmplase şi în cazul primului război mondial, al doilea război mondial are, de
asemenea, drept consecinţă o dezvoltare semnificativă în construirea şi aplicarea testelor. Pentru
selecţionarea personalului militar, în Statele Unite s-a dezvoltat Army general classification test
(care cuprindea subprobe de lectură, vocabular, raţionament artimetic, calcul artimetic şi relaţii
spaţiale), o probă de aplicare colectivă – din motive evidente – şi care a fost aplicată la peste nouă
milioane de persoane, în timpul războiului. Între timp, armata britanică optase pentru utilizarea unor
probe de inteligenţă generală (care evaluau factorul g) cu conţinuturi neverbale. Două dintre probele
care s-au utilizat sunt în vigoare şi în prezent: Matricile progresive ale lui Raven şi Testul jocului de
domino al lui Anstey. În definitv, s-ar putea spune că al doilea război mondial a presupus aplicarea
de teste cea mai numeroasă care s-a făcut până în prezent. Se estimează că în 1944, în ţările aliate,
s-au aplicat în jur de şaizeci de milioane de teste la aproximativ douăzeci de milioane de persoane
(Pelechano, 1988, apud. Buela-Casaly; Sierra, 1997).
La începutul anilor patruzeci, Hathaway şi Mckinley au prezentat Minnesota multiphasic
personality inventory (MMPI), construit conform modelului psihometric şi care constituie una
dintre cele mai mari contribuţii din domeniul evaluării personalităţii şi al evaluării clinice
(Goldstein şi Hersen, 1990b, apud. Buela-Casaly; Sierra, 1997). Apogeul pe care l-a atins această
probă a fost enorm, continuând şi în prezent să fie unul dintre instrumentele cele mai utilizate în
practica clinică.
c. Eroarea se accentuează dacă se doreşte stabilirea unui pronostic, pentru aceasta pornindu-se
de la presupunerea că nivelul care s-a calculat prin intermediul acestui test într-un anumit grad de
dzvoltare va caracteriza şi în viitor persoana evaluată. Potrivit acestei idei, se admite o
predeterminare transcendentă a oricărei evoluţii ulterioare a unei fiinţe umane în funcţie de
condiţiile oferite şi în mod conştient sau inconştient se neagă posibilitatea de transformare a omului:
a adultului prin interacţiunea socială şi a copilului prin intermediul educaţiei.
d. Atunci când se aplică acelaşi test standard la două persoane cu o dezvoltare diferită şi în
condiţii diferite, iar în funcţie de rezultatele acestuia, se doreşte să se obţină concluzii referitoare la
inteligenţa lor, se comite în mod evident o greşeală, deoarece nu se ţine seama de faptul că
rezultatele depind de condiţiile de evoluţie sau dezvoltare. Doi studenţi sau doi muncitori pot să
rezolve testele în moduri diferite, deoarece unul dintre studenţi este mai slab pregătit, iar unul dintre
muncitori mai puţin versat decât ceilalţi. Însă prin intermediul învăţării, ambii pot să-i întreacă pe
ceilalţi.
e. Faptul că anumite teste pot fi rezolvate de un procent de 75% dintre copii aparţinând unui
anumit interval de vârstă şi unui anumit mediu şcolar nu este un motiv pentru a-l considera drept
criteriu prin intermediul căruia se poate stabili inteligenţa sau dezvoltarea intelectuală a unor copii
care au fost educaţi în condiţii foarte diferite. O astfel de concluzie ar echivala cu a nu considera că
rezultatele testului depind de condiţiile de evoluţie a fiinţei umane concrete.
f. Un alt inconvenient este faptul că se utilizează scale standard şi că se încearcă clasificarea
indivizilor prin intermediul unor probe în care nu se ţine cont de diferenţele individuale.
g. Trebuie scos în evidenţă şi conţinutul cazuist şi adesea provocator al acestor probe, care, în
general, nu iau considerare pregătirea specifică a subiectului în evaluare. Prin formularea unor
probleme care nu au legătură cu învăţarea se consideră, în mod greşit, că se pot obţine concluzii
referitoare la capacitatea de învăţare a subiectului.
Toţi aceşti factori au contribuit la o criză pe care Maloney şi Ward (1976, apud. Buela-Casaly;
Sierra, 1997) au descris-o drept o perioadă de pragmatism empiric exacerbat şi cu tendinţe spre
formulele şi prescripţiile de evaluare sub formă de „cărţi de bucate”. Aceşti autori vorbesc, de
asemenea, despre abuzul şi utilizarea fără distincţie care s-a făcut în cazul testelor, precum şi despre
interpretarea lor greşită şi/sau despre lipsa de cunoaştere a semnificaţiei acestora.
Cu toate acestea, orice criză îşi are aspectele sale inovatoare şi pozitive; astfel, în acest context
apar numeroase publicaţii, considerate clasice în prezent, care fac referire la aspectele psihometrice.
În 1950, Gulliksen publică The theory of mental test cu scopul de a sistematiza procedurile de
validare a testelor; în 1955 apare lucrarea lui Cronbach şi Meehl Construct validity in psychological
tests; iar în 1958 se publică prima ediţie a lucrării Psychological testing, de Anastasi (Buela-Casaly;
Sierra, 1997).
Într-un efort de a îmbunătăţi calitatea instrumentelor evaluării psihologice, APA creează un
comitet condus de Cronbach responsabil să elaboreze raportul Technical recommendations for
psychological and diagnostic aids din 1954 în care se menţionează necesitatea ca testele să fie
însoţite de un manual cu informaţii despre interpretarea rezultatelor, validitate, fiabilitate,
administrare etc. (Rogers, 1955)
Criza externă a evaluării psihologice îşi atinge punctul culminant în mişcarea antiteste care a
avut loc în Statele Unite în anii cincizeci şi, mai ales, în anii şaizeci. Realitatea era că, în ciuda
faptului că primii psihometrişti au utilizat testele cu intenţia ca toţi oamenii să aibă şanse egale
exclusiv în funcţie de capacitatea lor, aceste proceduri de evaluare au favorizat până la urmă clasele
dominante şi privilegiate. În curând, această discuţie a trecut din cercurile ştiinţifice în viaţa
citadină. Astfel, se produc fapte remarcabile precum arderea protocoalelor într-o şcoală din Texas,
în 1959, interzicerea utilizării probelor psihologice în statul California şi în şcolile din New York
(Buela-Casaly; Sierra, 1997). Conform părerii lui Blanco (1986 b, apud. Buela-Casaly; Sierra,
1997), această revoltă antiteste a fost rezultatul a patru factori diferiţi: limitările reale atât tehnice
(conceptuale, metodologice şi instrumentale) cât şi umane (lipsa de cunoştinţe, greşeli sau erori),
abuzurile comise într-o administraţie nediscriminată şi neadecvată de probe, reacţiile defensive ale
societăţii în faţa unor instrumente care i-ar putea viola intimitatea şi, în ultimul rând, criticile
derivate dintr-o prezentare nepotrivită a rezultatelor procesului de diagnosticare; adică, nu tehnica
însăşi, ci utilizarea sa inadecvată poate duce la riscuri.
Capitolul II
CÂTEVA CLARIFICĂRI CONCEPTUALE
Testele sunt instrumente de măsură în evaluarea psihologică şi fac parte din metodele
psihometrice alături de chestionare.
Testul este probă, procedură, procedeu sau instrument standardizat; itemii săi servesc drept
stimul pentru producerea şi măsurarea unui eşantion de comportament.
Scorul testului va fi apreciat prin raportarea şi compararea cu o populaţie de referinţă, testată
în condiţii identice, în raport cu care s-a construit sistemul de apreciere (barem, etalon, norme,
categorii tipologice);
Funcţia testului este în acelaşi timp diagnostică (apreciază starea de fapt), dar şi prognostică
(anticipează categorii de comportamente mai importante decât cele măsurate efectiv);
Pentru a fi cu adevărat util, testul psihologic trebuie să aibă calităţi psihometrice specificate
(fidelitate, validitate, sensibilitate sau forţă de discriminare).
Testarea psihologică este procesul de administrare, cotare şi interpretare a rezultatelor unui
test psihologic. Ea reprezintă doar o etapă în evaluarea psihologică.
Capitolul III
METODE DE BAZĂ ÎN EVALUAREA PSIHOLOGICĂ
III.2.1. Observaţia
Cuvântul observaţie provine din latinescul “observare” care înseamna “a privi”, “a fi atent
la”.
Zlate (2000) defineşte observaţia ca “urmărirea intenţionată şi înregistrarea exactă,
sistematică, a diferitelor manifestări comportamentale ale subiectului ca şi a contextului situaţional
al comportamentului.
Observaţia, deşi are un caracter de non-invenţie, nu se reduce la simpla “lectură” a faptului
brut, ci se prelungeşte într-un act de clasificare, de încadrare a informaţiei în anumite concepte şi de
anticipare a unor relaţii (Radu,I.şi colab., 1993).
Din perspectiva evaluării psihologice, interesează observaţia focalizată pe aspecte specifice,
în acest caz înregistrarea rezultatelor observaţiei realizându-se cu ajutorul unor grile de observaţie
care îi asigură un caracter sistematic.
Este util (atunci când este posibil) ca testarea psihologică să fie însoţită de observarea atentă
a comportamentului subiectului în timpul testării, iar interpretarea rezultatelor să se facă corelativ
cu cea a comportamentelor observate, prin găsirea de semnificaţii. Un rol important îl are aici
experienţa proprie a observatorului.
III.2.2. Convorbirea
Comparativ cu metoda observaţiei, convorbirea permite sondarea mai profundă a vieţii
interioare a subiectului. Informaţiile pe care cercetătorul urmăreşte să le obţina sunt referitoare la
motive, aspiraţii, trăiri afective, interese (Cosmovici, 1996). Cel care utilizează metoda convorbirii
în evaluarea psihologică trebuie să câştige încrederea subiecţilor şi să asigure un climat destins, de
încredere reciprocă. Specific acestei metode este schimbarea locului şi rolurilor partenerilor (cel
care a întrebat poate să şi răspundă, cel care a răspuns poate să şi întrebe)
(Neveanu,P.;Zlate,M.;Creţu,T., 1993).
III.2.3. Ancheta pe bază de interviu
Ancheta pe bază de interviu este foarte asemănătoare cu metoda convorbirii, presupunând
raporturi verbale între participanţi, în scopul obţinerii unor informaţii. De obicei interviul este
dinainte structurat, întrebarile fiind deţinute dinainte şi în acest fel capătă o amprentă oarecum
oficială. Spre deosebire de metoda convorbirii, în ancheta pe bază de interviu fiecare participant îşi
păstrează rolul de emiţător sau de receptor.
Scalele nominale
Măsurarea pe o scală nominală poate fi realizată ori de câte ori caracteristica studiată
permite împărţirea în clase de elemente echivalente. Specific ei este relaţia de echivalenţă. Oricare
două submulţimi ale unei clase nu trebuie să se intersecteze.
Un exemplu ar fi variabilele referitoare la sexul persoanelor. O clasă are 31 de elevi din care
14 băieti şi 17 fete.
Măsura unui element este doar o etichetă şi serveşte pentru denumirea acestuia. Nu este
posibilă realizarea unei analize statistice în afara modului şi a frecvenţelor.
Scalele ordinale
Măsurarea pe o scală ordinală realizează ierarhizarea claselor. Aceste scale presupun o
relaţie de echivalenţă şi o relaţie de ordine între elemente, dar deşi clasele sunt ordonate, distanţa
dintre ele nu poate fi estimată.
De exemplu muncitorii unei secţii sunt ierarhizaţi în funcţie de randamentul lor, de la cel
mai eficient la cel mai puţin eficient, fară a se cunoaste distanţa exactă dintre ei. Statistic, pot fi
calculate centilele şi mediana sau coeficientul de corelaţie al lui Spearman, iar grafic putem realiza
histograme.
Scalele de interval
Măsurarea pe o scală de interval presupune o unitate de măsura comună şi constantă.
Caracteristic scalelor de interval sunt: relaţia de echivalenţă, relaţia de ordine şi cunoaşterea
distanţei dintre clase (deoarece se stabileşte un punct 0 arbitrar).
De exemplu, măsurarea inteligenţei se realizează pe o scală de interval.
Măsurarea pe o scală de interval permite utilizarea celor mai numeroşi indici statistici
(medie, abatere standard, coeficienţi de corelaţie) precum şi reprezentarea grafică prin histograme şi
poligoane de frecvenţă.
III.3.3.1. Definiţie
În DEX (1984) prin test se înţelege proba prin care se examinează în psihologia
experimentală unele aptitudini fizice şi psihice ale unei persoane; materialul (fişe, tablouri, scheme)
cu care se face aceasta probă.
Anastasi (1976) definea testul ca o măsura obiectivă şi standardizată a unui eşantion de
comportament.
Cronbach (1970) spunea despre test că este un procedeu sisematic pentru observarea
comportamentului unei persoane şi a cărui descriere se face pe baza unei scale numerice sau a unui
sistem categorial.
O definiţie complexă a testului este dată de Aurel Stan (2002): “procedeu standardizat de
investigaţie psihodiagnostică punând în evidenţă, prin diferite modalităţi de stimulare a subiecţilor,
comportamentele relevant psihodiagnostice, exploatabile informaţional, pe baza comparării
rezultatelor obţinute cu cele aparţinând unor eşantioane reprezentative de persoane aflate într-o
situaţie de examinare identică şi care foloseşte, în descrierea si explicarea concluziilor, termeni
ştiinţifici specifici teoriei pe care se bazează construcţia sa“
Orice test are o funcţie diagnostică şi una prognostică, valoarea lor depinzând de scopul pentru care
a fost creat instrumentul respectiv. Dar, aşa cum apreciază Anne Anastasi, de multe ori predicţia se
bazează pe diagnosticul unui potenţial sau al unei capacităţi: ”nici un test psihologic nu poate face
mai mult decât să măsoare un comportament. Dacă un asemenea comportament poate servi ca un
indicator efectiv al altui comportament, acesta poate fi determinat numai prin cercetare empirică” a
itemilor.
III.3.3.5. Domenii de utilizare a testelor psihologice
Dintre domeniile de aplicabilitate ale testelor psihologice pot fi amintite: psihologia clinică,
psihologia şcolară, consilierea psihologică, psihologia muncii sau neuropsihologia.
În psihologia clinică, cel mai adesea este vizată evaluarea psihopatologiei mai ales prin
probe proiective şi chestionare de personalitate. Printre probele cele mai aplicate în psihologia clinică
se numără testele Roschach, Szondi, Lusher, TAT (Thematic Aperception Test), chestionarul Eysenck,
Schmiescheck, inventarul MMPI (Minnesota Multifazic Personality Inventory). Evaluarea inteligenţei
este un alt aspect vizat în psihologia clinică. Psihologul clinician intervine diagnostic şi terapeutic în:
· Aprecierea normalităţii/ anormalităţii dezvoltării neuropsihice a copilului şi adolescentului (clinica
pediatrică).
· În investigarea dezordinilor de personalitate, a stărilor reactiv-anxioase, a tentativelor de suicid sau
a stărilor de criză.
· În comportamentul deviant, asocial, antisocial sau delictual.
· În pervertirea instinctelor alimentare (anorexie, obezitate, bulimie).
· În aprecierea dezordinilor neurologice sau psihiatrice, calculul indicelui de deteriorare, ca şi în
recuperarea unor funcţii mintale pierdute total sau parţial.
· În diagnoza şi recuperarea problemelor aduse de involuţie, sau de patologia asociată îmbătrânirii.
· În expertizarea capacităţii de muncă sau a deficienţelor de intelect pentru acordarea certificatelor de
persoană handicapată.
IV.2. Fidelitatea
Coeficientul de fidelitate reflectă doar mărimea raportului dintre dispersia scorurilor observate şi
dispersia erorilor de măsură. În acelaşi fel variaţia dintre scorurile măsurate va fi egală cu variaţia
dintre scorurile reale şi variaţia scorurilor eronate.
Când facem o apreciere ştiinţifică ne interesează care este intervalul în care se găseşte scorul
real. Acest interval se numeşte interval de încredere şi este definit de probabilitatea ca scorul real al
persoanei la un test să se găsească între anumite limite.
IC = X ± Z * Se
Scorul Z va fi ales în funcţie de precizia cu care dorim să lucrăm. Dacă alegem să lucrăm cu
o probabilitate de a răspunde de 95%, Z = 1.96; pentru o precizie de 99%, Z = 2.58.
Este de reţinut că:
· intervalul de încredere depinde de coeficientul de fidelitate al testului; dacă avem coeficienţi
de fidelitate mici, intervalul se măreşte, deci eroarea este mai mare;
· intervalul de încredere depinde de abaterea standard a scorurilor la test.
Ca exemplu:
S-a aplicat un test la un număr de subiecţi. Conform rezultatelor obţinute, media scorurilor
la test (x) a avut valoarea egală cu 18, abaterea standard egală cu 5 iar coeficientul de fidelitate egal
cu 0.90. Ne interesează să aflăm în ce limite s-ar afla adevăratul parametru al populaţiei, tinând cont
de faptul că se decide la un nivel de încredere de 95%.
Deci:
Z = 1.96
X = 18
Sx = 5
rxx = 0.90
Aplicând formula
Se = 5
Se = 1.58
IC = ± E
IC = 18 ± 3.10 deci [21.10; 14.90]
Deci putem afirma cu un risc de a greşi egal cu 5% că media scorurilor la testul aplicat în
populaţie se va găsi în intervalul [21.10; 14.90].
IV.2.2. Metode de calcul a coeficientului de fidelitate
Fidelitatea unui test psihologic se referă la două aspecte: consistenţa internă şi stabilitatea în
timp a rezultatelor testării.
Consistenţa internă
O bună consistenţă internă a unui test presupune o corelaţie ridicată între itemii testului
respectiv şi exprimă faptul că toate întrebările testului evaluează aceeaşi trăsătură. Metoda care
evaluează acest aspect poartă denumirea de metodă consistenţei interne.
Kaplan şi Saccuzzo (1993) sesizează foarte întemeiat că toate măsurile care evaluează consistenţa
internă determină de fapt gradul în care fiecare item diferit măsoară aceeaşi trăsătură sau abilitate.
Acest lucru presupune implicit că testul este omogen, în caz contrar acesta neavând consistenţă
internă. Pentru testele neomogene, procedeul cel mai indicat este analiza factorială, prin care se vor
putea subîmpărţi itemii pe grupe omogene, subtestele ce rezultă având fiecare o consistenţă internă
ridicată, dar fiind relativ independente unul în raport cu celelalte, ca în cazul subscalelor testului de
prsonalitate 16PF Cattell.
Aiken (1997) sesizează de asemenea că cele trei procedee de determinare a fidelităţii amintite
anterior supraestimează valoarea acesteia pentru testele în care este implicată viteza. În acest caz,
procedurile de apreciere a fidelităţii trebuie modificate, recomandarea făcută fiind aceea de a
administra cele două jumătăţi ale testului în momente diferite, dar cu limită de timp egală, după care
se calculează fidelitatea făcându-i-se corecţia cu formula Spearman – Brown.
Metoda test – retest
Coeficienţii de stabilitate obţinuţi prin aceeaşi metodă se calculează când testul
măsoară o caracteristică durabilă şi exprimă gradul în care scorurile aceluiaşi subiect la acelaşi test
sunt constante de la o aplicare la alta.
Metoda presupune două aplicări identice ale aceluiaşi test cu un interval de timp recomandat
a fi cuprins între 3 şi 6 luni.
Factori care influenţează calculul fidelităţii test-retest
· Intervalul de timp între test şi retest. Dacă timpul este prea scurt există o mare probabilitate
ca subiecţii să îşi reamintească răspunsurile date anterior, respectiv un timp prea lung între
test şi retest poate determina maturizarea eşantionului de subiecţi. Astfel dacă aplicăm un
test de percepţie la 4 ani şi îl reaplicăm la un interval de 6 luni există o mare probabilitate să
obţinem rezultate diferite la cele două administrări ale testului deoarece în intervalul de 6
luni subiectii s-au maturizat. În acest caz, retestul va include în evaluare nivelul de
maturizare al subiecţilor. Datorită acestor argumente este de multe ori dificil de stabilit cu
exactitate un timp optim între test şi retest.
Întotdeauna când se calculează acest coeficient trebuie precizat intervalul scurs între test şi retest,
vârstă subiecţilor precum şi condiţiile în care s-au administrat testele pentru a putea identifica
eventualele surse de eroare de măsură.
· Gradul de dificultate al itemilor. Dacă itemii sunt fie prea uşori, fie prea dificili, se vor
obţine coeficienţi de stabilitate ridicaţi deoarece itemii testului fie vor fi rezolvaţi de
majoritatea subiecţilor (în primul caz) fie nu vor fi rezolvaţi nici la test, nici la retest (al
doilea caz).
· Schimbări ale subiectului determinate de prima aplicare. Pot exista o serie de situaţii în care
se obţin performanţe diferite la retest deoarece subiectul fie a învăţat să răspundă la itemi
după prima administrare, fie această primă administrare a determinat schimbări de atitudini
faţă de o anumită problemă.
Fidelitatea interevaluatori
Este necesar a fi ca1culată în cazul testelor care nu au o cotare obiectivă aşa cum sunt testele
proiective de personalitate la care scorul este influenţat şi de interpretarea pe care o dă persoana
care face cotarea. Pentru a verifica în ce măsură scorul la test este influenţat de modalitatea în care
se face cotarea de către diferite persoane se va cere la diferiţi evaluatori să ca1culeze scorurile la
test, iar apoi se va realiza un coeficient de corelaţie interevaluatori. Acest coeficient va exprima
măsura în care testul este independent de erori datorate modalităţii de cotare a răspunsurilor
subiectului.
Coeficienţii de fidelitate transformaţi în coeficienţi de determinare (pătratul coeficientului de
fidelitate) relevă proporţia în care varianţa totală a rezultatelor psihometrice se datorează varianţei
"reale" - diferenţelor individuale reale - sau din contră, varianţei "eroare", definită diferit, în funcţie
de metoda particulară urmată în stabilirea tipului de fidelitate (Kulcsar, 1980). În consecinţă, deşi
semnificaţia diferiţilor coeficienţi de fidelitate nu este aceeaşi, totuşi orice coeficient de fidelitate,
ridicat la pătrat, poate fi interpretat în termeni de procentaj al varianţei randamentului la test. Astfel
de exemplu, un coeficient de fidelitate de .80 înseamnă că .802=64% din varianţa totală a
rezultatelor psihometrice considerate se datorează varianţei reale a domeniului explorat, iar 36%
varianţei eroare, generată de unele din sursele multiple ale deosebirilor în rezultatele psihometrice.
Dacă testul serveşte la compararea grupurilor de persoane între ele, coeficienţii de fidelitate de 0,60
– 0,70 sunt suficienţi, dar când testul devine o bază de comparaţie între persoane individuale,
fidelitatea lui trebuie să fie de la 0,85 în sus.
Când se iau decizii importante pe bază de teste care împart persoanele în categorii, în virtutea unor
diferenţe mici (ca în selecţia profesională), fidelitatea acestora trebuie să fie de peste 0,90.
Când decizia priveşte destinul unei persoane individuale, fidelitatea testului trebuie să fie de cel
puţin 0,95.
Testele cognitive, şi în special cele de inteligenţă, au o fidelitate foarte mare (peste 0,90), în timp ce
chestionarele de personalitate rareori depăşesc 0,80. Aplicate colectiv, chiar şi testele cognitive
furnizează coeficienţi de fidelitate mai scăzuţi (circa 0,80). Testele cotate subiectiv, ce măsoară
aptitudini şi testele de cunoştinţe (educaţionale) rareori depăşesc valori ale fidelităţii de 0,80 (Traub,
1944). Testele cu alegere multiplă, utilizate colectiv, sunt considerate a avea o fidelitate bună când
aceasta atinge 0,75.
Murphy & Davidshopher (1998) prezinta următoarele repere în interpretarea coeficienţilor
de fidelitate (tabelul 1):
· Eşantionul să fie cât mai mare, pentru a reduce eroarea standard a repartiţiei, care este invers
proporţională cu rădăcina pătrată din numărul subiecţilor ce compun eşantionul.
· Eşantionul să fie reprezentativ pentru populaţia căreia îi este destinat testul, având acelaşi grad
de eterogenitate (omogenitatea diminuează valoarea coeficientului de fidelitate).
· Măsurătorile să fie independente între ele, astfel încât măsurătoarea unui examinator să nu o
influenţeze pe a altuia, iar dacă examenul este colectiv, să nu se poată trişa prin copiere.
Independenţa cere ca persoanelor supuse la test – retest să nu li se dea informaţii despre
rezultatele examinării precedente, iar itemii să nu se condiţioneze reciproc.
· Toate aspectele de procedură în test şi retest sau la formele paralele trebuie să fie identice.
Creşterea nivelului de fidelitate a unui test până la limita dorită sau cerută de situaţia de utilizare
concretă este posibilă prin creşterea numărului de itemi (care trebuie să fie de acelaşi format şi să
măsoare aceeaşi trăsătură sau acelaşi construct)1. Decizia aceasta angajează un proces lung şi
costisitor, pentru că testul nou generat trebuie reevaluat de la început şi uneori se dovedeşte a fi sub
nivelul de fidelitate aşteptat. De asemenea, crescându-i lungimea, testul devine mai greu de aplicat
şi de scorat. Manipulând formula de profeţie a lui Spearman – Brown se calculează un indice de
multiplicare a numărului de itemi pentru a atinge fidelitatea dorită: un test de 20 de itemi trebuie să
ajungă la 56 de itemi pentru a-i creşte fidelitatea de la 0,87 la 0,95 (Kaplan şi Saccuzzo, op. cit., p.
127).
Ca o concluzie a acestor consideraţii despre fidelitatea testelor, se relevă faptul că ea
este mai bună pentru teste unidimensionale şi cu număr mai mare de itemi, cât şi pentru testele
cognitive şi că ea angajează un studiu analitic al itemilor (analiza de itemi) pentru a le determina
forţa de discriminare. În multe situaţii analiza factorială este metoda cea mai eficientă prin care se
pot construi subteste omogene şi unidimensionale.“Fidelitatea este una din fundamentările de bază
ale cercetărilor asupra comportamentului. Dacă un test nu este fidel, nu va fi posibil să demonstrăm
că el are vreun înţeles”, spun Kaplan şi Saccuzzo (op. cit., p.131). Deci, deşi validitatea pare a fi
mai importantă, din punct de vedere tehnic studiul ei nu poate începe cu teste care nu îşi dovedesc o
fidelitate minimă, acceptabilă, care depinde de scopul în care acestea vor fi utilizate.
IV.3. Validitatea
IV.3.1. Definiţie
Validitatea este unul din conceptele cele mai importante în măsurarea psihologică. O bună
validitate reflectă faptul că aptitudinile sau caracteristicile psihologice măsurate de text corespund
domeniului de evaluare, cu alte cuvinte testul măsoară ceea ce şi-a propus.
Anastasi (1976) preciza că “validitatea unui test se referă la cât sunt de potrivite
interpretările descriptive, explicative sau predictive care dedau scorurilor sale.
Conform APA, “validitatea se referă la corectitudinea inferenţelor realizate pe baza unui test
sau a unei forme de evaluare.
La analiza definiţiilor, se observă că accentul cade pe încrederea pe care o putem avea în
deducţiile făcute pornind de la scoruri şi luând în considerare întreg procesul prin care s-au obţinut
aceste scoruri.
Validarea este procesul prin care se obţin informaţii legate de validitatea unui test.
Validitatea este un concept general cu privire la puterea şi corectitudinea inferenţelor care
pot fi făcute pornind de la scorurile unui test şi de aceea nu se poate afirma despre nici un test că
are, la modul abstract, o validitate “ridicată” sau “scăzută”. Validitatea acestuia trebuie stabilită în
raport cu utilizarea particulară a ceea ce s-a cerut în test.
Clasificarea scolastică în validitatea de construct, validitatea de conţinut şi validitatea de
criteriu creeaza unele confuzii şi este mai bine să se folosească sintagma de “tip analiză a
validităţii” propusă de Lawshe (Landy, 1986)
În normele APA se vorbeşte despre validitatea de aspect. Ea nu constituie un criteriu
important pentru inferenţele făcute pe baza unui test. Este definită ca “ceea ce un test pare a măsura,
mai degrabă decât ceea ce măsoară” şi este importantă doar măsura în care influenţează răspunsurile
la test în funcţie de modul în care sunt percepuţi itemii.
Validitatea de construct
De exemplu, într-un test care evaluează aptitudinea verbală, conceptul de aptitudine verbală
este operaţionalizabil prin următoarele comportamente sau acţiuni care se găsesc în itemii testului.
Referitor la relaţiile constructului “aptitudine verbală” cu alte variabile, se pot avea în
vedere următoarele aspecte:
- scorurile cresc odata cu vârsta
- scorurile coreleaza pozitiv cu calificativele obţinute la limba şi literatura română
- scorurile sunt predictive ale succesului şcolar
Variabilele la care se face referire sunt: “vârstă”, “calificativ obţinut”, “maturitate
şcolară”.
Deoarece variabilele sunt construite pornind de la un şir de raţionamente bazate pe ipoteze şi
deducţii, acest tip de validitate se mai numeşte şi “validitate ipotetică deductivă”.
Validitatea relativă la construct este verificată şi prin raportarea testului respectiv la alte
teste despre care se ştie că evaluează acelaşi construct sau constructe diferite. Verificarea practică a
acestui lucru necesită aplicarea metodelor statistice, dintre care metodele corelaţionale sunt cele mai
importante. Poate fi precizată astfel validitatea convergentă şi validitatea discriminativă.
Validitatea convergentă este corelaţia pozitivă a testului validat cu alte teste care măsoară
aceleaşi concepte ca şi testul în cauză.
Validitatea discriminativă este corelaţia nulă cu alte teste despre care se ştie că măsoară alte
constructe decât testul care se validează.
Validitatea convergentă şi discriminativă poate fi examinată în mod simultan prin metoda
bazată pe matricea “multitrăsături – multimetode” (Multitrait-Multimethod Matrix) care conţine
valorile coeficienţilor de corelaţie liniară între diverse măsurări ale aceloraşi constructe obţinute
prin intermediul a două sau trei instrumente diferite. Procedeul descris aici a fost inventat încă din
1959 de Campbell şi Fiske şi este o metodologie importantă pentru înţelegerea procesului de
validare. Se numeşte multidimensională pentru că ia în evaluare două sau mai multe trasături prin
două sau mai multe metode.
Metoda Trăsăturile Metoda 1 Metoda 2 Metoda 3
A1 B1 C1 A2 B2 C2 A3 B3 .C3
Metoda 1 A1 (.89)
B1 .51 (.89)
C1 .38 .37 (.76)
Când ne propunem să realizăm o analiză factorială, trebuie mai întâi să distingem atributele
de suprafaţă şi eroarea de măsură.
Atributele interne sunt constructe ipotetice utilizate pentru a explica o serie de fenomene (de
exemplu conceptul de ,,magnetism” în fizică). Existenţa lor este inferată pe baza fenomeneler
observabile. Analiza factorială postulează că există factori interni neobservabili care explică variaţia
şi covariaţia dintre o serie de atribute de suprafaţă. Atributele de suprafaţă sunt observabile şi se pot
măsura direct.
Factorii interni pot fi specifici (când influenţează doar o singură variabilă de suprafaţă) şi
comuni (când influenţează mai multe variabile de suprafaţă).
Factorul eroare de măsură asociat atributelor de suprafaţă constituie alt tip de influenţă
asupra acestora. Sursele specifice de eroare în măsurarea psihologică au fost prezentate în capitolul
legat de fidelitatea măsurării.
Variaţia observată la nivelul atributelor de suprafaţă rezultă în parte influenţei factorilor
comuni şi specifici care adesea se combină cu variaţia erorii de măsură.
Prin analiza factorială se măsoară şi variaţia variabilelor de suprafaţă. Această corelaţie se
datorează influenţei factorilor comuni.
Creatorul analizei factoriale, Charles Spearman (1907) a creat o metodă capabilă să pună în
evidenţă existenţa unui factor general al inteligenţei, prezent în orice tip de sarcină mintală (şi de
aceea numit şi factor g), în combinaţii diferite cu un factor specific numit s. Procedeul dezvoltat de
el, numită metoda componentelor principale, i-a permis să producă dovezi în favoarea ipotezei
sale, numită modelul bifactorial al inteligenţei.
În 1928, un creator american în domeniul analizei factoriale, Thurstone, a utilizat aceeaşi
metodă ortogonală (două axe aflate în unghi drept, adică independente între ele) dar cu un mic
amendament: în loc ca o axă să explice varianţa factorului major şi cealaltă varianţa reziduală
(varianţa rămasă neexplicată de factorul major) el a propus rotirea celor două axe ortogonale până la
obţinerea structurii celei mai simple, ameliorând astfel gradul de adaptare al datelor la structura
factorială. Metoda se mai numeşte şi Varimax deoarece ea caută ca pe fiecare dintre cele două axe
ortogonale varianţa explicată să fie una maximală. Aceasta face ca fiecare factor să explice un grup
de rezultate şi doar atât, căci cu această metodă nu mai poate fi identificat factorul general, ceea ce
pune în discuţie modelul propus de Spearman.
Din punct de vedere matematic ambele metode sunt valide, dar fiecare are propriile sale
limite: una ajută la identificarea factorului general pe care cealaltă îl neagă, dar cealaltă ajută la mai
buna identificare, înţelegere şi numire a factorilor rezultaţi. De aceea utilizarea lor este corelativă.
Analiza factorială permite doar verificarea faptului dacă datele sunt consistente cu structura
factorială postulată. Când datele sunt compatibile cu mai multe structuri latente, analiza factorială
nu ne ajută să alegem una singură, această alegere fundamentându-se pe baza unei teorii. Într-un
demers de validare, analiza factorială ne va aduce deci informaţiile necesare, dar nu şi suficiente
luării unei decizii.
Raportul dintre teorie şi măsurare este cel mai bine surprins prin conceptul de validitate de
construct sau conceptuală, care este chiar inima operaţionalizării variabilelor. A operaţionaliza
înseamnă de fapt a aduce un construct teoretic în situaţia de putea fi surprins şi evidenţiat prin
măsurare. În cazul în care operaţionalizarea unei teorii bune a fost făcută corect, printr-un
instrument corect, capabil să o surprindă, atunci putem formula predicţii sub forma ipotezelor ce
rezultă din teoria respectivă. Dacă ipotezele se verifică, atunci şi teoria şi operaţionalizarea ei sub
forma instrumentului de măsură respectiv sunt în regulă. Dacă însă ipotezele nu se verifică, sunt
posibile două explicaţii alternative:
- instrumentul este bun, dar deoarece teoria nu se verifică, aceasta trebuie schimbată;
- teoria este una valabilă, dar instrumentul nu o operaţionalizează corespunzător şi atunci nu
putem dovedi ce ne-am propus şi deci trebuie schimbat chiar instrumentul de măsură.
Validitatea de conţinut
După Gregory (1992), analiza validităţii de conţinut a unui test trebuie să cuprindă:
1. Definirea şi descrierea domeniului de conţinut al testului. Se face în mod asemănător
definirii constructului, singura diferenţă constă doar în gradul de abstractizare şi de aceea cele două
se confundă. Definirea domeniului de conţinut al unui test se face după definirea constructului, care
are un grad mai mare de abstractizare, şi presupune enumerarea tuturor comportamentelor concrete
care pot fi utilizate pentru a măsura caracteristica la care se referă testul.
2. Analiza itemilor testului pentru a se elimina itemii care nu se referă la domeniul de
conţinut al testului. Se formează un grup de experţi care trebuie să acorde o notă între 1 şi 4 pentru
fiecare item după ce au citit descrierea domeniului de conţinut al testului. Semnificaţia notelor este:
1 = irelevant, 2 = puţin relevant, 3 = destul de relevant, 4 = foarte relevant. Vor fi reţinuţi doar
itemii pe care majoritatea experţilor i-a notat cu nota 3 sau 4.
3. Compararea structurii testului cu domeniul de conţinut pentru a decide dacă itemii
acoperă toate aspectele domeniului şi dacă sunt proporţionali ca număr cu mărimea şi importanţa
fiecărui aspect.
Deoarece analizează doar itemii din punctul de vedere al reprezentativităţii şi relevanţei
conţinutului lor, validitatea relativă la conţinut nu reprezintă o validare în sensul definiţiei date de
,,corectitudinea inferenţelor pe care le putem face pornind de la scorurile testului”. Testul poate doar
să pară valid dar de fapt să măsoare altceva decât îşi propune.
Pentru a da validitate de conţinut unui test, constructorul se angajează într-un proces de durată,
ce presupune o foarte bună cunoaştere a domeniului, raţionament logic, intuiţie şi perseverenţă, căci
itemii trebuie continuu revizuiţi. De aceea putem spune că dintre formele fundamentale de validitate,
cea de conţinut este singura care are o susţinere mai degrabă logică decât statistică.
Totuşi, al doilea aspect al validităţii relative la conţinut, analiza indicelui de dificultate şi a
celui de discriminare a itemilor ne demonstrează matematic dacă un item este bun sau slab, dacă
cunoştinţele subiectului au rămas la un nivel general sau dacă au coborât până la detalii unde
subiectul poate să aprecieze diferenţele de nuanţă.
Validitatea de criteriu
De reţinut:
Validitatea nu se măsoară, ci se deduce. Deşi autorul testului trebuie să dea mai mulţi coeficienţi de
validitate, indicând procedura urmată, utilizarea lui pe alte grupuri sau în alte scopuri necesită şi alte
studii de validare. Aceasta deoarece validitatea testului depinde simultan de scopul testării şi de
populaţia căreia i se administrează. Toate aceste determinări ale validităţii care vin din studii
ulterioare, desfăşurate în scopuri specifice şi pe alte eşantioane de populaţie, vor fi considerate doar
dovezi ale unui anumit tip de validitate.
Studierea validităţii testelor angajează metode elaborate de analiză (analiza de itemi, calculul
corelaţiei, analiza factorială, regresia simplă şi multiplă) care combinate, dau strategii de validare
mai bine definite. Utilizarea lor se face în funcţie de scopul şi de exigenţele beneficiarului.
Strategiile de validare se aplică odată cu construirea testului şi se repetă de câte ori este nevoie
pentru a obţine un test bun ca lungime, mod de aplicare, forţă discriminativă, uşurinţă în
administrare, cotare şi interpretare, care alături de fidelitate şi validitate, dau o imagine mai
adecvată despre valoarea sa.
Utilizarea testului impune procesul repetării periodice a cercetării validităţii, întrucât validarea unui
test nu se încheie niciodată, datele nou acumulate din diverse domenii conducând la ameliorarea şi
rafinarea ei, dar nu şi la o soluţie definitivă. Cu atât mai mult se pune problema reluării studiului
validităţii unui test când i se schimbă formatul (prin aplicarea pe calculator, de exemplu),
conţinutul, instructajul sau modul de cotare.
Când estimăm valoarea variabilei (pe baza scorului la test), comitem o anumită eroare numită
eroarea standard a estimării (SEE) a cărei modalitate de calcul este:
SEE = σ
σ = abaterea standard a scorurilor la criteriu
r2 = coeficientul de validitate de crietriu al testului
Capitolul V
Algoritmul general în construirea unui test sau chestionar psihologic este (Albu, 1998):
I. Definirea testului
V. Analiza de itemi
Nu Da
I. Definirea testului
Există o multitudine de teorii plauzibile, iar atunci când se optează pentru o teorie
care stă la baza unui test, analiza acestor teorii aflate în competiţie, este întotdeauna foarte dificilă.
Este de preferat însă să se aleagă o teorie care a fost validată experimental. Aceasta deoarece
procesul de validare al unui test începe de la nivelul constructelor teoretice derivate din aceasta
teorie.
Atunci când conceptualizam un test, trebuie să ştim de la bun început ce dorim să măsoare
testul, în ce scop va fi utilizat testul, de ce este nevoie de construcţia acestui test, cine va utiliza
testul şi care este populaţia care va fi evaluată cu testul respectiv, ce tipuri de scale vom folosi, cum
vor fi ordonaţi itemii (după gradul de dificultate sau aleator), ce lungime va avea testul şi cum va fi
aplicat testul (cu sau fară limită de timp).
Referitor la tipurile de scale, cele mai utilizate în psihologie sunt scalele ordinale şi de
interval. Între acestea se diferenţiaza scalele de tip Likert sau Guttman.
II. Crearea băncii de itemi
Se recomandă ca numărul itemilor propuşi iniţial să fie cu cel putin 20% mai mare
decât lungimea testului (Aiken, 1994, apud.Albu, 1998) dar pentru că itemii buni nu pot fi generaţi
cu atâta uşurinţă, este bine să se pornească de la un număr mult mai mare de itemi (încă o dată
lungimea testului).
În majoritatea cazurilor itemii sunt propuşi de psihologi pornind de la constructele definite.
De asemenea ei mai pot fi preluaţi din testele existente sau pot fi formulaţi de specialişti din
domeniul în care va fi aplicat testul (de exemplu în cazul testelor de cunoştinte sau pentru domenii
profesionale unde sunt necesare aptitudini speciale).
După ce itemii sunt aranjaţi într-o anumită ordine, se redactează instrucţiunile de
administrare care trebuie să fie clare şi concise.
Autorul testului va utiliza grafica cea mai potrivită astfel încât rezolvarea testului sau a
chestionarului să nu ridice probleme din acest punct de vedere.
Se va face în aceleaşi condiţii care se vor respecta şi după punerea testului în circulaţie.
n
P= ´ 100,
N
unde n este numărul de răspunsuri corecte, iar N este numărul de subiecţi.
b. Procentul de răspunsuri corecte excluzând subiecţii care au „omis” itemul, adică pe cei care nu au
răspuns la el, însă au răspuns la altele situate mai jos de acesta:
n
P= ´ 100,
N -O
unde O se referă la grupul de subiecţi care au omis testul.
c. Procentul de răspunsuri corecte excluzând subiecţii care nu au ajuns la item, adică pe cei
care nu au răspuns la el şi nu au răspuns nici la altele situate mai jos de acesta:
n
P= ´ 100,
N - NA
unde NA este numărul de subiecţi care nu au ajuns la item.
d. Procentul de răspunsuri corecte, excluzând subiecţii care au omis itemul şi pe cei care nu au
ajuns la el:
n
P= ´ 100
N - O - NA
e. Procentul de răspunsuri corecte penalizând greşelile:
E
A-
P= K - 1 ´ 100,
N
unde A indică numărul de răspunsuri corecte, E numărul de greşeli, K numărul de opţiuni ale
itemului şi N numărul de subiecţi.
f. Procentul de răspunsuri corecte penalizând greşelile şi excluzând subiecţii care au „omis”
itemul:
E
A-
P= K - 1 ´ 100
N -O
g. Procentul de răspunsuri corecte penalizând greşelile şi excluzând subiecţii care „nu au
ajuns” la item:
E
A-
P= K - 1 ´ 100
N - NA
h. Procentul de răspunsuri corecte penalizând greşelile şi excluzând subiecţii care au „omis
itemul” şi pe cei care „nu au ajuns la el”:
E
A-
P= K - 1 ´ 100
N - O - NA
Referitor la valorile pe care trebuie să le aibă indicii de dificultate ai itemilor care se utilizează
trebuie să spunem că, în principiu, din punct de vedere psihometric se recomandă ca acestea să fie
în jur de 0.50, deoarece astfel variaţia va fi mai mare. Atunci când punctajele sunt binare (1,0),
variaţia este egală cu produsul dintre p şi q (S2 = pq), p fiind procentul de cazuri favorabile,
răspunsuri corecte, iar q fiind egal cu 1 minus p (1-p); în ceea ce priveşte procentele: Q = 100-P.
Cea mai mare valoare pq se obţine atunci când p este egal cu q (p=q), ceea ce se întâmplă numai
atunci când valoarea lui p şi q este egală cu 0,50 (exprimat în proporţii) sau 50 (exprimat în
procente). Dacă variaţia este mai mare, coeficientul de fidelitate a testului va fi mai mare, deoarece
acest coeficient de fidelitate este corelaţia testului cu el însuşi. În principiu, dacă variaţia este mai
mare, şi corelaţia va fi mai mare. Pe de altă parte, o variaţie mică indică faptul că punctajele tuturor
subiecţilor se situează într-un mod foarte grupat faţă de trăsătura evaluată. Toţi obţin rezultate
similare şi, în consecinţă, va fi foarte dificil ca puterea de discriminare a itemului sau a testului în
chestiune să fie ridicată. O variaţie mare nu garantează o putere de discriminare ridicată, însă este
foarte greu ca un item să aibă capacitatea de a discrimina între subiecţi care au o posesie redusă sau
ridicată a trăsăturii evaluate dacă variabilitatea punctajelor tuturor subiecţilor este mică. Pe scurt, o
variaţie mare garantează un coeficient de fidelitate ridicat şi un indice de discriminare ridicat, într-o
măsură mai mare decât o variaţie redusă.
Totuşi, din motive de tip funcţional poate fi interesant ca toţi indicii de dificultate să fie
superiori sau inferiori valorii de 0.50. De exemplu, în anumite circumstanţe va fi mai bine să se
înceapă testul cu itemi uşori pentru ca subiectul să câştige încredere şi să poată avea un anumit
randament la proba respectivă în funcţie de nivelul personal al trăsăturii evaluate. Astfel, la un
moment dat ar fi interesant să se facă discriminări între subiecţi cu un nivel scăzut sau cu un nivel
ridicat al unei anumite trăsături, caz în care ar trebui să se utilizeze itemi uşori sau itemi dificili, cu
o mare putere de discriminare la aceste niveluri. Ca urmare, se poate afirma că, deşi din punct de
vedere statistic este de dorit ca toti itemii să aibă un indice de dificultate apropiat de 50%, din punct
de vedere funcţional poate fi recomandabil să existe un anumit număr de itemi uşori şi/sau un
anumit număr de itemi dificili. Majoritatea manualelor recomandă următoarea distribuire în
momentul aplicării unei probe de randament sau de aptitudini la un număr reprezentativ de persoane
„normale”: 25% itemi uşori, 25% itemi dificili şi 50% itemi de dificultate medie. Prin item uşor se
înţelege acel item la care răspunde corect peste 75% din populaţie. Un item dificil ar fi acela la care
răspunde corect cel puţin 25% din populaţie.
Cu cât indicele de dificultate al itemului este mai mare, cu atât itemul este mai uşor. Valorile
recomandate pentru indicele de dificultate sunt cuprinse în intervalul [0.25;0.75]. (Alvaro, 1993)
Atunci când se calculează indicele de dificultate al unui item, se ia în calcul şi posibilitatea
ca subiectul să ghiceasca răspunsul. Mai întâi se calculează indicele optim de dificultate şi se
compară cu indicele de dificultate obţinut la itemul în cauză. Se calculează mai întâi rata de răspuns
la întâmplare împărţind valoarea 1 la numărul de variante de răspuns pe care le are itemul în cauză.
În cazul unui item cu 2 variante de răspuns, rata de răspuns la întâmplare este de 0.50 (1/2)
iar în cazul unui item cu cinci variante de răspuns, rata de răspuns la întâmplare este de 0.20 (1/5).
Indicele optim de dificultate se află la mijlocul distanţei dintre 1 şi rata de răspuns la
întâmplare, deci în cazul itemului cu două variante de răspuns este egal cu 0.75 ( ) iar în cazul
itemului cu cinci variante de răspuns este 0.60 ( ).
Răspunsul la întrebarea „cât de dificili trebuie să fie itemii unui test?” depinde, pe de o parte, de
utilizarea testului, pe de altă parte de tipurile de răspunsuri sau de lungimea scalei. Aşa cum am mai
arătat şi anterior, un test în care itemii se scorează adevărat - fals sau 0 - 1, dă o probabilitate de 50% ca
răspunsul să se dea prin şansă (aleator), iar când variantele de răspuns sunt 4, această probabilitate este
de 25%. Deci probabilitatea pi , care descrie dificultatea unui item, se plasează între 0 şi 1 (nici un
subiect, respectiv toţi subiecţii îl rezolvă).
Alegerea dificultăţii optime a unui test trebuie să rezolve această problemă complicată: cu cât
itemii au mai puţine variante de răspuns, cu atât mai mare este probabilitatea de a nimeri prin şansă
răspunsul corect, ceea ce obligă la creşterea dificultăţii optime la un nivel foarte ridicat, de 0,75.
Aceasta coboară progresiv cu mărirea numărului de variante de răspuns spre 0,50, dar cu cât acestea
sunt mai multe, timpul de analiză pentru fiecare item creşte (sunt mai multe variante de luat în
considerare) ceea ce obligă la reducerea din numărul de itemi. Această reducere afectează simultan
fidelitatea şi validitatea testului în ansamblul său, ajungând astfel la alternativa variante mai multe de
răspuns sau itemi mai mulţi. Dilema se rezolvă alegând între 4 şi 8 variante de răspuns, aceasta fiind o
zonă de echilibru între cele două extreme.
În rezumat, precizăm încă o dată că pentru majoritatea testelor nu este deloc indicat să avem
itemi de dificultate egală (eventual cu dificultatea optimă), pentru că urmărim să avem itemi pentru o
varietate a nivelurilor de dificultate, astfel încât testul să aibă o bună putere discriminativă în ansamblul
său. Pentru cele mai multe dintre teste itemii au o dificultate ce acoperă spectrul de la 0,20 la 0,80,
pentru a maximiza astfel diferenţele dintre subiecţi. În funcţie de scopul testării, pot fi concentraţi itemi
preponderent dificili (sub 0,20), ca în cazul selecţiei unor candidaţi pentru o facultate, post sau meserie
foarte pretenţioasă sau itemi foarte uşori (selecţie indulgentă). Pe de altă parte, cunoaşterea dificultăţii
itemilor este fundamentală în aranjarea lor în test într-o ordine ierarhică. Itemii foarte uşori de la
începutul testului ajută persoana să înţeleagă ce se cere de la ea şi, chiar dacă ei nu au valoare
psihometrică probată, ajută la ridicarea moralului, inspirând încrederea în resursele proprii. Itemii
foarte dificili sunt destinaţi extremei drepte a scalei, deci supradotaţilor sau celor de vârste mari, având
utilitate pentru un număr mai mic de cazuri, ce apar doar pe eşantioane extinse ca volum.
d1 = = 0.52
Ebel (Stan, 2002) a propus o scală pentru interpretarea indicelui de discriminare d:
>0.40 – discriminare foarte bună
[0.30 ; 0.39] – discriminare bună
[0.20 ; 0.29] – discriminare slabă
[0.10 ; 0.19] – discriminare de limită
<0.10 – fără utilitate
În prezent, indicii de discriminare cei mai utilizaţi sunt coeficienţii de corelaţie biserial şi
punct-biserial, depinzând dacă itemii se dihotomizează a posteriori sau au fost evaluaţi direct în
mod dihotomic. Corelaţia biserială se utilizează cu itemi „dihotomizaţi” după ce au fost evaluaţi cu
scale de interval sau ordinale. De exemplu, aceasta se întâmplă atunci când un profesor a corectat o
întrebare cu punctaje de la 0 la 10 şi o dată ce a notat răspunsurile tuturor elevilor la această
întrebare decide să-i puncteze pe cei care se află sub 5 cu 0, iar pe cei care se află mai sus de 5, cu 1.
Corelaţia biserială este considerată de asemenea un indice de omogenitate, deoarece evaluează
corelaţia dintre item şi grupul de itemi care alcătuiesc testul, presupunând că punctajele fiecărui
item oscilează într-un continuu care merge de la 0 la 1. Formula corelaţiei biseriale este următoarea:
X pi - X qi pi q i
rb = ´ , care echivalează cu:
St y
X pi - X t pi
rb = ´ , unde
St y
X pi este în cadrul testului media subiecţilor care răspund corect la itemul i, X qi este în cadrul
testului media subiecţilor care nu răspund corect la itemul i, S t este variaţia punctajelor obţinute în
test, pi este proporţia de subiecţi care răspund corect la itemul i, qi este proporţia de subiecţi care nu
răspund corect la itemul i (qi=1-pi), iar valoarea ordonatei care separă într-o distribuire normală
proporţia subiecţilor care răspund corect la itemul i (pi) de proporţia celor care nu răspund corect
(qi) şi X t este media testului, luând în considerare toţi subiecţii participanţi la test.
Atunci când itemii au fost evaluaţi direct în mod dihotomic, adică sunt dihotomici în loc să fie
dihotomizaţi, se utilizează coeficientul de corelaţie punct-biserial.
X pi - X qi
rbp = ´ pi qi , sau:
St
X pi- X t pi
rbp = ´
St qi
În legătură cu valoarea de discriminare a unui item care este preferabil să se atingă, ar trebui
să ne gândim, în principiu, că idealul este să fie cât mai mare; cu cât se apropie mai mult de 1, care
este valoarea maximă a unei corelaţii, cu atât mai bine, deoarece aceasta ar indica faptul că itemul
are o mare capacitate de discriminare între subiecţii buni şi cei slabi, în ceea ce priveşte trăsătura
evaluată. Cu toate acestea, ţinând cont de faptul că şi coeficienţii de corelaţie biseriali şi biseriali
punctuali pot fi consideraţi un indice de omogenitate şi de faptul că dacă toţi itemii au o corelaţie
foarte ridicată cu testul (format din totalitatea tuturor itemilor) se indică faptul că toţi itemii
evaluează acelaşi lucru, ceea ce ar fi în detrimentul validităţii de conţinut. Este recomandabil ca
indicii de discriminare obţinuţi cu aceste corelaţii să aibă valori apropiate de 0,50; un item cu un
indice mai mic de 0,25 trebuie eliminat.
Mare
itatea de a
de corect
Modelul trăsăturilor latente
Un test sau chestionar este construit pentru a estima nivelul unor cunoştinţe sau aptitudini ori a unor
trăsături de personalitate ale unui individ. Variabila de care depinde performanţa la test, fie ea de
cunoştinţe, aptitudini, trăsături de personalitate sau altceva, nu este direct măsurabilă. Printr-un test
se obţine doar o estimare a valorii variabilei. Conform modelului trăsăturilor latente, această
variabilă neobservabilă, care stă la baza oricărei măsurări psihometrice este considerată latentă. Ea
este una unidimensională. Se presupune că toţi itemii testului măsoară o anumită trăsătură de
personalitate, gradul în care fiecare item îndeplineşte acest obiectiv este dat de curba caracteristică a
itemului. În contrast cu teoria clasică a “scorului adevărat” în care nu se fac presupuneri despre
distribuţia de frecvenţă a scorurilor la test, teoria trăsăturilor latente avansează idei referitoare la
probabilitatea de apariţie a scorurilor observate obţinute de subiecţi şi scorurile adevărate. Teoriile
trăsăturilor latente propun modele care descriu cum această trăsătură latentă influenţează
performanţa aferentă fiecărui item al testului. Spre deosebire de scorurile la test sau scorurile
adevărate, scorurile latente pot să ia valori de la +¥ la -¥.
Aplicabilitatea modelului trăsăturilor latente la testele psihologice a fost pusă la îndoială de câţiva
teoreticieni. S-a susţinut, de exemplu, că unidimensionalitatea testelor ar fi violată dacă avem în
vedere testele psihologice. S-a susţinut şi că acelaşi item al unui test psihologic poate să măsoare
abilităţi sau aptitudini diferite ale subiecţilor, în funcţie de experienţele de viaţă ale acestora. Deşi
are unele limite fireşti, modelul trăsăturilor latente pare să joace un rol din ce în ce mai important în
crearea şi dezvoltarea noilor teste şi programe de testare.
Capitolul VI
ETALONAREA UNEI PROBE PSIHOLOGICE
Conform DEX (1984), etalonul este o mărime acceptată oficial în ştiinţă, [...] şi care serveşte
ca unitate de bază într-un sistem de măsurare. Este un model perfect al unei măsuri tip,
confecţionat cu mare precizie şi acceptat oficial a servi ca bază de comparaţie.
În psihologie, în urma aplicării unui test se obţin scoruri brute care nu spun nimic luate
separat. De exemplu, la un test de atenţie distributivă, o cotă brută egală cu 40 nu spune nimic
despre performanţa subiectului.
Etalonul (tabelul de norme) reprezintă o convenienţă între utilizatorii de măsuri şi este deci
un cadru de referinţă. Etalonul este nivelul mediu al rezultatelor obţinute de un grup de referinţă
(eşantion reprezentativ).
Raportarea la etalon constă în determinarea locului ocupat de rezultatele unui subiect faţă de
rezultatele unei populaţii de referinţă, suficient de numeroasă, comparabilă cu persoana
examinată.
Etalonarea este procesul prin care se ajunge la stabilirea cadrului de referinţă, a tabelului de
norme.
VI.2. Eşantionarea
Eşantionarea reprezintă selectarea unui grup reprezentativ de subiecţi din populaţia căreia îi
este adresat testul pentru care urmează să se construiască etalonul.
Eşantionul trebuie să îndeplinească două condiţii:
1. Să fie suficient de mare
2. Să fie reprezentativ, adică să facă posibilă tragerea aceloraşi concluzii din analiza
grupului ca şi din analiza populaţiei, admiţând un risc tolerabil de eroare.
În psihologie, aceste două condiţii se îndeplinesc uneori cu greutate datorită
posibilităţilor de selectare pe care psihologul le are la îndemână ( de cele mai multe ori prin
intermediul unor instituţii - şcoală, spital, laborator psihologic, etc.), iar această situaţie
introduce de la început distorsiuni.
Se practică tot mai mult testările plătite pentru că în acest fel psihologul cercetător
are o deschidere mai mare din partea subiecţilor care participă pe bază de voluntariat şi care
sunt mai motivaţi să răspundă cu interes la itemii testului.
Un aspect direct legat de volumul eşantionului permite ca normele unui test să fie
considerate norme locale sau norme naţionale.
Normele locale sunt foarte specifice. Ele sunt obţinute doar la nivelul unui oraş de
exemplu, în general din raţiuni de ordin economic.
Normele naţionale sunt obţinute pe un număr foarte mare de subiecţi care acoperă
regional toată suprafaţa unei ţări. Firmele specializate în construirea şi comercializarea
testelor psihologice elaborează norme naţionale.
Sunt prezentate mai frecvent patru tehnici de eşantionare şi anume: prin selecţie
aleatoare simplă, prin selecţie stratificată, eşantionare multistadială si eşantionare
multifazică.
Eşantionarea prin selecţie aleatoare simplă se mai numeşte şi „metoda loteriei” sau a
„tragerii la sorţi”.
Fiecare individ din populaţie primeşte un număr iar apoi numerele sunt trase la sorţi
(de exemplu printr-un program de statistică) până se obţine un eşantion de o mărime stabilită
în prealabil.
În eşantionarea stratificată, populaţia este împărţită în clase, după unul sau mai multe
criterii. Variabilele după care se face împărţirea trebuie să coreleze semnificativ cu scorurile
testului. Cel mai frecvent utilizate variabile sunt sexul, vârsta, nivelul educaţional, clasa
socială, mediul de provenienţă, rasa, etc.
După ce se face clasificarea populaţiei în funcţie de variabila aleasă, fiecare clasă din
populaţie trebuie să fie reprezentată în eşantion, proporţional cu frecvenţa ei relativă.
De exemplu, se consideră că la un chestionar de atitudini faţă de şcoală rezultatele
sunt influenţate de nivelul educaţional şi de mediul de provenienţă.
Variabila „nivel educaţional” are trei modalităţi:ciclul primar, ciclul gimnazial si ciclul
liceal, iar variabila „mediu de provenienţă” are două modalităţi:urban şi rural.
Chestionarul se adresează elevilor şcolilor din judeţul Bihor (deci eşantionarea se
face pentru elaborarea unor norme locale). Să considerăm fictiv că populaţia căreia i se
adresează testul este formată din 200.000 de persoane, repartizată în funcţie de nivelul
educaţional şi de mediul de provenienţă conform tabelului:
C1 0.15 270
C2 0.07 126
C3 0.24 432
C4 0.10 180
C5 0.31 558
C6 0.13 234
1.00 1800
Eşantionarea multistadială se realizează prin selecţia indirectă a indivizilor care
formează eşantionul prin intermediul selecţiei grupurilor la care aceştia aparţin, iar în
eşantionarea multifazică se alege iniţial un eşantion de dimensiuni mari pe care se realizează
unele faze ale cercetării extensive, apoi , din acesta se selectează un eşantion pentru
realizarea altor faze cu caracter mai intensiv.
Deoarece pe baza scorurilor eşantionului estimăm parametrii populaţiei şi având în
vedere că erorile de eşantionare sunt inevitabile, trebuie calculată eroarea de estimare a
parametrilor.
Ceea ce interesează de fapt este să calculăm un interval de încredere în jurul mediei
eşantionului pentru a putea estima cu o anumită exactitate valoarea mediei populaţiei.
SM = √ S2/n *(N-n)/N
Normele testului descriu performanţa realizată de indivizii din eşantion şi sunt de fapt valori
ale unei caracteristici în repartiţia scorurilor, adică valori ale frecvenţei mediei, medianei sau
rangului scorurilor.
Prin etalonare se fac de fapt transformări ale scorurilor brute, transformări care permit
compararea a două persoane diferite, testate cu acelaşi test sau a aceleiaşi persoane, testată cu teste
diferite.
Cele mai utilizate transformări (care definesc şi metodele de obţinere a normelor unui test )
sunt:
Clasele echivalente se referă la clasele din diverse niveluri şcolare. Tabelele de clase
echivalente conţin pentru fiecare clasă şi lună de şcoală mediana cotelor brute la test.
În continuare, este redat un astfel de tabel pentru un test de aritmetică (după Albu, 1998),
destinat elevilor din clasa a II-a, a III-a şi a IV-a, cotele brute având valori între 0 şi 100, iar pentru
cele două luni de vacanţă se consideră cotele nemodificate:
Partea întreagă reprezintă clasa, iar partea zecimală reprezintă luna de şcoală. Interpretarea
este foarte simplă. Dacă un copil, în prima lună din clasa a IV-a a obţinut la testul de aritmetică o
cotă brută egală cu 27, are clasa echivalentă 3.1, deci este rămas în urmă la aritmetică cu aproape un
an.
x-m
z=
s
Unde:
m – media în eşantion
σ - abaterea standard în eşantion
Reamintim că abaterea standard (σ) ne arată distanţa la care se află o cotă în raport cu media
grupului de date. Formal, întinderea variaţiei datelor este de 6 unităţi σ ( deci σ este unitatea de
măsură pentru variaţie).
Pentru utilizarea cotelor standard, condiţia este ca datele brute să se distribuie aproximativ
după o distribuţie normală. Transformarea în cote standard şi cote standardizate este o transformare
liniară, care schimbă doar media şi abaterea standard a rezultatelor, păstrând nemodificată repartiţia
cotelor, deci ordinea indivizilor în eşantion.
Cotele standard şi cotele standardizate indică poziţia relativă a subiectului într-o populaţie şi
permit compararea performanţelor unui individ la două sau mai multe teste dacă mediile şi
dispersiile scorurilor acestora au fost calculate pe baza aceluiaşi eşantion de persoane ( Albu, 1998).
Astfel, dacă la un test de matematică, un subiect obţine scorul brut egal cu 31 ( media pe eşantion
fiind egală cu 30, iar abaterea standard cu 2), iar la un test de citire obţine un scor brut egal cu 35
(media în acelaşi eşantion fiind 32, iar abaterea standard 3), se poate aprecia că elevul este mai bun
la citire unde cota z = 1 decât la matematică unde z = 0.5.
Conform proprietăţilor distribuţiei normale, 68.26 % din populaţie se află în intervalul ± 1 σ;
95 % din populaţie în intervalul ±1.96 σ, iar 99% din populaţie în intervalul ± 2.58 σ. Cunoscând că
o persoană se găseşte în intervalul ± 1 σ, se poate spune că aproximativ două treimi din populaţie
are acelaşi scor. Dacă un subiect are o cotă standard z = 0.72, se poate afirma că a obţinut un
rezultat „obişnuit”, în timp ce o persoană cu o cotă z = 3.6 are un scor „neobişnuit de mare” ( mai
puţin de 0.13% din subiecţii participanţi la etalonare au realizat un asemenea scor) (Albu, 1998).
Uneori, utilizarea cotelor z prezintă inconvenientul că acestea se exprimă prin numere cu
semn şi zecimale, fiind cuprinse în intervalul [ -3; +3].
Efectuarea unei transformări liniare asupra cotelor z duce la obţinerea cotelor standardizate.
Cotele standardizate au aceleaşi proprietăţi ca şi cotele standard z, singura diferenţă fiind
valoarea mediei şi a abaterii standard.
Cota standard z se transformă în cotă standardizată z’ cu ajutorul formulei:
z’ = M+σz
unde
z’ = cota transformată a cotei standard z
M, σ = media şi abaterea standard a cotelor standardizate
SCALA
N C WP L T Z QI H
Ab. sta. 1 2 3 5 10 10 15 14
z’ = 50 + 10. (-1.25)
z’ = 50 – 12.5
z’ = 37.5
●Transformări în ranguri centile, decile şi cuartile
Rangul centil se obţine prin împărţirea ansamblului de date ordonate în 100 de clase, fiecare
cuprinzând 1% din efectivul total. Dar în practică este suficientă de cele mai multe ori împărţirea în
decile sau cuartile.
Decilarea este operaţia prin care împărţim ansamblul de date în 10 clase, fiecare cuprinzând
10% din efectivul total. Cuartilele se obţin prin împărţirea în 4 a ansamblului de date. Se numeşte
cuartil superior acea cotă sau valoare care are înaintea sa 25% din ansamblul de cote brute şi cuartil
inferior reperul care are înaintea sa 75% din totalul cotelor brute. Cele patru cuartile se numesc:
superior, median superior, median inferior şi inferior.
Vom prezenta în continuare un exemplu fictiv de transformare în decile a scorurilor brute, în
urma aplicării unui test de atenţie concentrată unui eşantion de 180 de subiecţi, în vederea alcătuirii
etaloanelor pentru testul respectiv.
Cotele brute la test, simplu ordonate de la cea mai mare valoare la cea mai mică obţinută,
sunt prezentate în tabelul Tabelul 1 (vom prezenta direct şi frecvenţele absolute fa precum şi pe cele
cumulate fc pentru economie de timp):
Tabelul 1: Frecvenţe absolute şi relative
x 287 286 285 284 283 282 281 280 279 278 277 276 275 274 273 272 271 270
fa 2 1 0 1 2 6 5 10 3 11 7 19 13 8 13 13 7 3
fc 2 3 3 4 6 12 17 27 30 41 48 67 80 88 101 114 121 124
269 268 267 266 265 264 263 262 261 260 259 258 257 256 255 254 253 252 251
10 8 7 2 6 4 4 3 3 0 0 1 1 0 0 0 1 0 1
134 142 149 151 157 161 165 168 171 171 171 172 173 173 173 173 174 174 175
1 2 2
Primul decil este dat de cota acelui obiect care are înaintea lui 10% dintre subiecţii
examinaţi, deci 180 : 10 = 18. Se caută cota celui de-al 18-lea subiect. Întrucât nu se regăseşte în
tabel, alegem cota cea mai apropiată, deci cota celui de-al 17-lea subiect, egală cu 281.
Prima clasă cuprinde toţi subiecţii având o cotă mai mare sau egală cu 281. Se observă că
proporţia de 10% nu este perfect respectată.
Pentru a stabili cea de-a doua clasă, vom căuta frecvenţa cumulată cea mai apropiată de 2 x
18, deci frecvenţa 36. Aceasta este de 41 iar cota brută corespunzătoare este 278. Cea de-a doua
clasă cuprinde cotele 280, 279, 278.
Locul celui de-al doilea reper este 3 x 18, deci 54 ( frecvenţa cumulată cea mai apropiată 54,
cota corespunzătoare este 277).
A patra clasă: 4 x 18 = 72 ( frecvenţa cumulată cea mai apropiată este 67, scorul
corespunzător este de 276)
A cincea clasă: 5 x 18 = 90 (frecvenţa cumulată cea mai apropiată este 88, scorul
corespunzător este 275, 274)
A şasea clasă : 6 x 18 = 108, cotele corespunzătoare 273, 272
A şaptea clasă: 7 x 18 = 126, cotele corespunzătoare 271, 270
COTE DECILE
≥ 281 I
280 II
279
278
277 III
276 IV
275 V
274
273 VI
272
271 VII
270
269 VIII
268
267, 266, 265, 264 IX
≤ 263 X
( fo - ft )2
c2 = å
ft
f0 desemnează efectivele observate, adică numărul de scoruri brute pentru fiecare decil
ft sunt efectivele teoretice care sunt aceleaşi pentru fiecare decil şi care se obţin împărţind N la 10 (
pentru că avem 10 trepte).
Pentru exemplul dat anterior, desfăşurarea procedurii χ2 de ajustare pentru obţinerea distanţei dintre
efectivele teoretice necesare calculării decilelor şi cele observate practic, este redată în tabelul
următor:
17 18 -1 1 0.05
24 18 6 36 2.00
7 18 -11 12 6.72
19 18 1 1 0.05
21 18 3 9 0.50
26 18 8 64 3.55
10 18 -8 64 3.55
18 18 0 0 0.00
19 18 1 1 0.05
19 18 1 1 0.05
Total: 16.52
Unde:
T = 180 iar ft = 180 : 10
Pentru valoarea lui χ2 = 16.52, p ≥ 0.10, ceea ce ne determină la suspendarea ipotezei. Diferenţa
dintre cele două efective dată de valoarea lui χ2 fiind nesemnificativă, ne arată că efectivele
observate pot fi utilizate pentru etalonare.
Dacă considerăm scara normalizată cu 5 clase, prima clasă va conţine primele 6.7% din scorurile
cele mai mici, a doua clasă următoarele 24.2%, etc.
Prima clasă va avea limita inferioară egală cu cel mai mic scor posibil, ultima clasă va avea limita
superioară egală cu cel mai mare scor posibil.
Paşii urmaţi pentru a realiza transformarea scorurilor în clase ale unei scale normalizate ( cu
5, 7 sau 9 trepte) sunt:
Căutăm în rândul frecvenţelor cumulate (fc) frecvenţa cea mai apropiată de 17,75. Aceasta este
19 şi vom reţine ca reper al scării cota 35.
Pentru a localiza al doilea reper al scalei se calculează:
deci cea de a treia clasă cuprinde cotele din intervalul [29 ; 24].
Cea de a patra clasă va cuprinde cotele din intervalul [23; 17], iar a cincea clasă va fi formată din
scorurile mai mici sau egale cu 17.
Rezultă următorul tabel de norme care oferă criteriile necesare pentru situarea unui individ
în raport cu grupul de etalonare:
Clasa Cote
I ≥ 35
II 34-30
III 29-24
IV 23-17
V ≤ 17
Când facem interpretarea calitativă a rezultatelor unui test, performanţa subiectului trebuie
descrisă în termeni concreţi. Putem „eticheta” clasele şi astfel clasa I să reprezinte „performanţă
foarte bună”, clasa a II-a „performanţă bună”, clasa a III-a „performanţă medie”, clasa a IV-a
„performanţă slabă”, iar clasa a V-a „performanţă foarte scăzută”.
Nu se poate spune că unele tipuri de transformări sunt mai bune ca altele, specificul testului,
a trăsăturii măsurate, impun alegerea celei mai bune metode de obţinere a etaloanelor.
Pentru a fi cu adevărat utile, normele testului trebuie să fie descrise detaliat în manualul
testului, indicând descrierea populaţiei pentru care au fost construite, modul de formare a
eşantionului, caracteristicile eşantionului (numărul de persoane, indicii tendinţei centrale şi ai
dispersiei, reprezentativitatea criteriilor şi dacă acestea influenţează rezultatele, erori posibile de
eşantionare, etc.), condiţiile în care a fost aplicat testul, data testării.
Tabelul de norme este relativ la populaţia avută în vedere, mai ales dacă etalonul are o
valoare locală. Cu atât mai mult, nu se pot utiliza etaloane întocmite în alte ţări.
x 287 286 285 284 283 282 281 280 279 278 277 276 275 274 273 272 271 270
fa 2 1 0 1 2 6 5 10 3 11 7 19 13 8 13 13 7 3
269 268 267 266 265 264 263 262 261 260 259 258 257 256 255 254 253 252 251
10 8 7 2 6 4 4 3 3 0 0 1 1 0 0 0 1 0 1
134 142 149 151 157 161 165 168 171 171 171 172 173 173 173 173 174 174 175
1 2 2
Capitolul VII
ASPECTE ETICE ALE EVALUĂRII PSIHOLOGICE
Examenul psihologic şi utilizarea testelor psihologice, dar şi orice acţiune pe plan psihologic, au
numeroase implicaţii sociale şi etice. Să ne imaginăm o situaţie de examen de selecţie profesională
când un funcţionar se prezintă cu un test psihologic cules dintr-o revistă de modă şi pretinde că doreşte
să testeze inteligenţa candidaţilor; după examinare afişează o listă care reproduce o ierarhizare în baza
unor scoruri realizate de subiecţi (imaginea este cât se poate de reală, o întâlnim frecvent în cele mai
variate locuri pe piaţa muncii). Ne confruntăm în acest caz cu o serie de erori grosolane şi abateri de la
cele mai elementare reguli etice. Este vorba în primul rând de lipsa de calificare a funcţionarului în
cauză care nu are nimic comun cu psihologia. Asistăm la o utilizare abuzivă a unui instrumentar
psihodiagnostic alături de omiterea unor norme elementare ale respectării drepturilor omului.
Psihologia este o ştiinţă tânără care trebuie protejată de neştiutori şi de impostori. Pentru aceasta
multe ţări şi-au elaborat un sistem juridic de protecţie, totodată fiind redactate norme etice şi
standarde de utilizare a testelor psihologice şi practicare a psihologiei. Astfel de standarde au fost
publicate şi la noi în ţară.
Atunci când discutam despre implicaţiile sociale şi etice ale utilizării testelor psihologice, referirea
se face cu precădere la respectarea câtorva principii: calificarea examinatorului; calitatea
instrumentelor şi procedurilor de măsură ; protecţia intimităţii subiectului ; confidenţialitatea
rezultatelor ; comunicarea rezultatelor testării; respectarea drepturilor minorităţilor. (Anastasi,1976;
Gregory, 1992; Murphy & Davidshofer, 1991).
Calificarea examinatorului
Una din cerinţele fundamentale ale psihodiagnozei este ca testele să fie mânuite numai de un
personal calificat. Aceasta este una din măsurile luate pentru a proteja subiecţii de unele abuzuri
care pot fi comise cu ocazia examinărilor psihologice.
Exemplu
O companie profilată pe proiectarea de produse informatice a organizat un examen pentru selecţia
candidaţilor. Examenul consta dintr-un test de cunoştinţe şi unul psihologic. În astfel de situaţii, cel
care se ocupă de problema personalului este directorul de resurse umane, care, în cazul nostru, era
un economist. Acesta a alcătuit un test de cunoştinţe compus din 5 întrebări, cu 3 răspunsuri la
alegere şi s-a hotărât să administreze un test de personalitate cunoscut în literatura psihologică sub
denumirea de Testul Lüscher. Testele de cunoştinţe sunt importante în selecţia personalului calificat
pentru a practica o profesie sau alta, dar construcţia lor necesită cunoştinţe vaste de didactică,
psihologie, statistică, cunoştinţe profesionale (ne referim la profesia pentru care se face selecţia) şi
de metodologia construcţiei testelor de cunoştinţe (Albu, 1999; Albu & Pitariu, 1992). Aplicarea şi
interpretarea unui test de personalitate este un lucru dificil. În toată lumea este un fapt cunoscut şi
respectat acela că terminarea unei specializari în psihologie nu-ţi dă dreptul utilizării
instrumentarului psihodiagnostic. Pentru aceasta sunt necesare cursuri speciale. Apoi, alegerea unui
test pentru a fi utilizat într-o acţiune de selecţie profesională presupune cunoaşterea noţiunilor de
validitate, fidelitate, standardizare şi a normelor de interpretare. În dicţionarul de psihologie al lui
Sillamy (1980) se face o descriere succinta a probei Lüscher, dar se specifică faptul că este dificil de
interpretat şi că acest test proiectiv nu este încă suficient de bine studiat sub aspect statistic. A-l
utiliza în selecţie este deci o mare eroare, aceasta ţinând seama şi de conţinutul sau/şi fidelitatea sa
scăzută (alegerea culorilor este în funcţie de dispoziţie şi nu de o calitate stabilă de personalitate).
Organizatorul examenului de selecţie ilustrat poate fi acuzat de impostură, de abuz în practicarea
unei profesii pentru care nu are pregătirea necesară şi de lezare a personalităţii candidaţilor. Astfel
de exemple sunt numeroase. Unele selecţii de personal se fac după metode extrem de ,,originale”: o
discuţie la un restaurant cu candidatul, maniera în care un candidat deschide uşa, felul în care
candidatul priveşte spre cel care face selecţia, utilizarea datelor din horoscop, analiza scrisului ori a
liniilor din palmă etc.
În orice examen psihologic nu trebuie uitat că se lucrează cu subiecţi care se aşteaptă la nişte
rezultate obiective. Utilizarea abuzivă de teste şi testarea psihologică condusă de nespecialişti este
extrem de dăunătoare atât pentru subiect cât si pentru companie, şi anume în sensul că se ajunge la
utilizarea unor informaţii false. Lipsa de cunoştinţe despre testele psihologice, vulgarizarea lor,
interpretările eronate şi iluzia că oricine posedă un test îl poate şi administra şi interpreta a dus la
multe neînţelegeri cu privire la natura testelor şi utilitatea lor. Totodată, aceste false concepţii
despre teste şi examenul psihologic au generat numeroase critici şi revolte antitest.
Psihologii trebuie să-şi apere şi respecte profesia. Normele interne de protejare sunt bine puse la
punct, dar sunt cunoscute numai într-un cadru prea restrâns. Se impune o comunicare mai vie cu
publicul larg, o educare a sa în ceea ce priveşte investigarea ştiinţifică a personalităţii şi investigarea
pe care o fac persoanele neavenite care au alte specializări decât aceea de psiholog. Insuficienta
comunicare ştiinţifică cu publicul a lăsat câmp liber de acţiune ziariştilor, impostorilor şi diletanţilor
să popularizeze un domeniu al ştiinţei pentru care nu au nici o pregătire.
Soluţia care adesea a fost propusă şi din ce în ce mai mult acceptată de numeroase state este ca
dreptul de profesare al psihologiei să fie acordat pe baza unor standarde de competenta, a unor
licenţe acordate de forurile legale de control a activităţii psihologilor. Astfel, o companie sau un
subiect supus unui examen prin teste psihologice trebuie să poată controla competenţa
examinatorului. Orice violare a normelor etice de utilizare a testelor trebuie să conducă la sancţiuni
ca orice fals, mergând până la retragerea dreptului de practicare a profesiei sau la pedeapsa conform
codului penal. Dovezi ale competenţei pot fi titlul de doctor, cel de absolvent al unui curs de ştiinţe
aprofundate sau a unor cursuri pe o anumită problemă atestate printr-o diplomă. Simpla absolvire a
unei facultăţi de psihologie este insuficientă.
Orice examen psihologic trebuie pregătit. Această pregătire începe cu verificarea testului care va fi
utilizat, nu sub aspectul datelor psihometrice, ci al felului în care acesta este prezentat subiecţilor
(este vorba mai mult de o extensie a validităţii de aspect). Un test redactat neîngrijit, cu greşeli de
ortografie, pătat, cu figuri desenate eronat etc. va face o impresie proastă subiecţilor care nu se vor
implica în sarcină aşa cum se cere. Fireşte, performanţele vor fi afectate, va creşte nivelul anxietăţii
vizavi de examenul psihologic.
Derularea şi organizarea examenului psihologic sunt variabile care pot afecta performanţele
subiecţilor. Examenele psihologice improvizate în săli lipsite de mese, cu o luminozitate improprie,
gălăgioase etc. vor conduce la distorsionarea rezultatelor. Uneori subiecţii sunt examinaţi la ieşirea
din schimb, atunci când sunt deci obosiţi sau după o altă activitate obositoare. Din acest motiv este
indicat ca examenul psihologic să fie anunţat din timp, cu specificarea unor condiţii minime de
confort pretinse subiectului (să nu se prezinte la examen obosit, să nu fi consumat alcool etc. Unele
instituţii pretind chiar semnarea unei declaraţii de către subiect în acest sens.).
În ultimul timp s-a sugerat posibilitatea efectuării examenului psihologic prin poştă. Aceasta este o
greşeală care contravine oricăror principii ale examinării psihologice. Testul psihologic este
administrat de psiholog care, pe parcursul testării, are obligaţia să urmărească reacţiile subiectului.
Da, există posibilitatea unei ,,testări oarbe”. Ea este posibilă în contextul în care se însuşesc unele
tehnici de evaluare psihologică, deci în scop didactic. Un examen psihologic pretinde prezenţa
psihologului.
Psihologul are obligaţia să explice subiectului motivul examenului psihologic şi să obţină acordul
acestuia de a se supune la test. Acelaşi lucru priveşte şi divulgarea rezultatelor testării psihologice.
Iată demersul secvenţial al unei examinări psihologice în scop de selecţie profesională:
Se explică subiecţilor obiectivul general al examenului psihologic.
Se procedează la examinarea psihologică propriu-zisă. (Psihologul trebuie să se asigure că toţi
candidaţii au înţeles instrucţiunile de lucru şi sştiu ce au de făcut.)
Se interpretează datele testării psihologice.
Se discută cu fiecare candidat rezultatul obţinut şi se cere acordul de a introduce sau nu rezultatul în
baza de date a companiei. Dacă răspunsul este ,,NU”, atunci protocoalele se distrug, iar dacă
răspunsul este ,,DA”, datele examinării se stochează şi acestea pot fi utilizate în scopuri
experimentale sau cu ocazia iniţierii altor decizii de personal.
În mod obişnuit, trebuie evitată afişarea rezultatelor examenului psihologic. Formula recomandată
este de a afişa numai numele persoanelor selectate, fără alte date care ar putea constitui o violare a
intimităţii. Cei nereuşiţi la un examen de selecţie nici nu trebuie amintiţi. Acest lucru se impune mai
ales când sunt utilizate teste de inteligenţă sau de personalitate, etichetele nefiind indicate în aceste
cazuri deoarece i-ar putea leza pe unii subiecţi.
Discreţia şi păstrarea anonimatului pacienţilor/ clienţilor sunt elemente care trebuie să caracterizeze
activitatea psihologului.
Confidenţialitatea rezultatelor
Confidenţialitatea este o problemă delicată. Întrebarea fundamentală care se pune în acest caz este
cine are acces la datele examenului psihologic şi ce date poate să ofere psihologul?
Am subliniat mai înainte că rezultatele examenului psihologic (ne referim la cele legate de
problematica organizaţională şi nu la aceea specifică diagnozei clinice sau educaţionale) se
comunică în primul rând subiectului. El are dreptul să-şi cunoască rezultatele performanţelor la
testele de aptitudini şi de cunoştinţe. Cu el se pot iniţia şi unele discuţii pe marginea concluziilor la
testele de personalitate. Tot el decide dacă rezultatele testării se vor comunica mai departe sau nu.
De fapt, rezultatele examenului psihologic sunt sintetizate într-un raport. Acesta este întocmit în
conformitate cu solicitarea beneficiarului. Raportul trebuie redactat în termeni inteligibili, clar, fără
ambiguităţi sau într-un jargon tehnic mai dificil de înţeles de nespecialişti. Datele comunicate
trebuie să reflecte obiectiv situaţia, observaţiile subiective şi părerile personale fiind evitate.
Problema care se pune nu este atât de comunicare a rezultatelor examenului psihologic, ci a
manierei în care trebuie să se facă această comunicare.
Condiţiile culturale specifice unei ţări se extind şi la domeniul psihologiei. Ele au preocupat mult
psihologii. Problematica discriminării a fost una din punctele de atac vizavi de aplicaţiile
psihologilor americani în armată în timpul primului război mondial. Fiecare psiholog ştie că testele
măsoară diferite eşantioane comportamentale, ori aceste comportamente sunt determinate cultural.
Aceasta este explicaţia multor diferenţe în ceea ce priveşte performanţele la testele de atitudini,
valori, motivaţionale, de inteligenţă etc. O grijă deosebită a psihologilor se îndreaptă spre
transpunerea testelor dintr-o cultura în alta. Dacă unui european i se dau probleme legat de
măsurarea temperaturii în scala Fahrenheit şi nu în Celsius, el va întâmpina mari dificultăţi în
rezolvare. Procedurile de adaptare privesc utilizarea unor tehnici ca analiza de conţinut, utilizarea
grupurilor de experţi sau retroversiunea. Alături de aceste tehnici de lucru calitative au fost
dezvoltate şi o serie de proceduri statistice mai mult sau mai puţin sofisticate. Dar problema cea mai
acută se referă la interpretarea scorurilor de test. De pildă, dacă psihologul observă că la un test de
comprehensiune verbală un grup minoritar obţine un scor mai mic decât altul, este firesc să-şi pună
întrebarea de ce s-a produs această diferenţă de performanţă? Cauza ar putea fi o insuficientă
cunoaştere a limbii, carenţe educaţionale, o motivaţie scăzută sau alte cauze. În aceste cazuri,
psihologul trebuie să opereze cu norme diferenţiate pe grupuri minoritare.
Orice testare psihologică are şi o anumită doză de subiectivitate. Putem fi chiar aşa de siguri că
rezultatul unei selecţii profesionale confirmă reuşita profesională 100%? Răspunsul este categoric
,,NU”. Dar ceea ce se poate afirma este faptul că o selecţie profesională realizată cu ajutorul testelor
psihologice poate aduce un câştig unei companii mai mare decât dacă nu se apelează la acest mijloc.
Vom vedea în capitolul despre validitate care este contribuţia acesteia la predicţia succesului
profesional sau la sporirea obiectivităţii selecţiei profesionale.
Consecinţele sociale şi etice ale utilizării testelor şi testării psihologice în organizaţii, aşa cum s-a
putut vedea, sunt mari. Psihologul are responsabilităţi majore faţă de materialul uman cu care
lucrează. Acesta este motivul pentru care psihologia aplicată se impune să fie protejată de legi care
să nu permită impostorilor să se desfăşoare. Amatorismul, diletantismul şi impostura trebuie stopate
în psihologie de norme clare şi o legislaţie severă.