Raven Iq Test

000161 NL'
)urt
Publishers
Dankbetuiging
's^\
ii ii
1 OlII.WtSIj^ <Sll ycLri uii<
2 Ea'iteleo.^.sBe ©^t'^^tep!!;B^ 15
3 Intellect en efficientie I?
4 Cs':"!St?"y!i-twg3l"je!ii%Ê ®K
5 Praktische inzetbaarheid 21
& ^0?-»WS@?E 23
6.1 De Classic-versie van de test 23
Normering voorjongeren in Groot-Brittannie in 1979 23
Normering voorjongeren in de VS in 1984/86 24
Normering voor volwassenen in Groot-Brittannie in 1992 24
Normering voor volwassenen in de VS in 1993 26
Nauwkeurigheid van de normeringen voor volwassenen in Dumfries en
Des Moines
26
Beschikbare referentiegegevens 27
6.2 De SPM Plus 27
Duitsland 27
Verenigde Staten 28
Polen 29
Nauwkeurigheid van de conversietabellen 30
7 Ontwikkeling van de Parallel" Pi .is-yersles van de tests 31

7.1 Achtergrond 31
32
Figuur 1: Gevolgen van scorestijging voor de moeilijkheidsgraad van de herziene test
7.2 Resultaten
32
32
De "parallelle" test
33
Figuur 2: Begaafdheid (in logits) bij elke ruwe score voor de Classic en Parallel SPM
33
Figuur 3: Vergelijkbare moeilijkheidsgraad van Classic en Parallel SPM-items
SPM Plus 34
34
Figuur 4: Moeilijkheidsgraad van 60 parallelle items en 24 aanvullende items
35
Figuur 5: SPM Plus- items, gerangschikt naar moeilijkheidsgraad
36
Figuur 6: Moeilijkheidsgraad van de SPM Plus-items per set
7.3 Scoretabellen 36
5 RAVEN HANDLEIDING
8 Betrouwbaarheids- en vaiiditeitsonderzoeken 37
8.1 Betrouwbaarheidsonderzoeken 37
Interne consistentie 37
Test-hertest-betrouwbaarheid 39
Tabell: Hertest-betrouwbaarheid en intercorrelatie van de SPM en MHV 40
8.2 Validiteitsonderzoeken 41
Criteriumgerichte validiteit 41
Correlaties met concurrente intelligentiemaatstaven 41
Correlaties met concurrente prestatiemaatstaven 42
Predictieve validiteit 43
8.3 Inhoudsvaliditeit 44
8.4 Factoriele constructvaliditeit 45
9 Omgevlngsinvloeden op RPM-scores 49
9.1 Toepassing bij hersenbeschadiging en neuropsychologische toepassingen
in het algemeen 49
9.2 Verbalisering 51
9.3 Signalering van opzettelijk lage scores 53
9.4 Effecten van training 54
9.5 Overige omgevingsvariabelen 55
9.6 Gevolgen 55
9.7 De waarde van verschilscores en het meten van verandering in groepen
en personen 56
Figuur 7: lllustratie van de veranderingen in ruwe scores voor 'makkelijke' en 'moeilijke'
IRT-tests van cognitiefvermogen bij identieke veranderingen in latent vermogen
(hoge begaafdheid) 57
Figuur 8: lllustratie van de veranderingen in ruwe scores voor 'makkelijke' en 'moeilijke'
IRT-tests van cognitiefvermogen bij identieke veranderingen in latent vermogen
(lage begaafdheid) 58
10 Computerversles van de test 61

0.1 Signalering van opzettelijk lage scores bij de computerversie 62
10.2 Computerberekening van verschilscores 63
Snstructies voor afname van de SPM~ en MHV-tests op papier 65

11.1 Individuele afname of groepsafname 65
11.2 Standaardafnameprocedure 66
Als de MHV niet afgenomen wordt 69
Als de Mh-IV wel afgenomen wordt 69
11.3 Individuele afname door een testleider 70
11.4 Afname van de SPM zonder gesproken instructies 73
12 Scoren, evalueren en ropporteren 75

12.1 Scoren 75
12.2 Resultaten evalueren 76
De Classic- en Parallel-versies van de tests 76
SPM Plus 77
12.3 Resultaten rapporteren 78
RAVEN HANDLEIDING
Rapportage van totaalscores bij individuele beoordeling 78
Contextuele informatie noodzakelijk 79
12.4 Rapportage van neuropsychologische beoordelingen 80
12.5 Rapportage van resultaten in verband met de diagnose en verbetering
van denkfouten 83
12.6 Rapportage van resultaten in verband met de evaluatie van onderwijs-
programme's en voor onderzoeksdoeleinden 83
13 De rol 85
14 Referentiematerlaal: Classic" en Parallel-tests Bl

Tabel 2: Normals (verwachte) scoreopbouw van Classic- en Parallel-tests 87
Tabel 3: Tabel voor conversie van Classic/Parallel SPM-scores en SPM Plus-ruwe scores 88
Tabel 4: Tabel voor conversie van Classic/Parallel SPM-scores en CPM-ruwe scores 89
Tabel 5: Tabel voor conversie van Classic/Parallel SPM-scores en APM Set 11-ruwe scores 90
Tabel 6: Tabel voor conversie van Classic/Parallel SPM-scores en APM Set 1-ruwe scores 90
Tabel 7: (Classic en Parallel)
Gecorrigeerde Britse normen voor de test bij zelf- of groepsafname (kinderen) 91
Gecorrigeerde Britse normen uit 1992 voor de test bij zelfafname in de eigen tijd
(volwassenen) 91
Gecorrigeerde globale normen voor kinderen en jongeren in de Verenigde Staten 92
Gecorrigeerde Amerikaanse normen uit 1 993 voor de test bij zelfafname in de eigen
tijd (volwassenen) 93
Tabelll: (Classic)
Amerikaanse normen voor volwassenen uit 1993 vergeleken met Britse gegevens uit 1992 93
Tabel 12: (Classic)
Controlenormen uit 1979 voor Brits Columbia vergeleken met Britse gegevens uit1979 94
Tabel13: (Classic en Parallel)
Gedetailleerde percentielnormen voor volwassenen in de VS 95
Tabel 14: Gecorrigeerde normen uit 1984 voor Nieuw-Zeeland vergeleken met Britse gegevens
uit1979 96

Gecorrigeerde normen u'rt 1986 voor kinderen en jongeren in Australie 96
Tabel 16: (Classic)
Gecorrigeerde normen uit 1986 voor kinderen en jongeren in Australie vergeleken
met Britsegegevensuit 1979 97
Tabel17: (Classic)
Gecorrigeerde normen uit 1986 voor steden op het vasteland van China vergeleken
met Britse gegevens uit 1 979 en 1992 98
Tabel 18-. (Classic)
Gecorrigeerde normen uit 1997 voor Pune en Mumbai (Bombay), India, vergeleken
met Britse gegevens uit 1 979 99
Tabel 19: (Classic)
Gecorrigeerde normen uit 1992 voor Delhi (India) North Zone vergeleken met Britse
gegevensuit 1979 00
RAVEN I HANDLEIDING
Tabel 20: (Classic)
Gecorrigeerde normen uit 1992 voor kinderen in Nederland vergeleken met Britse
gegevens uit 1979 1 01
Tabel21: (Classic)
Gecorrigeerde normen uit 1993 voor het kanton Fribourg, Zwitserland, vergeleken
met Britse gegevens uit 1979 01
Tabel 22: (Classic)
Normen uit 1997 voor Briansk, Rusland, voor 14- en 15-jarigen vergeleken met
Britse gegevens uit 1979 1 Q2
Tabel 23: (Classic)
Gecorrigeerde normen uit 1993 voor Buenos Aires, Argentinie, vergeleken met
Britse gegevens uit 1979 en 1992 103
Tabel 24: (Classic)
Normen uit 1989 voor kinderen in Taiwan vergeleken met Britse gegevens uit 1979 103
Tabel 25: (Classic)
Gecorrigeerde normen uit 1987 voor Kosice, Slowakije, vergeleken met Britse
gegevens uit 1979 04
Tabel 26: (Classic)
Gecorrigeerde normen voor Polen vergeleken met Britse gegevens 105

Tabel 27: (Classic)
Gecorrigeerde normen uit 1998 voor Slovenie vergeleken met Britse gegevens uit 1979 1 06
Tabel 28: (Classic)
Gecorrigeerde normen uit 1998 voorjongeren in Frankrijk vergeleken met Britse

gegevens uit 1979 107
Tabel 29: (Classic)
Gecorrigeerde normen voor volwassenen in Belgie vergeleken met Britse gegevens
uit 1992 07
Tabel 30: (Classic)
Normen voor klanten van het Britse arbeidsbureau vergeleken met gegevens voor
Dumfries uit 1992 108
Tabel31: (Classic)
Beroepsnormen uit de jaren '90 voor lerland vergeleken met Britse gegevens uit 1992 1 08
Tabel 32: (Classic)
Normen uit 1998 voor werknemers met een beperkte opleiding in Frankrijk
(tijdslimiet van 30 minuten) 1 09
Tabel 33: (Classic)
Gecorrigeerde normen voor Franse arbeiders 09
Tabel 34: (Classic)
Normen voor dove adolescenten 10
15 ReferentEemateriaaS: Standard Progressive Motrices Plus 111

Tabel 35: Standard Progressive Matrices Plus
Normale (verwachte) scoreopbouw 111
Gecorrigeerde normen uit 1999 voor adolescenten en volwassenen in Duitsland 112
Gecorrigeerde SPM Plus-normen uit 1999 voor Duitsland geconverteerd naar
SPM Classic-normen, vergeleken met Britse gegevens 112
8 I RAVEN ! HANDLEIDiNG
Gecorrigeerde normen uit 1999 voorjongeren in Fort Bend, Texas 113
Gecorrigeerde SPM Plus-normen uit 1999 voor Fort Bend, Texas, geconverteerd
naar SPM Classic-normen, vergeleken met Britse gegevens uit 1979 114
Gecorrigeerde normen uit 2000 voorjongvolwassenen in Polen 115
Tabel 41 Standard Progressive Matrices Plus
Vergelijking van normen uit 1999/2000 voor Fort Bend, Polen en Duitsland 116
Tabel41b: (Classic)
Gecorrigeerde normen uit 2000 voor Polen, (na conversie) vergeleken met Poolse
normen uit 1991 en Britse gegevens 116
15.1 Specials normen 117
15.2 Consultancy en dataverwerkingsservice 117
15.3 Bibliografie voor onderzoekers 117
Bajlage 1 De Amerikaanse voor voiwGssersen uit 1993 119
2 OnSwikkeiing vcsrs de ParGlSe8 caAfi A^ 'EDft<i B'L:- 123

Eerste pogingen tot ontwikkeling van parallelle versies van de tests 125
Ontwikkeling van de projectopzet en bijdragen van medewerkers 126
Selectie van moeilijkere items voor de parallelle versie 127
Testen van de items 129
Tabel 42: Steekproefopzet voor equivalering van de items in 1 995 132
Resultaten van de equivalering 132
Slotopmerking: instabiliteit van Rasch-parameters 133
Figuur 9: Moeilijkheidsgraad van de SPM Plus-items opnieuw berekend na verwijdering van
28 overtollige items -34
3 een methode op basis van 8RT voor de beoordeling vaR

verandering, door Gerhard H, Flscher en jorg PrEefer 135
De meting en statistische toetsing van verandering in groepen 1 37
De meting en statistische toetsing van verandering in personen 140
Tabel 43: Nomogram van de significantie van scoreverschillen
(Clopper-Pearson betrouwbaarheidsintervallen) 143
Tabel 44: Tabel van kritische grenzen ruwe scores (Clopper-Pearson betrouwbaarheidsintervallen) 144
Tabel 45: Nomogram van de significantie van scoreverschillen
(UMA-betrouwbaarheids-intervallen/UMP-statistische toetsen) 145
Tabel 46: Tabel van kritische grenzen ruwe scores
(UMA-betrouwbaarheidsintervallen/UMP-statistische toetsen) 146
Noten
147
Aanvullende bronnen 157
9 I RAVEN I HANDLEIDING
Zoals wordt uitgelegd in de sectie Algemene inleiding van deze Handleiding, is de Standard
Progressive Matrices-test opgesteld om de deductieve component van g, zoals gedefinieerd in
de theorie van Spearman over cognitieve vaardigheden, te meten.
Deductief vermogen is het vermogen tot nieuwe inzichten te komen, het vermogen betekenis te
kunnen ontdekken in chaos, het vermogen waar te nemen en het vermogen verbanden te
leggen. Aangezien waarneming primair een conceptueel proces is, is het essentiele kenmerk
van deductiefvermogen iemands vermogen om nieuwe, grotendeels niet-verbale concepten te
ontwikkelen die hem/haar in staat stellen helderte denken.
Volgens Spearman heeft g nog een tweede component: het reproductief vermogen. Dit is het
vermogen om zich de expliciete, geverbaliseerde concepten van een bepaalde cultuur te
kunnen herinneren en te kunnen toepassen. Dit wordt gemeten met behulp van de Mi7/ Hi'//
Vocabulary Scale.
De aard van deze twee vaardigheden, het onderlinge verband en het verband met de bredere
concepten intelligentie en begaafdheid en het "probleemoplossend vermogen" warden
besproken in de editie uit 1998 van de sectie A/gemeen van deze Handleiding.
De Standard Progressive Matrices-test werd zowel ontwikkeld voor gebruik thuis, op school en
op de werkplek (waar de testomstandigheden en motivatieniveaus vaak verre van ideaal zijn
vanuit een psychometrisch oogpunt) als voor gebruik in testruimtes. De test moest derhalve
kort, aantrekkelijk, betrouwbaar en steekhoudend tegelijk zijn.
De test bestaat uit vijf sets of reeksen van schematische puzzels die steeds in twee opzichten
tegelijk wijzigen. In elke puzzel ontbreekt een deel. De geteste persoon dient uit de geboden
opties het ontbrekende deel te kiezen.
De standaardtest bestaat uit 60 opgaven, verdeeld in vijfsets (A, B, C, D en E) van elk 12 opga-
ven. De eerste opgave van elke set is vrijwel vanzelfsprekend op te lessen. De daaropvolgende
opgaven borduren steeds voort op de redenering van de voorgaande opgave en warden stap
voor stap moeilijker. Door de items in de gegeven volgorde te maken, wordt de te gebruiken
werkwijze automatisch aangeleerd. De vijf sets bieden vijf mogelijkheden om de vereiste denk-
wijze aan te leren waarmee de opgaven opgelost kunnen warden en vijf progressieve manieren
om iemands intellectuele vermogen te meten. Om de belangstelling vast te houden en ver-
moeidheid te voorkomen is elke opgave duidelijk weergegeven, zorgvuldig getekend en voor
zover mogelijk mooi vormgegeven.
De SPM is zo opgezet dat hij geschikt is voor een zo breed mogelijke spreiding van intellectuele
begaafdheid en voor alle leeftijden, ongeacht opleiding, nationaliteit of fysieke conditie. De
intergenerationele stijging van het niveau van het deductief vermogen in de loop der tijd
(toegelicht in de sectie A/gemeen) leidde tot een plafondeffect voor adolescenten en jongvol-
wassenen. h-lierdoor ontstond er behoefte aan een bredere spreiding van de moeilijkheidsgraad
van de items om het onderscheidend vermogen van de test voor hoger begaafde personen in
deze leeftijdsgroepen te herstellen. In de editie uit 1998 van deze sectie van de Handleiding
werd dan ook een versie van de test (SPM P/us) ge'i'ntroduceerd waarin dit probleem aangepakt
wordt zonder af te doen aan het onderscheidend vermogen voor minder begaafden.
Gezien de brede inzetbaarheid van de test kenden (en kennen) alle vormen van de test bepaalde
beperkingen.
Aangezien de test bedoeld is voor gebruik met zowel kinderen als volwassenen, vormen de
eerste en tweede set van de standaardversie van de test en de eerste opgaven van de derde en
vierde setvoorvolwassenen weinig meer dan oefenopgaven om de werkwijze aan te leren. Een
korte oefenset om de werkwijze toe te lichten zou hetzelfde effect hebben. Deze oefenitems zijn
echter bijzonder belangrijk voor personen die door hun achtergrond weinig in aanraking zijn
gekomen met dit soort puzzels. Inkorting van de test (of het stellen van een tijdslimiet) zou dan
ook nadelig zijn voor personen wier begaafdheid met andere tests heel moeilijk aangetoond
kan warden en voorwie de SPM bijzonder geschikt is.
De test is zo opgezet dat hij een betrouwbare inschatting geeft van iemands vermogen om
helder te denken, wanneer hij/zij rustig en ongestoord kan werken in zijn/haar eigen tempo. De
test dekt het hele scala van intellectuele ontwikkeling vanaf het moment dat een kind begrij'pt
dat hij/zij het ontbrekende deel moet zoeken om een patroon afte maken tot de begaafdheid-
niveaus die nodig zijn om vergelijkingen te trekken en analogisch te redeneren. De oorspronke-
lijke versie bevatte, toen hij ontwikkeld werd, voldoende moeilijke opgaven om onderscheid
te kunnen maken tussen volwassenen, terwijl hij toch kort genoeg was om niet buitensporig
vermoeiend of onpraktisch te zijn. Dit onderscheidend vermogen dat in de loop derjaren afnam
door de geleidelijke wereldwijde toename van het deductief vermogen, is hersteld in de SPM
P/us. Indien meer differentiatie nodig is aan de onder- of bovenkant van de schaal, dan kunnen
respectievelijk de Coloured of de Advanced Progressive Matrices gebruikt warden.
Als er een tijdslimiet gesteld wordt voor het maken van de SPM waardoor niet iedereen de test
kan afronden, leidt dat tot een ongelijke en onbetrouwbare verdeling van de scores. In een
dergelijke situatie zullen sommigen veel tijd kwijt zijn aan de oplossing van de moeilijkere
opgaven van de eerste sets, terwijl anderen die overslaan en hun score aanzienlijk verbeteren
door de eenvoudigere items van de latere sets correct op te lossen.
Alle respondenten krijgen, ongeacht hun leeftijd, exact dezelfde opgaven in dezelfde volgorde
voorgelegd die ze in hun eigen tempo, zonder onderbrekingen, van begin tot eind moeten
maken. Aangezien de geteste persoon de werkwijze automatisch aanleert door de volgorde van de
opgaven aan te houden, is de test geschikt als individuele test, zelftest of groepstest. lemands
totaalscore geeft een indicatie van diens intellectuele begaafdheid. De betrouwbaarheid van
die indicatie kan ingeschat warden door te kijken naar de samenhang tussen de bijdrage van elk
van de vijf sets aan het totaal. Als die onvoldoende is, kan het vaststellen van de oorzaak daar-
van een manier zijn om de psychologische betekenis van de discrepanties te ontdekken.
Normaal gesproken wordt van jonge kinderen, geestelijk gehandicapten en zeer oude mensen
niet verwacht dat ze meer kunnen oplossen dan de opgaven in set A en B van de test en de
eenvoudigere opgaven van set C en D, waarvoor analogisch redeneren niet vereist is.
12 I RAVEN HANDLEIDING
De SPM wordt nu internationaal gebruikt voor vergelijkende doeleinden en tot voor kort leek
een algemene herziening niet noodzakelijk. In 1947 werd een kleine correctie aangebracht van
het oorspronkelijke item B8 ter verbetering van de strikte moeilijkheidsopbouw en effectieve
spreiding van de moeilijkheidsgraad. In hetzelfde jaar werden ook twee afgeleiden van de
standaardtest ontwikkeld voor verdere experimentele werkzaamheden en vergelijkende onder-
zoeken. Deze werden later gepubliceerd als de Coloured en de Advanced Progressive Matrices,
respectievelijk de CPM en de APM. In 1956 werd de volgorde van de opgaven van de
standaardtest uit 1938 aangepast om een meer gelijkmatige probitspreiding te verkrijgen. Ook
de opties waaruit gekozen moest warden, werden herschikt om een meer gelijkmatige spreiding
van gebruikelijke en ongebruikelijke inschattingsfouten te verkrijgen. Verder werd de test niet
gewijzigd en de oorspronkelijke positie van de juiste oplossing van elke opgave werd steeds
gehandhaafd. Aangezien enkele opgaven echter wel een andere positie gekregen hadden
binnen de totale set, verschilt de scoretabel voor de huidige editie (1956) van de Classic SPM
enigszins van die voor de editie uit 1938. Toen deze kleine wijzigingen aangebracht werden in
de SPM, werd ook de CPM herzien. Er vend een uitgebreidere herziening plaats van de APM als
test van intellectuele efficientie voor gebruik met volwassen met een gemiddelde of boven-
gemiddelde intellectuele begaafdheid.
Eind jaren '80 stelden Andrich en Styles Tabel 4 tot en met SPM6 op, waarmee de scores voor
de CPM omgezet kunnen warden naar scores voor de SPM en die van SPM naar die van APM
(en omgekeerd).
Eind jaren '80 en begin jaren '90 verzamelde Flynn het zich opstapelende bewijs dat het deduc-
tiefvermogen met circa een standaarddeviatie per generatie was toegenomen, ongeacht welke
test daarvoor gebruikt werd (RPM of een andere test; verbaal of non-verbaal).
Zoals is aangetoond in de sectie A/gemeen bedroeg deze toename circa vijfstandaarddeviaties

in de periode waarvoor, in 1992, gegevens beschikbaar waren voor de Standard Progressive
Matrices, hlierdoor ontstond een plafondeffect voor hoger begaafde adolescenten en jongvol-
wassenen. hlet was dan ook noodzakelijk om moeilijkere items te ontwikkelen om de scores van
deze groep te spreiden (een meer accurate beschrijving is "om het onderscheidend vermogen
dat deze test oorspronkelijk had voor deze groep te herstellen "). Deze versie is gepubliceerd als
de SPM P/us.
Tijdens de ontwikkeling van de SPM P/us werd tegelijkertijd gewerkt aan de ontwikkeling
van een parallelle versie die, zowel item-per-item als in het geheel, overeenkomt met de Classic-
versie(1956).
Het is belangrijk de opmerkingen over het onderscheidend vermogen goed te interpreteren.

Zowel de Classic- (1956) als de Parallel-versie van de SPM brengen momenteel uitstekend
onderscheid aan tussen minder begaafde oudere volwassenen en jongere kinderen, iets wat de
aanvankelijk ontwikkelde Classic-versie niet deed. Beide tests zijn dan ook nog steeds zeer
breed inzetbaar.
De SPM P/us, die de cyclische vorm met 60 items van de Classic SPM behouden heeft, beschikt
nog steeds over dat onderscheidend vermogen voorjongere kinderen en oudere volwassenen,
omdat alle items van de parallelle versies van set A en B erin opgenomen zijn. De test brengt
echtertegelijkertijd beter onderscheid aan tussen de huidige hoger begaafde adolescenten en
13 RAVEN HANDLEIDING
jongvolwassenen. De verwijdering van veel van de items van gemiddelde moeilijkheidsgraad
uit de parallelle versies van set C en D heeft ook het grote voordeel opgeleverd dat er een test
is ontstaan met een bijna lineair verband tussen totaalscore en begaafdheid (zoals bepaald
door de moeilijkheidsgraad van het moeilijkste item dat iemand kan oplossen). Het nadeel
van het wegvallen van deze items is echter dat de huidige normeringstabellen uitsluitend
gebruikt kunnen warden, als de SPM P/us-scores omgezet worden naar SPM-scores met behulp
van Tabel 3.
Op dit punt willen wij er ook op wijzen dat de posities van de juiste antwoorden
gewijzigd zijn om te voorkomen dat respondenten de juiste antwoorden van de
Classic-versie van de test uit het hoofd zouden leren en daarvan zouden kunnen
profiteren. De scoretabellen van zowel de Parallel- als de Plus-versie van de test
verschillen dan ook van die van de Classic-versie en van elkaar.
Na de vroege intellectuele ontwikkeling (zie sectie A/gemeen van deze Handleiding) lijkt er
tussen de leeftijd van 8 en 11 jaar een vrijwel complete transformatie plaats te vinden van de
redeneerprocessen van een kind. Voor deze transformatie zijn kinderen vrijwel alleen in staat
opgaven als die in set A en B van de SPM te begrijpen. hlun woordenschat is over het algemeen
beperkt en hun leervermogen is voornamelijk gebaseerd op praktische taken en visuele hulp-
middelen. Na de transformatie zijn kinderen niet alleen in staat vergelijkingen te trekken en
analogisch te redeneren, maar ook om deze manier van denken consequent toe te passen als
redeneringswijze en maken ze zonder problemen de overstap van de opgaven in set A en B naar
die in set C, D en E. Ze kunnen de betekenis van abstracte woorden begrijpen. Ze profiteren
meervan de beschikbare leermogelijkheden en ervindteen duidelijkwaarneembare geleidelijke
stijging van MHV-scores plaats.
Deze schijnbaar doorslaggevende fase van intellectuele rijping zorgt voor het onderscheid tus-
sen intellectueel onvolgroeide personen en personen met een normaal, of bovengemiddeld,
intellect, h-let lijkt ook een van de eerste ontwikkelingen te zijn die op hogere leeftijd weer onge-
daan gemaakt wordt en die ernstig aangetast wordt door organische dysfunctie . Genetisch
onderzoek duidt erop dat de mate van ontwikkeling deels het gevolg is van de aangeboren
begaafdheid van het individu en deels van omgevingsinvloeden en culturele factoren, ten minste
in zoverre dat, bij het ontbreken van een stimulerende omgeving die is afgestemd op
de motieven en waarden van het kind of de volwassene, de ontwikkeling van het deductief
vermogen over het algemeen latent blijft om iets later tot ontwikkeling te komen en op hogere
leeftijd eerder afte nemen .
Uit onderzoek is gebleken dat iemands maximale denkvermogen minder afhankelijk is van de
gezondheid en minder gebaat is bij oefening dan iemands tempo bij nauwgezette intellectuele
bezigheden. Voor antropologisch, genetisch en klinisch onderzoek is een 'intelligentietest'
zonder tijdslimiet dan ook meer geschikt dan een test waarbij de persoon tegen de kick werkt.
Voor beroepskeuzebegeleiding kan, daarentegen, in bepaalde gevallen beter gekozen warden
voor een test op "snelheid" of "efficientie", hoewel daarbij personen die langzamer en nauw-
keuriger werken achtergesteld warden, zoals is toegelicht in de sectie APM van deze Hand-
leiding. In het eerste geval is dus de SPM zondertijdslimiet nuttiger. In het laatste geval en met
name bij de begeleiding of beroepskeuze van personen die een hogere technische opleiding
willen volgen, biedt de Advanced Progressive Matnces-test (APM) een beter onderscheid. Deze
test is ook meer geschikt voor onderzoek naar mentale vermoeidheid en het effect daarvan op
de snelheid en nauwkeurigheid van het beoordelingsvermogen.
Voordat een kind de 11-jarige leeftijd bereikt, is diens vermogen vergelijkingen te trekken en
analogisch te redeneren vaak nog een te nieuwe intellectuele prestatie om consequent efficient
toegepast te kunnen warden . In al deze gevallen zijn de SPM en CPM, zonder tijdslimiet, de
meest geschikte tests om te gebruiken.
17 RAVEN I HANDLEIDING
In de sectie A/gemene inleiding van deze Handleiding warden de bewijzen besproken voor de
theoretische waarde, en beperkingen, van het concept deductief vermogen en van de RPM als
bruikbare maatstafvan dat concept. Daaruit blijkt aan de ene kant dat het niet correct is om de
RPM te omschrijven als maatstaf van "algemene intelligentie", "begaafdheid" of "probleem-
oplossend vermogen" en aan de andere kant dat de test een reeks vaardigheden meet die
op elkaar voortbouwen. Het is over het algemeen niet mogelijk de moeilijkere opgaven op te
lessen zonder over de juiste vaardigheden te beschikken om de eenvoudigere opgaven te kun-
nen oplossen. Dit kenmerk kan alleen warden aangetoond door te onderzoeken of de volgorde
van de items op moeilijkheidsgraad gelijk is voor alle begaafdheidsniveaus. hlet bewijs daarvoor
wordt geleverd door de itemkarakteristieke cun/en die eerst in kaart zijn gebracht tijdens de ont-
wikkeling van de test en later opnieuw in het kader van enkele daarop volgende normeringen .
Zoals uitgebreider is toegelicht in de sectie A/gemeen van deze Handleiding en met name in het
addendum van de edities van die sectie die sinds 1995 gepubliceerd zijn, laten deze grafieken
zien (1) dat de items allemaal een gemeenschappelijke factor meten (anders zou er geen ver-
band bestaan tussen het percentage dat een bepaalde opgave kan oplossen en de totaalscore);
(2) dat de vaardigheden die nodig zijn om de moeilijkere opgaven op te lessen deel uitmaken
van een continuum dat begint met de eenvoudigste items en (3) dat, hoewel de vaardigheden
die nodig zijn om de moeilijkere items op te lessen kwalitatief verschillen van de vaardigheden
die nodig zijn om de eenvoudigere items op te lessen, deze ogenschijnlijk verschillende vaar-
digheden toch naadloos in elkaar overgaan. Dergelijke bewijzen voor de constructvaliditeit kun-
nen niet verkregen warden door onderzoek naar interne consistentie op basis van factoranalyse.
Door de juiste Standard Progressive Mafrf'ces-test te kiezen, kunnen gebruikers onderscheid
maken tussen personen van alle begaafdheidsniveaus, voorzover dat gerechtvaardigd is op
grand van de verklarende kracht van het theoretische concept (deductief vermogen) dat
getoetst wordt. Zoals blijkt uit de itemkarakteristieke curven in Onderzoekssupplement nr. 1 van
deze Handleiding, bevatte de test, op het moment dat de gegevens verzameld werden (1979),
items die effectief onderscheid aanbrachten tussen personen die het minst in staat waren holder
waarte nemen en te denken en degenen die daar het best toe in staat waren, ten minste voor-
zover deze vaardigheden door de test gemeten warden. Door gebruik van de CPM ofAPM kon
nauwkeuriger onderscheid gemaakt warden in respectievelijk de onderste en bovenste 25% van
de populatie.
Zoals al is uitgelegd, zorgde de algemene verbetering van het deductief vermogen in de

loop derjaren voor een plafondeffect voor hoger begaafde adolescenten en jongvolwassenen.
Er is daarom een "uitgebreide" versie van de test ontwikkeld om het oorspronkelijke onder-
scheidende vermogen van de test voor hoger begaafde personen uit deze leeftijdsgroepen te
herstellen.
Met is belangrijk te onthouden dat, zoals in de volgende alinea's toegelicht zal worden, noch de
verklarende kracht van het theoretische concept dat getoetst wordt, noch het onderscheidende
vermogen van de test, noch de betrouwbaarheid ervan het fijne onderscheid rechtvaardigen dat
veel gebruikers op grand van psychologische tests willen maken.
Als we eerst naar het onderscheidende vermogen en de betrouwbaarheid van de test kijken,
dan kunnen we zien dat de wens fijn onderscheid aan te kunnen brengen heeft geleid tot een
overvloed aan tests waan/an de scores zijn onderverdeeld in talloze subschalen en die zo elk de
schijn wekken een grote mate van onderscheidend vermogen te bieden. Dit ogenschijnlijke
onderscheidend vermogen wordt echter vaak gecreeerd door statistische manipulatie, waarbij
kleine standaarddeviaties omgezet warden in grotere deviaties . De gepresenteerde profielen
zijn vaak evenmin te rechtvaardigen: onderzoekers, van Spearman (1923) tot Matarazzo (1990),
hebben aangetoond dat goede maatstaven van deductief en reproductief vermogen samen al
het grootste deel van de betrouwbare variantie op dat gebied verklaren, omdat (a) de meeste
subschalen verre van onafhankelijk zijn, maar zo sterk samenhangen met andere subschalen in
de clusters van deductief of reproductief vermogen dat hun betrouwbaarheid in het geding
komten (b)alsze nf'ef-sterksamenhangen metandere schalen, de subschalen afzonderlijkonvol-
doende betrouwbaar zijn.
Als we vervolgens kijken naar de verklarende kracht van het theoretische concept dat door de
Raven-tests getoetst wordt, dan zien we dat talloze onderzoekers (wier werk is samengevat in
de sectie A/gemeen) hebben aangetoond dat al deze vaardigheden samen de variantie van
menselijke prestaties buiten het onderwijs- en opleidingssysteem voor slechts circa 10% kunnen
verklaren.
Met is dan ook belangrijk dat gebruikers in plaats van te proberen een fijn onderscheid aan te
brengen op "cognitief" gebied, afhankelijk van hun doeleinden, de SPM- en MHV-scores in de
context plaatsen van aanvullende informatie over de waarden en andere competenties van de
desbetreffende persoon (zoals benadrukt door Moreland et al ) of meer gedetailleerde diagnos-
tisehe en prescriptieve informatie verschaffen over de denkfouten die de geteste personen
gemaakt hebben. Welke contextuele informatie verschaft dient te warden bij het presenteren
van de resultaten is besproken in de editie uit 1998 van de secties A/gemeen en Advanced
Progressive Matrices van deze Handleiding. Competence in Modem Society: Its Nature,
Development and Assessment verschaft een denkkader over competentie. Een algemener
overzicht van de nadelige effecten van evaluatie op beperkte basis voor zowel onderzoek als
persoonsbeoordeling, samen met een oplossingskader voor enkele van de problemen, is te
vinden in The Tragic Illusion: Educational Testing
De eerste Standard Progressive Matrices-test werd ontwikkeld midden jaren '30 van de 20e
eeuw' . Deze test werd in 1938 herzien en genormeerd in Ipswich . Tijdens de Tweede Wereld-
oorlog werden uitgebreide normen voor volwassenen verzameld en in 1943 werd de test
opnieuw genormeerd, samen met de MhlV, voor schoolkinderen in Colchester . In dejaren '40
werden aanvullende gegevens verzameld voor oudere mensen en anderen . In de jaren '50 en
'60 werd de nauwkeurigheid van de normen enkele keren gecontroleerd . In 1972 werd een
nationaal representatieve steekproef van 3.700 lerse schoolkinderen in de leeftijd van 6 tot 12
getest . In 1979 publiceerden Kratzmeier en Horn een grootschalige Duitse normering van
de SPM. In 1979 werd ook een nationaal representatieve steekproef van 3.500 Britse school-
kinderen in de leeftijd van 6 tot 16 getest, met uitzondering van leerlingen in het speciaal onder-
wijs . Tussen 1984 en 1986 werd een reeks plaatselijke normeringsonderzoeken uitgevoerd in
schooldistricten in de Verenigde Staten .
Nieuwe normen voor volwassen werden verzameld in China in 1986 , in Belgie tussen 1984 en
1990 , door de auteurs in Dumfries, Schotland, in 1992 en in Des Moines, Iowa (VS), in 1993 .
Naast het materiaal dat gedetailleerd beschreven is in Onderzoekssupplement nr. 1 en nr. 3 van
deze Handleiding, zijn in de editie uit 1995 van sectie 7: Onderzoek en bronnen in het kort de
resultaten samengevat van vele andere onderzoeken die normeringsgegevens hebben opge-
leverd. h4elaas zijn de meeste daarvan, met enkele uitzonderingen die kort genoemd zullen wor-
den, gebaseerd op een te kleine, te leeftijdsspecifieke of te weinig representatieve steekproef
om ze te kunnen gebruiken als populatienormen. Ze zijn echter wel van onschatbare waarde
voor onderzoekers die ze willen gebruiken voor vergelijkende doeleinden of om de geschiktheid
van hun eigen gegevens te controleren.
Normering voor jongeren in Groot-Brittannie in 1979

Wat de Britse normering voorjongeren in 1979 betreft, is het op dit puntvoldoende enkele van
de belangrijkste conclusies samen te vatten, aangezien deze in Onderzoekssupplement nr. 1 in
meer detail besproken warden.
De Britse normering in 1979 werd uitgevoerd naar aanleiding van enkele onderzoeken die erop
leken te duiden dat er een lichte stijging van de SPM-scores had plaatsgevonden sinds de publi-
catie van de eerdere gegevens .
Een van de belangrijkste resultaten van de Britse normering van 1979 was dat deze versnelling
van de ontwikkeling bevestigd werd en er een vermoeden rees dat de mate waarin de scores
van minder begaafde personen afvlakten licht was toegenomen. Deze verschillen lijken te dui-
den op echte veranderingen van prestaties en lijken niet het gevolg te zijn van fouten bij de
steekproefneming voor eerdere onderzoeken. In dat opzicht komen de resultaten overeen met
die van vele ander tests
In tegenstelling tot deze verandering in de loop der tijd lijkt er een opvallende overeenstem-
ming te bestaan tussen de normen die op een bepaald moment in verschillende westerse
samenlevingen verkregen zijn.
Meer gedetailleerde resultaten die door de normering van 1979 bevestigd werden, zijn onder
meer:
1. De scores voor de SPM vertonen geen seksespecifieke verschillen, behalve voor de
leeftijdsgroep van 11 jaar (± zes maanden);
2. Slechts 9% van de variantie binnen de leeftijdsgroep kan verklaard warden door sociale
achtergrond;
3. Evenals bij de Britse en lerse normering (resp. 1938 en 1972) werkt de test op dezelfde
wijze ("levert dezelfde indeling op") voor kinderen van verschillende socio-economische
achtergronden. De test is niet vreemd aan de denkwijze van kinderen van bepaalde
achtergronden".
4. Als de items te moeilijk warden voor kinderen, geven ze minder vaak de goede oplos-
sing voor het item dan op basis van kansberekening verwacht zou warden. Ze hebben
hun antwoorden derhalve niet "willekeurig" bedacht, maar op grand van bepaalde
aannamen, al zijn het dan onjuiste aannamen.
î"',Twring vo©r jo^geren h de VS m 1984/86

De normering voor jongeren in de VS in 1984/86 was gebaseerd op een reeks plaatselijke nor-
meringsonderzoeken in bepaalde schooldistricten in heel de VS. Ruim 22.000 leerlingen werden
getest. Een van de belangrijkste resultaten was dat de normen varieerden afhankelijk van de
etnische en socio-economische samenstelling van het schooldistrict en de geografische ligging.
Binnen de districten varieerden de normen onafhankelijk van etnische en socio-economische
achtergrond. Toch was uit itemanalyses gebleken dat de test op dezelfde wijze een indeling
aanbrengt binnen elk van de etnische groepen en een soortgelijke voorspellende waarde heeft.
De test meet dus hetzelfde en werkt op dezelfde wijze binnen elke groep. De gevolgen van
deze resultaten warden uitgebreid besproken in de editie uit 2000 van Onderzoekssupplement
nr. 3, maar we zullen er hier twee noemen. In de eerste plaats werpen deze onderzoeken, omdat
de Progressieve Matnces-test ontwikkeld was als hulpmiddel voor onderzoek, waarvan de resul-
taten relatief eenduidig geTnterpreteerd konden warden, nieuw licht op het vraagstuk van "test-
bias" dat de afgelopen jaren onderwerp van discussie is geweest in het Amerikaanse onderwijs.
In de tweede plaats is gebleken dat het cruciaal is dat psychologen als ze een test uitvoeren, de
normen kiezen die passen bij het doel waarvoor ze de test willen gebruiken.
Voorveel doeleinden lijken plaatselijke etnische normen meer geschikt te zijn dan de landelijke
normen.
Normering voor volwassenen in Groot-Brittannie in 1992

In 1992 werd een normering van de SPM, APM en MHV uitgevoerd onder de volwassen bevol-
king van de plaats Dumfries in Schotland. Deze marktplaats telt circa 25.000 inwoners en vormt
het centrum van een groot plattelandsgebied. De demografische kenmerken komen overeen
met die van het Verenigd Koninkrijk als geheel en uit de normering van de SPM en MHV voor
schoolkinderen in 1979 was al gebleken dat de normen die in de Borders-regio van Schotland
verkregen waren, overeenkwamen met de normen voor het Verenigd Koninkrijk als geheel.
Bovendien, zoals te zien is in de CPM-sectie van deze Handleiding, kwamen de CPM-normen
die in Dumfries verzameld waren, grotendeels overeen met andere Britse normen en de normen
voorAustralie, Cost- en West-Duitsland, Nederland, Portugal, de Slowaakse Republiek, Slovenie,
Spanje en Zwitserland.
Ondanks de hogere kosten en de logistieke moeilijkheden werd gebruik gemaakt van een
gestratificeerde aselecte steekproef in plaats van de quota-steekproef die door de meeste test-
uitgevers gebruikt wordt, omdat laatstgenoemde procedure erom bekend staat onbetrouwbare
gegevens op te leveren . In tegenstelling tot algemeen wordt aangenomen, hangt de nauw-
keurigheid van de verzamelde gegevens niet af van de absolute aantallen geteste personen,
maar van de representativiteit van de steekproef.
In het kader van dit onderzoek kreeg iedere 29e persoon uit het kiesregister een brief waarin
stand dat er een onderzoeker bij hen langs zou komen. Tijdens het bezoek legde de onderzoeker
het doel van het onderzoek uit en legde hij de persoon Set I van de APM voor. Als de respondent
een bepaalde limiet (aanvankelijk 8, later verhoogd naar 10) of hoger haalde, kreeg hij/zij Set II
van de APM en Formulier 1 of Formulier 2 van de Sen/or-versie van de MHV om in te vullen na
vertrek van de onderzoeker. Als de score onder de limiet lag, kreeg de respondent de SPM en
MHV (opnieuw de Sen/or-versie). Als de respondent veel moeite had met Set I van de APM, dan
warden de SPM en het formulier Definities van de MHV mondeling door de onderzoeker afge-
nomen. Aanvankelijk werd verwacht dat de ingevulde testboekjes na circa twee uur opgehaald
zouden kunnen warden, maar de meeste respondenten konden niet direct na het bezoek de
benodigde tijd aan de test besteden. Meestal werden de boekjes daarom achtergelaten tot de
desbetreffende persoon de tijd kon vinden om de test te doen en later opgehaald. Bijna 80%
van de mensen met wie contact was opgenomen, verleenden hun medewerking aan het onder-
zoek. De voornaamste reden tot weigering was de tijd die het in beslag zou nemen, maar er was
ook een aanzienlijk percentage dat weigerde vanwege een slechte gezondheid of ouderdom.
De laatste reden betekende dat onder oudere mensen een kleiner deel van de benaderde mensen
hun medewerking verleende. Dat is bijzonder jammer, aangezien er weinig gegevens zijn voor
representatieve groepen ouderen en het kost veel geld om zulke gegevens te verzamelen, door-
dat de hier gehanteerde steekproefprocedure gebruikt moet warden om ze te selecteren. In
totaal vulden 645 mensen zowel de APM I als de SPM danwel de APM II in.
Voor elke APM-score werd de corresponderende SPM-score bepaald, en voor elke SPM-score
de APM-score, aan de hand van de equivalentie die doorAndrich en Dawes (nu Styles) was vast-
gesteld en die weergegeven is in Tabel 5. Bovendien zette Styles de statistische gegevens van
de SPM- en APM 11-items aftegen de moeilijkheidsgraad van de nieuwe APM 1-items, uitgedrukt
in logits. Aan de hand van de zo verkregen conversietabellen konden de totale percentielnormen
voor deze twee tests afgelezen warden van de APM 1-spreiding. De totale SPM-percentielen die
bepaald warden door directe conversie van de APM 1-normen, kwamen vrijwel overeen met de
waarden die verkregen waren door eerst alle afzonderlijke APM 11-scores om te zetten naar SPM-
scores en vervolgens de percentielen te berekenen. De tabellen aan het eind van deze sectie
van de Handleiding zijn gebaseerd op de conversie van afzonderlijke scores vanwege hun grotere
nauwkeurigheid.
Aangezien het aantal geteste personen per leeftijdsgroep relatief klein was, werden de percen-
tielen binnen elke leeftijdsgroep, evenals bij voorgaande onderzoeken, gecorrigeerd op basis
van grafische weergave.
Normering voor volwassenen in de VS in 1993
In 1993 werden de APM, SPM en MHV genormeerd in Des Moines, Iowa (VS). Des Moines is een
van de vierAmerikaanse steden waarvan de demografische kenmerken min of meer overeenko-
men met die van de VS als geheel . Op grand daarvan zou verwacht mogen warden dat de
resultaten van een normering in deze plaats vrijwel gelijk zouden zijn aan de normen voor de VS
als geheel. Zoals in Onderzoekssupplement nr. 3 van deze Handleiding beschreven is, kwamen
de normen die tussen 1984 en 1986 in Des Moines verkregen waren op basis van de normering
van de SPM voorjongeren inderdaad overeen met die voor de VS als geheel. Zowel het onder-
zoek onder jongeren in 1 984 als het onderzoek onder volwassenen in 1993 werd georganiseerd
door Barbara Chaplik.
De opzet van het onderzoek was min of meer gelijk aan die voor de normering voor volwassenen
in Dumfries, Schotland, in 1992 en wordt uitgebreid beschreven in Bijlage 1.
In Tabel 10zijn de gecorrigeerde globale normenvoorde SPM uit Des Moines weergegeven, in
Tabel 13 de gedetailleerde SPM-normen en in Tabel 11 een vergelijking van de normen uit de
Verenigde Staten en het Verenigd Koninkrijk.
Uit de tabellen met een vergelijking van de SPM- en MhlV-normen die in de VS en het Verenigd
Koninkrijk verkregen zijn, blijkt dat de normen van Des Moines dalen, wanneer dat ook onge-
veer te verwachten is op grand van ons eerdere onderzoek. De bovenste percentielen komen
vrijwel overeen met die voor hetVerenigd Koninkrijk, terwijl het 50e percentiel en, met name, de
lagere percentielen achterblijven, in ieder geval tot de leeftijd van SOjaar.
Op grand van deze gegevens kan men er vrij zeker van zijn dat de testscores en de gehanteerde
steekproef- en testprocedures in Dumfries en Des Moines betrouwbaar zijn. Desalniettemin
duidt ons inmiddels uitgebreidere onderzoek onder jongeren erop dat de lagere percentielen
voor de VS als geheel verder achter zouden moeten blijven bij de Britse normen dan hier het
geval is. Een mogelijke oorzaak kan zijn dat slechts 7% van de bevolking van Des Moines zwart
is tegen 12% voor de VS als geheel. Ook het hoge alfabetiseringspercentage in Iowa kan hier-
aan deels ten grondslag liggen. hlet is echter een raadsel waarom de Des Moines-normen voor
personen van 50 jaar en ouder niet achterblijven bij de Britse normen. Een verklaring hiervoor
zou kunnen zijn dat, ondanks het eerder geleverde bewijs van de kwaliteit van de totale steek-
proef, de onderzoekers voor deze leeftijdsgroepen minder medewerking kregen van respon-
denten uit de lagere inkomensklassen en de zwarte bevolkingsgroep. Ook in dit opzicht komt de
algehele verdeling per leeftijdsgroep, hoe vreemd die ook lijkt, echter vrijwel overeen met de
gegevens van de census, waarbij drie brede categorieen gehanteerd werden (20-44; 45-64;
65+). Andere mogelijke verklaringen zijn onder meer de mogelijkheid dat de migratie van de
zwarte bevolking van de zuidelijke naar de centrale staten van de VS nog niet op gang was
gekomen, toen de huishoudens in deze leeftijdsgroepen gevormd werden. Maar wat de verkla-
ring ook is, het is duidelijk dat deze Des Moines-normen waarschijnlijk hoger zijn dan de normen
die verkregen zouden zijn bij een aselecte steekproef onder de totale bevolking van de VS.
Nauwkeurigheid van de normeringen voor volwassenen in Dumfries en Des Moines

Gudjonsson suggereerde dat vanwege de wijze waarop de gegevens in Dumfries en Des Moines
verzameld zijn, deze normen wellicht te hoog zijn. De continufteit in de grafieken op basis van
gegevens die met een tussenperiode van 50 jaar verzameld zijn (weergegeven in de sectie
A/gemeen als Grafiek G2 Vm G4) en de samenhang tussen deze gegevens en de gegevens die
verzameld zijn door onderzoekers in vele verschillende landen en andere gegevens in de sectie
APM van deze Handleiding staven deze stelling echter niet . Ook het feit dat de normen van de
APM Set I eenzelfde stijging laten zien, ondanks dat deze test door de onderzoekers op normale
wijze afgenomen werd, ondermijnt deze stelling. De Belgische normen, weergegeven in Tabel29,
lijken de stelling van Gudjonsson echter te ondersteunen en het is dan ook belangrijk erop te
wijzen dat de respondenten van het Belgische onderzoek niet geselecteerd zijn volgens de strikte
steekproefprocedure die gehanteerd werd voor het Britse en Amerikaanse onderzoek, maar
door gedurende een aantal jaar psychometriestudenten te vragen elk 10 volwassenen met ver-
schillende opleidingsniveaus te testen. We kunnen niet genoeg benadrukken dat de kwaliteit
van de verzamelde gegevens niet voornamelijk afhangt van, zoals vaak gedacht wordt, het aantal
geteste personen, maar van de zorg waarmee gewaarborgd wordt dat de steekproef represen-
tatiefis voor de populatie waaruit hij genomen is .
Bovendien is het in de praktijk, zonder af te dingen op het belang van nauwkeurige normen,
belangrijker te onthouden dat de variatie in normen in de loop dertijd en tussen verschillende
onderzoeken heel duidelijk maakt wat we reeds benadrukt hebben: gebruikers van de test moeten
niet proberen een fijner onderscheid aan te brengen dan gerechtvaardigd is op grand van de
theoretische concepten waarop de tests gebaseerd zijn, het onderscheidend vermogen van de
tests en de kwaliteit van de beschikbare ondersteunende gegevens.
Bsschikbare referentiegegevens
In de tabellen achterin deze sectie van de Handleiding zijn geselecteerde normen voor verschil-
lende leeftijdsgroepen weergegeven. Voor kinderen en jongeren betreft het onder meer gege-
vens die verzameld zijn in Groot-Brittannie in 1979, in de Verenigde Staten rond 1986, in Nieuw-
Zeeland in 1984, in Australia in 1986, in China in 1986, in Zwitserland in 1993 en in Frankrijk in
1999. Hierbij zijn ook normen voor slechthorende jongeren inbegrepen. Voor volwassenen
bevatten de tabellen de normen uit 1992 voor Groot-Brittannie, 1993 voor de Verenigde Staten,
1986 voor China en eind jaren '80 voor Belgie.
In Onderzoekssupplement nr. 1 en nr. 3 zijn aanvullende normeringsgegevens te vinden van

Tuddenham voor de VS, van Skanes voor Newfoundland, van Kratzmeier en hlorn voor West-
Duitsland, van Mehlhorn voor Oost-Duitsland en voor circa 20 schooldistricten in de Verenigde
Staten. In de editie uit 2000 van Onderzoekssupplement nr. 3 zijn ook de normen opgenomen
voorverschillende etnische groepen in Amerika en gedetailleerde Amerikaanse normen met de
ongecorrigeerde waarde voor elk percentiel, een tabel voor de conversie van percentielen naar
deviatie-IQ's en standaardscores en betrouwbaarheidszones. In de editie uit 1995 van sectie 7:
Onderzoek en bronnen wordt verwezen naar talloze andere normeringsonderzoeken in zeer uit-
eenlopende culturen.
Tot nu toe zijn er normeringsgegevens voor de SPM P/us verzameld in Duitsland, de Verenigde
Staten en Polen.
Duitsland
In Duitsland verzamelden Stephan Bulheller en Hartmut Hacker de gegevens van 1.796 jonge-
ren, voornamelijk in de leeftijd van 14 t/m 18 en leerlingen van Hauptschule, Realschule en
Gymnasium. De SPM P/us werd, samen met een andere test, afgenomen in het kader van een
keuzevak over solliciteren en een baan vinden. Verder werd een groep studenten in de leeftijd
van 19 t/m 25 en een aantal iets oudere mensen getest. De laatste groep bestond voornamelijk
uit leraren, ouders van de leerlingen die aan de tests hadden deelgenomen en andere belang-
stellenden. (Meer informatie is te vinden in de editie uit 1999 van de Duitse SPM-Handleiding .)
In Tabel 36 zijn de gecorrigeerde globale normen weergegeven voor de SPM P/us gebaseerd op
de scores van de geteste personen in de leeftijd van 14 t/m 30 (afgeleid van de completere
informatie in de Duitse Handleiding). Deze gegevens werden vervolgens omgezet naar Classic
SPM-normen en vergeleken met de Britse normen uit 1979. Het resultaat is weergegeven in
Tabel 37. Deze cijfers wekken de indruk dat in de Duitse steekproef om een of andere reden de
hoger begaafde adolescenten en de minder begaafde volwassenen ontbreken.
Uit vergelijking van de Duitse gegevens voor 14- tot 18-jarigen met de gegevens uit de VS en
Polen die hierna besproken zullen warden Oabel 41) komt een vrij constant patroon naarvoren,
al lijkt tevens bevestigd te warden dat in deze leeftijdsgroepen de hoger begaafde Duitse leer
lingen mogelijk ondervertegenwoordigd waren.
Verenigde Staten
In de VS zijn de gegevens voor de SPM Plus verzameld in het Fort Bend Independent School
District. De tests werden georganiseerd door Kathy Aaron (directeur), Sharon Jackson en Gayle
Seerden van de afdeling Toetsing en beoordeling van het district. Fort Bend ISD is het op 9 na
grootste openbare schooldistrict in de staat Texas. Het telt ruim 53.000 leerlingen, afkomstig uit
25 verschillende landen die samen meer dan 65 verschillende talen spreken. Het is 280 km2
groot en omvat negen vergroeide steden. Volgens een economische en demografische analyse
van de Fort Bend Economic Development Council , zijn er in de VS maar drie districten met
een snellere werkgelegenheidsgroei dan Fort Bend County. Qua etnische diversiteit staat het
district op de negende plaats van het land. In 1998 telde het district 330.000 inwoners. 59% van
de inwoners waren hoger opgeleiden [tegen 45% van de VS als geheel], waarbij 30% 4 of meer
jaar hoger onderwijs gevolgd had. De etnische verdeling was als volgt: blank 51% [75%], zwart
22% [12%], hispanic 19% [10%] en Aziatisch ofafkomstig van de Stille Zuidzee-eilanden 8% [3%].
[Tussen haakjes staan de cijfers voor de VS als geheel.] Het gemiddelde inkomen per huishouden
bedroeg in 1998 $68.778 [$53.198]. Binnen elke etnische groep waren zowel inkomen als op-
leiding hoog ten opzichte van de landelijke gemiddelden. Het werkloosheidspercentage was
4,9%. 34% had een leidinggevende of bestuurlijke functie of een vrij beroep.
Er was behoefte ontstaan aan de ontwikkeling van normen die de unieke diversiteit van de leer-
lingenpopulatie van dit schooldistrict zouden weerspiegelen om beter te kunnen bepalen welk
van de onderwijsprogramma's het meest geschikt was voor de verschillende leerlingen. De
geteste leerlingen waren 51/2 tot 17 jaar oud en kwamen uit alle klassen van de kleuterklas tot de
hoogste klas van de middelbare school. Alle 51 scholen uit het district (33 elementary schools, 9
middle schools en 7 high schools) waren betrokken bij dit project. Op elke school werd wille-
keurig een leerjaar uitgekozen voor de test. Door de deelname van alle scholen werd de eerlijke
vertegenwoordiging van de etnische en culturele samenstelling van elke wijk gewaarborgd. Elk
van de wijkscholen werd gevraagd ten minste een klas met ten minste 30 leerlingen te testen.
De testcoordinator van elke test koos willekeurig een "gemiddelde" klas, waarvan de onder-
wijzer(es) openstond voor deze aanvullende beoordeling.
De aanvankelijke steekproef telde ruim 1.700 leerlingen. Later werd hieraan een aanvullende
steekproef van circa 1.000 leerlingen in de leeftijd van 5 t/m 61/2 toegevoegd. Ook dit was een
aselecte steekproef uit alle scholen.
In Tabel 38 zijn de gecorrigeerde normen weergegeven die op basis van dit project verkregen
zijn. Deze scores zijn in Tabel 39 omgezet in Classic-scores en vergeleken met de Britse normen
uit 1979. Zoals te zien is, zijn de Fort Bend-normen tot circa 9 jaar aanzienlijk hoger dan de
Britse normen. Voor 10- en 11-jarigen zijn de normen min of meer gelijk. Daarna vertonen de
Britse normen een hogere score voor de hogere percentielen, maar een lagere score voor de
lagere percentielen. De resultaten voor de jongere leerlingen zouden eventueel verklaard
kunnen warden door het verschil in socio-economische achtergrond en de te verwachten
stijging van de scores sinds 1979, maar het feit dat deze trend zich niet doorzet, lijkt daarmee in
tegenspraak. Zoals al eerder genoemd, zijn de gegevens uit Fort Bend voor 14- tot 19-jarigen
vergeleken met die uit Duitsland en Polen (Tabel 41), waarbij opvallende overeenkomsten naar
voren kwamen.
Poien
In Polen was Aleksandra Jaworonska verantwoordelijk voor de verzameling van gegevens onder
adolescenten en volwassenen. Voor de eerste groep werden 1.443 jongeren in de leeftijd van
15 t/m 19 van drie verschillende middelbare-schooltypen getest. Leerlingen uit het lager
beroepsonderwijs en jongeren met alleen een basisschoolopleiding werden uitgesloten. De
steekproef is echter wel genomen uit 15 regio's van het land (zonder Warschau) en is represen-
tatiefvoor alle middelbare-schooltypen en grote en kleine plaatsen. Voor de volwassenen werd
een quota-steekproef, gestratificeerd naar leeftijd, geslacht, woonplaats (grate stad, kleine stad,
dorp) en opleiding, genomen. De editie uit 2000 van de Poolse SPM-Handleiding bevat uitge-
breide informatie over de wijze waarop deze steekproeven genomen zijn .
Tabel 40 bevat de gecorrigeerde globale normen voor de SPM P/us in Polen en in Tabel 41 zijn
deze gegevens vergeleken met die van Duitsland, Kroatie en Fort Bend. Zoals al vermeld is,
toont deze tweede tabel over het geheel genomen opvallende overeenkomsten tussen de
normeringsgegevens voor deze vier zeer verschillende steekproeven die op verschillende
manieren in verschillende landen verzameld zijn.
Na conversie van de SPM P/us-gegevens voor volwassenen naar Classic SPM-scores en ver-
gelijking met de C/ass/c-normen voor Dumfries uit 1992, bleken de Poolse normen echter
beduidend lager te zijn dan de Britse normen en dat verschil bleek toe te nemen met de leeftijd.
Enkele alternatieve verklaringen dienden zich aan. Bij het ter perse gaan van deze sectie stuur-
de Aleksandra Jaworonska ons enkele normen voor de Classic SPM die in 1991 verzameld waren
via een quota-steekproef onder Poolse volwassenen. We hebben hiervan in deze editie slechts
een overzichtstabel (41 b) kunnen opnemen. In de eerste plaats suggereren de gegevens dat de
C/assf'c-normen voor Polen in de editie uit 2000 die verkregen waren na conversie van de P/us-
gegevens redelijk overeenkomen met die van de Poolse normering voor de Classic SPM uit
1991. Dit versterkt het vertrouwen in zowel de conversietabel als in de kwaliteit van de onder-
zoeken. In de tweede plaats is de divergentie tussen de Poolse en Britse gegevens (relatief) sys-
tematisch en de divergentie neemt af met het geboortejaar en begaafdheidsniveau. Als er dus
een methodologische verklaring is voor het verschil, moet die een differentieel effect hebben op
verschillende leeftijdsgroepen en begaafdheidsniveaus. In feite (zie Onderzoekssupplement nr.
3) zijn de RPM-normen voor populaties op het platteland over het algemeen lager dan elders en
Jaworowska had reeds gegevens gepubliceerd die crop duidden dat Poolse kinderen in de
leeftijd van 71/2 Vm 91/2 lager scoren dan hun leeftijdsgenoten in het Verenigd Koninkrijk en de
Verenigde Staten.
Waarom bestaat er dan geen divergentie tussen de SPM Plus-normen voor jongeren in Duits-
land. Fort Bend en Polen? Wellicht zijn die allemaal hoger dan de normen die verkregen zouden
zijn als er een dwarsdoorsnede van de bevolking van elk land was genomen voor de test: Fort
Bend is een welvarende en zich snel ontwikkelende multiculturele regio en bij de Poolse steek-
proefwaren leerlingen uit het lager beroepsonderwijs en jongeren met alleen een basisschool-
opleiding uitgesloten.
Nauwkeyrigheid van de conversletabeElen

Toen de Duitse SPM P/us-gegevens binnenkwamen, hebben we een snelle conversie naar
C/assic-scores uitgevoerd om te controleren of deze procedure geen normen opleverde die
sterk afweken van de beschikbare C/ass/c-gegevens. De vergelijking was niet perfect, maar de
discrepanties leken niet te duiden op een systematische fout.
Sindsdien heeft John Court een rechtstreekse vergelijking uitgevoerd van de werkelijke SPM-
scores met de SPM-scores die verkregen werden door conversie van de voor de SPM P/us
behaalde score. 55 personen deden zowel de Classic- als de P/us-test. Een deel van de respon-
denten deed eerst de ene test en de overigen deden eerst de andere test. Vervolgens werd aan
de hand van Tabel 3 voor elke P/us-score de C/assic-score bepaald. De correlatie tussen de
werkelijke scores en de aan de hand van de P/us-scores bepaalde scores was .81; een getal dat
min of meer overeenkomt met de test-hertest-betrouwbaarheid van de SPM. Er bestond ook
nog de mogelijkheid dat de conversietabel stelselmatig hogere of lagere schattingen van de
C/assic-scores zou geven. Bij controle daarvan bleek niets erop te duiden dat dit inderdaad het
geval was.
-7
Hoewel een normale mate van bekendheid met de test weinig effect heeft op de score en
hoewel het in de praktijk eenvoudig is vast te stellen wie speciaal getraind is of de antwoorden
uit het hoofd geleerd heeft , was midden jaren 70 de opvatting dat de tests "te bekend"
waren zo wijd verbreid geworden, dat maatregelen nodig waren. Er werd daarom begonnen
met de ontwikkeling van parallelle versies van de tests. Door oorzaken die in Bijlage 2 nader
uiteengezet warden, hadden de eerste pogingen daartoe geen resultaat. Intussenmaakte eerst
de normering voorjongeren in 1979 en later de normering voorvolwassenen in Groot-Brittannie
in 1992 duidelijk dat de test uitgebreid moest warden met veel moeilijkere items om het onder-
scheidend vermogen te herstellen dat de test in 1938 had voor hoger begaafde adolescenten
en jongvolwassen. In Bijlage 2 wordt de ontwikkeling van deze parallelle en'uitgebreide items in
meer detail besproken.
Het is hierbij belangrijk op te merken dat besloten werd een parallelle test te ontwikkelen, waar-
bij de items stuk voor stuk met de oude test zouden overeenkomen qua duidelijke oplossings-
strategic en empirische moeilijkheidsgraad. Alleen dan zouden gebruikers met een gerust hart
bestaande normeringsgegevens kunnen hanteren en zouden eventueel door hen verzamelde
nieuwe gegevens opgenomen kunnen warden in de internationale datapool. Deze pool is heel
belangrijk gebleken voor het signaleren van verschillen in testscores tussen verschillende perioden
en verschillende culturen (en kan derhalve helpen de invloed van de omgeving vast te leggen en
te verklaren).
Ook de normering voor volwassenen in Groot-Brittannie in 1992 had echter grote invloed op
het ontwerp van een versie van de test met een groter onderscheidend vermogen in de boven-
klasse. Dit kan warden aangetoond aan de hand van figuur 1.
In figuur 1 zijn het gemiddelde en bereik weergegeven voor de scores van volwassenen uit elk
geboortejaar van 1877 t/m 1972. Hieruit blijkt duidelijk dat de huidige jongvolwassenen te
maken krijgen met een plafondeffect.
Als de vrijwel lineaire lijn van het 95e percentiel per geboortejaar geextrapoleerd wordt vanaf
het punt waarop de afvlakking begint (i.e. bij het geboortejaar 1902) tot 1974, dan blijkt dat er
een test van 84 items nodig is om hetzelfde onderscheidend vermogen te bereiken voor hoger
begaafden die geboren zijn in 1974 als de versie uit 1938 had voor personen die voor1902
waren geboren.
FIGUUR1 Standard Progressive Matrices
Gevolgen van scorestijging voor de moeilijkheidsgraad van de herziene test
(Basisgrafieken overgenomen van Grafiek G2 in sectie Algemeen)
80
70 | (/)
60 60
50 25%
10%
40 5%
2
8 30
(/)
5%
20 Foulds& Raven (1948)
(veldwerk1941-2)
Raven (1992) (veldwerk 1992)
10
1882 1892 1902 1912 1922 1932 1942 1952 1962 1972 Geboorteia
1877J1887 1897 1907 1917 1927 1937 1947 1957 1967
Leeftijd ca. 65 60 55 50 45 40 35 30 25 20 (Foulds'& Raven, 1948)
70 65 60 55 50 45 40 35 30 25 20 (Raven, 1992)
Zelfs een test van deze lengte zou minder ruimte bieden voor verbetering boven het 95e per-
centiel dan de versie uit 1938 (gelukkig) geboden had.
Het kwam er dus op neer dat er een test van circa 90 items nodig was om het onderscheidend
vermogen voor hoger begaafde respondenten van de SPM op hetzelfde niveau te brengen als
in 1938.
In Bijlage 2 wordt beschreven hoe talloze mensen in verschillende landen zich hebben ingezet
voor de ontwikkeling van de vereiste items, de uitvoering en analyse van proefonderzoeken.
Uiteindelijk warden grate aantallen personen van elk begaafdheidsniveau getest voor de
equivalering van de items.
De "paralielle" test
Figuur 2 toont de verdeling van de ongecorrigeerde scores voor de Classic en de Parallel SPM-
tests van personen met dezelfde begaafdheid (uitgedrukt in logits). Gekeken naar de totaal-
scores, staat buiten kijf dat de twee tests onderling uitwisselbaar zijn.
In figuur 3 is de moeilijkheidsgraad in logits van de oude en parallelle items van de SPM inge-
tekend op een gemeenschappelijke schaal. Het is duidelijk dat, met de mogelijke uitzondering
van A9, de moeilijkheidsgraad van de parallelle items vrijwel gelijk is aan die van de oude items.
FIGUUR 2 Equivaleringsonderzoek 1996
Beguafdheid (in logits) bij elke ruwe score voor de Classic en Parallel SPM
Classic SPM
Parallel SPM
-6 -4-20 2
Begaafdheid (logit)
FIGUUR 3 Equivaleringsonderzoek 1996

Vergelijkbare moeilijkheidsgraad (in logits) van Classic en Parallel SPM-items
8
I
I D11
D1. C12
1E12"
-I.-
I A5_
I -2 [)1 A1 A7 C1
I A3 A4 B3
i, -4 B1 B2
I A2
s -6
-8 -40 4
Moeilijkheidsgraad van Classic SPM-item
Bestudering van A9 uit de Parallel-test bracht de oorzaken van de ongelijkheid aan het licht,
waarna de item aangepast is.
SPM Plus
Vervolgens zullen we nu kijken naar de "uitbreiding" van de test om het onderscheidend ver-
mogen en de mate van bruikbaarheid voor de bovenklasse te vergroten. In Bijlage 2 wordt
beschreven hoe een grote hoeveelheid nieuwe items ontwikkeld en uitgeprobeerd is, die ver-
volgens is teruggebracht tot 88 items voor de uiteindelijke equivalering van de items. Hiervan
vielen vier items af die het minst geschikt waren volgens het Rasch-model. In figuur 4 wordt de
moeilijkheidsgraad van de overgebleven 84 parallelle en nieuwe items weergegeven.
Hoewel het niet direct duidelijk is uit een grafiek op deze schaal, blijkt na nadere bestudering
dat de verschillende sectoren een aantal items bevatten waarvan de moeilijkheidsgraad min of
meer gelijk is. Dat leidde tot de conclusie dat door vergelijkbare items uit deze sectoren te
verwijderen, een lineaire toename van de moeilijkheidsgraad van de items bereikt zou kunnen
warden. Een van deze sectoren bevat items D3 tot At 1. Het is duidelijk dat door 24 items te
verwijderen, voornamelijk van de set parallelle items uit de oorspronkelijke test, een test
gecreeerd kan warden met een optimale lengte (qua vermoeidheid en verveling) en toch vol-
doende onderscheidend vermogen voor alle begaafdheidsniveaus. En dat zou niet het enige
voordeel van een dergelijke test zijn. Zoals Carver heeft aangetoond, zou een test die zo
opgesteld is dat gelijke toename van de totaalscore overeenkomt met een gelijke toename van
de moeilijkheidsgraad van de moeilijkste items waarop elke score gebaseerd is, grote voordelen
bieden.
HGUUR4 Equivaleringsonderzoek 1996

Moeilijkheidsgraad van de items (in logits): 84 items (60 parallelle items en 24 aanvullende items)
-2
.4-1-
s!ssgsi3sa553s;S8scaoB3SssE,assaESSsa,s3S5Ba3sasl3EaEg!s5S,seaes:s;asss5aMs!!ea£S5sSSSSSESÊ
Wanneer bij een test een lineair verband bestaat tussen de totaalscore en het begaafdheids-
niveau dat hoort bij het moeilijkste probleem dat iemand kan oplossen, zou voorkomen warden
dat onderzoekers onterechte conclusies trekken over zaken als wijzigingen in de ontwikkelings-
snelheid en afname van deductieve vaardigheden met de leeftijd. Schijnbare wijzigingen in de
mate van toename en afname van deductieve vaardigheden met de leeftijd warden veroorzaakt
door een ongelijke verdeling van items per moeilijkheidsgraad, zoals blijkt uit figuur 4. Het
gevolg daarvan is dat zich, op bepaalde punten van de verdeling, grote toenamen (of afnamen)
van de totaalscore voordoen zonder een evenredige toename of afname van de werkelijke
begaafdheid. Dat leidt er vervolgens toe dat een snelle toename en afname van de ongecor-
34 I RAVEN i HANDLEIDING
rigeerde score op bepaalde leeftijden niet gekoppeld zijn aan de toename of afname van de
werkelijke begaafdheid.
Elk van de sets in de SPM (i.e. A, B, C, D en E) is echter opgebouwd uit items van verschillende
typen. Deze vereisen niet alleen andere vormen van redenering, maar verschaffen de geteste
personen ook informatie over de benodigde logische denkwijze om het volgende item van die
set te kunnen oplossen. Weglating van de meest voor de hand liggende kandidaten voor ver-
wijdering zou geleid hebben tot een selectie van 60 items, waarbij dit unieke kenmerk van de
test verloren zou zijn gegaan, evenals het verband tussen de SPM en CPM. Bovendien zou dat
ook een afname betekenen van het zojuist gerealiseerde, goede onderscheidend vermogen
tussen oudere volwassenen en jonge kinderen op gebieden waar de test uit 1938 maar matige
resultaten opleverde en dat is juist van bijzonder belang in het kader van recente wetgeving
inzake gehandicapten.
Als een compromis warden de items van set A en B in de Parallel-test gehandhaafd. Voor de
nieuwe set C werden vijf items geselecteerd (op grand van de moeilijkheidsgraad en logica)
die de logische stappen van zowel de oude set C als D weerspiegelden, aangevuld met twee
nieuwe items.
De moeilijkheidsgraad van de resterende items wordt in figuur 5 getoond als doorlopende lijn
en in figuur 6 uitgesplitst per set. Uit figuur 5 blijkt wel dat we er redelijk in geslaagd zijn een test
op te stellen van items met een lineaire toename van moeilijkheidsgraad (uitgedrukt in logits),
en derhalve een gelijke toename van de totaalscore bij een gelijke toename van begaafdheid,
zonder afbreuk te doen aan het eerder genoemde verband met de CPM en het onderscheidend
vermogen onder personen met lagere scores.
Deze nieuwe versie van de test met een groter onderscheidend vermogen voor de bovenklasse,
vrijwel gelijk onderscheidend vermogen voor de onderklasse en een veel sterker lineair verband
tussen de totaalscore en begaafdheid kreeg de naam SPM P/us.
HCUUR 5 Equivaleringsonderzoek 1996

SPM Plus: moeilijkheidsgraad van de items (in logits): 60 items, waaronder ALLE items van parallelle sets
Aen B en 5 van elk van de parallelle sets C en D, gerangschikt naar moeilijkheidsgraad
6
-2
-4
-6
5iS5393S5^5SS53SSCSBS£SSS£E3«SSS5S3SB?0!3S?!aSSPS?!£B?S;E555F55:5?5?
FIGUUR6 Equivaleringsonderzoek 1996
SPM Plus: moeilijkheidsgraad van de items (in logits): 60 items, waaronder ALLE items van parollelle sets
Aen B en 5 van elk van de parallelle sets C en D, gerangschikt per set
6
-2
-44-
-6
53351SSS3S55553SS3S£S£^£55303B808sB5g5SSSSSSSS§5Ê£!GSBSasaS=S
Tot slotwerden de posities van dejuiste antwoorden gewijzigd om te voorkomen dat iemand de
juiste antwoorden van de SPM uit het hoofd zou leren en daarvan zou kunnen profiteren. De
scoretabellen van zowel de Parallel-versie van de SPM als SPM Plus verschillen dan ook van
die van de Classic SPM en van elkaar.
In de literatuur wordt melding gemaakt van ruim 40 onderzoeken naar de betrouwbaarheid van
de SPM. Deze onderzoeken hebben betrekking op zeer uiteenlopende leeftij'dsgroepen, vele
verschillende culturele groepen en zowel klinische als normale populaties. Van al deze onder-
zoeken is een samenvatting opgenomen in de editie uit 1 995 van sectie 7: Onderzoek en bronnen.
Bij enkele van deze onderzoeken is gebruik gemaakt van te kleine steekproeven of toepassing
op zeer jonge respondenten (voor wie de CPM beter geschikt zou zijn), waardoor de waarde
ervan twijfelachtig is. Als we deze onderzoeken buiten beschouwing laten, dan verschijnt er een
algemeen beeld van goede betrouwbaarheid, zowel qua interne consistentie als qua hertest-
betrouwbaarheid.
interne consistentie
Zoals is toegelicht in de sectie A/gemene inleiding van deze Handleiding, is bij de Progressive
Matrices- en Mill Hill Vocabu/ary-tests het uitgangspunt voor de interne consistentie dat de
opbouw van geTnformeerde tests gebaseerd wordt op de itemresponstheorie in plaats van factor-
analyse. In de eerste plaats moet dan bepaald warden in hoever de itemkarakteristieke curven
de ideale vorm hebben en of er weinig crossovers zijn, of de items, voorzover mogelijk, gelijk
verdeeld zijn en of ze de hele groep of alle begaafdheidsniveaus waarvoor de test bedoeld is,
dekken. Ten tweede dient vastgesteld te warden of de test leden van verschillende populaties
op dezelfde wijze inschaalt. hlet is niet logisch om de items onderling te correleren (zoals het
geval zou zijn bij tests waarvan de interne consistentie gebaseerd wordt op factoranalyse),
omdat het feit dat iemand eenvoudigere items goed oplost niets zegt over zijn of haar vermogen
de moeilijkere items op te lessen.
Bij de Britse normering voorjongeren in 1979 werden de correlaties tussen de moeilijkheids-

graad van de verschillende items afzonderlijk vastgesteld voor acht socio-economische groepen.
Deze lagen tussen de .97 en .99, waarbij de laagste waarde van .97 een statistisch artefact was.
Bij de Amerikaanse normering , varieerden de correlaties tussen de moeilijkheidsgraad van de
items die afzonderlijk vastgesteld werden voor verschillende etnische groepen (zwart, blank,
hispanic, Aziatisch en Navajo) van .97 tot 1.00. Jensen meldde vergelijkbare resultaten voor de
CPM. Volgens Owen heeft de test dezelfde psychometrische kenmerken voor alle etnische
groepen in Zuid-Afrika. Dat wil zeggen dat de test personen op min of meer dezelfde wijze
inschaalt, een vergelijkbare betrouwbaarheid heeft, op vrijwel gelijke wijze correleert met andere
tests en dat factoranalyse van deze correlaties vergelijkbare factorstructuren oplevert. De a-fzon-
derlijk vastgestelde correlaties tussen de moeilijkheidsgraad van de items bij de normeringen in
hetVerenigd Koninkrijk, de VS, Cost- en West-Duitsland, Nieuw-Zeeland en China lopen uiteen
van .98 tot 1.00. De test is dus uiterst robuust en werkt op dezelfde wijze (meet hetzelfde) voor
zeer uiteenlopende culturele, socio-economische en etnische groepen, ondanks de (soms aan-
zienlijke) variatie van de gemiddelde scores van deze groepen.
Aangezien de SPM-items gerangschikt zijn naar moeilijkheidsgraad en gebaseerd zijn op een

drie-parameter Rasch-type model , zou men bij de split-half-methode hoge betrouwbaarheids-
coefficienten verwachten. Het merendeel van de split-half-coefficienten voor interne consisten-
tie die in de literatuur gemeld warden zijn hoger dan .90, met een modus van .91 . Drie van
deze onderzoeken werden uitgevoerd met respondenten jonger dan 20 jaar en een met vrou-
wen met een gemiddelde leeftijd van 77 jaar. Twee onderzoeken meldden lage split-half-coeffi-
cienten voor betrouwbaarheid onderjongere respondenten, maar een daarvan heeft duidelijke
beperkingen. Georgas deed onderzoek met 727 Griekse kinderen en meldde een cijfer van
.60 voorzijn jongste groep (6jaar), waarvoorde CPM wellicht betrouwbaardere resultaten opge-
leverd zou hebben. Ter vergelijking: voor zijn 12 jaar oude respondenten meldt hij een waarde
van .98. De door Keir gemelde correlatiecoefficient van .76 bij 296 kinderen is aanzienlijk lager
dan de correlatiecoefficient die in de meeste andere grote onderzoeken gemeten is.
Burke meldde een reeks waarden, uiteenlopend van .89 tot .97 afhankelijk van de leeftijd, bij
ruim 500 volwassenen in de VS, terwijl Gittins een waarde van .89 melde voor basisschoolleer-
lingen en .93 voor middelbare-schoolleerlingen die werden getest in een erkende schoolcon-
text. Evans maakte tevens onderscheid tussen verschillende leeftijdsgroepen dove respon-
denten en meldde .90 voor kinderen van 6 t/m 10 en .92 voor kinderen van 11 t/m 15. Evenzo
meldden Jensen en Munro .90 voor meisjes uit de 'ninth grade' (15 jaar) en ook Morgan regi-
streerde .90 in een schoolsituatie.
Deze onderzoeken zijn voornamelijk uitgevoerd in Noord-Amerika en Groot-Brittannie. Rapporten

uit andere landen bevestigen deze bevindingen. Kuhnlein et al signaleerden een split-half-
coefficient voor betrouwbaarheid van .94 bij een Duitse steekproef van 194 psychiatrische
patienten, Stinissen en Swinnen meldden correlatiecoefficienten van respectievelijk .94 en
.95 bij groepen Belgische schoolkinderen, terwijl Baraheni split-half-correlatiecoefficienten
meldde van .89 tot .95 bij Iraanse respondenten van 9 t/m 18 en Johnson et al een Kuder-
Richardson correlatiecoefficient van .85 vaststelden bij Koreaanse gezinnen. Miao en h-luang
registreerden split-half-coefficienten voor betrouwbaarheid uiteenlopend van .50 tot .93 bij 6.193
respondenten uit heel Taiwan. Zhang en Wang meldden .95 voor het vasteland van China.
Sorokin meldde een split-half-correlatiecoefficient van .96 voor Joegoslavische tieners en

Rocco registreerde een Kuder-Richardson correlatiecoefficient van .87 bij ruim 5.000 respon-
denten uit Uruguay in de leeftijd van 12 t/m 44. Deze laatste, enigszins lagere waarde werd toe-
geschreven aan de tijdslimiet die voor de test was ingesteld. Bij een Indiaas onderzoek onder
180 tieners meldde Ganguly een split-half-coefficient voor betrouwbaarheid van .84, terwijl
Sinha , ook uit India, .89 en .95 meldde. Dey stelde bij getalenteerde Indiase studenten een
Kuder-Richardson correlatiecoefficient van .91 vast.
Rao en Reddy meldden een even/oneven-betrouwbaarheidscoefficient tussen .92 en .93 en

gaven aan dat beide testhelften gebruikt konden warden als onderscheidende test.
Twee Indiase rapporten van Dolke zijn enigszins twijfelachtig, aangezien ze beide betrekking
lijken te hebben op dezelfde steekproef van 512 (of 521) textielarbeiders met een gemiddelde
leeftijd van 42 jaar. Dolke meldt een Kuder-Richardson correlatiecoefficient van .67 en een
Spearman-Brown coefficient van .73, terwijl Dolke en Sharma waarden van respectievelijk .87
en .93 melden.
In 1958 vatte Burke de gegevens over de consistentie van de SPM samen onder het voorbe-
houd dat de nauwkeurigheid twijfelachtig kon zijn gezien de beperktheid van de op dat moment
beschikbare gegevens. In 1972 publiceerde hij verder onderzoek waarin de correlatie-
coefficienten, bij 567 respondenten, uiteenliepen van .83 voor jongvolwassenen tot .95 voor
respondenten van 56 t/m 65 jaar. Bij dat onderzoek stelde hij vast dat de "gecorrigeerde
betrouwbaarheid met de split-half-methode voor Raven-scores beterwas dan de gecorrigeerde
betrouwbaarheid met de split-half-methode voorWAIS Performance Scores" en hij concludeer-
de dat "deze gegevens over betrouwbaarheid de eerder geuite twijfel omtrent de betrouw-
baarheid van de Raven enigszins wegnemen. De test lijkt voldoende geschikt voor individuele
besluitvorming, in ieder geval voor een Amerikaanse veteranenpopulatie ofvergelijkbare popu-
latie van volwassen mannen met een leeftijdsbereik van circa 25 jaar." Uit de andere hier
vermelde onderzoeken kunnen we afleiden dat het vertrouwen van Burke niet onterecht is en
ook voor andere groepen geldt.
Test-hertest-betrouwbaarheid
Er zijn ruim 20 papers over de hertest-betrouwbaarheid van de test verschenen, die alien samen-
gevat zijn in de editie uit 1995 van sectie 7: Onderzoek en bronnen. De onderzoeken verschillen
sterk in methodologie en de intervallen tussen test en hertest lopen uiteen van een week tot drie
jaar. Zoals te verwachten was, leveren de kortere intervallen hogere betrouwbaarheidscorrelaties op.
Laroche meldde een correlatiecoefficient van .85 na een week bij Kongolese schooljongens uit
de 'sixth grade' (12 jaar) en verwees naar de resultaten van Verhaegen met een waarde van
.88, ook bij Kongolese schoolkinderen, na enkele weken. Bij dit laatste onderzoek is de omvang
van de steekproef helaas niet bekend. Wel wordt een correlatiecoefficient van .55 gemeld voor
een hertest na een jaar. Dat is de laagste waarde die in de literatuur te vinden is en dat zou ver-
oorzaakt kunnen zijn door een kleine omvang van de oorspronkelijke steekproef en/of uitval. Het
rapport van Tully over Amerikaanse middelbare scholieren, zowel zwart als blank, levert duide-
lijker bewijs. De correlatiecoefficienten bij de hertest na een jaar liepen uiteen van .55 tot .84,
maar de eerste waarde houdt duidelijk verband met de zeer kleine n van 21. Een Duits onder-
zoek onder 1.000 schoolkinderen, getest vanaf een jaar of twaalf tot een jaar of 20 a 21, leverde
relatief lage waarden op. Na een interval van vierjaarwas de betrouwbaarheid .61 en na elfjaar
was dit afgenomen tot .46.
Uit andere grote onderzoeken komt een duidelijker beeld naar voren van de betrouwbaarheid
die op de korte termijn rond de .90 ligt en na langere intervallen afneemt tot circa .80. Stinis-
sen meldde gegevens uit Belgie na een week, een maand en drie maanden met een hertest r
van respectievelijk .89, .81 en . 78. Dat sluit aan bij de bevindingen van Rath van .91 na 7 a 10
dagen bij Indiase studenten. Zhang en Wang ) registreerden in China .82 na 15 dagen en .79 na
30 dagen. Jahoda registreerde een waarde van .82 na eenzelfde interval bij tieners uit Gold
Coast en Cole et al meldden .86 na negen maanden. Dolke nam fabrieksarbeiders na zes
weken een hertest afen meldde een waarde van .80. Bij de Chinese normering in 1986 bedroeg
de hertest-betrouwbaarheid voor deelsteekproeven van 52 (13 t/m 1 5 jaar) en 35 (1 1 t/m 12 jaar)
kinderen na een maand respectievelijk .79 en .82, terwijl Miao en Huang waarden tussen .53
en .92 meldden na vierweken.
Calvert en Waterfall , die gebruik maken van geautomatiseerde weergave, melden een hertest-
betrouwbaarheid van .82 tot 1 .00.
Bij de aanvankelijke onderzoeken met de SPM , varieerde de betrouwbaarheid tussen .83 en

93, waarbij de hogere waarden golden voorjongere respondenten (onder de 30) (zie Tabel 1).
hlet bewijs werd eerst samengevat door Desai en later door Burke
Inmiddels zijn er verschillende verdere onderzoeken gepubliceerd. Sheppard et al regis-

treerden een waarde van .88 bij mannelijke drugsgebruikers met een hertestinterval van 80
dagen en Goetzinger et al meldden .82 bij dove kinderen na eenzelfde interval. Evans testte
aanvankelijk 100 respondenten, eveneens dove kinderen (in de leeftijd van 6 t/m 15). Na drie
jaar werden 42 kinderen uit deze steekproef opnieuw getest, wat een correlatiecoefficient van
.78 opleverde. Bij een onderzoek onder begaafde zwarte kinderen uit de 'eight grade' (14 jaar)
meldde Fitzgibbon een waarde van .86 bij 77 respondenten.
Goed uitgevoerde onderzoeken duidden derhalve op een bevredigende hertest-betrouwbaar-

heid voor de SPM voor periodes tot een jaar. Voor langere periodes is het bewijs beperkt, voor-
namelijk door onzekerheid omtrent de omvang van de steekproeven en uitval van respondenten
uit de oorspronkelijke steekproeven.
De hoge hertest-betrouwbaarheid van de Mf7/ Hill Vocabulary Scale (Tabel 1) weerspiegelt

het feit dat mensen zich eenmaal verworven informatie normaalgesproken zonder problemen
weer kunnen herinneren. Over het algemeen zijn de hertest-betrouwbaarheid en de inter-
correlaties tussen de Matrices- en de Vbcabu/ary-tests het laagst bij heel jonge kinderen en heel
oude mensen .
Onder normale omstandigheden blijven de scores voor de Vocabulary-test na het bereiken

van de volwassenheid min of meer constant, in ieder geval tot de leeftijd van 65 jaar. De scores
voor de Matrices-test bereiken hun piek rond 14-jarige leeftijd en blijven dan ongeveer tien jaar
relatief constant, waarna ze weer geleidelijk, maar wel opvallend gelijkmatig, afnemen .
TABEL1 Hertest-betrouwbaarheid en intercorrelatie van de Standard Progressive Matrices en Mill Hill Vocabulary
Scales op verschillende leeftijden
Leeftijdsbereik SPM MHV Correlatie
(jaar) Gemiddelde Hertest- Gemiddelde Hertest- tussen SPM- en

score betrouwbaarheid score betrouwbaarheid MHV-scores
13± 1 41 .88 34 .87 .57
Jongerdan 30 48 .93 41 .97 .60
30-39 37 .88 33 .91 .51
40-49 35 .87 31 .98 .45
50 en ouder 29 .83 31 .90 .44
Onderzoek van Flynn, Schaie en de auteurs duidt er echter op dat deze schijnbare daling met de
leeftijd in feite een stijging van de scores is met het geboortejaar, zoals is toegelicht in de editie
uit 1998 van de sectie Algemene inleiding van deze Handleiding. Deze stijging bedraagt circa
een standaarddeviatie per generatie. hlet gevolg daarvan is dat circa 50% van grootouders die
50 jaar ouder zijn dan hun kleinkinderen onder hun 5e percentiel scoren. Deze verandering in de
loop der tijd betekent dat gebruikers tot uiterst misleidende beoordelingen zullen komen en
onderzoekers foutieve conclusies zullen trekken, als ze verouderde normen gebruiken. De
gegevens duiden er echter wel consequent op dat de scores enigszins dalen na het bereiken
van 50-jarige leeftijd.
Lichamelijke of geestelijke klachten hebben geen noemenswaardige invloed op de hertest-
betrouwbaarheid van de SPM of MHV
Ouderdomsdementie lijkt geen normaal ouderdomsverschijnsel te zijn, maar een pathologische

aandoening die vaker voorkomt op hogere leeftijd. Het beTnvloedt iemands vermogen om zich
verworven informatie te herinneren en intellectuele activiteiten uit te voeren . Beide functies
lijken ook meer te fluctueren bij aanwezigheid van dementie dan onder normale omstandig-
heden.
Criteriumgerichte validiteit
De concurrente en predictieve validiteit van de SPM varieert afhankelijk van de leeftijd, mogelijk
het geslacht en de homogeniteit van de steekproef, alsmede van de conceptuele relevantie van
hetcriterium waaraan de SPM gekoppeld wordten de kwaliteitvan de meting daarvan. Op basis
van relevant onderzoek kunnen echter enkele algemene conclusies getrokken warden.
Correlaties met concurrente intelligentiemaatstaven

Voor Engelstalige kinderen en adolescenten lopen betrouwbare correlaties van de SPM met
de Binet- en Wechsler-schalen uiteen van .54 tot .86 . Rogers en Holmes ! registreerden cor-
relaties tussen de SPM en WISC-R tussen .83 en .92 bij een gestratificeerde steekproef van
Canadese kinderen in de leeftijd van 7 t/m 11. Pearce'-2 ontdekte dat de SPM een bijzonder
goede predictor was voor de volledige WISC-R-scores van leerlingen uit de '5th' en '6th grade'
(11 en 12jaar).
Bij een studentenonderzoek met 17 respondenten werd een uitzonderlijk hoge correlatie tussen
de SPM en de MHV vastgesteld van .95 . De Lemos signaleerde een trend dat de SPM een
hogere correlatie had met andere intelligentiemaatstaven (waarvan de meeste normaalgespro-
ken een tijdslimiet hadden) indien de test werd afgenomen met een algemene tijdslimiet dan bij
afname zonder tijdslimiet (zo bedroeg de correlatie tussen de Jenkins Non-Verbal Test en de
SPM .76 met tijdslimiet voor de SPM en .70 zonder tijdslimiet). Er werden ook matige tot hoge
correlaties vastgesteld tussen de SPM en verschillende non-verbale en performale intelligentie-
testen voor gebruik met kinderen . Correlaties met verbale intelligentie- en vocabulairetests
zijn over het algemeen iets lager, meestal onder de .70 . In China was de correlatie van de SPM
met een volledige WISC-R-test .71, met een verbale IQ-test .54 en met een performale IQ-test
.70 . In vergelijking met de Britse onderzoeken zijn de correlaties tussen tests die gebaseerd
zijn op intercultureel onderzoek met niet-Engelstalige kinderen en adolescenten over'het
algemeen lager, zij het niet drastisch, uiteenlopend van circa .30 tot .68 . Bij een zorgvuldig
opgezet onderzoek in Polen werden echter correlaties vastgesteld tussen de SPM en de WISC
die uiteenliepen van .70 tot .75 voor kinderen van 7 t/m 11 jaar en Hoffman oordeelt
positief over de SPM in vergelijking met de WISC-R voor gebruik met Mexicaans-Amerikanen.
De correlaties tussen tests zijn qua hoogte en patroon voor volwassen respondenten vergelijk-
baar met die voor kinderen . Enkele Amerikaanse onderzoeken met volwassenen leverden
zeer hoge correlaties op tussen SPM- en WAIS-scores , maar een ander onderzoek toonde
een lagere correlatie aan bij een steekproef van militaire poliklinische patienten en McLaurin en
Farrar'-'4 signaleerden slechts een matige correlatie tussen de SPM en WAIS bij een groep
studenten. Burke vergeleek de SPM- en WAIS-scores van bijna 3.000 psychiatrische patienten
van een veteranenziekenhuis en signaleerde een correlatie van .66 met de WAIS TIQ en van .65
met de WAIS VIQ. De hoogte van deze validiteitscoefficienten wordt echter niet bevestigd
door enkele interculturele onderzoeken. Zo concludeerden Sydiaha en Van Dongen et al
op basis van hun onderzoek dat er geen voorspellend verband bestaat tussen de SPM- en
WAIS-scores. O'Leary et al signaleerden echter een significante correlatie tussen leeftijds-
gestratificeerde WAIS-R-scores en de SPM en stelden vast dat ras en leeftijd functioneren als
modererende variabelen. Verder onderzoek is nodig voordat er betrouwbare conclusies getrok-
ken kunnen warden met betrekking tot de concurrente validiteit van de SPM in verschillende
culturele omstandigheden. In India namen Narayanan en Paramesh de SPM en de Culture
Fair Test van Cattell af bij Tamil-respondenten en signaleerden een correlatie van .58. Ord
wilde een non-verbale selectietest ontwikkelen voor soldaten in Nieuw-Guinea en vergeleek
daarom zijn PIR-test met de SPM. hlij stelde daarbij een correlatiecoefficient vast van .32 en
concludeerde dat de tests verschillende aspecten van non-verbale begaafdheid meten.
Correlaties met concurrente prestatiemaatstaven

De correlaties tussen de SPM en de resultaten van prestatietests en schoolgeschiktheidstests
zijn over het algemeen lager dan correlaties met intelligentietests en varieren zelfs nog meer,
uiteenlopend van verwaarloosbaar tot zeer hoog
Bij verschillende onderzoeken met basisschoolleerlingen diende de California Achievement Test

als het criterium waartegen de SPM-scores werden afgezet. De correlatie met CAT-scores voor
lezen, taalvaardigheid, rekenen en de totale prestatie loopt uiteen van .26 tot .76 . Powers en
Barkan melden een constant goede concurrente validiteit met de CAT voor hispanic-kinderen
en .51 tot .55 voor anderen . Vreemd genoeg toonde een onderzoek met begaafde kinderen,
in 1988 uitgevoerd door Esquivel en Lopez , aan dat de CAT-scores, en ook de Torrance Tests
of Creative Thinking, een negatieve correlatie hadden met de SPM, terwijl Matthews ' conclu-
deerde dat de SPM een nuttig selectiemiddel was voor intellectueel begaafde kinderen.
hôffman meldde correlaties van .25 tot .69 voor zowel Mexicaans-Amerikaanse als blanke
kinderen uit de '1st' tot de '5th grade' (6 t/m 1 1 jaar) met de scores voor lezen en rekenen van
de Metropolitan Achievement Test. Hornowski meldt hoge correlaties (.67 voorjongens; .87
voor meisjes) met de Otis Maths-subtest afgenomen bij Poolse kinderen. Vernon signaleerde
correlaties uiteenlopend van .22 tot .82 tussen de SPM en viervaardigheidsmaatstaven bij grote
steekproeven onder militairen.
hloffman en Jensen hebben aangetoond dat, hoewel verschillende etnische groepen in de

Verenigde Staten verschillende gemiddelde scores halen voor zowel de SPM als voor prestatie-
tests, de regressielijnen van de SPM op prestatiesvoorverschillende etnische groepen evenwijdig
lopen. De test brengt dus niet alleen op dezelfde wijze een indeling aan binnen verschillende
etnische groepen, maar heeft ook dezelfde predictieve validiteit binnen de groepen.
Wanneer de test gevalideerd wordt tegen externe criteria als schoolcijfers, examenresultaten of
docentbeoordelingen neemt de correlatiecoefficient in de meeste gevallen af tot een waarde
tussen .20 en .60 . lrvine:/-'' stelde een zeer hoge correlatie (.90) vast met de beoordelingen
van een schoolhoofd voor de prestaties van 1.600 Rhodesische kinderen. Over het algemeen
zijn de inschattingen van concurrente validiteit hoger, als het criterium de rekenvaardigheid en
exacte vaardigheden meet, dan wanneer gekeken wordt naar taalvaardigheid of de totale leer-
prestaties
Er is steeds meer bewijs verzameld voor de validiteit van SPM wat betreft het vermogen onder-
scheid te maken tussen volwassenen met verschillende opleidings- en beroepsniveaus
Foulds concludeerde dat de SPM en MHV "vergelijkbare validiteitsresultaten opleverden" wat
betreft onderscheid tussen mannen van verschillende beroepsniveaus: de SPM was bijzonder
efficient bij jonge mannen, de MHV bij oudere mannen. In India toonden gegevens voor textiel-
arbeiders aan dat technische werknemers beter scoorden voor de SPM dan administratieve
werknemers.
Erwerd een criteriumvaliditeitvan .62 gemeld, in combinatie met een concurrente validiteit (ten
opzichte van de GATB-test) van .55
Predictieve validiteit
In onderzoeken naar predictieve validiteit warden als extern criterium meestal de leerprestaties
gemeten, enige tijd na de afname van de SPM. In onderzoeken met Engelstalige en niet-Engels-
talige kinderen en adolescenten zijn over het algemeen validiteitscoefficienten gemeld van
maximaal circa .70
De resultaten van onderzoek naar het voorspellend vermogen van de SPM zijn soms nogal
verschillend geTnterpreteerd. Zo concludeerde Bolton op basis van correlatiecoefficienten tot
0,41 dat de SPM weinig waarde had als predictor van de leerprestaties van kinderen uit de
'fourth grade' (10 jaar). Elley en MacArthur concludeerden daarentegen op basis van een
correlatie van 0,35 met schoolcijfers dat de test geschikt was als predictor van succes op school.
De meldingen van verwaarloosbare predictieve validiteit in enkele interculturele onderzoeken
duiden erop dat er behoefte is aan diepgaander onderzoek in verschillende culturele contexten
met verschillende vergelijkingscriteria.
Gegevens uit Libanon--'', India , Oost-Afrika en Nigeria zijn in tegenspraak met de

volgende positievere bevindingen: meldingen voor rekenen (.39), exacte vakken (.33) en totale
leerprestaties (.37) uit India ; tests voor rekenen en Spaans ; en diverse schoolvakken van
Russisch (.46) tot rekenen (.61) uit Oost-Duitsland .
Defries et al toonden cognitieve overeenkomsten aan tussen echtgenoten, broers en zussen,

ouders en kinderen en eenouder/eenkind-gezinnen met behulp van de SPM.
Fraser-Roberts beschouwt de SPM op basis van onderzoek met volwassenen als geschikte en
efficiente predictor van beroepsniveau. Dit werd bevestigd door een voorspellend onderzoek
met leerling-technici, waarbij Montgomery vaststelde dat er een positieve correlatie (.58)
bestond met de Technical Theory Qualification. Vernon:': . en Fraser-Roberts meldden hoge-
re coefficienten voor predictieve validiteit bij respondenten die hoog scoorden op de test dan
bij degenen die lager scoorden. Frank en Wilcox zijn van mening dat de SPM over goede
validiteit beschikt als predictor van de prestaties van stagairs met een bovenmediane belang-
stalling voor brandbestrijding. Phillips concludeerde op basis van testbatterijonderzoek naar
predictieve validiteit bij de selectie van verpleegkundigen, dat met behulp van de SPM geen
onderscheid aangebracht kan warden tussen succesvolle en niet-succesvolle stagiairs. Het is
echter bijzonder moeilijk externe criteria te vinden voor het meten van de predictieve validiteit
bij een steekproefvan volwassenen. Er is daardoor een tekort aan goed opgezette en gecontro-
leerde onderzoeken ondervolwassenen, met name in interculturele contexten.
Onderzoeken als die van hlope1"5 en Jaques duiden erop dat de SPM een veel grotere pre-
dictieve validiteit heeft voor het beroepsni'veau dat mensen bereiken en behouden, i.e. zowel
stijgende als dalende sociale mobiliteit, dan op grand van het theoretische construct dat door
de test gemeten wordt (deductiefvermogen) verwacht zou mogen warden.
De oorzaak hiervan zou kunnen zijn, zoals Jaques betoogt, dat een groot intellect vereist is voor
zaken als het begrijpen van en ingrijpen in internationale politieke systemen, systematisch den-
ken (i.e. nadenken over hoe systemen werken en hoe erin ingegrepen kan warden), nadenken
over de toekomst en hoe een wenselijke toekomst gerealiseerd kan warden en nadenken over
de talenten van ondergeschikten en hoe die in te zetten en te ontwikkelen. Een andere oorzaak
zou daarentegen kunnen zijn dat intellect gekoppeld is aan waarden : waarden op het gebied
van het nemen van verantwoordelijkheid, het ontwikkelen van nieuwe denkwijzen over sociale
processen, nieuwsgierigheid, ondernemendheid, zelfstandigheid. Nog een verklaring zou
kunnen zijn dat de huidige meetinstrumenten voor deductief vermogen, zoals is gesuggereerd
door Jaques , Kohn en Schooler , Gallimore;o° en Raven , niet aantonen welk niveau
iemands deductief vermogen heeft, wanneer hij'/zij een taak verricht waaraan hij/zij zelf waarde
hecht (bijvoorbeeld anderen op hun gemak stellen, anderen vermaken of deel uit maken van
een groep). De huidige tests meten dus alleen het deductief vermogen in verband met een
soort gewaardeerde activi'teit. hlet is van groot belang vast te stellen walk van deze verklaringen
juist is, zowel in theoretisch opzicht als voor de interpretatie van de testscores, waarvoor het
grote gevolgen zou hebben. Die verklaring zou echter geen afbreuk doen aan de conclusie dat
de algemene predictieve validiteit van de test veel hoger is dan verwacht mag warden op grand
van de predictieve validiteit binnen beroepsgroepen of het momenteel geformuleerde concept
van deductief vermogen. In sectie APM van deze Handleiding zijn een denkkader voor deze
vraagstukken en richtlijnen voor toekomstig onderzoek uitgewerkt.
De inhoudsvaliditeit van de SPM, afgemeten aan de interne consistentie van de test, varieert
aanzienlijk, wanneer verschillende items van de test gebruikt warden . Banks en Sinha
stelden in onderzoek met kinderen een gemiddelde biseriele correlatiecoefficient van .45 vast
tussen SPM-items en de gecombineerde resultaten van drie IQ-tests; voor de verschillende
testitems liepen de correlatiecoefficienten uiteen van .20 tot .80. Bij een grote steekproef van
volwassenen stelden Sheppard et al een gemiddelde biseriele correlatiecoefficient van .52
vast en een goed tot uitstekend onderscheidend vermogen voor de meeste items, hlun resul-
taten staven de algemene structuur van de SPM. Enkele itemanalyses duiden erop dat items
met een gemiddelde moeilijkheidsgraad relatief oververtegenwoordigd zijn en de volgorde van
enkele items aanzienlijk gewijzigd moet warden. Uiteraard is dit voor een groot deel afhankelijk
van het begaafdheidsniveau van de onderzochte steekproeven.
Jarenlang onderzoek naar de rangschikking van items heeft aangetoond dat herschikking van
items die verkeerd gepositioneerd lijken niet noodzakelijkerwijs het gewenste resultaat oplevert.
Het is belangrijk te onthouden dat de items zo gerangschikt zijn dat de respondent de werkwijze
kan aanleren, waardoor de latere items met succes opgelost kunnen warden door de opgedane
ervaring bij het oplossen van de eerdere items uit de set.
Wanneer een later item naar voren geplaatst wordt, omdat hij redelijk eenvoudig is op te lossen,
kan dat ertoe leiden dat het item moeilijker op te lessen is, terwijl tegelijk de oefenvolgorde
verstoord wordt. Die volgorde vormt juist de essentie van de opbouw van de test zoals die
oorspronkelijk bedoeld was. De herschikking van de items in de test die in 1956 gepubliceerd
werd, was dan ook voorafgegaan door uiterst zorgvuldig onderzoek naar de rangschikking van
items. De itemanalyses van Byrt en Gill156 die, evenals de oorspronkelijke analyses, afzonderlijk
uitgevoerd werden met kinderen van verschillende leeftijden en verschillende sociale achter-
gronden, toonden aan dat de enige items die verkeerd geplaatst leken, de items waren die een
duidelijke leerfunctie vervulden.
MacArthur , die onderzoek deed onder Metis-kinderen in Canada, merkte op dat de SPM vol-
doet aan een belangrijke vereiste voor intercultureel onderzoek: de test heeft indruksvaliditeit,
wat betekent dat degenen die de test maken en degenen die hem afnemen de test beschouwen
als een meetinstrument voor basaal redeneervermogen in een vorm die niet duidelijk cultureel
bevooroordeeld is.
De Progressive Matn'ces-test is beschreven als een van de zuiverste en beste meetinstrumenten

voorgofalgemeen intellectueel functioneren die er is11'8. Deze stalling wordtonderbouwd door
verschillende factoranalytische onderzoeken met grote aantallen kinderen en volwassenen. Bij
onderzoeken met Britse kinderen kwamen hoge ladingen op g tot wel .83 aan het licht. In de
VS werd een lading van .81 vastgesteld . Interculturele onderzoeken bevestigen de hoge
g-verzadiging van de SPM . Bovendien signaleerden de meeste onderzoeken geen lading op
verbaal/educatieve of numerieke factoren. Onderzoek met volwassenen heeft ook zeer hoge
ladingen op g' -- aangetoond tot wel .86 en in een onderzoek zelfs .94 .
Sommige onderzoekers hebben het werk van Das, Kirby en Jarman met de CPM gebruikt om
onderscheid aan te brengen tussen simultane en successieve verwerkingsstijlen bij het redeneren,
waarbij de SPM een goed voorbeeld is van een simultane redeneertest . Een andere groep
onderzoekers die eerst voorstander was van het vloeibaar/gekristalliseerd-onderscheid in
plaats van het deductief/reproductief-onderscheid zijn uiteindelijk tot het inzicht gekomen
dat ten eerste vloeibare en gekristalliseerde 'intelligentie' slechts twee van de circa tien niet-
orthogonale factoren van de tweede orde vormen naast dezelfde acht factoren die voortkomen
uit onderzoek naar de onderlinge correlaties tussen psychofysische en psychofysiologische
maatstaven in het algemene domein; ten tweede dat de RPM een van de 'zuiverste' meetinstru-
menten is voor 'vloeibare' intelligentie; en tot slot dat, verrassend genoeg, gekristalliseerde
vaardigheden n/et 'voortkonnen uit' vloeibare 'intelligentie', maar al van het begin afaan duide-
lijk aanwezig zijn, een andere genetische oorsprong hebben en andere consequenties hebben
in het verdere leven. Wat wellicht nog belangrijker is, is dat Snow, Kyllonen en Marshalek het
deductief vermogen zoals gemeten door de RPM als het middelpunt beschouwen van het
radex-model dat zij ontwikkeld hebben om de verbanden uit te beelden tussen de meetinstru-
menten uit alle door hen geevalueerde onderzoeken.
Enkele factoranalytische onderzoeken duiden erop dat de SPM naast het algemeen intellectueel
functioneren nog andere factoren meet. Zo concludeerde Keir dat de totale variantie in de
scores voor de test voor slechts 37% aan g toegeschreven kon warden; bij Banks en Sinha
was dit percentage 36%. Verschillende onderzoeken tonen consequent een kleine lading van de
SPM op de visuo-spatiele of 'K'-factor. Burke citeert vier onderzoeken die Vernon ten tijde
van de Tweede Wereldoorlog uitvoerde en die aantoonden dat de test naast een grate g-factor
wellicht een kleine groepsfactor op ruimtelijk inzicht bevat. Bernyer T/- Rimoldi , Sinha en
Kostrzewski en Biela"5 hebben vergelijkbare resultaten gevonden bij onderzoeken in respectie-
velijk Engeland, Argentinie, India en Polen. ACER concludeerde, naar aanleiding van hun
Australische normeringsprocedures, dat de SPM een algemene begaafdheidstest is met een
kleine ruimtelijke component, wat verder bevestigd wordt door Smith en Stanley . Onderzoek
met betrekking tot de CPM heeft aangetoond dat ook die een kleine lading op een ruimtelijke
factor heeft .
Spearman erkende dat groepsfactoren meer afhankelijk waren van school- en omgevings-
invloeden dan de algemene begaafdheid. Sinha betoogt dat deze ruimtelijke component
een belangrijke bijdrage levert aan de totale RPM-score en dat deze gemanipuleerd kan warden
door schoolfactoren. Bij een Indiase populatie universiteitsstudenten met gelijkwaardige intel-
lectuele vermogens stelde Sinha vast dat studenten die architectuur studeerden of een soort-
gelijke studie volgden waarbij het ruimtelijk inzicht getraind werd, beter scoorden op de SPM.
Sinha heeft zelfs betoogd dat de complete factorstructuur van de RPM kan varieren afhankelijk
van de culturele context waarin de test gebruikt wordt. Nathan en Guttman geven aan dat de
kibboetsomgeving grote invloed had op het ruimtelijk functioneren van tweelingen.
Als de ruimtelijke component van de SPM inderdaad werkt zoals Sinha betoogt, dan zou dat
deels kunnen verklaren waarom soms blijkt dat jongens/mannen beter scoren op de test. Op
het algemene terrein van de cognitie is veel onderzoek gedaan dat heeft aangetoond dat
mannen beter presteren dan vrouwen bij taken die ruimtelijk inzicht vergen '- . Emmett heeft
de relevante onderzoeksgegevens geevalueerd en concludeerde dat de 'superioriteit van
jongens tegenover meisjes bij bepaalde ruimtelijke en prestatietests zonder twijfel vastgesteld
is', hlij betoogt dat jongens op 11-jarige leeftijd al ruimtelijk inzicht ontwikkeld hebben, terwijl
meisjes op die leeftijd nog geen blijk geven van die factor. Afgezien van deze speciale gevallen
rond de puberteit, bestaat er overtuigend bewijs dat er geen sekseverschillen bestaan in de
prestatles
Ook in dit geval kan het goed zijn te kijken naar de suggestie van Snow et al dat de resultaten
van verschillende onderzoeken samengevat kunnen warden in een radex-model met deductief
vermogen als middelpunt, waarbij de sectoren verbale, ruimtelijke en numerieke vaardigheden
bevatten die zich steeds meer kristalliseren hoe verder ze van het middelpunt verwijderd zijn
Hun model lijkt crop te duiden dat het deductiefvermogen, gemeten met de RPM ofeen andere
test, onvermijdelijk behoorlijk hoge correlaties zal hebben met de verbale, numerieke en ruim-
telijke vaardigheden die sterk afhankelijk zijn van het vermogen nieuwe waarnemingen te doen
om complexe taken op elk van deze drie gebieden te verrichten. hloewel Snow et al hun radex
bespreken aan de hand van vloeibare/gekristalliseerde vaardigheden en complexe/eenvoudige
en nieuwe/bekende taken en zich met name richten op de vraag op welke wijze deductief
vermogen vereist is om te bepalen welke routine-informatie en opgeslagen gewoonten en
vaardigheden gebruikt moeten warden, zijn wij van mening dat de verbanden veel duidelijker
warden, als ze besproken warden aan de hand van deductiefen reproductiefvermogen, opge-
slagen informatie en routinematige gewoontes en vaardigheden, vooral omdat hun concept van
gekristalliseerde vaardigheid beperkt is tot het verbale domein. Onderzoekers die met het
deductief/reproductief-kader gewerkt hebben, hebben nooit beweerd dat beide vaardigheden
statistisch onafhankelijk zijn. Ze beschouwen deze vaardigheden juist als nauw samenhangend,
ondanks dat ze duidelijk verschillen in psychologisch opzicht, zoals ook blijkt uit het citaat van
Spearman aan het begin van de sectie Algemeen van deze Handleiding. Nu Horn geaccepteerd
heeftdat 'gekristalliseerde intelligentie' niet 'voortkomt uit' vloeibare intelligentie en dat andere
belangrijke factoren van de tweede orde niet eerst samensmelten met de 'vloeibare' en 'gekris-
talliseerde' domeinen, voordat ze opgenomen warden in g, kan het dan ook passender zijn de
radex van Snow et al te interpreteren als afbeelding van de verbanden tussen het deductief en
het reproductief vermogen zoals het tot uitdrukking komt in de drie sectoren of domeinen
(verbaal, numeriek, ruimtelijk-mechanisch) van hun radex. Een dergelijke interpretatie zou goed
aansluiten bij het in 1 994 ontwikkelde intelligentiemodel en latere edities van de sectie APM van
deze Handleiding.
Er is meer voorzichtig bewijs dat erop duidt dat de inhoud van de RPM afhankelijk is van toeval-
lige invloeden. Sommige onderzoekers hebben kritiek geuit op het hele concept van de
g-factor en de mogelijkheid daarvan een zuivere meting te verkrijgen. Rimoldi en Boyd en
Ward hebben een factoranalyse van de SPM uitgevoerd met behulp van de Multiple Factor
Analysis-methode van Thurstone, waarbij aangetoond werd dat de meeste variantie toege-
schreven kan warden aan een factor die zij inductie genoemd hebben, wat een aangeleerde
vaardigheid suggereert. Tot op zekere hoogte zal het theoretische kader van de onderzoeker
bepalen of de RPM-variantie toegeschreven wordt aan 'g', 'inductieve redenering' of 'con-
vergent denken'' .
Irvine vergeleek de resultaten van zijn onderzoek met Rhodesische kinderen met die van het
Britse onderzoek van Keir en concludeerde dat de concepten die de SPM meet wel gedeeld
warden door beide groepen respondenten, maar niet identiek zijn voor beide groepen.
Eysenck en Halstead; .. concludeerden bij vergelijkbare vroege factoranalytische onderzoeken
dat de hoofdfactor die door de SPM gemeten wordt gelijk is aan de factor die gemeten wordt
doorverschillende geheugentests die in de batterij waren opgenomen.
Het bewijs op grand van factoranalytisch onderzoek duidt er dan ook op dat de SPM weleen
relatief goed meetinstrument is voor algemeen intellectueel vermogen, maar geen zuivere
g-schatting. De beoordeling van andere factoren kan met name in interculturele contexten van
belang zijn.
Hoewel de Matrices-tests niet ontwikkeld zijn voor gebruik bij neuropsychologisch onderzoek,
zijn ze toch populair geworden op dat terrein. Uit een enquete onder leden van de International
Neuropsychological Society bleek zelfs dat de Coloured- en Standard-versie van de test zeer
regelmatig gebruikt warden bij de beoordeling van visuo-spatiele functies. Naast afzonderlijk
gebruik warden ze ook veel opgenomen in testbatterijen.
In hoofdstuk 8 van de editie 1990/2000 van Onderzoekssupp/emenf nr. 3 is een gedetailleerd

overzicht opgenomen van onderzoek met en toepassing van de RPM in de neuropsychologie.
De verschillende Matrices-tests zijn zeer geschikt voor het meten van cognitieffunctioneren en
warden daarom vaak gebruikt als controlevariabelen en als de best beschikbare meetinstrumenten
voor g . Het gebruik ervan in een klinische context is altijd populair geweest, omdat de tests
snel afgenomen kunnen warden door testspecialisten, waarna psychologen direct de scores
kunnen berekenen en interpreteren. De Matrices-tests krijgen vaak de voorkeur boven andere
meetinstrumenten voor intellect, omdat ze zo goed bruikbaar zijn in interculturele contexten en
in situaties waarin complexere tests niet geschikt zouden zijn door medische beperkingen, zoals
lichamelijke handicaps. Voor neuropsychologische doeleinden is het vaak gunstig als een test
geen motorische of verbale reactie vereist, als de effecten van apraxie en afasie in aanmerking
genomen kunnen warden en als de test eenvoydig afgenomen kan warden bij bedlegerige
patienten.
Gekeken naar wat er eigenlijk gemeten wordt en de aard van de beperkingen van neuropsycho-
logische patienten, dan zijn de Matrices-tests aantrekkelijk vanwege al het werk dat verricht is
bij de oorspronkelijke opzet ervan om ervoor te zorgen dat de fundamentele psychologische
functioneringsprocessen, zoals differentiatie, herkenning van gelijkenissen en de effecten van
Gestalt-waarneming, in aanmerking genomen werden. Deze kenmerken zijn niet uitsluitend afte
lezen aan de volgorde van de verstrekte opgaven, ook de alternatieve meerkeuzeantwoorden
zijn in dit opzicht belangrijk. Aan de hand daarvan kan namelijk niet alleen vastgesteld warden
of een bepaald antwoord goed of fout is, maar wordt tevens inzicht verkregen in het redeneer-
proces dat heeft geleid tot het foute antwoord. Er is nu een behoorlijke hoeveelheid literatuur
beschikbaar waarin op verschillende manieren getracht wordt de foute antwoorden te analyse-
ren
Er is ook aandacht besteed aan het verband tussen conventionele meetinstrumenten voor intel-
lectueel functioneren aan de ene kant en fysiologische of psychomotorische meetinstrumenten
voor corticale integriteit aan de andere kant.
De toenemende populariteit van het correleren van resultaten van IQ-tests met maatstaven
als simpele en keuzereactietijd , inspectietijd300 en verschillende maatstaven van corticale
activering, zoals 'evoked-response' EEC , glucosemetabolisme in de hersenen en cerebrale
bloedstroom , geeft aan dat tests als de Matrices-tests bruikbaar kunnen zijn voor de vaststel-
ling van de gevolgen van verschillende laesies op het neuropsychologisch functioneren. Deze
trend lijkt de oorspronkelijke standpunten van Spearman te bevestigen dat intelligentie een
functie van mentale energie is die gemeten kan warden door middel van tests van toenemende
complexiteit. De Matrices-tests zijn in die traditie ontwikkeld en zijn een goed voorbeeld van
tests met een toenemende mate van complexiteit die snel vastgesteld en gemeten kan warden
met behulp van instrumenten op basis van de itemresponstheorie. Aantasting van het neuro-
psychologisch functioneren wordt juist gekenmerkt door problemen met het uitvoeren van
mentaal ingewikkelde taken, wat dus de resultaten voor de Matrices-tests, evenals bij andere
neuropsychologische meetinstrumenten, negatief be'fnvloedt.
Dat wil echter niet zeggen dat de Matnces-tests bij uitstek geschikt zijn voor dit doeleinde. Aan-
gezien ze ontwikkeld zijn met het oog op andere doelstellingen, moeten ze zo goed mogelijk op
deze taak afgestemd warden. Enkele onderzoekers hebben hierbij gewezen op een reeks
problemen met de meting van ruimtelijk neglect. Misleidende slechte resultaten voor de RPM
kunnen veroorzaakt warden door bepaalde antwoordtendenties als gevolg van hemi-neglect.
Dit lijkt vaker voor te komen bij personen met laesies in de rechterhemisfeer en dan wellicht
met name posterieur2 . Gainotti et al hebben veel bijgedragen aan de aanpak van deze
problemen door een alternatieve presentatiemethode voor de meerkeuzeantwoorden te
ontwikkelen, maar daarmee is de kwestie nog steeds niet geheel opgelost, aangezien in het
oorspronkelijke ontwerp het oplossingsvenster altijd in het rechter visuele veld blijft staan.
(Raadpleeg de editie uit 1990 van Onderzoekssupp/ement nr. 3 voor een uitgebreidere discus-
sie hierover.)
Deutsch, Katz en Jensen opperden dat respondenten die goede resultaten behalen voor
zogenaamde non-verbale tests van intellectueel vermogen in werkelijkheid gebruik maken van
spontane verbalisering. De bevindingen van Burke en Bingham staven deze hypothese. Zij
concludeerden dat de factor algemene begaafdheid waaraan de meeste variantie op de SPM
toegeschreven kan warden, in hoge mate bepaald wordt door verbale inhoud. Dit duidt erop
dat iemand zichzelf 'door' de testopgaven kan praten. Thenius en Heydemann hebben ver-
slag gedaan van een experiment waarbij de oogbewegingen gemeten werden om verbalisering
te onderzoeken. De 'verbaliseringshypothese' is voornamelijk getest met respondenten die een
hersenbeschadiging en daaruit voortvloeiende spraakstoornissen hadden, met name afasie-
patienten. Aangezien bij rechtshandige personen de linker hersenhelft in verband gebracht
wordt met het verbaal functioneren, zou op grand van de 'verbaliseringshypothese' verwacht
warden dat beschadiging van de linker hersenhelft zou leiden tot slechte RPM-resultaten.
Arrigoni en De Renzi ontdekten dat dyspraxiepatienten met een beschadiging van de linker
hersenhelft inderdaad slechter scoorden op de CPM dan patienten met een beschadiging van
de rechter hersenhelft. Ook Piercy en Smith concludeerden, op basis van literatuuronderzoek,
dat aantasting van het algemeen intellectueel functioneren in de meeste gevallen gekoppeld is
aan laesies in de linker hersenhelft. Shalman heeft echter aangetoond dat slaapkwabepileptici
met rechter-hemisfeerstoornissen lager scoorden op de SPM dan epileptici met linker-hemi-
sfeerstoornissen. Alle respondenten waren rechtshandig. Bij het beoordelen van dergelijke
tegenstrijdige resultaten is het belangrijk te onthouden dat er vaak gewaarschuwd" wordt
tegen de neiging de functies van de twee hersenhelften volledig te scheiden en ze als geheel
onafhankelijke eenheden te beschouwen. Ross heeft aangetoond dat, ondanks dat uit veel
onderzoek is gebleken dat laesies in de linker hemisfeer taalstoornissen veroorzaken, het niet
50 I RAVEN I HANDLE1DING
waar is dat de linker hersenhelft de dominante rol speelt op taalgebied. Effectief taalgebruik
is afhankelijk van affectieve componenten waarvoor de activiteit in de rechter hersenhelft van
cruciaal belang is. De Renzi en Faglioni en Colonna en Faglioni zagen geen verschil tussen
de SPM-scores van personen met een beschadiging in de rechter hersenhelft en die van personen
met een beschadiging in de linker hersenhelft.
Ook naar de gevolgen van afasie is veel onderzoek gedaan met behoorlijk tegenstrijdige
resultaten, aangezien het crop lijkt dat, zoals Zaidel betoogde, respondenten verschillende
strategieen hanteren voor het maken van de Matrices-tests. Sommigen lijken voornamelijk
gebruik te maken van linker-hemisfeerstrategieen, terwijl anderen rechter-hemisfeerstrategieen
aanwenden. hlet zou kunnen zijn dat sommige items van de tests gevoeliger zijn voor dit verschil
dan andere. Het onderzoek van Zaidel met patienten die een commissurotomie of hemisferec-
tomie ondergaan hadden, is bijzonder geschikt voor het vaststellen van het verschil tussen de
hersenhelften en hij durft zelfs te stellen dat het functioneren van g onderverdeeld zou kunnen
warden in componenten die voornamelijk in de rechter (gR) en voornamelijk in de linker (gL)
hersenhelft plaatsvinden.
Wellicht zouden sommige onderzoeksresultaten met betrekking tot respondenten met een
hersenbeschadiging geheel buiten beschouwing gelaten moeten warden met hetoog op de
'verbaliseringshypothese'. lemand die een hersenbeschadiging oploopt, nadat hij/zij heeft
leren praten kan op cognitief niveau nog steeds in staat zijn verbale symbolen te manipuleren,
zelfs al kan hij'/zij zich niet langer verbaal uitdrukken. Dergelijke cognitieve verbale manipulatie
kan voldoende zijn om redelijk te blijven presteren bij abstracte redeneertaken.
Radford heeft, evenals Guthke , aangetoond dat de CPM-resultaten van normale kinderen
beter warden, als ze aangemoedigd warden hun keuze voor een bepaalde oplossing toe te
lichten.
Radford betoogt dat kinderen door deze verbalisering een nieuw leerpatroon ontwikkelen en
standaardantwoorden vermijden. Met is echter ook mogelijk dat de respondenten voor de aan-
moediging niet op hun optimale niveau werkten en dat de aanmoediging alleen hun motivatie
verhoogde.
Cashdan en hlofgen daarentegen, vonden geen bewijzen voor de stelling dat verbalisering
de CPM-scores beTnvloedt. Merz schrijft dat toe aan het feit dat de opgaven waaraan de
kinderen werkten te eenvoudig waren om daarbij te kunnen profiteren van het effect van ver-
balisering.
Dillon meldde dat het aanmoedigen van verbalisering ervoor zorgt dat de testdeelnemers
meer tijd besteden aan regelafleiding. Geconcludeerd werd dat expliciete verwoording de
respondent in staat stelt zijn/haar gedachten te ordenen en verschillende strategieen toe te
passen.
In Duitsland zijn, met behulp van de CPM en APM, enkele specifieke onderzoeken uitgevoerd
naar de relatieve waarde van verbalisering en terugkoppeling op de resultaten. Aangetoond
werd dat het gebruik van verbalisering of terugkoppeling of een combinatie van beide ter
compensatie van relatieve tekortkomingen een wisselend effect had, afhankelijk van de leeftijd
en de begaafdheid van de respondent en van zaken als impulsiviteit. De bevindingen lijken erop
te duiden dat verbalisering inderdaad een rol kan spe!en bij het probleemoplossingsproces
zonder aan te tonen dat dat ook altijd het geval is .
In dit kader is er ook een interessant experiment van Broadbent en Aston2:;-7, ondanks dat het
geen betrekking heeft op de Progressive Matrices. Proefpersonen gebruikten een simulatie-
programma van de economie, waarbij hun handelingen verschillende positieve en negatieve
scenario's konden oproepen. Sommigen waren hierin veel beter dan anderen, maar ze konden
niet uitleggen hoe ze het deden. Verbale instructies hadden zichtbaar effect op de prestaties,
maar leidden niet noodzakelijkerwijs tot betere resultaten. Dit lijkt erop te duiden dat het
gedrag van de beter presterende deelnemers, zoals bij de meeste geschoolde taken, voor-
namelijk afhankelijk was van non-verbale aanwijzingen en impliciete kennis.
Enige onderzoeken met dove respondenten hebben ondersteunend bewijs geleverd voor de
'verbaliseringshypothese'. Enkele auteurs hebben betoogd dat een redelijk niveau van verbaal
vermogen noodzakelijk is voor relatief 'gemiddelde' RPM-resultaten;'-. Maar ook op dit gebied
is het bewijs niet geheel sluitend. Goetzinger et al suggereerden aanvankelijk dat de slechtere
prestaties van dove kinderen bij opdrachten als de RPM te wijten waren aan hun taalachterstand,
maar later onderzoek duidt erop dat er zeer weinig verband bestaat tussen taalontwikkeling en
non-verbaal abstract redeneervermogen
Hoewel er geen sluitend bewijs is voor de 'verbaliseringshypothese', is het nog steeds een
mogelijke verklaring voor de culturele invloeden op RPM-resultaten. Maatschappelijke klasse is
gecorreleerd met RPM-scores (hoewel de variantie in scores binnen maatschappelijke klassen
veel groter is dan de variantie tussen de verschillende klassen)':! en onderscheidende lingufstische
vaardigheden zouden hierbij een rol kunnen spelen. Sitkei en Michael232 hebben gebruik
gemaaktvan het concept 'verbaal vermogen' voor analyse van sekseverschillen in SPM-resultaten.
Zij betoogden dat vrouwen bij probleemoplossing gebruik maakten van symbolische inductie,
terwijl mannen verbaal georienteerd waren. In hun onderzoek scoorden mannen gemiddeld lets
hoger dan vrouwen.
Er is altijd benadrukt dat de tests gebruikt moeten warden in combinatie met een verbaal meet-
instrument om het reproductief vermogen te meten en met het oog daarop zijn de Crichton
Vocabulary Scale en de Mill Hill Vocabulary Scale ontwikkeld. Deze tests leveren vaak nuttig
inzichtin de distinctieve beperkingen van neuropsychologische patienten die verbaal nog goed
functioneren, maar beperkt zijn in hun visuo-spatiele functioneren of omgekeerd. De verschillen
tussen de resultaten voor deze twee soorten tests kunnen dus tot op zekere hoogte diagnostisch
gebruikt warden2-13. He\aas varieren deze verschillen ook op grand van leeftijdsvariabelen en is
nog niet bekend in welke mate. Dit vereist verder onderzoek. In aanvankelijke publicaties werd
gesuggereerd dat de resultaten van Matrices-tests aanzienlijk afnamen met de leeftijd, terwijl de
scores voor de Vocabulary-tests niet afnamen. Meer recent bewijs (samengevat in de editie uit
1998 van de sectie A/gemeen van deze Handleiding) heeft aangetoond dat de schijnbare daling
van RPM-scores met de leeftijd voornamelijk het gevolg is van een seculiere stijging met het
geboortejaar. Hoewel zich een bepaalde daling voordoet bij ouderen, is er nog veel kwaliteits-
onderzoek nodig, waarin de scores van gezonde personen voor zowel de Matrices-tests als de
Vocabulary-tests vergeleken warden met die van gehandicapte personen.
Benadrukt moet warden dat de Matnces- en Vocabulary-tests samen, hoewel ze nuttig zijn voor
neuropsychologisch onderzoek, onvoldoende zijn om het brede spectrum van stoornissen aan
te tonen dat met behulp van een uitgebreide batterij aangetoond kan warden. Butler, Retzlafen
Vanderploeg meldden dat deze tests vaak gebruikt warden, maar dit gebeurt wel altijd in
combinatie met andere tests in batterijen met een brede diagnostische functie.
Das en Jarman voeren sterke argumenten aan voor de opname van de Matn'ces-tests als
indicator van simultane verwerking in een algemeen onderzoeksmodel dat om volledig te zijn
ook meetinstrumenten voor planning, aandacht en successieve verwerking zou moeten be-
vatten.
Er wordt, vooral in de neuropsychologie, steeds vaker gebruik gemaakt van gecomputeriseerde

testbatterijen, die aantrekkelijk zijn vanwege het gemak waarmee de tests afgenomen en de
weergave ervan gestandaardiseerd kan warden. De Matrices-tests zijn bijzonder geschikt
voor het elektronische formaat en enkele adaptaties hiervoor zijn inmiddels voltooid . In
de toekomst zou het dan ook mogelijk moeten warden de latentietijd te meten en daardoor
uiteindelijk de reacties nog nauwkeuriger in verband te kunnen brengen met enkele psycho-
motorische maatstaven, zoals die van complexe reactietijd.
Een nieuwe ontwikkeling die zou kunnen leiden tot volledigere benutting van fouten is de
toepassing van polychotome scoring -'. waarbij een relatief gewicht toegekend wordt aan de
fouten (sommige fouten zijn fouter dan andere), wat leidt tot een nauwkeuriger en uitgebreider
scorebereik dan bij de traditionele goed/fout-methode. hlet spreekt voor zich dat het bij neuro-
psychologisch onderzoek nuttig is om zoveel mogelijk informatie te ontlenen aan de fouten.
Naar verwachting zullen de Matnces-tests na deze verfijningen nog aantrekkelijker warden voor
gebruik in neuropsychologisch onderzoek.
Met de grote stijging van de vraag naar forensische psychologie kwam er ook behoefte aan
een eenvoudige methode om te kunnen signaleren of iemand opzettelijk laag scoort (vooral
ter ondersteuning van schadevergoedingsclaims vanwege vermeend letsel). Gudjonsson en
Shackleton vermoedden dat het antwoordpatroon van bedriegers zou afwijken van dat van
personen die echt laag scoorden. Dat bleek inderdaad het geval te zijn en zij stelden een
formule op waarmee in hun steekproef de bedriegers gescheiden konden warden van de
personen die echt laag scoorden. Deze formule is gekruisvalideerd in een nieuwe steekproef
door McKinzey et al . 46 personen moesten doen alsof ze een schadevergoeding wilden
claimen van de verzekering door opzettelijk laag te scoren, waarna de formule van Gudjonsson
en Shackleton toegepast werd op hun antwoordpatroon en dat van 381 personen uit de
steekproef voor de normering uit 1992. Bij slechts 5% van de algemene steekproef leek het
antwoordpatroon crop te duiden dat ze opzettelijk laag gescoord hadden, terwijl 74% van de
bedriegers ontmaskerd werd, d.w.z. dat met de formule slechts 26% van de bedriegers niet
betrapt werd. Het lijkt er dan ook op dat de formule van Gudjonsson en Shackleton een effectief
middel is om de meeste personen die opzettelijk laag scoren te ontmaskeren zonder anderen
daar ten onrechte van te beschuldigen . Daarom wordt de formule nu automatisch toegepast
in het scoringssysteem van de gecomputeriseerde testprocedures die verkrijgbaar zijn bij
Schuhfried Gmbhl . (De berekening kan echter ook eenvoudig handmatig uitgevoerd warden.)
hlet onderzoek naar de effecten van het aanleren van de strategieen waarmee de matrix-
opgaven opgelost kunnen warden is behoorlijk uitgebreid besproken in de sectie A/gemeen.
hlier willen we ermee volstaan mee te delen dat, hoewel de scores op korte termijn aanzienlijk
kunnen stijgen, niet bewezen is dat training leidt tot een algemene toename van het deductief
vermogen. Hoewel Feuerstein enig bewijs geleverd heeft dat getrainde respondenten jaren
later nog steeds beter presteren dan hun leeftijdgenoten, wanneerze andere, en veel moeilijkere,
items voorgelegd krijgen, is deze bewering niet voldoende geboekstaafd. Guthke heeft in
enig detail aangetoond dat de effecten sterk afhankelijk zijn van het soort training dat gegeven
wordt. Alleen oefenen heeft weinig effect op de rangorde van respondenten, terwijl een
combinatie van feedback en training op maatjuist zeer veel effect kan hebben. Pogingen om
te meten in hoeverre lesmateriaal een gunstig effect (door Vygotski "zone van proximale
ontwikkeling" of "leerpotentieel" genoemd) heeft aan de hand van het verschil in score voor en
na training resulteerden in slechtere validiteitscoefficienten dan de voor- en nametingsscores af-
zonderlijk. Daarentegen lijkt het gemiddelde aanta/ en de aardvan de benodigde aanwijzingen
om een onjuist antwoord om te zetten in een juist antwoord waardevolle informatie op te
leveren in aanvulling op de aanvankelijke score.
hlet onderzoek van Feuerstein verdient meer aandacht, hoewel zijn meer recente steun voor
indirect leren enigszins vreemd lijkt gezien het geclaimde succes van instrumentele verrijking.
Zoals in de sectie A/gemeen in meer detail besproken wordt, is er bij indirect leren sprake
van een mediator die denkprocessen (problematisering, conceptualisering, analyse, planning,
verbeelding, controle, oplossing van waardeconflicten, afweging van de sociale en morele
consequenties van zijn/haar acties op de lange termijn) deelt met het kind. Deze processen heb-
ben veel gemeen met wat door anderen beschreven is als 'democratische opvoeding' en 'open
onderwijs'. Deze termen duiden er vaak op dat kinderen aangemoedigd warden vragen te stel-
len, te problematiseren, conceptualiseren, experimenteren en hun eigen morele beslissingen te
nemen op grand van wat zij verwachten dat de (op dat moment nog ongrijpbare) sociale conse-
quenties van hun acties op de lange termijn zullen zijn. Er is aangetoond dat deze processen het
deductief vermogen vergroten . hlet is belangrijk te onthouden dat er bij deze resultaten van-
uit gegaan wordt dat effectieve ouders, leerkrachten en managers de omgeving afstemmen op
de motieven en interessen van het kind of de ondergeschikte en zo voor hen de gelegenheid
creeren te doen wat voor hen belangrijk is en tegelijkertijd een reeks belangrijke competenties,
waaronderdeductiefvermogen, te oefenen en ontwikkelen. Hetzich steeds meer opstapelende
bewijs dat erfelijkheid een voorheen onvermoede rol speelt bij het bepalen van zelfs zulke
onwaarschijnlijke kenmerken als de gedragsstijlen die iemand op prijs stelt, onderstreept dus in
feite, zoals Plomin en Scarr et al reeds betoogden, tevens het belang van de omgeving.
Wat hierbij vooral van belang is, is dat de variabelen die de ontwikkeling van het deductief
vermogen befnvloeden geen duidelijk culturele en socio-economische variabelen zijn die een
onderverdeling in de maatschappij aanbrengen en waaraan zoveel aandacht is geschonken
door sociologen. Enigszins verrassend blijktjuist het reproductiefvermogen sterker beTnvloed te
warden door dergelijke variabelen en minder door het soort ontwikkelingsprocessen dat in de
voorgaande paragraaf besproken is, hoewel socio-economische variabelen nog steeds slechts
een klein deel van de totale variantie verklaren. De bevindingen van Stallings en Kaskowitz
aan de ene kant en die van Sigel en zijn collega's24-' aan de andere kant onderstrepen nog
sterker het belang van afzonderlijk onderzoek naar de erfelijkheids- en omgevingsaspecten en
persoonlijke en maatschappelijke consequenties van het deductief en reproductief vermogen.
54 RAVEN HANDLEIDiNG
Deze onderzoekers ontdekten dat door onderwijspraktijken die zorgden voor betere RPM-
scores, de lees-, schrijf- en rekenvaardigheid, zoals gemeten doorconventionele tests, afnamen.
Er is echter een nog belangrijkere conclusie. Zoals in The Tragic Illusion: Educational Testing
uitgebreider besproken wordt, meten conventionele prestatietests in het onderwijs voornamelijk
het reproductief vermogen. Schrijftoetsen meten bijvoorbeeld niet het vermogen de motieven,
zorgen, waarnemingen en denkwijzen van het beoogde publiek vast te stellen en dit inzicht te
gebruiken om zo te schrijven dat deze factoren beTrivloed warden. Ze meten niet het vermogen
gebruik te maken van insinuaties en toespelingen om gevoelens op te roepen die leiden
tot gedragsverandering. h-lierdoor kunnen ze onvoldoende recht doen aan de resultgten van
belangrijke oriderwijsprocessen. hlun gebruik draagt derhalve bij aan vertekende evaluatie-
onderzoeken, waarvan de resultaten zeer misleidend kunnen zijn en beleidsmakers ervan
kunnen weerhouden de, in de praktijk, belangrijkste en meest effectieve onderwijspraktijken
te stimuleren. Er is daarom dringend behoefte aan een psychometrisch model dat ons in staat
stelt significantere meetinstrumenten te vervaardigen.
hlet feit dat SPM-scores (evenals de scores voor andere meetinstrumenten voor deductief
vermogen [zoals de WISC-subtest Verbal Similarities ]) met ongeveer een standaarddeviatie
per generatie gestegen zijn, duidt op de grote en voorheen onverwachte invloed van de omge-
virag op het deductiefvermogen. Wat de RPM betreft, is het bovendien duidelijk dat de verschil-
scores van etnische groepen niet onveranderlijk zijn, aangezien de meeste etnische groepen in
Amerika nu boven het niveau van de Britse normering uit 1938 scoren. De gegevens die uitge-
breid besproken warden in de edities uit 1998 en opvolgende jaren van de sectie Algemeen en
de editie uit 2000 van Onderzoekssupplement nr. 3, duiden erop dat noch de stijging in de loop
der tijd noch de etnische verschillen geheel verklaard kunnen warden door zaken als wijzigingen
in de onderwijspraktijk of de verbreiding van televisie. hlet lijkt crop dat de verklaring elders
gezocht meet warden, bijvoorbeeld bij de variabelen die geleid hebben tot een verdubbeling
van de levensverwachting tijdens de periode waarvoor de gegevens beschikbaar zijn die de
stijging van RPM-scores aantonen of de variabelen die ertoe leiden dat de gemiddelde lengte
toeneemt met een standaarddeviatie van .33 per generatie . Tot deze variabelen behoren
voedingskwaliteit en hygiene.
Aangezien deze observaties echter eventueel een misleidende indrukzouden kunnen wekken, is
het belangrijk nogmaals te benadrukken dat het grootste deel van de variantie in RPM-scores
zich voordoet binnen onderwijsprogramma's, bi'nnen socio-economische groepen, binnen
etnische groepen en zelfs bi'nnen gezinnen, d.w.z. broers en zussen die in 'dezelfde' omgeving
opgegroeid zijn.
De befnvloedbaarheid van RPM-scores, de hoogte van de stijging in de loop der tijd en de

aanhoudendheid van de etnische verschillen hebben vele psychologen verrast.
We willen dan ook nogmaals benadrukken dat de voornaamste doelstelling van Raven bij de
ontwikkeling van zijn tests was: het creeren van ondubbelzinnige meetinstrumenten waarmee de
differentiele rol van erfelijkheid en verschillende omgevingskenmerken bij zulke vaardigheden
vastgesteld kan warden en vervolgens de consequenties daarvan voor maatschappij en onder-
wijs te onderzoeken. Zijn tests zijn tot nu toe bijzonder geschikt gebleken voor deze puur
wetenschappelijke doeleinden, zoals het bepalen van de variantie en enkele factoren die daar-
aan bijdragen. De consequenties voor maatschappij en onderwijs van het onderzoek zijn minder
duidelijk, maar deze warden besproken in de sectie A/gemeen en Onderzoekssupplement nr. 3.
Bij deze besprekingen wordt aandacht besteed aan de overwegingen op grand waarvan
psychologen kunnen bepalen ofze landelijke of plaatselijke etnische normen moeten gebruiken
(zoals weergegeven in Onderzoekssupplement nr. 3) bij de rapportering van bepaalde resul-
taten, aan de rol van de psycholoog bij het bevorderen van het debat over maatschappelijk en
onderwijsbeleid en de noodzaak individuele RPM-scores te plaatsen in de context van andere
gegevens over de waarden en andere competenties van de geteste persoon of, bij onderwijs-
evaluatie en -onderzoeken, in de context van uitgebreidere evaluatiegegevens. Richtlijnen over
hoe een effectievere organisatie gecreeerd kan warden door het beschikbare menselijk kapitaal
beter te benutten en te ontwikkelen, zijn te vinden in Competence in Modern Society
In Managing Education for Effective Schooling wordt besproken welke ontwikkelingen in
het onderwijssysteem (onderwijsprogramma's, toetsing, organisatiestructuren, functieomschrij-
vingen en functioneringsbeoordeling) noodzakelijk zijn om de maatschappij in staat te stellen
meer beschikbaar talent te herkennen, te ontwikkelen en te benutten.
Zoals we gezien hebben, werd in het laatste kwartaal van de vorige eeuw het concept 'leer-
potentieel' populair. Dit werd gemeten aan de hand van het verschil tussen iemands score voor
en na training. Hoewel enkele varianten van deze methode, met name die van Guthke, nog
steeds veelbelovend zijn, nam het enthousiasme af, naarmate duidelijker bleek dat het in
bepaalde opzichten 'makkelijker' was om bijvoorbeeld van een ruwe score van 15 naar 20
te gaan dan van 55 naar 60, terwijl in beide gevallen de absolute 'scorewinst' '5' was. Dat
kwam deels door de ongelijke verdeling van de verschillen in moeilijkheidsgraad van de items,
zoals eerder besproken. Dit probleem, in combinatie met andere problemen die door Prieler
en Raven besproken warden, zorgde ervoor dat dergelijke 'scorewinsten' verschillende
betekenissen hadden voor verschillende delen van de schaal en dus weinig predictieve validiteit
hadden.
Maar 'leerpotentieel' is niet het enige psychologische kenmerk dat onderzoekers graag willen
afmeten aan het verschil tussen iemands scores bij de voor- en nameting. Er is al vaak geobser-
veerd dat bijvoorbeeld sommige mensen veel gevoeliger zijn voor stress dan anderen. Zouden
de verschillen tussen personen op dit punt afgemeten kunnen warden aan het verschil tussen
hun scores voor en na een stressveroorzakende gebeurtenis? Maar reageren sommige mensen,
ongeacht hun absolute score, dan ook sterker, d.w.z. is er een groter verschil in hun scores, dan
anderen op bepaalde soorten stress (of medicijnen) en heeft de omvang van dat effect predic-
tieve validiteit?
Een statistisch gerelateerde, klinische vraag is 'hoe sterk-' de prestaties van een individuele
patient relatief gezien verbeteren of verslechteren in reactie op verschillende regimes. Presteert
hij'/zij echt beter als zijn/haar score van A naar B gaat of liggen de items op dat deel van de
schaal zo dicht bij elkaar dat het effect verwaarloosbaar is? Wordt een noemenswaardig effect
van een bepaalde behandeling gevolgd door een nog duidelijker effect van een andere behan-
deling?
Een ander statistisch gerelateerd, maar in conceptueel opzicht nu zeer ander, vraagstuk heeft te
maken met het meten van het differentiele effect op bijvoorbeeld groepen meer en minder
begaafde personen in het kader van bijvoorbeeld proeven in onderzoekslaboratoria of maat-
schappelijke of onderwijsprogramma's. We hebben gezien dat over het algemeen beweerd
wordt dat de eerder besproken veranderingen in de loop der tijd 'groter' zijn voor minder
begaafden dan voor hoger begaafden. Dergelijke beweringen hebben weinig betekenis als ze
gebaseerd zijn op ruwe scores en de verschillen in moeilijkheidsgraad van de items varieren op
verschillende punten van de schaal (als ze in de laagste klasse bijvoorbeeld kleinerzijn dan in de
hoogste klasse) en vooral als de gebruikte test (bijvoorbeeld de Classic SPM) een plafond heeft,
waardoor voor degenen met hoge scores geen scorewinst aangetoond kan warden, terwijl die
in werkelijkheid wel heeft plaatsgevonden.
Deze vraagstukken zijn uitgebreid besproken door Prieler en Raven;:". De meest verontrustende
observatie uit dit onderzoek is echter dat, zoals Fischer heeft aangetoond, de ogenschijnlijke
relatieve winsten van hoog en laag scorende respondenten sterk afhankelijk zijn van de absolute
moeilijkheidsgraad van de gebruikte test, zelfs als de gebruikte test voldoet aan het Rasch-
model.
Dit probleem kan als volgt geTllustreerd warden.
In Figuur 7 wordt aangetoond hoe moeilijk het is de winst onder hoog begaafde respondenten
zo te bepalen dat deze winst op zinvolle wij'ze vergeleken kan warden met de winst van respon-
denten met een gemiddelde of lage score. Figuur 8 bevat een parallel voorbeeld voor mensen
met een lage ofgemiddelde begaafdheid.
i ?(;yUs» ? lllustratie van de veranderingen in ruwe scores voor -makkelijke' en 'moeilijke- IRT-tests van cognitief ver-
mogen bij identieke veranderingen in latent vermogen.
Groep van uitsluitend hoger begaafden
Ruwe score
Toename
Test 1
TCC
Test 2
Toename
Test 2
Latente trek
Voormeting Nameting
Als we een test (Test 1) gebruiken met de linker testkarakteristieke cun/e CTCC) in Figuur 7, dan
nemen de gemiddelde scores van de groep hoger begaafden toe van A bij de voormeting
(d.w.z. voor de training of toediening van een medicijn) tot B na de interventie. Deze toename is
relatief klein. Als we echter een moeilijkere test CTest 2) gebruiken met de rechter TCC, dan teidt
dezelfde toename van het latent vermogen van de groep hoger begaafden tot een ogenschijnlijk
zeer grote stijging van de ruwe score, van X naar Y.
FiCUURS lllustratie van de vemnderingen in ruwe scores voor 'makkelijke' en 'moeilijke' IRT-tests van cognitief
vermogen bij identieke veranderingen in latent vermogen.
Groep van uitsluitend lager begaafden
Ruwe score
TCC
Test
TCC
Test 2
Toename
Test 1
Toename
Test 2
Latente trek
Voormeting Nameting
Zoals te zien is in Figuur 8 vindt aan het andere eind van de schaal precies het tegenovergestelde
plaats. De ogenschijnlijke stijging van de score tussen de voor- en nameting is zeer groot voor
Test 1 en onbeduidend voor Test 2.
Als we deze twee gevallen naast elkaar zetten, dan is het duidelijk dat als een onderzoeker Test
1 gebruikt om de invloed van een interventie (of het verlopen van tijd) te meten, de relatieve
winsten van de groep lager begaafden zeer groot zijn, terwijl die van de groep hoger begaafden
onbeduidend zijn. Ats de onderzoeker daarentegen Test 2 gebruikt, dan krijgt hij precies tegen-
gestelde bevindingen.
De algemene en zeer belangrijke conclusie die getrokken kan warden op basis van deze voor-
beelden is dat de ogenschijnlijke omvang van een werkelijke toename van het latent vermogen
als gevolg van een inten/entie (bijvoorbeeld een leerervaring, een stressveroorzakende gebeur-
tenis of de toediening van een medicijn) of het natuurlijke verlopen van de tijd afhankelijk is van
(a) de moeilijkheidsgraad van de gebruikte test, (b) de vorm van de testkarakteristieke curve en
(c) de sector van de curve waarop de wijziging plaatsvindt.
Hierdoor is het vrijwel onmogelijk om, zonder toepassing van methodes zoals de door Fischer
en Prieler ontwikkelde methode (beschreven in Bijlage SPM3), (1) een zinvotle mededeling te
doen over de relatieve omvang van winsten of verliezen bij groepen hoger, gemiddeld of lager
begaafden, (2) betekenisvolle persoonlijke verschilscores te berekenen (d.w.z. individuele
verschillen in leerpotentieel of stressgevoeligheid te meten) of (3) te bepalen of een wijziging
in iemands score een noemenswaardige verbetering of verslechtering is.
In Bijlage SPM3 warden in het kort de basisprincipes van de methode uiteengezet waarmee
deze vraagstukken aangepakt kunnen warden. Hier is een korte illustratie voldoende. Als
hetzelfde item, zelfs van een niet-Rasch-homogene test, op twee verschillende momenten is
afgenomen, dan kunnen de twee metingen beschouwd warden als punten die een 'mini'-Rasch-
schaal vormen. Aangezien hetzelfde item op twee verschillende momenten is afgenomen moet
de 'schaal' wel dezelfde latente trek meten. Daarom moet een dergelijke schaal wel Rasch-
homogeen zijn. In feite zijn er evenveel mini-Rasch-schalen als er items zijn in de test. Als er bij-
voorbeeld dezelfde 10 items voorgelegd warden bij de voor- en nameting, dan levert dat 10
mini-Rasch-schalen op. Deze items hoeven daarbij niet a/s groep betrekking te hebben op een
gemeenschappelijke dimensie. Ze zouden zelfs, en soms gebeurt dat ook, bewust geselecteerd
kunnen warden om 10 verschillende dimensies te meten, zodat zoveel mogelijk informatie ver-
kregen wordt in zo min mogelijk tijd. Het interessante is echter dat in een tweede stap gekeken
kan warden of eventueel gesignaleerde effecten voor alle items gelden. Als dat het geval is (en
uit de vele beschikbare onderzoeken blijkt dat dat meestal zo is), kan de totale omvang van het
effect van de behandeling berekend warden. Op het eerste gezicht lijkt dit misschien vreemd,
maar het voordeel is dat het heel flexibel is. Uiteraard is de procedure onnodig ingewikkeld, als
de gebruikte test op zich eendimensionaal is. Bij klinisch onderzoek is het echter gebruikelijk
meerdimensionale vragenlijsten of meerdere tests die verschillende dimensies meten te gebruiken.
In dat geval kan de relatieve omvang van het effect op de verschillende componenten gemeten
warden.
Dezelfde procedures kunnen toegepast warden om vast te stellen welke mensen veranderd zijn.
Als iemand de veranderingen in personen na verloop van tijd of na interventie wil meten of de
ene persoon met de andere wil vergelijken, is het gebruik van een Rasch-homogene test echter
w nooclzakelijk-Toch staat c>ok dan de berekende omvang van de effecten los van de spreiding
of inhoud van de gebruikte items, de moeilijkheidsgraad van de test en de vorm van de test-
karakteristieke curve.
Bijlage SPM 3 bevat een nomogram waarmee het relatieve belang bepaald kan warden van ver-
slechtering of verbetering van SPM P/us-scores van individuen voor personen met verschillende
begaafdheidniveaus.
Inmiddels zijn er enkele computerversies van de RPM-tests verschenen. Geslaagde versies
zijn onder meer een Apple 11-versie van French en Beaumont, Apple Macintosh-versies van het
Minnesota Twin Studies-team en van Vodegel-Matzen en Dudink, een Tandy 2000-versie van
Andrich en Styles en een mainframeversie van de Royal Air Force in Groot-Brittannie. Talloze
psychologen hebben getracht een versie te ontwikkelen voor IBM-compatibele computers,
maar met IBM DOS kon moeilijk de juiste resolutie gerealiseerd warden. Daarom heeft
G.Schuhfried GmbH een DOS-modificatieprogramma ontwikkeld dat inmiddels op de markt
gebracht is.
Uiteraard wordt hierdoor de vraag opgeworpen of de computerversie en de papieren versie ver-

gelijkbare resultaten opleveren. Erzijn verschillende onderzoeken uitgevoerd (metverschillende
tests), die samen op overtuigende wijze de equivalentie van de computen/ersie en de papieren-
versie aantonen.
In verband met de moeilijkheden met het verkrijgen van voldoende resolutie voor de grafische
voorstelling op de computer, werd bij de eerste onderzoeken de papieren weergave vergeleken
met dia's die getoond werden door een geautomatiseerd, geTndividualiseerd testsysteem.
Calvert en Waterfall en Thompson en Wilson melden dat beide methoden vergelijkbare
resultaten opleveren, terwijl de geautomatiseerde weergave een aanzienlijke tijdbesparing
opleverde.
Ondanks de resolutieproblemen op de Apple II melden Rock en Nolen , Beaumont en

French en French en Beaumont vergelijkbare resultaten voor de twee methoden. French
en Beaumont melden dat de psychometrische kenmerken van beide testmethoden zeer sterk
op elkaar lijken. Bij onderzoek met psychotische patienten bleken de twee methoden echter
verschillende scores op te leveren.
Buxton deed onderzoek met de Apple Macintosh-versie en concludeerde dat beide

methoden vergelijkbaar zijn, dat de test-hertest-betrouwbaarheid .88 bedraagt en dat de
computerversie talloze extra resultaten, zoals reactietijd, kan verschaffen. Vodegel-Matzen
vergeleek de totale SPM-scores, de scores voor elk van de vijfsets en de foutenpatronen van vijf
groepen kinderen die de computerversie van de test gemaakt hadden met die van vijf gematohte
controlegroepen die op conventionele wijze getest warden. Er bleek geen verschil te zijn in de
gemiddelden offoutenpatronen.
Bij het grootste onderzoek tot nu toe (uitgevoerd bij de RAF en gerapporteerd door Burke )
werd een mainframeversie van de APM vergeleken met de papieren versie.
Ellis stelde vast dat de resultaten die de Schuhfried-Beltz IBM-versie van de APM opleverde,
niet te onderscheiden waren van de resultaten die op de conventionele wijze verkregen waren.
Horn heeft informeel verslag gedaan van een soortgelijk onderzoek. Norris vergeleek de
resultaten die waren verkregen met de Schuhfried-Beltz computerversie van de SPM met die van
de papieren versie met 56 kinderen van 10 en 11 jaar. De twee testmethoden leverden geen
statistisch significante verschillen op. Matusic en Jaworowska vergeleken de resultaten van de
papieren versie en de computerversie van adolescenten en volwassenen in Polen en stelden
geen significante verschillen vast.
De conclusie dat er weinig verschil is tussen de resultaten van de papieren versie en de computer-
versie komt overeen met de conclusie die Bartram en Bayliss stelden op basis van onderzoek
van de bredere literatuur over dit onderwerp.
Bij het verstrekken van toestemming voor experimenten met gecomputeriseerde afname
hebben de uitgevers altijd de voorwaarde gesteld dat het door de respondent geselecteerde
antwoord op het scherm getoond wordt en gewijzigd kan warden en dat de respondent een
tweede, afzonderlijke handeling moet verrichten om verder te gaan naar het volgende item.
Verschillende onderzoeken hebben het nut van deze eisen aangetoond. Neubauer, Urban en
Malle met de APM, Kubinger en collega's met de SPM en Watts, Baddeley en Williams
met diavoorstellingen stelden vast dat als het scherm direct naar het volgende item springt,
nadat er een antwoord geselecteerd is, de scores lager zijn en de respondent veel nerveuzer is.
Gecomputeriseerde tests zijn bij uitstek geschikt voor testen op maat. Andrich en anderen heb-
ben aangetoond dat de resultaten van testen op maat zeer sterk correleren met de resultaten
die verkregen warden bij de normale maniervan testen. Erzijn echtertwee problemen. Ten eer-
ste is testen op maat nadelig voor personen die het minst bekend zijn met het soort opgaven
dat ze voorgelegd krijgen, m.a.w. degenen die het meest profiteren van de training en oefening
die ingebouwd zijn in de volledigeversie van de test. Ten tweede moet er een model gebruikt
warden om de gegeven antwoorden om te zetten naar hetzelfde stelsel van begaafdheid-
niveaus, wanneer verschillende personen verschillende subsets van items voorgelegd hebben
gekregen. Andrich en Styles hebben daarvoor het Rasch-model gebruikt. Door toepassing van
verdere adaptaties van dit model en de bijbehorende procedures (waarbij de volledige test als
een speciale subset beschouwd wordt) kunnen deze begaafdheidniveaus afgelezen warden
tegen de bestaande normtabellen voor de volledige test. In de praktijk zou de begaafdheid
direct nadat de persoon de test afgerond heeft, berekend moeten warden.
Guthke heeft een ingenieuze computerversie van de test ontwikkeld die de afname-
snelheid die in verband gebracht wordt met adaptief testen combineert met de informatie die
beschikbaar is door direct na een fout antwoord feedback en aanwijzingen te verschaffen. De
met dergelijke procedures verkregen scores kunnen uiteraard niet vergeleken warden met de
traditionele normen. De procedure levert snel twee scores op die van cruciaal belang zijn: een
schatting van de traditionele score en informatie over het gemiddelde aantal aanwijzingen dat
nodig is om tot het juiste antwoord te komen, nadat een fout gemaakt is. Volgens Guthke
verschaft deze laatste score de meeste informatie.
Zoals hiervoor is besproken, hebben Gudjonsson en Shackleton een formule opgesteld om

personen die opzettelijk laag scoren (bijvoorbeeld ter ondersteuning van een schade-
vergoedingsclaim in verband met een hersenbeschadiging na een ongeval) te ontmaskeren.
Deze formule is later gekruisvalideerd door McKinzey et al . De scores voor de Schuhfried"7
computerversies van de tests warden nu automatisch gecontroleerd op aanwijzingen voor
opzettelijk lage scores.
Zoals we gezien hebben, is meting van de omvang van het verschil, en derhalve berekening van
de verschilscores, uitsluitend zinvol, als er gebruik gemaakt wordt van ingewikkelde statistische
procedures. Er zijn computerprogramma's voor de uitvoering van deze berekening ontwikkeld
door Fischer en uitgegeven door ProGAMMA . Het bedrijf Schuhfried biedt'een bereke-
ningsservice.
De Raven Progressive Matrices-tests zijn heel eenvoudig af te nemen. In tegenstelling tot
veel andere tests is het niet nodig strikte bewoordingen te hanteren. De voornaamste eisen zijn
allereerst en/oor te zorgen dat degenen die de test maken, begrijpen wat ze moeten doen en
welke denkwijze nodig is om de problemen op te lessen. Verder moet ervoor gezorgd warden
dat de tests op dezelfde wijze afgenomen warden bij alle personen die getest warden en dat
deze procedure overeenkomt met de procedure die gebruikt wordt voor het verzamelen van
referentiegegevens waarmee de resultaten vergeleken zullen warden.
Naast deze eisen zijn er vele uiteenlopende mogelijkheden. Zelfs de gebruikelijke eis dat
respondenten na de oefenitems niet meer geholpen mogen warden, kan in bepaalde gevallen
komen te vervallen, bijvoorbeeld wanneer de tests gebruikt warden voor de beoordeling van
het 'leerpotentieel'.
Wanneer de test individueel wordt afgenomen door een tester, lijken er emotionele factoren in
het spel te komen die het effectief denken kunnen belemmeren. De kans daarop is kleiner,
wanneer mensen rustig in hun eigen tempo kunnen werken. Als iemand rustig voor zichzelf kan
werken, individueel of in een groep, blijkt dat een betrouwbaardere indruk te geven van hun
vermogen helder te denken. Zelfs als mensen individueel getest warden, is het daarom het
beste ze voor zichzelf te laten werken, als ze daartoe in staat zijn.
De meeste kinderen jonger dan zes, en in veel gevallen zeven, jaar moeten individueel getest
warden.
De meeste kinderen tussen zeven en negen die kunnen lezen en schrijven en met de antwoord-
bladen kunnen omgaan, kunnen getest warden in groepjes van acht of negen. Voorafgaand aan
een dergelijke sessie dient de lees- en schrijfvaardigheid van de kinderen besproken te warden
met personen die hen kennen en dienen erzo nodig individuele tests geregeld te warden. Toch
dient ookterwijl de kinderen bezig zijn, nog zorgvuldig gecontroleerd te warden ofalle kinderen
wel met de antwoordbladen overweg kunnen. Eventueel dient op discrete wijze geregeld te
warden dat kinderen die er moeite mee blijken te hebben, op een later tijdstip individueel
getest warden.
Oudere kinderen en volwassenen kunnen getest warden in groepen van elke grootte, maar per
10 a 15 testdeelnemers dient er een assistent-testleider te zijn. De personen die aan de test
deelnemen, dienen een comfortabele zitplaats te krijgen aan tafels met voldoende ruimte voor
zowel het testboekje als het antwoordblad en dienen zo ver uit elkaar te zitten dat ze de
antwoorden niet van elkaar kunnen overschrijven. Er dient voldoende ruimte te zijn, zodat de
testleiders kunnen rondlopen zonder de testdeelnemers te storen. Alle testdeelnemers dienen
met hun gezicht naar de testleider te zitten. Voor personen die de test alleen maken, dient een
comfortabele, rustige ruimte beschikbaar gesteld te warden.
De testleider heeft nodig: deze instructies, een exemplaar van het testboekje en het bijbeho-
rende SPM-antwoordblad van elke afte nemen test, posters van de eerste twee items van set A
(die op een flip-over bevestigd warden, zodat opgave A1 opgave A2 verbergt, terwijl A1 weg-
gedraaid kan warden, waardoor A2 zichtbaar wordt) en, als de MHV gebruikt wordt, exemplaren
van de relevante formulieren van de test.
NB: de scoresleutel op de Easy-Score-antwoordbladen voor de Parallel SPM en de

SPM Plus komt niet overeen met die voor de Classic SPM. Het is daarom uiterst
belangrijk ervoor te zorgen dat als de Easy-Score-antwoordbladen gebruikt
warden, het antwoordblad van elke testdeelnemer overeenkomt met de versie
van het gebruikte testboekje.
Elke deelnemer aan de test heeft nodig: twee potloden en een exemplaar van het testboekje en
het bijbehorende antwoordblad van de gebruikte SPM-versie en hetjuiste MHV-formulier.
ZEG Voor deze test heeft u nodig: een Progressive Matrices-testboekje, een antwoordblad
waarop u uw antwoorden op de Progressive Matrices-test kunt vastleggen en een Mi7/
Hill Vocabu/ary-test.
U mag geen aantekeningen maken in het Progressive Matrices-testboekje.
^ Zo zien het Standard Progressive Matrices-antwoordblad en de Mf7/ Hi7/ Vocabulary-

test eruit.
DOE Houd het SPM-antwoordblad en de MHV-test omhoog.
ZEG De Mill Hill Vocabu/ary-test kunt u voorlopig opzij leggen.
Kijk naar het Standard Progressive Matrices-antwoordblad. Vul bovenaan uw naam, de

^ datum van vandaag, uw leeftijd en uw geboortedatum in.
>? Denk eraan dat u al uw antwoorden op het antwoordblad moet noteren.
Schrijfalstublieft niet in het testboekje.
Neem nu het testboekje, maar laat het nog even dicht.
DOEHoud het SPM-testboekje omhoog.
ZEG Bij deze test warden het vermogen tot observatie en helder denken gemeten.
.\
Open uw testboekje op de eerste pagina. U ziet daar opgave A1. Kijk nu naar uw
antwoordblad.
DOE Houd het antwoordblad omhoog en wijs naar kolom 1
Bij individuele afname van de SPM schrijft of noteert de testleider de cijfers van elk aangewezen
stuk op het antwoordblad van de gebruikte versie van de test. Als de testdeelnemer meer dan
een stuk aanwijst, geldt het laatst aangewezen stuk als het definitieve antwoord. Als bij groeps-
afname een testdeelnemer op de open antwoordbladen meer dan een cijfer invult, moet hij'/zij
eraan herinnerd warden dat alle foute antwoorden doorgekruist moeten warden. Op het Easy-
Score-antwoordblad moet de testdeelnemer een extra streep zetten door alle aangestreepte
antwoorden die niet goed zijn. Als een dubbel antwoord pas na afronding van de test op-
gemerkt wordt, dan wordt het cijfer uiterst rechts als het definitieve antwoord beschouwd,
ongeacht of de andere cijfers goed of fout zijn.
In Noord-Amerika en veel andere landen warden uitsluitend open antwoordbladen gebruikt en

die kunnen voor alle versies van de SPM gebruikt warden. Het is echter wel essentieel het
scoringsvoorschrift van de gebruikte test te gebruiken, omdat de posities van de juiste
antwoorden verschillen voor de Classic-, Parallel- en Plus-versies van de test. Wanneer de
antwoordsleutel naast de juiste kolom en rij gelegd wordt, toont de sleutel het correcte
antwoord voor elk item. Ken per correct antwoord een punt toe en noteer het totaal in de daar-
voor bestemde vakjes.
In het Verenigd Koninkrijk zijn de antwoordbladen voor alle versies van de Standard Progressive
Matrices nu 'easy-scoring' en afgedrukt op tweedelig carbonvrij doordrukpapier. Met is
essentieel goed te controleren of het antwoordblad bij de gebruikte test hoort, omdat
de posities van de juiste antwoorden verschillen voor de Classic-, Parallel- en Plus-versies
van de test. Scheur de stroken van het antwoordformulier om de bladen te scheiden, zodat de
gescoorde antwoorden op het achterste blad zichtbaar warden. Ken per correct antwoord een
punt toe. Als de testdeelnemer meer dan een antwoord gegeven heeft voor een bepaalde
opgave, is het antwoord incorrect (tenzij het gecorrigeerd is volgens de instructies op het
antwoordblad door het foute antwoord weg te strepen en een horizontaal streepje te zetten
door het definitieve antwoord).
Aangezien elk Easy-Score-antwoordblad het scoringsvoorschrift voor de test bevat, dient u de

antwoordbladen, gebruikt of ongebruikt, te alien tijde onder uw toezicht te houden.
lemands testscore is het totale aantal opgaven dat hij/zij correct opgelost heeft, terwijl hij'/zij
rustig de test van begin tot eind heeft kunnen maken.
De consistentie van de uitslag kan bepaald warden door van iemands score voor elk van de vijf
sets de score afte trekken die personen met dezelfde totaalscore normaal gesproken halen. De
normale verdeling van scores op de Classic SPM voor de vijf sets is in Tabel 2 aangegeven voor
elke totaalscore. Het verschil tussen iemands score per set en de normaliter verwachte score op
basis van de totaalscore kan numeriek als volgt weergegeven warden:
"Discrepanties:0,-1,+2,0,-1"
Als iemands score voor een van de sets meer dan 2 punten afwijkt, kan de totaalscore van de
test niet zonder meer beschouwd warden als consistente inschatting van het algemeen ver-
mogen tot intellectuele activiteit. Voor algemene doeleinden lijkt de totaalscore redelijk
betrouwbaar te zijn, zelfs als zich discrepanties van meer dan 2 punten voordoen.
Insommige gevallen kiezen respondenten hetjuiste antwoord op grand van een incorrect rede-
neerproces of een gok. Als de persoon de hele test maakt, zou het aantal goed gegokte
antwoorden proportioneel zijn aan het aantal verkeerde oplossingen, maar er is aangetoond dat
dit percentage veel lager ligt (zie Onderzoekssupplement nr. 1). Desalniettemin hebben laag-
scorende mensen relatief gezien meer kans om goed te gokken. Daardoor zijn lage scores over
het algemeen minder consistent en betrouwbaar dan hoge scores.
Zoals we gezien hebben, hebben Gudjonsson en Shackleton aangetoond, en McKinzey et

al bevestigd, dat zowel de opbouw van de totaalscore voor alle sets en het foutenpatroon
voor de items van personen die oprecht laag scoren duidelijk afwijken van die van personen die
opzettelijk laag scoren. Met andere woorden: personen die opzettelijk laag willen scoren, zijn
zich niet bewust van het antwoordpatroon van minder begaafden. Dat maakte het mogelijk een
eenvoudige, maar opvallend accurate, formule op te stellen om diegenen te ontmaskeren die
opzettelijk laag scoren om bijvoorbeeld schadevergoeding te eisen voor vermeende hersen-
beschadiging.
De Classic- en Parailei-versies vara de tests

Tabel 7 t/m 34 bevatten percentielnormen met behulp waarvan gebruikers de resultaten kunnen
interpreteren. Uit de informatie in eerdere edities van deze Handleiding blijkt dat de normen
voor tests die individueel afgenomen warden door een psycholoog of testleider vaak iets achter-
blijven bij de normen die verkregen zijn op basis van individuele zelfafname of groepsafname.
Op dtt moment zijn er alleen normen beschikbaar voor individuele testafname die zijn ge-
baseerd op de normering voor kinderen uit 1943. Deze zijn circa 10 ruwe scorepunten lager dan
de huidige normen. In plaats van de 1943-normen kunnen echter beter de huidige normen
gebruikt warden, waarbij de effecten van individuele afname eenvoudig gecompenseerd
kunnen warden. Op grand van vergelijking van de eerdere normen lijkt het gerechtvaardigd bij
individuele afname twee punten afte trekken van de vereiste score voor de percentielgroepen
in de tabellen uit deze editie van de Handleiding.
De normen voor groeps- of zelfafname van de test die zijn verkregen bij de Britse normering
voorjongeren in 1979 zijn weergegeven in Tabel 7. Tabel 8 bevat de normen, wanneer de test
geheel in de eigen tijd gemaakt kan warden, op basis van de 1992-normering voorvolwassenen
in Dumfries.
Tabel 9 bevat de nationale normen voor kinderen en jongeren in de Verehigde Staten uit 1986,
overgenomen uit Onderzoekssupplement nr. 3. De normen voor Amerikaanse volwassenen
die de test geheel in de eigen tijd maken, zijn weergegeven in Tabel 10. Tabel 13 bevat ge-
detailleerde normen op basis van deze gegevens, maar zoals benadrukt is in zowel de sectie
Algemeen als Onderzoekssupplement nr. 3, moet bij gebruik van deze normen grote voorzich-
tigheid betracht warden.
In Tabel 14 warden de normen van het omvangrijke normeringsonderzoek in Nieuw-Zeeland uit
1984 vergeleken met die van de Britse normering uit 1979. Tabel 15 en 16 bevatten Australische
gegevens. Nederlandse, Zwitserse en Indiase gegevens voor jongeren kunnen gevonden
warden in Tabel 20, 21, 18 en 19. Aanvullende vergelijkende gegevens voorjongeren in Rus-
land, Argentinie, Taiwan, Slowakije, Polen, Slovenie en Frankrijk zijn te vinden in Tabel 22 t/m 28.
Tabel 17 bevat gegevens uit China, waaronder normen voor volwassenen. In tabel 29 warden
Belgische normen voor volwassenen weergegeven, die eind jaren '80 verzameld zijn. In Tabel 30
staan de gegevens van klanten van het Britse arbeidsbureau. Tabel 31, 32 en 33 bevatten de
normen voor geselecteerde groepen volwassenen in lerland en Frankrijk.
De Britse normen van Conrad en Kyle voor slechthorende adolescenten en de Duitse normen
van Kratzmeier en h-lorn voor een vergelijkbare groep zijn weergegeven in Tabel 34.
Zoals te zien is in Tabel 11 t/m 33, en in meer detail in Onderzoekssupplement nr. 3, bestaan er
steeds, ondanks de stijging van de scores in de loop der tijd, aanzienlijke interculturele
overeenkomsten tussen de normen die op een bepaald moment vastgesteld zijn. Hierbij moet
echter wel aangetekend warden dat het materiaal in Onderzoekssupplement nr. 3 aantoont dat
er aanzienlijke variatie bestond in de normen die in verschillende schooldistricten van de Ver-
enigde Staten verzameld waren. De normen varieerden afhankelijk van de socio-economische
en etnische samenstelling en geografische ligging van de schooldistricten. Psychologen dienen
dan ook met zorg de normen te selecteren die geschikt zijn voor hun doeleinden. In sommige
gevallen zullen de internationale normen uitTabel 7, 8, 14, 16, 17,20,21 en 24 (die hoger zijn
dan de nationale normen van de VS) het meest geschikt zijn.
In andere gevallen zullen plaatselijke etnische normen (zoals die in Onderzoekssupplemen-t nr. 3)
meer geschikt zijn. De auteurs willen het aantal beschikbare plaatselijke normen graag uit-
breiden en zouden het zeer op prijs stellen als personen die bereid zijn dergelijke gegevens te
verzamelen, contact met hen opnemen.
Er zijn talloze andere onderzoeken met normeringsgegevens gepubliceerd. De resultaten zijn

samengevat in de editie uit 1995 van sectie 7: Onderzoek en bronnen. Hierbij moet echterwel
benadrukt warden dat niettegenstaande de waarde van deze onderzoeken voor individuele
onderzoekers en met name voor psychologen die werkzaam zijn in niet-westerse maatschappij-
en, de meeste gebaseerd zijn op niet-representatieve steekproeven en vaak uitsluitend betrek-
king hebben op bepaalde leeftijdsgroepen ofsubgroepen van de populatie.
SPM Plus
Tabel 35 bevat een uitsplitsing van de gemiddelde opbouw van de totale SPM P/us-score op
basis van de scores voor de verschillende sets. De normale opbouw van SPM P/us-scores wijkt
aanzienlijk af van die van de Classic en Parallel SPM-scores (weergegeven in Tabel 2).
Tabel 36 t/m 40 bevatten de normeringsgegevens voor de SPM P/us voor 14- tot 30-jarigen
in Duitsland, 51/2- tot 17-jarigen in het Fort: Bend Independent School District in Texas en voor
15- tot 80-jarigen in Polen. Als iemand de scores van de door hem/haar geteste personen wil
vergelijken met de beschikbare normen voor de Classic en Parallel SPM, kan hij'/zij deze scores
omzetten naar C/assic SPM-scores met behulp van Tabel 3. Bij deze procedure kan echter
uitsluitend geprofiteerd warden van het grotere onderscheidend vermogen van de SPM P/us
onder hoger begaafden als de ruwe scores van deze personen vergeleken worden met die van
de andere geteste personen (wier scores uiteraard vergeleken kunnen warden met de Classic-
normen).
De auteurs horen graag van personen die SPM P/us-normen willen verzamelen voor hun plaat-
selijke populaties.
Rapportage van totaalscores bij individueie beoordeling

Zoals uitgebreider besproken is in de sectie A/gemeen en Onderzoekssupplement nr. 3, kan de
significantie van iemands totaalscore het best bepaald warden door vast te stellen welk percen-
tage van enkele referentiegroepen met hetzelfde geboortejaar lager (of hoger) scoort. Zoals is
aangetoond in Onderzoekssupplement nr. 3 (waar de problemen met het gebruik van deviatie-
IQ's in enig detail besproken warden), heeft dit als voordeel dat er niet a priori vanuit wordt
gegaan dat bij kinderen de ontwikkeling van intellectueel vermogen per definitie gelijkmatig
verloopt of symmetrisch verdeeld is.
Om praktische redenen is het handig bepaalde percentages van de populatie te groeperen en

de scores in die groepen onder te brengen. Zo kan iemand op basis van zijn/haar score als volgt
ingedeeld warden:
GRAAD I "intellectueelsuD©rieur",bijeenscoreopofboven het 95e percentiel voor mensen

uit dezelfde leeftijdsgroep.
GRAAD II "Duidelijkbovengemiddeld intellect", bij een score op of boven het75e percentiel.

(Bij een score op of boven het 90e percentiel kan de aanduiding 11+ gebruikt wor-
den.)
GRAAD III "Gemiddeld intellect", bij een score tussen het 25e en het 75e percentiel. (Bij een
score boven het 50e percentiel kan de aanduiding 111+ gebruikt warden en eronder
III-.)
GRAAD IV "Duidelijk benedengemiddeld intellect", bij een score op ofonder het 25e percen-
tiel. (Bij een score op of onder het 10e percentiel kan de aanduiding IV- gebruikt
warden.)
GRAAD V "Intellectueel beperkt", bij een score op of onder het 5e percentiel voor die leef-
tijdsgroep.
De behaalde totaalscore, de consistentie van een schatting en de behaalde graad kunnen handig
als volgt samengevat warden:
Totaalscore 46
Discrepanties 0, +1, -2, +2, -1
Graad 111+
Tijd 38 minuten
Om te voorkomen dat de test te lang of te onpraktisch wordt (en dus de optimale bruikbaarheid
van de test te behouden), moesten bepaalde compromissen gesloten warden bij de ontwikke-
ling ervan. hlierdoor is het vermogen duidelijk onderscheid aan te brengen onder laagscoren-
den, met name kinderen, en onder hoogscorende volwassenen noodzakelijkerwijze beperkt.
Dat tweede punt werd een groot probleem, naarmate de scores stegen. Zoals is uitgelegd, is
het vermogen van de SPM onderscheid aan te brengen tussen hogere scores zonder afte doen
aan het onderscheidend vermogen voor minder begaafden hersteld door de ontwikkeling van
de SPM P/us. Als in de onder- of bovenklasse duidelijker onderscheid nodig is, dient gebruik
gemaakt te warden van respectievelijk de CPM of de APM. Als er behoefte is aan een kortere
(maar daardobr ook minder betrouwbare) beoordeling, kan APM Set I afzonderlijk gebruikt warden.
Andere pogingen om de beperkingen van de SPM op te lessen door de test te verlengen, op te
splitsen, alle items in een rij te rangschikken en de items te herschikken, bleken allemaal het nut
van de complete test sterk te beperken.
Gebruikers wordt dan ook afgeraden zelf dergelijke varianten te ontwikkelen. Hoewel zo wel een
test verkregen kan warden die beter geschikt is voor een bepaald doeleinde, kan de gebruiker
geen gebruik maken van de opgebouwde internationale datapool en eventuele met de variant
verzamelde gegevens kunnen ook niet opgenomen warden in die pool. Deze pool is juist zeer
bruikbaar gebleken voor individuele beroepsmatige gebruikers en is van onschatbare waarde
voor de vergroting van ons inzicht.
Contextuele informatie noodzakelijk

Zoals is aangegeven in de sectie A/gemeen is het noodzakelijk naast de SPM-scores ook de
MhlV-scores te vermelden, om een indicatie te krijgen van de twee hoofdcomponenten van g.
Als dat gedaan wordt, is, zoals blijkt uit het werk van onderzoekers van Spearman tot Matarazzo,
evenveel betrouwbare en bruikbare informatie, zowel algemeen als differentieel, verschaft als
vergaard kan warden met de meeste langere en omslachtigere IQ-tests.
Het bewijsmateriaal dat in deze sectie en de sectie A/gemeen van deze Handleiding is samen-
gevat, toont aan dat, zoals Spearman al suggereerde, het deductief en reproductief vermogen
hun oorsprong hebben in verschillende erfelijkheids- en omgevingsaspecten, op verschillende
wijze beTnvloed warden door maatschappelijke en onderwijsprocessen en verschillende conse-
quenties hebben voor het leven van de desbetreffende personen en hun bijdrage aan de maat-
schappij. Hoewel iemands SPM- en MhlV-score meestal overeenkomen, is dat niet altijd het
geval. Als de scores voor beide tests wel overeenkomen, kunnen we, als de resultaten van beide
tests intern consistent zijn, daaruit afleiden dat beide tests effectief gefunctioneerd hebben en
dat de resultaten een redelijk nauwkeurige indicatie geven van iemands huidige niveau van
mentale ontwikkeling en hun normale ontwikkelingstempo.
De precieze significantie van eventuele waargenomen discrepantie tussen iemands SPM- MhlV-
scores kan uits!uitend bepaald warden door verder onderzoek. Er kan echter wel warden aange-
nomen dat als iemands MHV-score lager is dan zijn/haar SPM-score hij'/zij niet is blootgesteld
aan de algemene informatie en beheersing van de Engelse taal die past bij zijn/haar intellec-
tuele vermogen of die om een of andere reden niet heeft kunnen verwerven. Aan de andere
kant kan warden aangenomen dat als iemands SPM-score lager is dan zijn/haar MHV-score hij'/zij
lijdt aan vermoeidheid, tijdelijke intellectuele beperking of mentale achteruitgang of om een of
andere reden zijn/haar beschikbare mentale activiteit buitensporig gericht heeft op de ver-
werving van verbale kennis.
Bij de rapportage van resultaten dienen eventuele discrepanties tussen de RPM- en MHV-scores
en de scores voor andere test besproken en, zo nodig, grondig onderzocht te warden.
Zoals is aangegeven in de sectie A/gemeen kan aan het deductief en reproductief vermogen
samen niet meer dan circa 10% toegeschreven warden van de variantie in menselijke prestaties
buiten het onderwijssysteem . Met is dan ook noodzakelijk deze scores in de context te plaat-
sen van andere informatie over de aard van de activiteiten waaraan iemand waarde hecht en
zijn/haar vermogen deze activiteiten effectief uit te voeren. Helaas, hebben psychologen al
minstens een eeuw zonder succes getracht een conceptueet kader hiervoor te ontwikkelen. Met
werkvan David McClelland lijkt echter een stap in de goede richting te zijn. Zoals opnieuw weer-
gegeven door de auteur toont het werk van McClelland aan dat het noodzakelijk is vast te
leggen aan welke soorten activiteiten mensen waarde hechten, de competenties (waaronder het
vermogen vergaarde informatie te conceptualiseren en te benutten) die zij tijdens deze activitei-
ten tentoonspreiden en in hoeverre de omgeving inspeelt op hun motieven en waarden en hen
daardoor stimuleert hun competenties ten volle te ontwikkelen en toe te passen. Bij individuele
beoordelingen kan deze informatie het eenvoudigst verzameld warden door middel van
gedragsinterviews. Eris nu echtereen experimenteel pakket computerprogramma's y beschik-
baar om soortgelijke informatie te verzamelen zonder interviewer. Daarnaast is een voorlopige
reeks roosters vervaardigd voor gebruik door leerkrachten en managers in het kader van de
beoordeling van de kwaliteit van de ontwikkelingsomgeving waarin de te beoordelen personen
zich bevinden en de auteurzou graag in contact komen met andere belangstellenden die willen
deelnemen aan proefprogramma's om deze procedures bij te stellen en uit te breiden.
Een van de consequenties van de in de vorige paragraaf vermelde informatie moet duidelijk
benadrukt warden. Als het erom gaat manieren te vinden om een inteltigente, levendige,
flexibele leerorganisatie te creeren, is het meestal niet noodzakelijk een 'intelligent' persoon of
all-roundtopper te selecteren. Met gaat erom een cultuur te creeren waar ondernemingszin en
intelligentie heersen. Daarvoor is het noodzakelijk uiteenlopende mensen, die zeer verschillende,
maar wederzijds aanvullende activiteiten kunnen uitvoeren, in dienst te nemen en hun krachten
te benutten. Enkele manieren waarop dit gerealiseerd kan warden, zijn beschreven in Compe-
fence in Modern Soa'ety-'. In Managing Education for Effective Schooling wordt besproken
op welke manieren scholen meer verschillende talenten kunnen herkennen en ontwikkelen. De
manieren waarop de inzichten uit het laatste boek in de praktijk gebracht kunnen warden, zullen
gepubliceerd warden in een Schoof fmprovement Kit.
Hoewel veel klinische onderzoekers een vorm van de Matrices gebruiken zonder de bijbehorende
Vocabulary Scale, kan er meer bruikbare informatie verkregen warden door beide tests samen te
gebruiken. Bij het testen op cognitieve gebreken kan het verschil tussen het deductief en repro-
ductief vermogen een significante indicator zijn.
Analyse van de verschillen tussen verbale en performale scores op de WISC-R of de WAIS-R

wordt alom aanbevolen als ruwe indicator van stoornissen, hoewel een goede theoretische basis
voor de methode'-" ontbreekt en de subschalen in factorieel opzicht niet zuiver zijn. De zuiver-
dere meetinstrumenten voor het deductiefen reproductiefvermogen in de vorm van de RPM en
de MHV leveren een duidelijkere discrepantie op tussen de graden voor de Matrices en die voor
de Vocabulary Scale bij zowel hoofdtrauma als bij de verschillende typen dementie.
Een complete scheiding van de graden (bijv. Vocabulary: graad II en Matrices: graad IV) kan
beschouwd warden als sterke indicator van disfunctie (hoewel daaraan ook andere dan neuro-
logische factoren ten grondslag kunnen liggen). Een omgekeerde scheiding (bijv. Vocabulary:
graad IV en Matrices: graad II) komt minder vaak voor, maar zou reden geven tot zorg en duiden
op mogelijke afasieproblemen.
Uit de breedte van deze scheiding blijkt wel dat overtuigend bewijs voor stoornissen eenvoudi-
ger te verkrijgen is voor personen wier premorbide begaafdheid in de bovenste categorieen
(graad I en. II) hoorde dan voor personen uit de middelste of lagere categorieen.
Naast de vergelijking van Matrices- en Vocabulary-graden kan ook analyse van de discrepanties
tussen de scores voor de verschillende sets van de SPM potentieel significante informatie op-
leveren. Onder voorbehoud van de hiervoor vermelde beperkingen duiden discrepanties van
± 3 op een lichte afwijking van optimaal functioneren. Als de mogelijkheid bestaat dat de
respondent opzettelijk laag scoort, dient toepassing van de meer gedetailleerde analyse van
discrepanties, opgesteld door Gudjonsson en Shackleton en bevestigd door McKinzey et
al , overwogen te warden.
Als uitgesloten is dat er sprake is van opzettelijk lage scores, dan dient gekeken te warden naar
'onregelmatigheid' van de resultaten, zoals dat ogenschijnlijk eenvoudige items verkeerd zijn,
terwijl moeilijkere opgaven wel goed opgelost zijn. Dit zou het gevolg kunnen zijn van onoplet-
tendheid en concentratiegebrek (veel voorkomende bijverschijnselen van beschadiging) of van
een meer specifieke storing in de denken waarnemingsprocessen die nodig zijn om tot de juiste
oplossingen te komen.
Deze hypotheses kunnen onderzocht warden door te kijken naar de werkelijk gemaakte fouten:
duiden ze op herhaaldelijk onvermogen om Gestalten afte maken, om zich op een van de helf-
ten van het visuele veld te richten ofzijn ze het gevolg van onvermogen om de orientatie van de
opties waar te nemen? De meeste incorrecte antwoorden binnen iemands vaardigheidsbereik
warden veroorzaakt door het onvermogen slechts eeri regel of principe toe te passen, dus als is
gekozen voor een optie die meer dan een regel breekt, dient dat serieuzer bekeken te warden.
Ook perseveratie kan eenvoudig vastgesteld warden (bijv. wanneer hetzelfde optienummerver-
schillende keren na elkaar genoteerd is of als herhaaldelijk hetzelfde soort incorrecte antwoord
gegeven wordt).
Als de SPM afgenomen wordt in combinatie met een vorm van de Mill Hill Vocabulary Scale met
zowel sets met meerkeuzevragen als sets met open vragen, biedt dat de mogelijkheid niet
alleen de SPM- en MhlV-graden, maar ook de scores van beide helften van de Vocabulary Scale
met elkaar te vergelijken. Aangezien meerkeuzevragen alleen herkenning van het juiste syno-
niem vergen, terwijl voor de open vragen een actiever verbaal proces van herinnering en uit-
drukking vereist is, kunnen personen met een neurologische stoornis een lagere score voor de
open vragen halen dan verwacht. De antwoorden kunnen in kwantitatief (met de behaalde lage
score) en in kwalitatief opzicht geevalueerd warden voor bewijs van verbale disfunctie. Aange-
zien het verschil tussen twee sets normaal gesproken twee tot drie punten bedraagt, zou er
sprake kunnen zijn van een stoornis bij een verschil van vijf of meer punten voor respondenten
onderde SOjaar. Bij hogere leeftijden dient voorzichtigheid betrachtte warden, aangezien een
verschil van vijf a zes punten daar niet ongebruikelijk is.
Bij ernstige disfunctie zullen dergelijke indicators heel duidelijk aan het licht komen. In de vol-
gende situaties kunnen de testresultaten bruikbaar zijn, hoewel het stellen van een diagnose
daarbij niet aan de orde is:
a) bevestigen van aanwijzingen en gegevens inzake het gedrag die met andere tests
verkregen zijn;
b) verschaffen van een indicatie van de ernst van de stoornis met basisinformatie die
geschikt is voor forensische rapporten ;
c) verschaffen van de gelegenheid voor herhaald testen om herstel of verslechtering na

verloop van tijd vast te stetlen.
Er dienen echter enkele waarschuwende kanttekeningen geplaatst te warden over het trekken
van conclusies op basis van Matnces-resultaten bij neuropsychologisch onderzoek:
De beste en meest geschikte reeks normen dient gebruikt te warden. Gezien het
bewijs dat in deze Handleiding geleverd is dat er variaties zijn in de normen die ver-
kregen zijn voor mensen uit verschillende socio-economische en etnische groepen, is
de selectie van de te gebruiken normen heel belangrijk, vooral wanneer er vergelijkingen
getrokken warden metVocabulary-scores.
Bij deze tests spelen leeftijdsverschillen een rol, met name boven de 50,hoewelhet
predeze effect hiervan nog nader onderzocht moet warden. Voorat bij het interprete-
ren van de scores van personen boven de 50 dient grate voorzichtigheid betracht te
warden, omdat bij die groep een licht daling van scores te verwachten is . Naar ver-
wachting zal aanhoudend onderzoek met gezonde populaties ouderen een steviger
basis verschaffen voor conclusies. In de tussentijd zouden uitsluitend de meest recente
normeringstabellen gebruikt moeten warden.
Er kan meer vertrouwen gehecht warden aan indicaties van verslechtering bij oudere
respondenten met een hoger opleidingsniveau, een hogere socio-economische status
en een hogere premorbide begaafdheid (al deze factoren zijn onderling gecorreleerd),
aangezien scores boven het 50e percentiel minder sterk afnemen dan scores onder het
50e percentiel
Ook het gebruikvan recente normen is belangrijk, aangezien de stijging van de resul-
taten, zoals hiervoor in de Handleiding is opgemerkt, over het algemeen binnen de
populatie plaatsvindt. Het is ethisch onverantwoord normeringsgegevens uit eerdere
edities van de Handteiding te gebruiken, want de waargenomen veranderingen in
prestatie in de loop derjaren zijn aanzienlijk.
Hoewel de RPM ontwikkeld werd om zo snel en eenvoudig mogelijk een algemene indicatie te
geven van iemands vermogen tot waarneming en helder denken, gebruiken veel psychologen
de test om hen te helpen denkfouten vast te stellen en veel trainingsprogramma's zoals die van
Jacobs, Feuerstein (in zijn programma's voor instrumentafe vernjking) en Guthke zijn gebaseerd
op inzicht in de aard van fouten.
In feite zou voor de diagnose van denkfouten de ontwikkeling van ten minste een andere versie
van de test (liefst een computerversie waarbij de items experimenteel aangepast kunnen warden
voor individuele respondenten om erachter te komen waardoor ze makkelijker of moeilijker wor-
den) of een ander soort test vereist zijn . Raven heeft zelf een sorteertest ontwikkeld waarin de
te ordenen objecten in verschillende opzichten varieerden en hij raadde verder het gebruik van
een test met blokontwerp aan. Maistriaux heeft op inzichtelijke wijze aangetoond welke
inzichten verkregen kunnen warden door gebruik van Kohs' blokken en de Stick Test van Gold-
stein en Scheerer naast de Matrices.
Hoewel er geen direct beschikbare procedures zijn om de in de voorgaande paragraaf genoem-

de informatie te verzamelen, kan bruikbare informatie verkregen warden door de testdeelnemer
tijdens de test te observeren, hem/haar tijdens of na de test te ondervragen over de gebruikte
strategieen, de bordvorm van de test te gebruiken en de fouten in te delen volgens het schema
dat opgenomen is in de sectie Coloured Progressive Matrices van deze Handleiding. In het
kader van dergelijk onderzoek zou tevens gebruik gemaakt moeten warden van de korte vorm
van de MHVen de kwalitatieve classificatie van ongebruikelijke antwoorden uit de sectie MHV
van deze Handleiding.
Evaluaties van onden/vijsprogramma's zijn over het algemeen niet uitgebreid genoeg. Dat leidt
vaak tot in de eerste plaats misleidende resultaten die de sterke en zwakke kanten van de
geevalueerde programma's niet blootleggen. Dat leidt vervolgens weer tot misplaatste beleids-
beslissingen . Er bestaat met name een noodzaak te onderzoeken of onderwijsprogramma's
aansluiten bij de waarden van de deelnemers en hen dus in staat stellen een reeks belangrijke
competenties, zoals het deductief vermogen, te oefenen en te ontwikkelen. Zoals al eerder
aangegeven, leverde de opname van de RPM en andere meetinstrumenten voor deductief
vermogen als afhankelijke variabelen in evaluatieonderzoeken verrassende resultaten op. Deze
zijn vaak in strijd met de resultaten bij gebruik van de meetinstrumenten die meestal gebruikt
warden voor de toetsing van verworvenheden op onderwijsgebied en die sterk afhankelijk zijn
van het reproductiefvermogen. Deze resultaten onderstrepen duidelijk de noodzaak RPM-resul-
taten in een breder kaderte plaatsen. Inmiddels zijn er redelijk goede methoden ontwikkeld om
dit op groepsbasis te doen
Wat gezegd is over de noodzaak om de te gebruiken normen af te stemmen op de educatieve
en maatschappelijke consequenties van de te nemen beslissingen, om gebruikers voor te
lichten zodat ze inzicht krijgen in de educatieve en maatschappelijke consequenties van wat ze
doen, om de RPM- en MhlV-scores in de context van een bredere reeks evaluatiegegevens te
plaatsen, om te streven naar de ontwikkeling van bredere evaluatie-instrumenten en om het
belang van (nieuwe soorten) psychologisch onderzoek voor effectief functioneren van onze
organisaties en maatschappij te onderstrepen, heeft grote gevolgen voor de rol van de psycho-
loog en de vereiste competenties om die rol effectiefte vervullen. hlet is duidelijk dat de rol van
de psycholoog in vakkundig opzicht allesbehalve beperkt is. Wat hiervoor opgemerkt is, heeft
dan ook grate gevolgen voor de opleiding van de psycholoog, de verwachtingen van zijn/haar
rol, de beoordeling van zijn/haar functioneren en de werkomstandigheden. Deze gevolgen
warden uitgebreider besproken in de sectie A/gemeen en de Onderzoekssupplementen van
deze Handleiding, in Managing Education for Effective Schooling en in enkele andere in deze
bronnen vermelde publicaties.
I
IH
UWWUUUNNNIMNMMNNN
U1^tdN-»0>000^10>UI+>Ulsi-»0>OCOÎO>U1^t«>;ISi-»0
^ 3 /-»
tm ?
00000000 ooo'oooooooooooooooooo'ô'' >! 3 3
IS
<ooooooooo'SJ's-J-^l'ôs-000<cncntjiLn4^-f^.-ôJCoCL»N>roN) ro !
^]\10~0~0~0'0~LnU1LnLnJ^J^J^4^LON)MNMM n ?
I
~j~jÔ~tncntnuiuitn^4ÛOJ[sjN>MN>
D
N M MNN) M 0000m (D
i
3
I o>uiuiuiuitnuitntnuiyi^^^^^t>^^^^<dtouw
0>000^10>UIÛM->0>OCOÎO-UI^fciil>>)-»0>000^10>
I
g
0 MMNMMMMMMMhJMMMNN)
NJN3NJFON3rorON)N3 00000
N3 I\3N) N3 -* 0000. ~0<l~0~0>00300000000\l^l^n
ooooo'ooooooooo-'-jOi
00000000
M -> -> 00 sO-0000000-s-*JO-OCnCn-l^-l^-f^-t^CJGON)N)NiN3m

TABEL3 Tabel voor conversie van Classic of Parallel SPM-scores naar en van SPM Plus-ruwe scores
Ruwe Scores Ruwe Scores
SPM-CofSMP-P SPM Plus SPM-CofSPM-P SPM-Plus
1,2 1 41,42 31
3 2 43 32
4 3 44 33
5,6 4 45 34
7 5 46 35
8 6 47 36
9 7 48 37
10 8 49 38
1,12 9 50 39
13 10 51 40,41
14 11 52 42
15,16 12 53 43,44
17 13 54 45
18 14 55 î3^
19 15 56 48,49
20,21 16 57 50,51
22 17 58 52,53,54
23,24 18 59 55
25 19 56
26,27 20 57
28 21 58
29,30 22 59
31 23 60
32 24
33,34 25
35 26
36,37 27
38 28
39 29
40 30
88 I RAVEN I HANULEIDING
TABEL4 Tabel voor conversie van ruwe scores voor Classic of Parallel Standard Progressive Matrices en Coloured
Progressive Matrices
CPM SPM CPM SPM
0 0 18 17
1 1 19 19
2 2 20 20
3 3 21 21
4 4 22 22
5 5 23 24
6 6 24 26
7 7 25 27
26 29
9 9 27 30
10 9 28 32
11 10 29 35
2 11 30 36
3 12 31 39
14 13 32 41
15 14 33 44
16 5 34 48
17 6 35 52
36 57 extrapolaties
De wijze waarop deze tabel, berekend door Andrich en Styles, opgesteld is, is beschreven in de editie uit 2000 van
Onderzoekssupplement nr. 3.
TABEL5 Tabel voor conversie van ruwe scores voor Classic of Parallel Standard Progressive Matrices en Advanced
Progressive Matrices Set II
APM II SPM APM II SPM
1 17-21 17 50
2 22-25 18 51
3 26-28 19 52
4 29-31 20 53
5 32-33 21 53
6 34-35 22 54
7 36-37 23 55
8 38-39 24 56
9 40-41 25 56
10 42 26 57
11 43-44 27 57
12 45 28 58
13 46 29 58
14 47 30 58
15 48 31 59
16 49 32 59
NB: schattingen van de begaafdheid die overeenkomen met de minimum- en maximumscore van de APM (0 en 36) zijn
-oneindig en +oneindig, waardoor er geen equivalente ruwe SPM-scores verschaft kunnen warden.
Raadpleeg voor informatie over de opstelling van deze tabel hoofdstuk 8, geschreven door Andrich en Styles, in de editie
uit 2000 van Onderzoekssupplement nr. 3 van deze Handleiding.
TABEL6 Tabel voor conversie van ruwe scores voor Classic of Parallel Standard Progressive Matrices en Advanced
Progressive Matrices Set I*
APM II SPM APM II SPM
1 15 7 47
2 24 8 51
3 30 9 53
4 36 10 56
5 40 11 58
6 44 12 60
* Opgesteld door Styles op basis van gegevens van de normering in Dumfries uit 1992
TABEL7 Standard Progressive Matrices (Classic en Parallel)
Gecorrigeerde Britse normen voor de test bij zelf- of groepsafname (kinderen)
Op basis van de nationale normering uit 1979
Leeftijd in jaren (maanden)
I 6V2 7 71/2 8 8V2 9 Vk 10 10V2 11 11'/2 12 12V2 13 13V2 14 14V2 15 151/2
6(3) 6(9) 7(3) 7(9) 8(3) 8(9) 9(3) 9(9) 10(3) 10(9) 11(3) 11(9) 12(3) 12(9) 13(3) 13(9) 14(3) 14(9) 15(3)
I t/m t/m t/m t/m Vm t/m Vm t/m t/m t/m t/m t/m t/m t/m t/m t/m Vm t/m t/m
6(8) 7(2) 7(8) 8(2) 8(8) 9(2) 9(8) 10(2) 10(8) 11(2) 11(8) 12(2) 12(8) 13(2) 13(8) 14(2) 14(8) 15(2) 15(8)
95 33 34 37 40 42 44 46 48 49 50 51 52 53 54 54 55 56 57 57
90 30 32 35 38 40 42 44 46 47 48 49 50 51 52 53 54 54 55 55
75 22 26 30 33 36 38 41 42 43 44 45 46 47 49 49 50 50 51 51
50 16 19 22 25 31 33 36 38 39 40 41 41 42 43 44 45 46 47 47
25 13 14 15 17 22 25 28 32 33 34 36 37 38 39 41 42 42 42 42
10 10 12 12 14 16 17 19 23 27 29 31 31 32 33 35 36 36 36 36
10 11 12 13 14 15 17 22 24 25 26 27 28 29 30 33 33 33
n 112 138 148 174 153 166 198 172 194 187 164 164 174 185 180 196 189 191 171
De correlatiecoefficient tussen leeftijd en score is .70.
Gebaseerd op een nationaal representatieve steekproef van Britse schoolkinderen, met uitzondering van leerlingen in
het speciaal onderwijs (zie Onderzoekssupptement nr. 1 voor details).
Jongere en minder begaafde kinderen zijn individueel getest.
(De gegevens in deze tabel warden in hoofdstuk 9 van Onderzoekssuppfement nr. 1 vergeleken met die van eerdere
onderzoeken.)
TABEL 8 Standard Progressive Matrices (Classic en Parallel)

Gecorrigeerde Britse normen voor de test bij zelfafname in de eigen tijd (volwassenen)
Op basis van de normering uit1992*
Leeftijd in jaren
20 25 30 35 40 45 50 55 60 65 70
18 23 28 33 38 43 48 53 58 63 68
£ t/m t/m t/m t/m t/m Vm t/m t/m t/m t/m +
22 27 32 37 42 47 52 57 62 67
95 59 59 59 59 59 59 58 58 58 58 55
90 58 58 58 58 58 58 57 57 57 57 5.4
75 57 57 57 56 56 56 55 55 55 55 51
50 54 54 54 54 53 52 51 50 49 48 45
25 49 49 49 49 48 47 46 45 44 43 39
10 44 44 44 44 43 41 39 37 35 33 29
5 39 39 39 39 37 34 30 27 24 20 16
n 58 71 84 69 54 67 54 39 46 43 44
* Gebaseerd op een representatieve steekproefvan de volwassen bevolking van Dumfries.
Test ingevuld in de eigen tijd (zie de tekst voor details).
Variantieanalyse bracht geen significant verschil tussen de scores van mannen en vrouwen of interactie met leeftijd aan
het licht.
Cecorrigeerde globale normen voor kinderen enjongeren in de Verenigde Staten
.» 61/2 7 71/2 8 8V2 9 9V2 10 101/2 11 11'/2 12 121/2 13 13'/2 14 14V2 15 151/2 16 16V2 17 17V2 18 181/2 19 19V2
I 6(3) 6(9) 7(3) 7(9) 8(3) 8(9) 9(3) 9(9) 10(3) 10(9) 11(3) 11(9) 12(3) 12(9) 13(3) 13(9) 14(3) 14(9) 15(3) 15(9) 16(3) 16(9) 17(3) 17(9) 18(3) 18(9) 19(3)
t/m t/m t/m t/m t/m t/m t/m t/m b/m t/m t/m t/m t/m t/m t/m t/m t/m t/m t/m Vm t/m t/m t/m t/m t/m t/m t/m
6(8) 7(2) 7(8) 8(2) 8(8) 9(2) 9(8) 10(2) 10(8) 11(2) 11(8) 12(2) 12(8) 13(2) 13(8) 14(2) 14(8) 15(2) 15(8) 16(2) 16(8) 17(2) 17(8) 18(2) 18(8) 19(2) 19(8)
95 30 33 36 38 40 42 44 46 47 48 49 50 51 52 53 54 55 56 56 57 57 58 58 59 59 59 59
90 27 30 33 36 38 40 42 44 45 46 47 48 49 50 51 52 52 53 54 56 56 57 57 58 58 58 58
75 21 25 28 31 34 36 38 40 41 43 44 45 46 47 48 49 49 50 51 53 54 55 55 56 56 56 56
50 14 17 20 23 26 29 32 34 36 37 38 39 40 41 42 43 44 45 46 48 49 50 51 52 52 52 52
25 12 13 14 16 18 21 24 26 28 30 32 33 34 35 36 37 38 39 40 42 43 44 45 46 47 47 47
10 9 10 11 13 14 16 17 19 21 23 25 27 28 30 31 32 33 35 35 37 38 39 40 41 41 41 41
I 5 7 9 10 11 12 13 15 17 18 19 21 22 24 26 27 28 29 29 31 32 33 34 35 35 35 35
Deze globale Amerikaanse normen zijn afgeleid van de plaatselijke normen die tussen 1984 en 1987 verzameld zijn en gepubliceerd zijn in de editie uit 2000 van Onderzoeks-
supplement nr. 3 door aan de in de verschillend districten verkregen normen verschillende gewichten toe te kennen op grand van de frequentie waarmee districten met die demo-
I grafische cijfers voorkomen in de VS als geheel. De normen voor 17- tot 19-jarigen zijn gei'nterpoleerd op basis van de cijfers van de Amerikaanse normering voorvolwassenen uit
I
0 1993. Zoals te zien is in het Supptement varieren de normen sterk per schooldistrict en, binnen de districten, per etnische groep. Gebruikers wordt daarom dringend aangeraden
I te controleren of de door hen gehanteerde normen geschikt zijn voor het doeleinde waarvoor ze de normen willen gebruiken. Naast regionale en etnische normen bevat Onder-
zoekssupplement nr. 3 tevens een tabel met het equivalente percentiel van elke ruwe score, een tabel voor conversie van percentielen naar deviatie-IQ's en stanines, betrouw-
baarheidsintervallen en aanvullende onderzoeken naar de interne consistentie en validiteit van de test.
Gecorrigeerde Amerikaanse normen voor de test bij zelfafname in de eigen tijd (volwassenen)
Op basis van de normering uit1993
Leeftijd in jaren
20 25 30 35 40 45 50 55 60 65 70
18 23 28 33 38 43 48 53 58 63 68
t/m t/m t/m Vm t/m t/m t/m t/m t/m t/m +
22 27 32 37 42 47 52 57 62 67
95 59 59 59 59 59 59 59 58 57 56 55
90 58 58 58 58 58 58 58 57 56 55 53
75 56 56 56 56 56 56 56 55 54 53 51
50 52 52 52 52 52 52 51 50 49 47 45
25 47 47 47 47 47 47 47 45 43 39 35
10 41 41 41 41 41 41 41 39 35 31 27
5 35 35 35 35 35 35 35 31 27 23 18
n 28 54 72 77 121 69 33 36 28 33 55
Gebaseerd op de normering uit 993 van de SPM en de APM in Des Moines, Iowa. Tests ingevuld in de eigen tijd. Zie
de tekst voor details.
TABEL11 Standard Progressive Matrices (Classic)

Amerikaanse normen voor volwassenen uit 1993 vergeleken met Britse gegevens uit1992
Leeftijd in jaren
20 25 30 35 40 45 50 55 60 65 70
I 18
t/m
23
t/m
28
t/m
33
t/m
38
t/m
43
t/m
48
t/m
53
t/m
58
t/m
63
t/m
68
+
22 27 32 37 42 47 52 57 62 67
UK US UK US UK US UK US UK US UK US UK US UK US UK US UK
UKUS
US
95 59 59 59 59 59 59 59 59 59 59 59 59 58 59 58 58 58 57 58 56 55 55
90 58 58 58 58 58 58 58 58 58 58 58 58 57 58 57 57 57 56 57 55 54 53
75 57 56 57 56 57 56 56 56 56 56 56 56 55 56 55 55 55 54 55 53 51 51
50 54 52 54 52 54 52 54 52 53 52 52 52 51 51 50 50 49 49 48 47 45 45
25 49 47 49 47 49 47 49 47 48 47 47 47 46 47 45 45 44 43 43 39 39 35
10 44 41 44 41 44 41 44 41 43 41 41 41 39 41 37 39 35 35 33 31 29 27
5 39 35 39 35 39 35 39 35 37 35 34 35 30 35 27 31 24 27 20 23 16 18
58 28 71 54 84 72 69 77 54 121 67 69 54 33 39 36 46 28 43 33 44 55
Britse gegevens gebaseerd op de normering uit 1992 van de SPM en de APM in Dumfries, Schotland.
Amerikaanse gegevens gebaseerd op de normering uit 1993 van de SPM en de APM in Des Moines, Iowa.
Tests in beide gevallen ingevuld in de eigen tijd.
Controlenormen uit 1979 voor Brits Columbia vergeleken met Britse gegevens uit 1979
61/2 7 7'/2 81/2 9 9'/2 10 101/2 11 11V2 12 12V2
6(3) 6(9) 7(3) 7(9) 8(3) 8(9) 9(3) 9(9) 10(3) 10(9) 11(3) 11(9) 12(3)
t/m t/m t/m Vm t/m t/m t/m t/m t/m t/m t/m t/m t/m
£
6(8) 7(2) 7(8) 8(2) 8(8) 9(2) 9(8) 10(2) 10(8) 11(2) 11(8) 12(2) 12(8)
UK UK UK BCUK UK UK UK BC UK UK UK UK BC UK UK
95 33 34 37 35 40 42 44 46 45 48 49 50 51 48 52 53
90 30 32 35 32 38 40 42 44 41 46 47 48 49 46 50 51
75 22 26 30 26 33 36 38 41 37 42 43 44 45 42 46 47
50 16 19 22 20 25 31 33 36 33 38 39 40 41 38 41 42
25 13 14 15 16 17 22 25 28 25 32 33 34 36 34 37 38
10 10 12 12 12 14 17 17 19 20 23 27 29 31 30 31 32
5 9 10 11 9 12 13 14 14 19 17 22 24 25 27 26 27
112 138 148 99 174 153 166 198108172 194 187 164106 164 174
De normen voor Brits Columbia zijn gebaseerd op een representatieve steekproef van Engels sprekende leerlingen van
openbare en onafhankelijke scholen, met uitzondering van Indiaanse kinderen, leerlingen uit klassen voor lichamelijk
gehandicapte, emotioneel gestoorde en trainbare, mentaal geretardeerde kinderen (Holmes, 1980). Het onderzoek
werd gesubsidieerd door het Educational Research Institute van Brits Columbia en de Canadian Association for Educa-
tional Psychology.
Gedetailleerde percentielnormen voorvolwassenen in de VS*
Score Leeftijd in jaren
20 25 30 35 40 45 50 55 60 65 70
18 23 28 33 38 43 48 53 58 63 68
t/m t/m t/m t/m t/m t/m t/m t/m t/m t/m
22 27 32 37 42 47 52 57 62 67
60
59 95 95 95 95 95 95 95 99
58 90 90 90 90 90 90 90 95 99
57 84 84 84 84 84 84 84 90 95 99
56 75 75 75 75 75 75 75 83 90 95 99
55 68 68 68 68 68 68 70 75 84 90 95
54 61 61 61 61 61 61 64 69 75 83 92
53 55 55 55 55 55 55 59 63 69 75 89
52 50 50 50 50 50 50 54 58 63 69 83
51 45 45 45 45 45 45 50 54 58 64 75
50 41 41 41 41 41 41 45 50 54 60 67
49 36 36 36 36 36 36 39 46 50 57 62
48 31 31 31 31 31 31 33 41 46 53 58
47 25 25 25 25 25 25 25 36 43 50 55
46 19 19 19 19 19 19 19 30 39 47 52
45 16 16 16 16 16 16 16 25 35 44 50
44 14 14 14 14 14 14 14 20 30 42 48
43 12 12 12 12 12 12 12 15 25 39 46
42 11 11 11 11 11 11 11 13 20 36 44
41 10 10 10 10 10 10 10 12 17 33 42
40 9 9 9 9 9 9 9 11 15 29 39
39 8 8 8 8 8 8 8 10 14 25 37
38 7 7 7 7 7 7 7 9 13 21 35
37 7 7 7 7 7 7 7 9 12 17 32
36 6 6 6 6 6 6 6 8 11 15 29
35 5 5 5 5 5 5 5 7 10 14 25
34 4 4 4 4 4 4 4 7 9 13 19
33 3 3 3 3 3 3 4 6 9 12 16
32 6 8 11 15
31 5 7 10 13
30 4 7 9 12
29 6 9 12
28 6 8 11
27 5 7 10
26 5 7 10
25 4 6 9
24 6
23 5
22 5
21 4
20
19
18
17
Berekend op basis van de gecorrigeerde globale normen van de normering uit 1993 van de SPM en APM in Des Moines,
Iowa. Tests ingevuld in de eigen tijd.
* Zie de sectie Afgemeen en Onderzoekssuppfement nr. 3 voor een bespreking van de gevaren die verbonden zijn
aan gebruikvan deze tabel.
TABEL 14 Standard Progressive Matrices (Classic)
Gecorrigeerde normen uit 1984 voor Nieuw-Zeeland vergeleken met Britse gegevens uit1979
u Leeftijd in jaren
§ 8 S'A 8V2 83A 9 9'A 9'/2 93A 10 IO'A 10'/2103A 11 11V4liy2l13/4 12 121A 1272123A 13 13V413'/2133A 14 14V4l4y2l43A 15 IS'AIS'A
£. UK NZ UK NZ UK NZ UK NZ UK NZ UK NZ UK NZ UK NZ UK NZ UK NZ UK NZ UK NZ UK NZ UK NZ UK NZ UK
95 40 42 42 44 44 46 46 48 48 49 49 49 50 50 51 51 52 52 53 53 54 53 54 54 55 55 56 56 57 56 57
90 38 40 40 41 42 43 44 45 46 47 47 47 48 48 48 50 50 51 51 51 52 51 53 53 54 53 54 54 55 55 55
75 33 35 36 37 38 38 41 41 42 42 43 44 44 46 45 47 46 48 47 48 49 48 49 50 50 50 50 51 51 52 51
50 25 30 31 31 33 33 36 35 38 37 39 39 40 40 41 42 41 42 42 43 43 44 44 47 45 47 46 48 47 49 47
25 17 20 22 23 25 25 28 27 32 30 33 33 34 35 36 37 37 38 38 39 39 40 41 42 42 43 42 44 42 44 42
10 14 13 17 16 17 17 19 19 23 22 27 25 29 28 31 29 31 30 32 34 33 35 35 36 36 37 36 38 36 40 36
5 12 11 13 12 14 14 14 15 17 18 22 20 24 23 25 24 26 25 27 27 28 28 29 31 30 33 33 35 33 38 33
Omvang steekproef voor Nieuw-Zeeland = 3174 (ca. 200 per leeftijdscategorie).
Normen voor Nieuw-Zeeland met toestemming overgenomen van New Zealand Council for Educational Research
(1984), Standard Progressive Matrices: New Zealand Norms Supplement.
Let op: het midden van de Nieuw-Zeelandse leeftijdsgroepen ligt op de grens van de Britse.
TABEL15 Standai'd Progressive Matrices (Classic en Parallel)

Gecorrigeerde normen uit 1986 voor kinderen en jongeren in Australie
£ 81/2 9 91/2 10 101/2 11 111/2 12 121/2 13 13V2 14 141/2 15 15V2 16 16V2 17
I 8(3) 8(9) 9(3) 9(9) 10(3) 10(9) 11(3) 11(9) 12(3) 12(9) 13(3) 13(9) 14(3)
tot tot tot tot tot tot tot tot tot tot tot tot tot
14(9) 15(3) 15(9) 16(3) 16(9)
tot tot tot tot tot
15(2) 15(8) 16(2) 16(8) 17(2)

8(8) 9(2) 9(8) 10(2) 10(8) 11(2) 11(8) 12(2) 12(8) 13(2) 13(8) 14(2) 14(8)
95 44 46 48 49 50 51 51 52 53 53 54 54 55 55 56 56 57 58
90 42 44 46 47 48 49 49 50 51 51 52 52 53 54 54 55 56 57
75 39 39 42 43 44 45 46 47 48 49 50 50 51 51 52 52 53 54
50 32 34 36 38 39 41 42 43 44 45 45 46 47 47 48 48 49 50
25 22 25 28 31 33 35 36 38 39 40 41 41 42 42 43 44 45 45
10 13 15 20 24 27 29 31 33 34 35 36 36 37 37 38 39 40 40
5 11 12 14 16 19 22 25 27 29 30 31 32 33 33 34 35 36 37
Overgenomen van De Lemos (1989) en gecorrigeerd door de auteur. Gebaseerd op een steekproef van 4000jongeren.
Gecorrigeerde normen uit 1986 voor kinderen enjongeren in Australie vergeleken met Britse gegevens uit 1979
8V2 9 9'/z 10 101/2 11 11'/2 12 121/2 13 IBVz 14 14V2 15 , 15V2 16 161/2 17
I 8(3) 8(9) 9(3) 9(9) 10(3) 10(9) 11(3) 11(9) 12(3) 12(9) 13(3) 13(9) 14(3) 14(9) 15(3) 15(9) 16(3) 16(9)
tot tot tot tot tot tot tot tot tot tot tot tot tot tot tot tot tot tot
£
8(8) 9(2) 9(8) 10(2) 10(8) 11(2) 11(8) 12(2) 12(8) 13(2) 13(8) 14(2) 14(8) 15(2) 15(8) 16(2) 16(8) 17(2)
UK AUS UK AUS UK AUS UK AUS UK AUS UK AUS UK AUS UK AUS UK AUS UK AUS UKUK AUS
AUS UKAUS
UK AUS
UK AUSAUS AUS AUS
95 42 44 44 46 46 48 48 49 49 50 50 51 51 51 52 52 53 53 54 53 54 54 55 54 56 55 57 55 57 56 56 57 58
90 40 42 42 44 44 46 46 47 47 48 48 49 49 49 50 50 51 51 52 51 53 52 54 52 54 53 55 54 55 54 55 56 57
75 36 39 38 39 41 42 42 43 43 44 44 45 45 46 46 47 47 48 49 49 49 50 50 50 50 51 51 51 51 52 52 53 54
50 31 32 33 24 36 36 38 38 39 39 40 41 41 42 41 43 42 44 43 45 44 45 45 46 46 47 47 47 47 48 48 49 50
25 22 22 25 25 28 28 32 31 33 33 34 35 36 36 37 38 38 39 39 40 41 41 42 41 42 42 42 42 42 43 44 45 45
10 17 13 17 15 19 20 23 24 27 27 29 29 31 31 31 33 32 34 33 35 35 36 36 36 36 37 36 37 36 38 39 40 40
5 13 11 14 12 14 14 17 16 22 19 24 22 25 25 26 27 27 29 28 30 29 31 30 32 33 33 33 33 33 34 35 36 37
g
0
a
Gecorrigeerde normen uit 1986 voor steden op het vasteland van China vergeleken met Britse gegevens uit 1979 en 1992
51/2 6 6V2 7 7V2 8V2 9 9V2 10 10V2 11 \ Viz 12
5(3) 5(9) 6(3) 6(9) 7(3) 7(9) 8(3) 8(9) 9(3) 9(9) 10(3) 10(9) 11(3) 11(9)
tot tot tot tot tot tot tot tot tot tot tot tot tot tot
£
5(8) 6(8)6(2)
7(2) 7(8) 8(2) 8(8) 9(2) 9(8) 10(2) 10(8) 11(2) 11(8) 12(2)
UK PRC UK PRC UK PRC UK PRC UK PRC UK PRC UK PRC UK PRC UK PRC UKUKPRC
PRC UKPRC
UK PRC
UK PRC
95 34 36 33 37 34 43 37 44 40 44 42 45 44 47 46 50 48 50 49 50 50 52 51 53 52 53
90 29 30 30 31 32 36 35 38 38 39 40 40 42 43 44 47 46 48 47 49 48 50 49 50 50 50
75 25 25 22 25 26 25 30 31 33 31 36 33 38 37 41 39 42 42 43 42 44 43 45 45 46 46
50 16 17 16 18 19 19 22 21 25 23 31 29 33 33 36 35 38 35 39 39 40 39 41 42 41 42
25 13 13 13 13 14 13 15 13 17 15 22 20 25 25 28 27 32 27 33 32 34 33 36 35 37 37
I 10 12 12 10 12 12 12 12 12 14 13 17 14 17 14 19 17 23 17 27 25 29 25 31 25 31 27
5 9 9 9 10 10 10 11 10 12 10 13 12 14 12 14 13 17 13 22 18 24 19 25 19 26 21
I
I0 12'/2 13 13V2 14 14'/2
Leeftijd in jaren (maanden) (vervolg)
15 15V2 16 16V2 18 25 35 45 55 65 75
i 12(3) 12(9) 13(3) 13(9) U(3) 14(9) 15(3) 15(9) 16(3) 17 17 21 20 31 30 41 40 51 50 61 60 71 70
tot tot tot tot tot tot tot tot tot tot tot tot tot tot tot tot
s.
12(8) 13(2) 13(8)
14(2) 14(8) 15(2) 15(8) 16(2) 16(8) 20 19 30 29 40 39 50 49 60 59 70 69 85 79
UK PRC UK PRC UK PRC UK PRC UK PRC UK PRC UK PRC UK PRC UK PRC UK PRC UK PRC UK PRC UK PRC UK
UK PRC
PRCUK PRC
95 53 53 54 53 54 54 55 55 56 56 57 57 57 57 57 57 59 58 59 57 59 57 59 57 58 54 58 54 52 52
90 51 52 52 52 53 52 54 52 54 53 55 54 55 55 56 56 58 57 58 56 58 55 58 54 57 52 57 52 51 49
75 47 50 49 50 49 50 50 50 50 51 51 51 51 52 53 53 57 55 57 54 56 52 56 50 55 48 55 46 48 44
50 42 45 43 45 44 46 45 48 46 48 47 48 47 49 49 49 54 52 54 50 54 48 52 47 51 42 48 37 42 33
25 38 40 39 40 41 42 42 43 42 43 42 43 42 43 44 45 49 47 49 44 49 43 47 41 45 34 48 30 36 26
10 32 33 33 35 35 35 36 36 36 36 36 36 36 41 41 41 44 40 44 38 44 37 41 31 37 24 33 22 27 18
5 27 28 28 30 29 32 !; 30 34 33 34 33 34 33 34 36 37 39 37 39 33 39 28 34 28 27 21 20 19 15 17
Chinese normen gebaseerd op een steekproef (n = 5108) uit steden op het vasteland.
De tests werden georganiseerd door Prof. Hou Can Zhang van de Beijing Normal University.
Gecorrigeerde normen uit 1997 voor Pune en Mumbai (Bombay), India, vergeleken met Britse gegevens uit 1979
71/2 8 8 81/2 9 9 91/2 10 10 101/2 11 11 111/2 12 12 121/2 13 13 131/2 14
0) 4 141/2 15 15 151/2 16 18
s 7(3) 7(9) 8(3) 8(9) 9(3) 9(9) 10(3) 10(9) 11(3) 11(9) 12(3) 12(9) 13(3) 13(9) 14(3) 14(9) 15(3)
tot tot tot tot tot tot tot tot tot tot tot tot tot tot
£ tot tot tot
7(8) 8(2) 8(8) 9(2) 9(8) 10(2) 10(8) 11(2) 11(8) 12(2) 12(8) 13(2) 13(8) 14(2) 14(8) 15(2) 15(8)
UK
UK P&M UK UK P&M UK UK P&M UK UK P&M UK UK P&M UK UK P&M UK UK P&M UK UK P&M UK P&M P&M P&M
95 37 40 39 42 44 44 46 48
46 49 50 49 51 52 52 53 54 53 54 55 54 56 57 55 57 56 56 55
90 35 38 36 40 42 41 44 46
43 47 48 46 49 50 49 51 52 51 53 54 52 54 55 53 55 54 54 53
75 30 33 31 36 38 34 41 42 37 43 44 41 45 46 45 47 49
47 49 50 48 50 51 49 51 50 50 49
s 50 22 25 19 31 33 21 36 38 28 39 40 33 41 41 39 42 43 41 44 45 43 46 47 44 47 45 45 44
25 15 17 13 22 25 13 28 32 17 33 34 22 36 37 30 38 39 33
I 10 12 14 11 17 17 11 19 23 12 27 29 14 31 31 18 32 33 23
41 42 36 42 42 38 42 39 39 37
35 36 27 36 36 29 36 31 31 j 30
5 11 12 10 13 14 10 14 17 11 22 24 12 25 26 14 27 28 17 29 30 20 33 33 24 33 23 26 25
I n 148 174 100 153 166 592 198 172 1104 194 187 1189 164 164 1293 174 185 1310 180 196 1344 189 191 1108 171 1192 769 287
I De zorgvuldig getrokken steekproeven van 5.161 Jongeren uit Mumbai (voorheen Bombay) en 5.127 jongeren uit Pune werden getest, onder toezicht van Prof. C.G. Deshpande,
0
door geselecteerd personeel van de Department of Applied Psychology van de University of Mumbai (voorheen Bombay) en het Jnana Prabodhiai Institute of Psychology.' De 78
1 betrokken scholen waren van de overheid, werden gesteund door de overheid of waren particulier en er werd les gegeven in het Marathi, Engels, Hindi en Gujarathi in'de juiste
verhoudingen. Er waren kleine sekseverschillen in de ene richting in het ene gebied en in de tegengestelde richting in het andere gebied, maar verder vertoonden de normenvoor
beide gebieden grote gelijkenissen. In bovenstaande tabel zijn ze samengevoegd. Volledige informatie over het onderzoek zal gepubliceerd warden als Supplement op de
Indiase editie van de SPM-Handteiding en is nu al verkrijgbaar bij Prof. J.M. Ojha, directeur, Manasayan, New Delhi en Prof. C.G. Deshpande,Pune.
TABEL18B Standard Progressive Matrices (Classic)
Gecorrigeerde normen uit 2001 voor Qatar vergeleken met Britse gegevens uit1979
6 6'/2 71/2 81/2 9V2 10 10V2 11
01 11V2
'.E 5(9) 6(3) 6(9) 7(3) 7(9) 8(3) 8(9) 9(3) 9(9) 10(3) 10(9) 11(3)
tot tot tot tot tot tot tot tot tot tot
<£ tot tot
6(2) 6(8) 7(2)8(2) 8(8)
7(8) 9(2) 9(8) 10(2) 10(8) 11(2) 11(8)
QAUKQA UK QA UKQA UKQA UKQA UKQA UKQA UK QA UK QA UKQA UK Q
95 19 33 19 34 26 37 31 40 38 42 40 44 41 46 43 48 44 49 45 50 46 51 48
90 18 30 18 32 23 35 28 38 35 40 37 42 39 44 40 46 42 47 43 48 44 49 45
75 15 22 17 26 20 30 22 33 28 36 31 38 34 41 36 42 37 43 38 44 39 45 41
50 14 16 15 19 16 22 17 25 19 31 22 33 26,, 36 29JI38 32 39 34 40 36 41 38
25 11 13 12 14 13 15 14 17 15 22 16 25 17 28 19"32 22 33 25 34 28 36 31
10 10 10 11 12 11 12 12 14 12 17 13 17 14 19 15 23 16 27 20 29 23 31 25
5 9 9 10 10 10 11 11 12 11 13 12 14 13 14 14 17 14 22 15 24 18 25 19
n 53 112105138 95 148108174 95 153 82 166113198100172 95 194 70 187130164 89
De gegevens voor Qatarzijn verzameld doorAlancod MubarakAhmad ALThani, Umm Alqura University, Saoedi-Arabie,
in het kadervan een masters-programma.
De test werd uitgevoerd met een aselecte steekproef van 1.135 kinderen van 7 openbare basisscholen voorjongens en
7 openbare basisscholen voor meisjes in de stad Doha.
TA8EL19 Standard Progressive Matrices (Classic)

Gecorrigeerde normen uit 1992 voor Delhi (India) North Zone vergeleken met Britse gegevens uit 1979
-u 11 11 ir/2 12 12 12V2 13 13 13V2 14 14 14V2 15 15 15V2
't 10(9) 11(0) 11(3) 11(9) 12(0) 12(3) 12(9) 13(0) 13(3) 13(9) 14(0) 14(3) 14(9) 15(0) 15(3)
<£ tot tot tot tot tot tot tot tot tot tot tot tot tot tot tot
11(2) 11(11) 11(8) 12(2) 12(11) 12(8) 13(2) 13(11) 13(8) 14(2) 14(11) 14(8) 15(2) 15(11) 15(8)
UK DEL UK UK DEL UK UK DEL UK UK DEL UK UK DEL UK
95 50 46 51 52 47 53 54 48 54 55 49 56 57 50 57
90 48 45 49 50 46 51 52 47 53 54 48 54 55 49 55
75 44 37 45 46 39 47 49 41 49 50 44 50 51. 45 51
50 40 31 41 41 33 42 43 35 44 45 38 46 47 40 47
25 34 20 36 37 23 38 39 25 41 42 28 42 42 31 42
10 29 14 31 31 14 32 33 14 35 36 15 36 36 16 36
5 24 12 25 26 12 27 28 12 29 30 12 33
33 33 12
n 187 39 164 164 92 174 185 143 180 196 164 189 191 131 171
Gebaseerd op een uitgebreid onderzoek uitgevoerd door Dr JM Ojha. Zal gepubliceerd warden in een Supplement op
de Indiase Handleiding door Manasayan, Delhi.
100 RAVEN I HANDLEiDING

Gecorrigeerde normen uit 1992 voor kinderen in Nederland vergeleken met Britse gegevens uit 1979
6V2 7 71/2 8 81/2 9 91/2 10 tOVz 11 11',2 12
I 6(3) 6(9) 7(3) 7(9) 8(3) 8(9) 9(3) 9(9) 10(3) 10(9) 11(3) 11(9)
tot tot tot tot tot tot tot tot tot tot tot tot
s.
6(8) 7(2) 7(8) 8(2) 8(8) 9(2) 9(8) 10(2) 10(8) 11(2) 11(8) 12(2)
UK NL UK NL UK NL UK NL UK NL UK NL UK NL UK NL UK NL UK NL UK NL UK NL
95 33 35 34 38 37 41 40 43 42 46 44 48 46 49 48 50 49 51 50 52 51 53 52 53
90 30 32 32 35 35 38 38 41 40 44 42 46 44 47 46 48 47 49 48 50 49 51 50 51
75 22 28 26 31 30 34 33 37 36 39 38 41 41 43 42 45 43 46 44 47 45 48 46 48
50 16 20 19 23 22 26 25 29 31 31 33 34 36 36 38 39 39 41 40 42 41 43 41 44
25 13 15 14 17 15 19 17 22 22 25 25 28 28 31 32 33 33 35 34 37 36 38 37 39
10 10 11 12 13 12 15 14 17 17 19 17 21 19 23 23 25 27 27 29 29 31 31 31 33
5 9 10 10 11 11 12 12 13 13 14 14 15 14 16 17 18 22 20 24 22 25 24 26 26
n 112243 138378 148331 174156 153151 166241 198266172649 194432 187463 164352 164370
Gegevens voor Nederland aangeleverd door Linda Vodegel-Matzen. De gegevens zijn verzameld in de loop van een
reeks onderzoeken en niet op basis van een zorgvuldig getrokken representatieve steekproef van de hele populatie. De
tabel geeft een indicatie van de stijging die naarverwachting heeft plaatsgevonden in de Britse scores sinds 1979.

Gecorrigeerde normen uit 1993 voor het kanton Fribourg, Zwitserland, vergeleken met Britse gegevens uit 1979
91/2 10 io1/2 n nv2 12 121/2 13 131/2 14 14V2 15 15V2
I 9(3) 9(9) 10(3) 10(9) 11(3) 11(9) 12(3) 12(9) 13(3) 13(9) 14(3) 14(9) 15(3)
£.
9(8) 10(2) 10(8) 11(2) 11(8) 12(2) 12(8) 13(2) 13(8) 14(2) 14(8) 15(2) 15(8)
UK FRI UK FRI UK FRI UK FRI UK FRI UK FRI UK FRI UK FRI UK FRI UK FRI UK FRI UK FRI UK
95 46 51 48 51 49 51 50 52 51 52 52 53 53 54 54 54 54 54 55 54 56 55 57 56 57
90 44 47 46 48 47 49 48 49 49 50 50 50 51 50 52 50 53 51 54 52 54 53 55 54 55
75 41 46 42 47 43 48 44 48 45 49 46 49 47 49 49 49 49 50 50 51 50 52 51 53 51
50 36 39 38 40 39 42 40 43 41 44 41 45 42 46 43 46 44 47 45 49 46 50 47 51 47
25 28 33 32 35 33 37 34 39 36 40 37 41 38 42 39 43 41 44 42 45 42 47 42 48 42
10 19 28 23 30 27 32 29 35 31 37 31 38 32 39 33 40 35 41 36 43 36 44 36 46 36
5 14 22 17 25 22 27 24 29 25 31 26 33 27 35 28 37 29 39 30 41 33 42 33 43 33
n 198 18 172 21 194 19 187 23 164 22 164 21 174 21 185 21 180 18 196 20 189 21 191 21 171
Zwitserse gegevens met toestemming overgenomen van Pascale Spicher, Nouvef Etafonnage du SPM, Universite de
Fribourg, 1993.

TABEL21B Standard Progressive Matrices (Classic)
Gecorrigeerde normen uit 1964/2000 voor Argentinie, vergeleken met de Britse normeringen uit 1979/1992
13 131/2 14 14 14V2 15 16 15V2 18 20 20 22 24 25 28 30
12(9) 13(3) 13 13(9) 14(3) 14(9) 15 15(3) 17 19 18 21 23 23 25 28
1 tot tot
13(2) 13(8)
tot
14
tot tot tot
4(2) 14(8) 15(2) 16

tot tot
15(8)
tot
18
tot
20
tot
22
tot
22
tot
24
tot
27
tot
30
tot
32
79 79 64 0 79 79 79 64 0 79 64 0 64 0 92 64 0 64 0 92 0 92
UK UK ARGARG
UK UK
UKUK ARGARG
UKARGARGARGARG
UK ARGARGARGARG
UK ARG UK
95 54 54 49 56 55 56
5657 51 56 57 53 57 53 57 59 53 58 53 59 59 58 59
90 52 53 48 55 54 54
5455 49 55 55 50 56 51 56 58 51 57 51 58 58 57 58
75 49 49 4452 50 50
5051 44 52 51 45 53 45 54 57 45 54 45 55 57 55 57
50 43 44 39 48 45 46 47 41 49 47 40 50 40 52 54 40 51 40 53 54 50 54
25 39 41 35 44 42 42 42 3644 42 35 46 34 48 49 34 48 34 49 49 45 49
10 33 35 27 39 36 36 36 2840 36 27 43 27 46 44 27 45 27 44 44 42 44
5 28 29 22 36 30 33 33 23 36 33 22 40 22 43 39 22 42 22 42 39 39 39
De Argentijnse gegevens zijn aangeleverd door Lilia Rossi Case, Rosa Neer en Susana Lopetegui.
De gegevens uit 1964 zijn verzameld door Direccion de Psicologia, Buenos Aires, met 880 kinderen die schoolgingen in
La Plata, Buenos Aires.
De gegevens uit 2000 zijn verzameld door Lilia Rossi Case en haar collega's.
De steekproef bestond uit 1.740 jongeren die de middelbare school bezochten of afgerond hadden (gelijke verdeling
tussen jongens en meisjes) en leeriingen van openbare en particuliere scholen in La Plata, Buenos Aires, geselecteerd
volgens geografische en socio-economische criteria.
Volledige informatie over het onderzoek is te vinden in Cayssails, A. (2001), Carpeta de Evaluacion Escale General.
Buenos Aires, Argentinie: Paidos.
TABEl S Standard Progressive Matrices (Classic)

Normen uit 1997 voor Briansk, Rusland, voor 14- en 15-jarigen vergeleken met Britse gegevens uit 1979
Percentiel Leeftijd in jaren
14V2 U-15 15
UK BR UK
95 56 54 57
90 54 52 55
75 50 50 51
50 46 47 47
25 42 42 42
10 36 37 36
5 33 33 33
189 432 191
Het onderzoek werd georganiseerd door I.E. Schetkina. De leerlingen werden aselect geselecteerd uit de negende klas
(15 jaar) van 1 7 scholen (28% van het totale aantal scholen), gestratificeerd naar type en locatie.

Gecorrigeerde normen uit 1993 voor Buenos Aires, Argentinie, vergeleken met Britse gegevens uit 1979 en 1992
Leeftijd in jaren
!
s.
nvz
UK
11
BA
121/2
UK
12-13
BA
14V2 14-15
UK BA
6-17
BA
18-20 18-22 21-40 28-32 38-42
BA UK BA UK UK
95 51 54 53 54 56 55 57 57 59 60 59 59
90 49 53 51 53 54 54 56 56 58 59 58 58
75 45 51 47 51 50 51 53 53 57 57 57 56
50 41 47 42 48 46 48 51 51 54 53 54 52
25 36 43 38 44 42 44 47 49 49 49 49 47
10 31 ' 38 32 40 36 41 42 44 44 44 44 41
5 25 34 27 36 33 37 39 39 39 41 39 34
De gegevens voor Buenos Aires zijn gebaseerd op 405 leerlingen van 11 t/m 17 van nationals normale scholen en 270 vol-
wassenen (ambtenaren) die de middelbare school hadden afgerond. De volwassenen werden individueel getest. Volledige
informatie over het onderzoek is te vinden in Manual del Test de Matrices Progresivas (1 993), Paidos, Buenos Aires.
Britse leerlingen van 111/2 t/m 141/2 gebaseerd op normering uit 1979, Britse gegevens voor volwassenen gebaseerd
op normering uit 1992, test ingevuld in de eigen tijd.

Normen uit 1989 voor kinderen in Taiwan vergeleken met Britse gegevens uit1979
9'/2 10 1072 11 11V2 12 12V2
I 9(3) 9(9) 10(3) 10(9) 11(3) 11(9) 12(3)
tot tot tot tot tot tot tot
£
9(8) 10(2) 10(8) 11(2) 11(8) 12(2) 12(8)
UK TWUK TWUK TWUK TWUK TWUK TWUK 7W
95 46 50 48 49 49 52 50 52 51 53 52 54 53 54
90 44 48 46 48 47 50 48 51 49 52 50 53 51 52
75 41 44 42 44 43 46 44 48 45 49 46 50 47 49
50 36 39 38 38 39 41 40 43 41 45 41 46 42 46
25 28 32 32 32 33 35 34 38 36 41 37 40 38 43
10 19 21 23 24 27 27 29 30 31 34 31 34 32 36
5 14 15 17 19 22 3123 24
27 31 25 25 26 26
n 198 272 172 400 194 398 187 396 164 400 164 400 174 210
Gegevensvoor Taiwan overgenomen van Miao (1993).

Gecorrigeerde normen uit 1987 voor Kosice, Slowakije, vergeleken met Britse gegevens uit1979
11 11V2 12 12^ 13 13^ 14 s 14'A 15 15^ 16V2 171A Wk
a>
'.s 10(9) 11(3) 11(0) 11(9) 12(3) 12(0) 12(9) 13(3) 13(0) 13(9) |14(3) 14(0) 14(9) 15(3) 15(0) 16(0) 17(0) 18(0)
tot tot tot tot tot tot tot tot tot tot :; tot tot tot tot tot tot tot tot
£.
11(2) 11(8)11(11) 12(2) 12(8)12(11) 13(2) 13(8)13(11) 14(2) ,14(8) 14(11) 15(2) 15(8)15(11)16(11) 17(11) 18(11)
UK UK SK UK UK SK UK UK SK UK UK SK UK UK SK SK SK
SK
95 50 51 51 52 53 53 54 54 54 55 56 55 57 57 56 57 58 58
90 48 49 49 50 51 51 52 53 52 54 54 53 55 55 54 55 56 56
75 44 45 46 46 47 48 49 49 49 50 50 51 51 51 52 53 53 53
50 40 41 42 41 42 44 43 44 45 45 46 47 47 47 49 50 50 50
25 34 36 36 37 38 38 39 40 41 42 42 42 42 42 44 45 46 47
10 29 31 29 31 32 31 33 35 34 36 36 36 36 36 37 39 40 41
5 24 25 24 26 27 27 28 29 29 30 33 31 33 33 32 33 34 35
Gebaseerd op een steekproef van 1.291 jongeren getest door Ferjencik (1988).

Gecorrigeerde normen voor Polen vergeleken met Britse gegevens. Jongeren getest in 1989 (PL), 1979 (VK); volwassenen: 1991(PL), 1992 (VK).
6 6V2 7 7'/2 8 81/2 9 91/2 10 101/2 11 111/2 12 12V2 13 131/2 14 14y2 15 15V2
! 5(11) 6(3) 6(5) 6(9) 6(11) 7(3) 7(5) 7(9) 7(11) 8(3) 8(5) 8(9) 8(11) 9(3) 9(5) 9(9) 9(11) 10(3) 10(5) 10(9)10(11)11(3) 11(5) 11(9)11(11)12(3) 12(5) 12(9)12(11)13(3) 13(5) 13(9)13(11)14(3) 14(5) 14(9)14(11)15(3) 15(5)
tot tot tot tot tot tot tot tot tot tot tot tot tot tot tot tot tot tot tot tot tot tot tot tot tot tot tot tot tot tot tot tot tot tot tot tot tot tot tot
6(4) 6(8) 6(10) 7(2) 7(4) 7(8) 7(10) 8(2) 8(4) 8(8) 8(10) 9(2) 9(4) 9(8) 9(10) 10(2) 10(4) 10(8) 10(10) 11(2) 11(4) 11(8) 11(10) 12(2) 12(4) 12(8) 12(10) 13(2) 13(4) 13(8) 13(10) 14(2) 14(4) 14(8) 14(10) 15(2) 15(4) 15(8) 15(10)
PL UK PL UK PL UK PL UK PL UK PL UK PL UK PL UK PL UK PL UK PL UK PL UK PL UK PL UK PL UK PL UK PL UK PL UK PL UK PL
95 26 33 29 34 31 37 35 40 38 42 40 44 43 46 45 48 47 49 49 50 50 51 51 52 53 53 53 54 54 54 54 55 54 56 55 57 55 57 56
90 23 30 25 32 27 35 29 38 32 40 35 42 39 44 42 46 44 47 46 48 47 49 48 50 50 51 51 52 52 53 52 54 53 54 53 55 53 55 54
75 19 22 20 26 21 30 23 33 26 36 29 38 34 41 38 42 41 43 43 44 44 45 45 46 47 47 48 49 48 49 49 50 50 50 51 51 51 51 51
50 14 16 16 19 17 22 18 25 20 31 23 33 26 36 30 38 35 39 37 40 39 41 40 41 41 42 43 43 44 44 45 45 45 46 46 47 47 47 47
25 13 13 14 14 14 15 15 17 16 22 16 25 18 28 20 32 23 33 26 34 28 36 30 37 32 38 35 39 37 41 38 42 39 42 40 42 41 42 42
10 11 10 12 12 12 12 13 14 13 17 13 17 14 19 15 23 17 27 19 29 20 31 22 31 25 32 27 33 29 35 30 36 31 36 32 36 33 36 34
I 5 10 9 11 10 11 11 11 12 11 13 11 14 12 14 12 17 12 22 13 24 14 25 16 26 17 27 17 28 18 29 19 30 21 33 24 33 26 33 26
n 197 112198138200148200174198153201 166200198200172200194202187200164199164203174201185203180202196200189200 91200171200
i
0
2
Gebaseerd op Poolse normeringsgegevens (Jaworowska & Szustrowa, 1991).

Q 17 18 20 22 25 30 30 35 40 40 45 50 50 55 55+ 60
16(0) 17(6) 18 19(6) 23 28 24(6) 33 38 34(6) 43 48 44(6) 53 54(6) 58
tot tot tot tot tot tot tot tot tot tot tot tot tot tot + tot
<£
17(5) 19(5) 22 24(5) 27 32 34(5) 37 42 44(5) 47 52 54(5) 57 62
PL PL UK PL UK UK PL UK UK PL UK UK PL UK PL UK
95 55 57 59 57 59 59 57 59 59 56 59 58 55 58 51 58
90 53 55 58 54 58 58 54 58 58 53 58 57 51 57 47 57
75 50 52 57 51 57 57 51 56 56 48 56 55 44 55 35 55
50 47 49 54 48 54 54 46 54 53 41 52 51 36 50 26 49
25 42 44 49 43 49 49 41 49 48 36 47 46 28 45 15 44
10 37 39 44 37 44 44 32 44 43 25 41 39 17 37 12 35
5 31 33 39 31 39 39 26 39 37 18 34 30 14 27 10 24
Gecorrigeerde normen uit 1998 voor Slovenie vergeleken met Britse gegevens uit1979
Leeftijd in j'aren (maanden)
6V2 7 772 8'/2 9 9V2 10 10V2 11 11V2 12 121/2 13 13V2
a> 14 14V2 15 15V2 16 16V2 17 171/2 18
I 6(3) 6(9) 7(3) 7(9) 8(3) 8(9) 9(3)

tot tot
6(8) 7(2) 7(8)

tot .tot
8(2)
tot tot
8(8) 9(2) 9(8)
tot
9(9) 10(3) | 10(9) 11(3) 11(9) 12(3) 12(9) 13(3) 13(9) 14(3) 14(9) 15(3) 15(9)
16(3) 16(9) 17(3) 17(9)
tot tot tot tot
10(2) 10(8) 11(2) 11(8) 12(2) 12(8) 13(2) 13(8) 14(2) 14(8) 15(2) 15(8) 16(2) 16(8) 17(2) 17(8) 18(2)
UK UK
UK SL UK SL UK SL UK SL UK SL UK SL UK SL UK SL UK SL UK SL UK SL UK SL UK SL UK SL UK SL UK SL UK SL SL SL SL SL SL
95 33 34
37 37 40 39 42 42 44 44 46 47 48 49 49 50 50 51 51 52 52 52 53 53 54 53 54 54 55 54 56 55 57 56 57 57 57 57 57 57 57
90 30 32
35 35 38 37 40 39 42 42 44 45 46 47 47 48 48 49 49 50 50 50 51 51 52 51 53 52 54 52 54 53 55 53 55 54 54 54 54 55 55
75 22 26
30 29 33 33 36 36 38 39 41 41 42 43 43 44 44 45 45 46 46 47 47 48 49 48 49 49 50 49 50 50 51 50 51 51 51 52 52 53 53
50 16 19
22 21 25 24 31 27 33 31 36 34 38 36 39 38 40 40 41 42 41 44 42 44 43 45 44 45 45 46 46 46 47 47 47 47 47 48 48 49 49
25 13 14
15 14 17 16 22 18 25 21 28 25 32 29 33 31 34 33 36 35 37 36 38 37 39 37 41 38 42 38 42 39 42 40 42 41 41
I 10 10 12
12 10 14 11 17 12 17 14 19 16 23 19 27 22 29 25 31 28 31 30 32 31 33 32 35 33 36 33 36 34 36 34 36 34 35
41
35
43
35
44
36
44
36
5 9 10
11 8 12 9 13 10 14 12 14 13 17 15 22 17 24 19 25 21 26 22 27 23 28 24 29 24 30 24 33 25 33 25 33 26 26 28 28 30 30
I 112 138 14858174481535116671198501725919469187591646916458174491856818058196721896119167171115118
147
n
127 64 43
I De Sloveense gegevens zijn gebaseerd op een aselecte steekproef van leerlingen van 10 basisscholen en U middelbare scholen in verschillende soorten regio's van het land.
0 Zie Boben (1999) voor meer informatie.
z
d
Gecorrigeerde normen uit 1998 voorjongeren in Frankrijk vergeleken met Britse gegevens uit1979
61/2 7 7Y2 SVz 9 9V2 10 101/2 11 111/2 12
6(3) 6(9) 7(3) 7(9) 8(3) 8(9) 9(3) 9(9) 10(3) 10(9) 11(3) 11(9)
tot tot tot tot tot tot tot tot
s. tot tot tot tot
6(8) 7(2) 7(8) 8(2) 8(8) 9(2) 9(8) 10(2) 10(8) 11(2) 11(8) 12(2)
UK UK RF UK RF UK RF UK RF UK RF UK RF UK RF UK RF UK RFUK UK RF
95 33 34 42 37 44 40 45 42 46 44 47 46 49 48 51 49 51 50 52 51 52 52
90 30 32 38 35 41 38 42 40 43 42 44 44 46 46 48 47 49 48 49 49 50 50
75 22 26 33 30 36 33 39 36 41 38 42 41 43 42 45 43 45.44 45 45 45 46
50 16 19 25 22 29 25 33 31 35 33 36 36 37 38 39 39 40140 41 41 41 41
25 13 14 17 15 20 17 22 22 25 25 27 28 30 32 33 33 35 i 34 37 36 37 37
10 10 12 13 12 14 14 15 17 17 17 20 19 25 23 28 27 30 29 31 31 33 31
5 9 10 10 11 11 12 12 13 12 14 13 14 15 17 21 22 25 24 27 25 30 26
n 112 138 60 148 67 174 62 153 71 166 71 198 71 172 64 194 71 187 63 164 70 164
Gebaseerd op een steekproef van 670 kinderen uit vijf regio's op normale scholen, met uitzondering van leerlingen van
speciale scholen. De Franse gegevens zijn verzameld door verschillende psychologen die voor EAP, Parijs, werken. De
gegevens zijn eerder gepubliceerd in de Franse versie van deze Handleiding, uitgegeven door EAP (1998). Gegevens
gecorrigeerd door de auteurs.
.SiSS. 79 Standard Progressive Matrices (Classic)

Gecorrigeerde normen voor volwassenen in Belgie vergeleken met Britse gegevens uit1992
Leeftijd in jaren
20 25 25 30 35 35 40 45 45 50 55 55 60 65 65 70 75 85
£
I 18 23
tot tot
22 27
20 28
tot tot
33 30
tot tot
29 32 37 39 42 47 49 52 57 59 62 67 69 79
38 43 40 48 53
tot tot tot tot tot
50 58 63 60 68 70 80
tot tot tot tot + tot +
UK UKB UK UK B UK UK B UK UK B UK UKB UK
B B
95 59 59 58 59 59 58 59 59 56 58 58 54 58 58
52 55 49 40
90 58 58 56 58 58 55 58 58 54 57 57 52 57 57 50 54 45 36
75 57 57 53 57 56 52 56 56 50 55 55 48 55 55 46 51 38 30
50 54 54 49 54 54 48 53 52 47 51 50 45 49 48 40 45 32 24
25 49 49 43 49 49 42 48 47 40 46 45 38 44 43 .34 39 27 21
10 44 44 38 44 44 35 43 41 33 39 37 31 35 33 27 29 23 19
5 39 39 34 39 39 31 37 34 29 30 27 28 24 20 24 16 21 17
n 58 71 144 84 69 92 54 67 94 54 39 176 46 43 185 44 174 87
Belgische gegevens van Deltour(1993) gecorrigeerd door de auteur. De gegevens zijn verzameld tussen 1984 en 1990.
Studenten van een cursus psychometrie werd in deze periode gevraagd elk 10 volwassenen te testen met gelijke
aantallen voor elk van de vier onderwijsniveaus, d.w.z. niet overeenkomstig de verdeling van de onderwijsniveaus voor
de totale populatie. De steekproef was noch op leeftijd, noch op socio-economische status gestratificeerd. Er bestond
geen significant sekseverschil voor alle leeftijden.

Normen voor klanten van het Britse arbeidsbureau (Employment Service) vergeleken met Britse gegevens uit 1992
20 25 30 35 40 45 50 55
18 23 28 33 38 43 48 53
tot tot tot tot tot tot tot tot
22 27 32 37 42 47 52 57
ES UK ES UK ES UK ES UK ES UK ES UK ES UK
ES UK
95 52 59 58 59 57 59 56 59 55 59 55 59 55 58
55 58
90 50 58 56 58 56 58 54 58 54 58 54 58 53 57
52 57
75 48 57 51
57 53 57 52 56 52 56 50 56 50 55 49 55
50 44 54 47 54 48 54 47 54 46 53 46 52 45 51 44 50
25 38 49 41 49 41 49 40 49 39 48 39 47 39 46 39 45
10 28 44 30 44 33 44 34 44 34 43 33 41 33 39 33 37
5 23 39 24 39 26 39 28 39 27 37 26 34 26 30 26 27
n 79 58 113 71 122 84 118 69 88 54 110 67 87
54 36 39

Beroepsnormen uit de jaren '90 voor lerland* vergeleken met Britse gegevens uit1992
25 23
23 16
tot tot
32 49
UK IB
95 59 56
90 58 54
75 57 52
50 54 48
25 49 44
10 44 40
5 39 37
Ruim 10.000 mensen werden getest in het kader van een selectieproces voor een dienstverband bij een lerse bank,
gemiddelde leeftijd 22,6. Normen samengesteld door Oliver Davidson van OPP

Normen uit 1998 voor werknemers met een beperkte opleiding in Frankrijk (tijdslimiet van 30 minuten).
Percentiel CAP* BEP**
95 53 55
90 52 53
75 48 50
50 44 46
25 39 42
10 31 38
5 25 35
n 73 117
Gemiddelde leeftijd 23 23
Certificat d'Aptitude Professionnelle (diploma van een technische opleiding van drie jaar, gevolgd voor het verlaten
van de school op 16-jarige leeftijd).
Brevet d'Enseignement Professionnel (diploma van een technische opleiding van tweejaar, gevolgd voor het verlaten
van de school op 18-jarige leeftijd).
Overgenomen uit de sectie SPM in de Franse Handleiding (1 998).

Gecorrigeerde normen uit 1987 voor Franse arbeiders
LT 19 23 28 33 38 43 48 53 58
18 18 21 26 31 36 41 46 51 56
tot tot tot tot tot tot tot tot tot
20 25 30 35 40 45 50 55 60
95 53 54 54 54 53 51 49 47 44 40
90 51 53 53 52 50 48 47 45 42 38
75 46 49 48 47 45 44 42 40 36 31
50 42 44 44 42 40 38 36 33 28 25
25 38 38 38 35 32 30 27 24 21 18
10 30 30 29 26 23 20 18 16 25 14
5 26 25 24 22 19 17 15 13 12 11
n 299 394 1799 1746 1403 981 818 767 480 179
Test uitgevoerd tijdens een verplicht 'examen de securite' (een testbatterij voor personen die een beroep willen uitoefenen
waarbij de openbare veiligheid in gevaar zou kunnen komen, bijv. bus- en vrachtwagenchauffeurs). Cijfers afgeleid van
materiaal uit de Franse editie van de SPM-Hand/eiding (1998) en door de auteurs gecorrigeerd.

Normen voor dove adolescenten
Percentiel Leeftijd
BELTZ+ 1979
Conrad, 1979* Heller, I 973
15 15V2 16 143A
4(9) 15(4) 5(10) 14(6)
tot tot tot tot
15(3) 15(9) 16(3) 14(11)

95 53 53 53 58
90 51 51 51 55
75 47 48 47 48
50 42 43 42 42
25 35 38 38 36
10 28 28 29 30
5 23 23 23 27
" 81 141 146 NA
Deze normen zijn ter beschikking gesteld door Jim Kyle. Ze zijn gebaseerd op een vrijwel volledige populatie van
dove adolescenten op normale en speciale scholen in Engeland en Wales, met uitzondering van leerlingen met
ernstige bijkomende handicaps die hun opleiding zouden befnvloeden (zie Conrad, 1979).
Duitse normen voor 1.200 slechthorende kinderen van 61/2 t/m 1572 zijn gepubliceerd in Tabel 26 van Onderzoeks-
supplement nr. 1, waarin ook Duitse normen voor normale kinderen van 10 t/m 15 te vinden zijn.
TABEL35 Standard Progressive Matrices Plus
Normale (verwachte) scoreopbouw
(Gecombineerde steekproeven uit Polen, Duitsland, Fort Bend, de VS en Australie)
Totaal A B c D E Totaal A B c D E
10 6 2 1 1 0 33 11 11 7 3 1
11 6 3 1 1 0 34 11 11 7 4 1
2 6 3 1 1 1 35 11 n 7 4 2
13 6 3 2 1 1 36 11 11 4 2
14 7 3 2 1 1 37 12 11 4 2
15 7 4 2 1 1 38 12 11 5 2
16 7 4 3 1 1 39 12 11 5 3
17 7 4 3 2 1 40 12 11 6 3
18 4 3 2 1 41 12 12 6 3
19 5 3 2 1 42 12 12 9 6 3
20 6 3 2 1 43 12 12 9 6 4
21 9 6 3 2 1 44 12 12 9 7 4
22 9 6 4 2 1 45 12 12 9 4
23 9 7 4 2 1 46 12 12 9 5
24 9 7 5 2 1 47 12 12 9 9 5
25 10 7 5 2 1 48 12 12 9 9 6
26 10 8 5 2 1 49 12 12 10 9 6
27 10 9 5 2 1 50 12 12 10 10 6
28 10 9 6 2 1 51 12 12 11 10 6
29 11 9 6 2 1 52 12 12 11 10 7
30 11 10 6 2 1 53 12 12 11 11 7
31 11 10 6 3 1 54 12 12 11 11
32 11 10 7 3 1

TABEL 36 Standard Progressive Matrices Plus
Gecorrigeerde normen uit 1999 voor Duitsland
14 15 16 17 18 19 20-24 25-29 30+
95 43 45 48 51 52 52 52 51 50
90 40 43 46 49 50 50 50 49 48
75 37 40 42 45 46 47 47 45 44
50 33 36 38 41 43 44 44 42 40
25 29 32 34 36 39 40 39 38 36
10 26 29 31 ' 33 36 37 36 35 33
5 24 27 29 31 34 35 34 33 30
n 181 523 409 231 184 66 42 57 68
Normen verzameld door Bulheller en Hacker, zie tekst voor details. Meer informatie beschikbaar in Raven, J.C., Raven,
J. en Court, 1999
'WSci. 37 Standard Progressive Matrices Plus, geconverteerd naar Classic

Gecorrigeerde normen uit 1999 voor Duitsland vergeleken met Britse gegevens
Leeftijd in jaren
14 15 16 17 18 19 20 20 25 25 30 30+
I tot
24
tot
29
UK D UK D
UKDUKDUKD UK* D UK D UK D UK D
95 55 53 57 54 56 57 58 59 58 59 58 59 57 59 57
90 54 51 55 53 55 56 57 58 57 58 57 58 56 58 56
75 50 48 51 51 52 54 55 57 55 57 55 57 54 57 53
50 45 44 47 47 49 51 53 54 53 54 53 54 52 54 51
25 42 39 42 43 45 47 50 49 51 49 50 49 49 49 47
10 36 35 36 39 41 44 47 44 48 44 47 44 46 44 44
5 30 32 33 36 39 41 45 39 46 39 45 39 44 39 40
n 196181 191 523 409 231 184 58 66 58 42 71 57 84 68
D = Deutschland SPM Classic na conversie
UK = Britse Classic-normen uit 1979 (kinderen) of 1992 (volwassenen).

* 18 t/m 22
Normen verzameld door Bulheller en Hacker, zie tekst voor details.
Meer informatie beschikbaar in Raven, J.C., Raven, J. en Court, 1999
Gecorrigeerde normen uit 1999 voor Fort Bend, Texas (VS)
yk 61/2 7'/2 81/2 9V2 10 101/2 11 111/2 12 121/2 13 13V2 14 141/2 15 15'/2 16 161/2 17
I 5(3) 5(9) 6(3) 6(9) 7(3) 7(9) 8(3) 8(9) 9(3) 9(9) 10(3) 10'(9) 11(3) 11(9) 12(3) 12(9) 13(3) 13(9) 14(3) 14(9) 15(3) 15(9) 16(3) 16(9)
I tot tot tot tot tot tot tot tot tot tot tot tot tot tot tot tot tot tot tot tot tot tot tot tot
5(8) 6(2) 6(8) 7(2) 7(8) 8(2) 8(8) 9(2) 9(8) 10(2) 10(8) 11(2) 11(8) 12(2) 12(8) 13(2) 13(8) 14(2) 14(8) 15(2) 15(8) 16(2) 16(8) 17(2)
95 23 27 30 32 34 36 37 38 38 39 39 40 40 41 41 42 43 44 45 46 47 48 48 48
90 21 25 28 30 32 34 35 35 36 36 37 38 38 39 39 40 40 41 42 43 43 44 44 44
75 16 19 22 25 28 31 32 33 33 34 35 35 36 37 37 37 38 39 39 40 40 41 41 41
50 12 15 18 21 23 25 27 28 29 30 31 31 32 33 34 34 35 36 37 37 38 39 39 39
25 9 11 13 15 18 19 21 23 25 26 27 28 29 30 31 31 32 32 33 34 34 35 35 35
10 7 8 9 11 13 16 18 20 21 22 23 24 25 26 27 28 29 30 31 31 32 32 32 32
5 5 6 7 8 10 12 14 16 18 19 20 21 22 23 24 25 26 27 28 29 30 30 30 30
n 72 106 90 104 86 52 54 67 58 57 53 41 40 54 55 51 28 24 28 24 44 43 32 24
Gebaseerd op gegevens verzameld door Aaron, Jackson en Seerden, zie tekst voor details.
I
0
s
0
i
TA8EL39 Standard Progressive Matrices Plus geconverteerd naar Classic
Gecorrigeerde normen uit 1999 voor Fort Bend, Texas (VS) vergeleken met Britse gegevens uit 1979
51/2 6 6'/2 7 71/2 8 81/2 9 9'/2 10 W/2 11 11V2 12 12V213 131/2 14 14'/2 15 15V2 16 16'/2 17
1 5(3) 5(9)
6(3) 6(9) 7(3) 7(9) 8(3) 8(9) 9(3) 9(9) 10(3) 10(9) 11(3) 11(9) 12(3) 12(9) 13(3) 13(9) 14(3) 14(9) 15(3) 15(9) 16(3) 16(9)
tot tot tot tot tot tot tot tot tot tot tot tot tot tot tot
s tot tot tot tot tot tot tot tot tot
5(8) 6(2) 6(8) 7(2) 7(8) 8(2) 8(8) 9(2) 9(8) 10(2) 10(8) 11(2) 11(8) 12(2) 12(8) 13(2) 13(8) 14(2) 14(8) 15(2) 15(8) 16(2) 16(8) 17(2)
FB FBUK FB UK FB UK FB UK FB UK FB UK FB UK FB UK FB UK FB UK FB UK FB UK FB UK FB
UK FB UK FB UK FB UK FB UK FB UK FBFB FB FB
95 31 36 33 40 34 43 37 45 40 47 42 48 44 49 46 49 48 50 49 50 50 51 51 51 52 51 53 51
54 52 54 53 55 53 56 54 57 55 57 55 56 56 56
90 28 33 30 38 32 40 35 43||38 45 40 46 42 46 44 47 46 47 47 48 48 49 49 49 50 50 51 50
52 51 53 51 54 51 54 52 55 53 55 53 53 53 53
75 20 25 22 29 26 33 30 38|]33 41 36 43 38 44 41 44 42 45 43 46 44 46 45 47 46 48 47 48
49 48 49 49 50 50 50 50 51 51 51 51 51 51 51
50 15 19 16 23 19 28 22 31 25 33 31 36 33 38 36 39 38 40 39 41 40 41 41 43 41 44 42 45
43 45 44 46 45 47 46 48 47 48 47 49 50 50 50
25 11 14 13 17 14 19 15 23 17 25 22 28 25 31 28 33 32 35 33 36 34 38 36 39 37 40 38 41
39 41 41 4342 43 42 44 42 45 42 45 46 46 46
10 9 10 10 11 12 14 12 17 14 20 16 23 17 26 19 28 23 29 27 31 29 32 31 33 31 35 32 36
I 5 7 8 9 9 10 10 11 13 12 15 13 18 14 20 15 23 17 25 22 26 24 28 25 29 26 31 27 32
33 38 35 39 36 40 36 41 36 41 36 43 43 43 43
28 33 29 35 30 36 33 38 33 39 33 40 40 40 40
47 61 1254138681486317451 153531666519857172551945318741 164401645217454
I n
1855018028 1962318926 191 23171 34 34 26 24
I
0
§
Let op! De Poolse gegevens in de eerdere drukken van Tabel40,41 en 41 b waren incorrect
als gevolg van een fout bij het lezen van de schijf.

Gecorrigeerde normen uit 2000 voor Polen

I 15 16 17 18 19 25 35 45 55 63 68 73 78
14(6)' 15(6) 16(6) 17(6) 18(6) 21 31 41 51 61 66 71 76
I tot tot tot tot tot tot tot tot tot tot tot tot tot
15(5) 16(5) 17(5) 18(5) 19(5) 30 40 50 60 65 70 75 79
95 49 50 51 52 52 50 47 45 42 41 40 37 34
90 48 49 49 50 50 48 45 42 39 38 36 33 30
75 44 45 46 47 48 43 40 37 34 33 31 27 25
50 39 40 41 42 44 39 35 32 29 27 25 22 20
25 36 37 38 38 40 35 30 26 23 21 19 16 14
10 33 34 35 35 37 27 23 20 17 16 15 13 12
5 30 32 32 33 34 21 18 15 14 13 12 11 10
98 377 364 343 246 90 86 82 87 81 73 73
De steekproef onder jongeren was getrokken uit drie verschillende schooltypen. Leerlingen uit het lager beroeps-
onderwijs en schoolverlaters werden uitgesloten. De volwassenen werden individueel getest. Er werd een quota-steek-
proefprocedure toegepast. Testers werd gevraagd respondenten met een geschikte leeftijd, sekse, woonplaats (bijv.
grote stad, kleine stad, dorp) en opleiding te zoeken om dejuiste verhoudingen te krijgen van mensen uit elke categorie
overeenkomstig de verdeling voor het land als geheel.

Let op! De Poolse gegevens in de eerdere drukken van Tabel40,41 en 41 b waren incorrect
als gevolg van een fout bij het lezen van de schijf.

Cecorrigeerde normen uit 2000 voor Polen
I 15 16 17 18 19 25 35 45 55 63 68 73 78
14(6) 15(6) 16(6) 17(6) 18(6) 21 31 41 51 61 66 71 76
£. tot tot tot tot tot tot tot tot tot tot tot tot tot
15(5) 16(5) 17(5) 18(5) 19(5) 30 40 50 60 65 70 75 79
95 49 50 51 52 52 50 47 45 42 41 40 37 34
90 48 49 49 50 50 48 45 42 39 38 36 33 30
75 44 45 46 47 48 43 40 37 34 33 31 27 25
50 39 40 41 42 44 39 35 32 29 27 25 22 20
25 36 37 38 38 40 35 30 26 23 21 19 16 14
10 33 34 35 35 37 27 23 20 17 16 15 13 12
5 30 32 32 33 34 21 18 15 14 13 12 11 10
98 377 364 343 246 90 88 86 82 87 81 73 73
De steekproef onder jongeren was getrokken uit drie verschillende schooltypen. Leerlingen uit het lager beroeps-
onderwijs en schoolverlaters werden uitgesloten. De volwassenen werden individueel getest. Er werd een quota-steek-
proefprocedure toegepast. Testers werd gevraagd respondenten met een geschikte leeftijd, sekse, woonplaats (bijv.
grote stad, kleine stad, dorp) en opleiding te zoeken om de juiste verhoudingen te krijgen van mensen uit elke categorie
overeenkomstig de verdeling voor het land als geheel.
Vergelijking van normen uit 1998/2001 voor Kroatie, Fort Bend (Texas), Duitsland, Polen en Hongarije
14 14 14V2 15 15 15 16 16 16 161/2 17 17 18 18 18 18 25
I 13(9) 13(6) 14(9) 16(3) 16(9)
tt 01
tot tot
14(2) 15(6)
tot
15(2)
tot tot
16(8) 17(2) IS &

D FB HR PL D FB HR PL D FB FB PL PL D H PL PL
95 43 44 44 49 45 46 47 50 48 48 48 51 52 52 49 44 52
90 40 41 42 48 43 43 45 49 46 44 44 49 50 50 47 42 48
75 37 39 38 44 40 40 43 45 42 41 41 46 47 46 42 38 41
50 33 36 35 39 36 37 40 40 38 39 39 41 42 43 37 34 36
25 29 32 31 36 32 34 36 37 34 35 35 38 38 39 32 30 30
10 26 30 27 33 29 31 32 34 31 32 32 35 35 36 27 25 24
5 24 27 21 30 27 29 29 32 29 30 30 32 33 34 24 21 20
181 24 295 98 523 24 437 377 409 32 24 364 248 184 7588 395 248
De Kroatische (HR) normen voor 141/2-jarigen zijn afkomstig van een onderzoek met 295 leerlingen uit de 7e en 8e klas
(131/2t/m 151/2) van zesscholen in Zagreb meteen aanwezigheidsplicht. De tests werden in mei 2000 afgenomen met
een tijdslimiet van 40 minuten. In verband met een sekseverschil zijn voor de normen in bovenstaande tabel de normen
van jongens en meisjes gemiddeld. Gedetailleerdere gegevens zijn gepubliceerd in Matesic, K. (2000). Preliminary
Norme za SPM+ za Uzrast Starijih Osnovnoskolaca. Suvremena psihologija, 3(1-2), 141-148.
De Kroatische (HR) normen voor 16-jarigen zijn afkomstig van een onderzoek met 437 leerlingen uit de 1e b/m 4e klas
middelbare school (niet verplicht) in een regio van Kroatie. Er gold een tijdslimiet van 40 minuten. Gedetailleerdere
gegevens zijn gepubliceerd in Matesic, K. (2000). Relations between results on Raven Progressive Matrices Plus sets and
school achievement. Review of Psychofogy, (Kroatisch) 7(1-2), 75-82.
De gegevens van de rekruten van het Poolse legerzijn gebaseerd op een steekproef van 395 18- t/m 26-jarigen, zonder
tijdslimiet.
De Hongaarse gegevens zijn gebaseerd op het testen van alle dienstplichtigen in het Hongaarse leger in 1998,zonder
tijdslimiet.
Andere steekproeven warden in de tekst beschreven.
TABEL418* Cecorrigeerde CIassic-normen uit 2000 voor Polen, afgeleid door conversie van SPM Pius-normen
Vergeleken met Poolse Classic-normen uit 1991 en Britse gegevens uit 1979 en 1992
£ Leeftijd in jaren bij benadering
15 15 17 17 18 19 22 22 25 32 30 35 42 40 45 52 50 55 62 55+ 63 70 75
I UK PCC PLC PCC PLC PCC UK PLC PCC UK PLC PCC UK PLC PCC UK PLC PCC UK PLC PCC UK PCC
95 57 56 55 57 57 58 59 57 57 59 57 55 59 56 54 58 55 52 58 51 51 55 47
90 55 56 53 56 55 57 58 54 56 58 54 54 58 53 52 57 51 50 57 47 49 54 42
75 51 53 50 55 52 56 57 51 53 57 51 51 56 48 48 55 44 45 55 35 44 51 36
50 47 50 47 51 49 53 54 48 50 54 46 46 53 41 43 51 36 39 49 26 37 45 29
25 42 47 42 49 44 51 49 43 46 49 41 40 48 36 35 46 28 31 44 15 28 39 20
10 36 44 37 46 39 48 44 37 37 44 32 31 42 25 27 38 17 22 34 12 21 29 17
5 33 40 31 43 33 45 39 31 27 39 26 24 35 18 19 28 14 18 22 10 17 16 14
* Om deze tabel passend te krijgen zijn verschillende kolommen samengevoegd en weggelaten.
PCC = Poolse Cfassic-normen afgeleid door conversie van een SPM Pfus-onderzoek uit 2000.
PLC = Poolse Classic-normen van een onderzoek uit 1991.
Britse gegevens 15-jarigen van Britse normering uit 1979; Britse gegevens volwassenen van Britse normering uit 1992.

Normen voor veel ander populaties, waaronder Oost- en West-Duitsland, het voormalige
Tsjechoslowakije, Newfoundland en Hong Kong en normen voor bijzonder populaties zoals
doven, zijn opgenomen in Onderzoekssupplement 1 en 3. Verder is enige informatie over
andere gepubliceerde onderzoeken met normeringsgegevens opgenomen in de editie uit 1995
van sectie 7: Onderzoek en bronnen.
De verzameling van gegevens voor de Amerikaanse normering bracht de noodzaak van plaatse-
lijke normen aan het licht. Om de vervaardiging daarvan te vereenvoudigen, kan nu advies over
de uitvoering van dergelijke onderzoeken, waaronder steekproefneming en administratieve
procedures, ingewonnen warden bij:
John Raven, Consultant, 30 Great King Street, Edinburgh, EH3 6QH, Schotland.
Telefoon: +44 (0) 131 556 2912; Fax: +44 (0) 131 556 3754
Hier kan men tevens terecht voor statistische diensten als dataverwerking en het genereren van
normen.
Abstracten van alle bekende gepubliceerde onderzoeken waarin de tests gebruikt zijn, zijn
opgenomen in de Researcher's Bibliography. Deze is, zowel op papier als op schijf, verkrijgbaar
bij:
Mrs C. Raven, 22 Woodplumpton Lane, Broughton, Preston, Lancashire, PR2 5JJ, Groot-Brittannie.
Van de quota-steekproefprocedures die door de meeste testuitgevers gebruikt warden, is
bekend dat de gegevens die ze opleveren onbetrouwbaar zijn . Veel kleinere gestratificeerde
aselecte steekproeven leveren nauwkeurigere resultaten op. Dat is de reden dat in Dumfries en
Des Moines, ondanks de hogere kosten en de specifieke problemen, gekozen is voor gestrati-
ficeerde aselecte steekproefprocedures. Overigens is het in de VS veel moeilijker een gestratifi-
ceerde aselecte steekproef van volwassenen te trekken dan in het Verenigd Koninkrijk. In de VS
bestaat er namelijk geen lijst namen en adressen die zo compleet is als het Britse kiesregister.
Kish ontwikkelde een procedure om dit probleem aan te pakken. Op basis van censusgegevens
wordt een reeks censusblokken aangewezen die samen representatiefzijn voor de te bestuderen
populatie wat betreft leeftijd, etnische achtergrond en socio-economische status. Vervolgens
wordt een lijst opgesteld van de woningen in deze blokken (meestal door daarvoor onderzoekers
naar het gebied te sturen) en wordt een aselecte steekproefvan woningen in de blokken getrok-
ken. Het isgebruikelijk bij een willekeurige waning te beginnen en daarna elke ne waning te
selecteren. Er wordt een correctie uitgevoerd voor woningen die gebouwd of gesloopt zijn tussen
het tijdstip van de census en het tijdstip van het onderzoek. Aangezien er echter een steekproef
van personen, niet woningen, nodig is, moeten vervolgens onderzoekers alle geselecteerde
woningen bezoeken om een volledige lijst van de bewoners te verkrijgen. Daarna warden
de door Kish ontwikkelde steekproefprocedures gehanteerd om vast te stellen welke persoon
binnen het huishouden gevraagd zal warden deel te nemen aan het onderzoek. Deze procedure
compenseert het feit dat een simpele steekproef van woningen een onevenredig groot aantal
alleenstaanden zou opleveren.
Voor het onderhavige onderzoek maakten Judy Connor en Gary White van de afdeling Steek-
proeven van het Institute of Social Research van de University of Michigan gebruik van hun
gecomputeriseerde steekproefprocedures. Op basis van de census van 1990 werden 30 wijken
van Des Moines geselecteerd die naar verwachting de namen en adressen zouden opleveren
van 1.000 mensen die representatief zouden zijn voor de bevolking van Des Moines. Er werd
verwacht dat dit circa 650 bruikbare sets gegevens zou opleveren.
Phil Poorman van de afdeling Planologie in Des Moines verschafte vervolgens kaarten met alle
woningen in de geselecteerde wijken. Daaruit trok Kandy Lee, onder zijn toezicht, een aselecte
steekproef van woningen. Enkele van de kaarten bleken echter sterk verouderd te zijn en de
steekproeven voor die wijken moesten gecorrigeerd warden. Dat werd gedaan door Barton D.
Raven die de wijken bezocht en een lijst opstelde van de bestaande woningen.
De eerste veldwerkers werden geworven door Barbara Chaplik. Het werk werd echter ernstig
vertraagd door de overstromingen waarmee Des Moines in de zomer van 1993 te kampen
kreeg. Daarom wierf Margaret Berrill extra onderzoekers die ervaring hadden met dergelijke
onderzoekswerkzaamheden. Het eerste team onderzoekers werd door de auteur voorgelicht
over de steekproef- en testprocedures. De later geworven medewerkers werden daarovervoor-
gelicht door Margaret Berrill.

De onderzoekers haalden de namen van de gezinshoofden in de geselecteerde huishoudens uit
de Polk-registers. Deze gezinshoofden ontvingen een korte brief, ondertekend door Camilla
Benbow van de Department of Psychology, Iowa State University, waarin het doelvan het onder-
zoek uiteengezet werd. Tevens werd daarin het bezoek aangekondigd van de onderzoeker die
de brief mede-ondertekend had. Bij de 'waarschuwingsbrief was ook een algemene brief
gevoegd van Cy Carney, gemeentesecretaris van Des Moines.
Gary Phye onderhield de contacten tussen het Department of Psychology en de veldwerkers.
Bij het bezoek aan de waning maakte de onderzoeker eerst een lijst van alle mannelijke en
vrouwelijke bewoners van 17 jaar en ouder. Vervolgens werd met behulp van de procedures van
Kish bepaald welke persoon gevraagd zou warden deel te nemen aan het onderzoek.
Als stimulans voor deelname werd potentiele respondenten verteld dat er een aantal huis-
houdelijke artikelen verloot zou warden.
In totaal leverde de hiervoor beschreven steekproefprocedure 972 adressen op. Als een waning
gesloopt was, werd een naastgelegen waning gekozen. Voor mensen die weigerden deel te
nemen, werden geen vervangers gezocht, aangezien zij alleen door hun weigering al aangeven
anders te zijn dan mensen die wel bereid zijn hun medewerking te verlenen.
Met 72 huishoudens kon geen contact gelegd warden. De respons van de huishoudens waar-
mee wel contact was gelegd, bedroeg 70%. Er werden 625 (in plaats van het oorspronkelijke
streefcijfer van 650) bruikbare sets gegevens verkregen. De helft van de respondenten was man
en de helft vrouw. 12% van de respondenten verstrekte onvoldoende informatie om hun socio-
economische status te kunnen bepalen. 23% van de overige respondenten had een vrij beroep
of een leidinggevende functie. Voor inwoners van Des Moines bedraagt dat percentage 21 % en
voor de VS als geheel 20% volgens het County and City Data Book uit 1983. (Deze en andere
relevante gegevens over Des Moines zijn te vinden op bladzijde 91 van de editie uit 1990 van
Onderzoekssupplement nr. 3 van deze Handleiding.) 4% van de respondenten verstrekte onvol-
doende informatie over hun etnische achtergrond om hen bij een bepaalde groep in te kunnen
delen. Van de overige respondenten gaf 8% aan zwart te zijn, 87% blank en de meeste anderen
hispanic of Aziatisch. De census uit 1990 leverde de volgende cijfers op voor Des Moines:
7% zwart en 89% blank; en voor de VS als geheel: 12% zwart en 83% blank. Over het geheel
genomen duiden deze cijfers erop dat redelijkerwijs aanneembaar is dat de geteste steekproef
inderdaad representatief is voor Des Moines en dat de demografische opbouw ongeveer over-
eenkomt met die van de VS als geheel.
Voor het testen en analyseren werden grotendeels dezelfde procedures gehanteerd als in
Dumfries, behalve dat er gedetailleerde normen werden opgesteld door curven te plotten aan
de hand van de gecorrigeerde globale normen voor elke leeftijdsgroep en de vergelijkingen
daarvan warden gebruikt om de gefnterpoleerde en geextrapoleerde waarden te berekenen.
Met behulp van een uitgebreide versie van Tabel MhlV21 werden de MHV-normen voor Formu-
tier 1/Formulier 2 omgezet naar normen voor MHV met uitsluitend meerkeuzevragen.

Zoals in de hoofdtekst is uitgelegd, had midden jaren 70 de opvatting post gevat dat een paral-
lelle versie van de test wenselijk was. Daarom gingen we op zoek naar onderzoekers die ons
daarbij konden helpen.
Jacobs had de mentale processen bestudeerd die gebruikt warden bij de oplossing van de
opgaven en concludeerde dat daarbij zaken als 'omdraaien', 'roteren', 'aftrekken' enz. een rol
speelden. Nog belangrijker was zijn conclusie dat de moeilijkheid van een item afhankelijk was
van het aantal van deze processen dat tegelijkertijd uitgevoerd moest warden. Daarom werd
Jacobs gevraagd een reeks items op te stellen waarmee zijn theorieen getest konden warden.
fTevens zouden ze aanleiding kunnen geven om hem te vragen verder onderzoekte doen). Deze
items werden opgenomen in de Britse SPM-normering voorjongeren in 1979. Zijn items bleken
allemaal van ongeveer dezelfde moeilijkheidsgraad te zijn. Deze aanpak voor de ontwikkeling
van parallelle versies van de test bleek dus niet te werken.
Een geheel onverwacht resultaat van de normering uit 1979 was echter de ontdekking dat test-
scores in de loop derjaren aanzienlijk waren gestegen. Dat leidde tot de conclusie dat er in de
eerste plaats behoefte was aan versies van de test die het onderscheidend vermogen voor
hoger begaafden zouden herstellen in plaats van aan 'parallelle' versies.
Vanaf 1984 voerde de auteur een uitgebreide correspondentie met David Andrich van de Uni-
versity of Western Australia. Andrich was bezig met longitudinaal onderzoek naar cognitieve
ontwikkeling, als gemeten door de SPM en APM en een reeks Piagetiaanse taken . Voor het
onderzoek werd de itemresponstheorie praktisch toegepast en werden gecomputeriseerde en
adaptieve versies van de tests ontwikkeld. In verband met deze interessante ontwikkelingen
ging de auteur in September 1988 naar Perth.
Tijdens het bezoek bleek het volgende:

a.
Het team van Andrich had al een volledige parallelle test ontwikkeld door kleine wijzi-
gingen aan te brengen in de bestaande items. Hierbij hadden zij ontdekt dat ogen-
schijnlijk kleine aanpassingen vaaktot grote verschillen in moeilijkheidsgraad leiden.
b.
Een onderdeel van het project was het praten met kinderen terwijl ze de opgaven
oplosten, teneinde inzicht te krijgen in de door hen gehanteerde strategieen en deze
informatie vervolgens te gebruiken om nieuwe items te ontwikkelen met een meer
theoretisch basis.
c.
Het was onverwacht moeilijk, zelfs vrijwel onmogelijk, gebleken items te ontwikkelen
die moeilijker waren dan E1 1 en E12 van de SPM of de moeilijkere items van de APM.
Na de ontdekking van een project dat betrekking had op zoveel aspecten van de ontwikkeling
van nieuwe items, werd eerst uitgebreid besproken wat we precies wilden en vervolgens kreeg
Irene Styles, een collega van Andrich, opdracht daarmee aan de slag te gaan.

ledereen was het erover eens dat er eerst een nieuwe test ontwikkeld moest warden waarvan de
items stuk voor stuk met de oude test zouden overeenkomen qua duidelijke oplossingsstrategie
en empirische moeilijkheidsgraad. Alleen dan zouden gebruikers met een gerust hart bestaande
normeringsgegevens kunnen hanteren en zouden eventueel door hen met de nieuwe test ver-
zamelde gegevens opgenomen kunnen warden in de internationale datapool. Deze pool is heel
belangrijk gebleken voor het signaleren van verschillen in testscores en normen tussen verschil-
lende perioden en verschillende culturen en kan derhalve helpen de invloed van de omgeving
vast te leggen en te verklaren.
Verder waren er ten minste 12 nieuwe items nodig om het onderscheidend vermogen van de
SPM voor respondenten met hogere scores te herstellen.
Ook werd voorgesteld in een later stadium te gaan werken aan de ontwikkeling van nieuwe
items die op het oog heel anders waren, maar die gebaseerd zouden zijn op groter inzicht in de
relevante psychologische processen.
Besloten werd dat Styles een reeks vooronderzoeken zou uitvoeren met steekproeven van circa
80 kinderen, maar dat de grate onderzoeken die noodzakelijk waren om de equivalentie van de
oude en nieuwe items te controleren georganiseerd zouden warden door de auteur. Op dat
moment werd ervan uitgegaan dat die grotere onderzoeken ook uitgevoerd zouden warden in
Australie in samenwerking met de Australian Council for Educational Research die niet lang
daarvoor de eerder genoemde Australische normering had uitgevoerd.
Als gevolg van veranderingen die kort daarna ingevoerd werden bij de Australische universitei-
ten, duurde de ontwikkeling van de parallelle en nieuwe items veel langer dan verwacht en kon
de grootschalige equivalering van de items niet uitgevoerd warden in Australia.
Uiteindelijk bleken de parallelle items, hoewel ze aanvaardbaar waren, een vrij zakelijke uitstra-
ling te hebben door het ontbreken van een krachtige tekenstijl, inherente aantrekkelijkheid en
artistieke flair. Bij de ontwikkeling van de oorspronkelijke items had J.C. Raven erjuist bewust
voor gekozen een kunstenaar (hlenry Collins) in dienst te nemen voor de uitvoering van de door
hem ontwikkelde specificaties . Daarom werd Steve hlughes, die de Macintosch-versie van de
tests voor de Minnesota Twin Study ontwikkeld had, gevraagd de parallelle items te bewerken.
Een groter probleem was, zoals al verwacht werd op basis van de eerdere ervaringen van het
team van Andrich, de ontwikkeling van moeilijkere items. Dit probleem werd nog urgenter,
doordat, tegen de tijd dat de items van Styles beschikbaar waren, de resultaten van de norme-
ring voor volwassenen uit 1992 hadden aangetoond, zoals is uitgelegd in de hoofdtekst, dat er
veel meer moeilijkere items nodig waren dan oorspronkelijk was aangenomen.
Styles was gevraagd slechts 12 nieuwe items op te stellen, dus hoe moesten al die extra items
gecreeerd warden?

De kleinzoon J.C. Raven, Michael Raven, besloot met deze uitdaging aan de slag te gaan. Hij
stelde dat de voor de hand liggendeoplossing was "het ontwikkelen van parallelle items voor
geselecteerde items van de APM met de juiste moeilijkheidsgraad" . Hij zat de auteur op de huid
om na te gaan denken over hoe dergelijke items geselecteerd zouden kunnen warden en ging
vervolgens zelf aan de slag met de ontwikkeling van de parallelle items .
Hoe konden de APM-items waan/an parallelle versies nodig waren voor opname in een nieuwe
SPM geselecteerd warden? Er waren items met een specifieke moeilijkheidsgraad nodig, niet
willekeurig welke oude items, om het lineaire verband tussen scorestijgingen en de leeftijd, dat
duidelijk wordt in het linkerdeel van Figuur 1, en de scheiding tussen de ruwe scores die bij elk
percentiel horen, te behouden.
Gelukkig hadden Andrich en Styles in de tussentijd onderzoek uitgevoerd dat gebruikt kon
warden om dit probleem op te lessen.
Andrich en Styles hadden de moeilijkheidsgraad van zowel de SPM- als de APM-items, uit-
gedrukt in Rasch-logits, ingetekend op een gemeenschappelijke schaal (zie Tabel RS3C2 in
Onc/erzoekssupp/ement nr. 3 en Tabel 5 van het referentiemateriaal in deze [SPM]-sectie).
De wijze waarop deze tabel gebruikt werd om de APM-items te selecteren waarvoor parallelle
versies ontwikkeld moesten warden om het onderscheidend vermogen van een nieuwe SPM te
vergroten, kan het best gedemonstreerd warden aan de hand van een voorbeeld.
Uit Figuur 1 blijkt dat het onderscheidend vermogen van de test voor personen van 45 jaar en
jonger in 1992 voor alle percentielen boven het 50e veel kleiner was dan het in 1942 was
geweest. Het gat tussen het 50e en het 75e percentiel voor deze leeftijdsgroep werd ten tijde
van de normering voor volwassenen in 1992 gevormd door ongeveer twee items minder dan in
1942. Het verschil tussen het 75e en het 90e percentiel was slechts een item, terwijl dat ervoor-
heen vierwaren. Enzovoort.
Er waren dus nieuwe items nodig vanaf het 50e percentiel en niet alleen boven de top van de
editite uit 1938 van de SPM.
Uit de figuur blijkt dat het eerste benodigde item de score voor het bereiken van het 95e per-
centiel voor personen die in 1942 35 jaar ofjongerwaren, zou moeten verhogen.
Het is duidelijk dat de invoeging van een dergelijk item ook de score voor het bereiken van het
50e percentiel voorpersonen die in 1992 40jaarofjongerwaren, zou verhogen. En natuurlijkde
scores die nodig zijn voor het bereiken van alle hogere percentielen.
Als we nogmaals de figuur raadplegen, zien we dat het benodigde item een score van 54 zou
verhogen naar 55. hlet item hoeft dus maar iets eenvoudiger te zijn dan het moeilijkste item van
de SPM die een score van 54 zou opleveren. Door invoeging van een dergelijk item zou tevens
de lijn van het 90e percentiel voor 25-jarigen in 1 942 een punt omhoog gaan. Ook de lijnen voor
deze percentielen voor alle leeftijdsgroepen in 1992 zouden verschuiven. Tot slot zou het 75e
percentiel voor iedereen onder de 60 in 1992 omhoog gaan.

In werkelijkheid werd voor deze berekeningen gebruik gemaakt van de tabellen waarop Figuur 1
gebaseerd is in plaats van de grafiek zelf.
De gegevens voor1942 waarop de lijnen links in Figuur 1 gebaseerd zijn, zijn afkomstig uit Tabel
SPM V in de editie uit 1998 van deze (SPM)-sectie van deze Handleiding. De gegevens voor
1992 zijn afkomstig uit Tabel 7 in deze editie van deze sectie.
Tabel SPM V in de editie uit 1998 toont aan dat het verschil tussen het 90e en het 95e percentiel
daalt van drie naar twee items voor 35-jarigen. Dat maakte duidelijk dat er nog een item nodig
was met een moeilijkheidsgraad die overeenkwam met die van het moeilijkste item voor een
totaalscore tussen 51 en 53.
Als we Tabel 2 raadplegen, zien we dat een score van 52 in de meeste gevallen is opgebouwd
uit scores van 10 voor Set C, 10 voor Set D en 8 voor Set E. Als we er dan van uitgaan dat de
items juist gerangschikt zijn naar moeilijkheidsgraad, dan hebben we een item nodig met dezelfde
moeilijkheidsgraad als C10, D10 of E8.
Tabel RS3C2 (in Onderzoekssupp/ement nr. 3) toont aan dat de APM-item waarvan de moeilijk-
heidsgraad het dichtst bij SPM C10 ligt APM 5 is, bij SPM D10 (die eenvoudiger lijkt dan C10)
APM 9 (die evenzo eenvoudiger lijkt dan APM 5) en bij SPM E8 APM 13. Welk item werd ge-
selecteerd, was afhankelijk van de context waarin hij moest passen.
Na selectie van een item dat bij opname zou leiden tot het gewenste resultaat, werden alle
scores van 52 en hoger in de normeringstabellen met een punt verhoogd. Daarna werd het
volgende convergentiepunt van de lijnen bepaald en werd op dezelfde wijze gezocht naar een
item dat dit zou corrigeren.
Het hele proces werd herhaald totdat er voldoende APM-items geselecteerd waren die bij opname
in de SPM geleid zouden hebben tot een lineaire stijging van de percentielnormen met het
geboortejaar, terwijl de curven elkaar niet raakten.
Vervolgens werd de logica achter elk van deze APM-items bestudeerd en gebruikt om een reeks
parallelle items te creeren die naarverwachting, als de logica juist gefnterpreteerd was, dezelfde
moeilijkheidsgraad zouden hebben.
hlet volgende probleem was het selecteren van een aantal nog moeilijkere items die dezelfde
ruimte zouden bieden voor scorestijgingen in de loop der tijd als de editie uit 1 938 van de test
had gedaan in 1942.
Dat was moeilijker dan verwacht zou warden.
Grafiek APM7 (in de sectie APM van deze Handieiding} toont aan dat zelfs de APM in 1992
slechts drie items bevatte die te moeilijk waren voor 95 procent van de bevolking.
Om de oorspronkelijke eigenschappen van de SPM te herstellen, waren een stuk of vijf van
dergelijke moeilijke items nodig.
Zoals eerder vermeld, had Styles, al voordat de auteur contact legde met Australie, ontdekt dat

het bijzonder moeilijkwas items te ontwikkelen die moeilijkerwaren dan de bestaande SPM- en
APM-items.
Tegen de tijd dat Michael Raven tegen dit probleem aanliep, had Linda Vodegel-Matzen al
opdracht gekregen dergelijke items te ontwikkelen voor een uitgebreide Advanced Progressive
Matn'ces-test. Eerder had ze al een parallelle versie van de SPM ontwikkeld die als 'tweeling'
werkte met een goed bereik van moeilijkheidsgraad en een hoge correlatie met de SPM door de
regels van Carpenter en Just toe te passen. Haar test had enkele pluspunten, zoals een
logische basis (Carpenter en Just) voor a//e items en theoretisch geconstrueerde afleiders,
maar helaas kwam de test niet item-per-item overeen met het origineel. We konden deze
dus niet gebruiken als de test waarnaar we op zoek waren.
De voorlopige items die ze had ontwikkeld voor de APM, werden daarom geevalueerd om er
een aantal te selecteren die opgenomen zouden kunnen warden in de nieuwe Standard
Progressive Matrices.
Als resultaat van al deze inspanningen beschikten we nu over:
een reeks van 12 items die qua moeilijkheidsgraad gedeeltelijk overeenkwamen maar
verder gingen dan Set E van de SPM, ontwikkeld en getest door Styles;
een reeks items met een ogenschijnlijk equivalente logica en derhalve, naar men
hoopte, met een equivalente moeilijkheidsgraad als de bestaande APM-items die, als
ze zouden zijn opgenomen in de SPM, enkele van de eigenschappen van de test uit
1938 hersteld zouden hebben;
een aantal items, ontwikkeld door Vodegel-Matzen, waarvan verwacht werd dat ze
moeilijker waren dan de bestaande APM-items.
Er werd overeengekomen al deze nieuwe items samen met enkele controle-items uit de
bestaande SPM en APM voor te leggen aan groepen 'semi-vrijwilligers' van de Universiteit van
Amsterdam. Om te voorkomen dat de studenten teveel tijd aan het project moesten besteden,
werden twee sets van 23 items samengesteld die elk aan 35 studenten afgenomen werden. Set
1 van de bestaande APM werd gebruikt als middel om de aard van de items te leren kennen en
te oefenen.
Op grand van de resultaten van deze proefnemingen werden 28 nieuwe items geselecteerd die
mogelijk in aanmerking zouden komen voor opname in de nieuwe test. Deze werden verdeeld
in twee groepen van 14 voor de grootschalige onderzoeken die volgden.
Erwerd overeengekomen dat Styles haar Rasch-schaalmethoden zou gebruiken om de moeilijk-

heidsgraad van de parallelle items en die van de nieuwe items die ontwikkeld waren om het
onderscheidend vermogen en de toepasbaarheid van de test voor hoger begaafden te ver-
groten, in te tekenen op een gemeenschappelijke schaal op basis van de moeilijkheidsgraad
van de oorspronkelijke items, allemaal uitgedrukt in logits.

Zowel Andrich als Hambleton had inmiddels aangetoond dat Rasch-parameters uiterst insta-
biel warden als ze zijn afgeleid van steekproeven van minder dan 600 personen. Het was dus
duidelijk dat er grote aantallen respondenten getest zouden moeten warden. Ondanks deze
bevindingen van haar collega's was Styles er echter van overtuigd dat er oak kleinere aantallen
gebruikt konden worden, mrts dezelfde personen elk oude en nieuwe item voorgelegd zouden
krijgen, zodat er directe vergelijkingen getrokken zouden kunnen warden. Het zou dan niet
noodzakelijk zijn om voor het onderzoek enorme aantallen proefpersonen in te schakelen om
fouten ten gevolge van steekproefvariatie te beperken.
Om een idee te geven van de aantallen die anders benodigd zouden zijn, kan gekeken warden
naar de moeilijkheidsniveaus die zijn weergegeven in Tabel RS3C2/SPM5. Deze zijn berekend
op basis van de gegevens van circa 600 MENSA-kandidaten die zowel de SPM als de APM had-
den gemaakt, een aselecte steekproefvan 3.000 kinderen van alle leeftijden die de SPM hadden
gemaakt en nog eens 1 .000 kinderen die alleen de APM hadden gemaakt.
Het leek helaas waarschijnlijk dat als items met exact dezelfde logica, maar een andere weergave
bij dezelfde kinderen afgenomen zouden warden, oefening en vermoeidheid een rolzouden
gaan spelen. Erwerd getracht dit tegen te gaan door de items in verschillende combinaties afte
nemen. Er werd geregeld dat verschillende subsets van items voorgelegd zouden warden aan
5- tot 8-jarigen, 11- tot 13-jarigen en 16- tot 18-jarigen, zodat na circa een maand deelgroepen
van elk van deze groepen de alternatieve tests zouden kunnen maken.
Het is belangrijk hierbij op te merken dat, omdat het ging om equivalering van de items en niet
om normering, het niet noodzakelijk was een aselecte steekproefvan kinderen en jongeren van
alle leeftijden te testen. Er was juist een methode nodig die voldoende respondenten voor elke
score, van de allerlaagste tot de allerhoogste, zou opleveren om betrouwbare itemkarakteristieke
curven (ICC's) te kunnen tekenen voor alle items.
De consequenties daaân kunnen opnieuw gedemonstreerd warden aan de hand van een
(nu hypothetisch) voorbeeld. Laten we aannemen dat in een steekproef van 600 personen elke
score van 1 t/m 60 behaald wordt door gelijke aantallen (een onrealistische situatie).
De ICC's tonen per totaalscore en per item aan welk percentage van degenen met dezelfde
totaalscore het item goed heeft. In het gegeven voorbeeld zouden er tien kinderen zijn voor
elke score en de ICC's zouden gebaseerd zijn op het percentage van elk van deze groepen van
tfen.
Uiteraard zijn percentages die op basis van tien personen berekend zijn zeer onbetrouwbaar.
Alsof dat probleem nog niet erg genoeg is, zouden, bij het testen van een aselecte steekproef
van jongeren, de aantallen voor elke score verre van gelijk zijn. Veel jongeren zouden ongeveer
gemiddelde scores halen en er zouden maar weinig scores gehaald warden die in de rand-
gebieden van de verdeling liggen. Daardoor zouden de percentages voor die lage en hoge scores
waarop de ICC's gebaseerd zouden warden, wel heel klein zijn.
Hieruit kan opgemaakt warden dat we niet alleen veel meer dan 600 personen moesten testen,
maar dat we onze respondenten ook zo moesten kiezen dat degenen die laag en hoog scoor-
den, in vergelijking met een aselecte steekproef van de populatie, oververtegenwoordigd

waren. Met andere woorden: een ideale verdeling voor ons werk zou eerder uniform zijn dan
klokvormig.
Om deze doelstelling in ieder geval enigszins te realiseren, kozen we drie leeftijdsgroepen die,
naarwe hoopten, samen significante aantallen zouden opleveren voor elke totaalscore.
Na bestudering van verschillende opzetten, waarbij we in sommige gevallen extreem grote aan-
fallen zouden moeten testen of die uiterst onpraktisch uit te voeren waren of die waarschijnlijk
misleidende informatie zouden opleveren als gevolg van vermoeidheid of oefening, kozen we
wat het beste compromis leek te zijn (weergegeven in Tabel 28).
Bij deze opzet washet mogelijk de moeilijkheidsgraad van de oude items te vergelijken met de
bijbehorende nieuwe items en uiteindelijk door het opnieuw testen van de alternatieve vorm de
moeilijkheidsindices van de nieuwe items direct te vergelijken met die van de oude.
Deze opzet stelde ons tevens in staat de items onder te verdelen in kleinere deelsets, zodat
informatie verkregen kon warden van dezelfde personen voor zowel de oude als de nieuwe
items zonder te veel tijd te vergen of de respondent te veel te vermoeien.
In onderstaande tabel staat 0 voor 'oorspronkelijk item' en N voor 'nieuw item'. De getallen zijn
de itemnummers. OA1 betekent dus 'oorspronkelijk item A1', NA1 betekent 'nieuw item A1',
enzovoort.
Voor we de Tabel bekijken, moeten we nog vermelden dat het onderzoek betrekking had op
zowel de Coloured Progressive Matrices als de Standard-versie, aangezien Sets A en B voor
beiden dezelfde zijn.
Na enkele vergeefse pogingen werd geregeld dat de tests uitgevoerd zouden warden in Neder-
land. hlelaas verliet Vodegel-Matzen na het behalen van haar doctorsgraad de universiteit.
hlet testprogramma werd toen overgenomen door Rieneke Visser en Saskia Plum. Doordat het
op dat moment examentijd was voor de 18-jarigen die nodig waren voor de gekozen opzet,
bleek het moeilijk te zijn personen te vinden die bereid waren mee te werken. Gelukkig konden
Francis van Dam en dr. J.J. Deltour regelen dat grote aantallen studenten van de juiste leeftijd
getest werden in Brussel en Luik. Daarnaast, omdat het er even op leek dat het project in Neder-
land zou vastlopen, werd Anita Zentai gevraagd kinderen in hlongarije te testen. Uiteindelijk had
het Nederlandse team, tegen de tijd dat de Hongaarse gegevens binnenkwamen, ook de quota
gehaald, zodat we, zoals te zien is in Tabel 28, uiteindelijk over veel grotere aantallen gegevens
beschikten dan verwacht.

TABEL42 Steekproefopzet voor equivalering van de items in 1995
Nummer Doel. Gebruikte Ordening Totaalaantal Streefaantal Streefaantal Werkelijk aantal
testboekje leeftijd sets van items items respondenten voorhertest geteste personen
Coloured Progressive Matrices
5V2-8V2 A Ab B OA1 NA2 OA3 NA4 ... 36 150 25 287
OAb1 NAb2...0B11 NB12

5V2-8V2 A Ab B NA1 OA2 NA3 OA4... 36 150 25 274
NAb1 OAb2...NB11 OB12

3 5V2-8V2 AAbB NA1-NB12 36 150 25 373
3B 5V2-8V2 AAbB OA1-OB12 36 150 25 164
Standard Progressive Matrices

111213 A-E OA1 NA2 OA3 NA4 ... 60 150 25 238
OE1 NE2...0E11 NE12

11 1213 A-E NA1 OA2 NA3 OA4 ... 60 150 25 240
NE1 OE2...NE11 OE12

11 1213 A-E NA1-NE12 60 150 25 224
6
68 11 1213 A-E OA1-OE12 60 150 25 215
Herstel van onderscheidend vermogen van Standard Progressive Matrices

16-19 D EX ND1-NE12 38 300 343
+ 1e 14 nieuwe items
16-19 DEY ND1-NE12 38 300 267

+ 28 14 nieuwe items
De belangrijkste resultaten van het equivaleringsonderzoek zijn samengevat onder de kop

'Ontwikkeling van parallelle en uitgebreide versies van de test'. Daar werd echter de indruk
gewekt dat het besluit een 'parallelle' test en een test van 60 items met moeilijkere items te
publiceren min of meer voor de hand lag, terwijl het in werkelijkheid veel hoofdbrekens heeft
gekost.
Na realisatie van onze fundamentele doelstelling het onderscheidend vermogen dat de oor-
spronkelijke test in 1938 had voor hoger begaafden te herstellen, namelijk door de ontwikkeling
van een test van 84 items, stonden we voor de vraag wat we wilden publiceren:
1. Slechts een nieuwe test bestaande uit 84 items die zowel exact parallel zou zijn aan de
oude test en tegelijkertijd het onderscheidend vermogen zou vergroten.
2. Twee nieuwe tests, waarvan er een exact parallel zou zijn aan de oude test en de ander
zou beginnen met de nieuwe Set C en waaraan twee nieuwe Sets (voorlopig Set F en
G genoemd) zouden warden toegevoegd.
3. Slechts een nieuwe 'compactere maar uitgebreidere' test van 60 items met behoud
van de structuur van Set A en B (en in zekere mate C en D), maar inclusief veel moei-
lijkere items. Scores voor een dergelijke test zouden uitsluitend omgezet kunnen
warden naar die van de oorspronkelijke test met behulp van conversietabellen.
4. Een exact parallelle test en een 'compactere maar uitgebreidere' test van 60 items
(oftewel tests 2a en 3 hierboven).

Theoretisch gezien, hadden we nog een andere optie, namelijk om een test te publiceren waar-
bij alle 'eenvoudigere' items onderaan weggelaten zouden warden om zo de eigenschappen
die de test in 1 938 had te herstellen. Deze mogelijkheid werd verworpen, omdat de normeringen
voor volwassenen in 1992 en 1993 duidelijk aantonen dat de test nu goed werkt voor oudere
volwassenen, voorwie bij het onderzoek in 1942, zoals te zien is in Figuur 1, de lagere percen-
tielen geen betekenis hadden. Ookwas deze lager scorende groep doorwijzigingen in de maat-
schappelijke context van tests en met name recente wetgeving inzake gehandicapten van groter
belang geworden. Bovendien werkten zowel de bestaande editie van de test als de parallelle
versie goed voorjonge kinderen. De beperkingen van de tests bleven beperkt tot de boven-
klasse van adolescenten enjongvolwassenen.
Na het inventariseren van de meningen van degenen die het meest bij de test betrokken waren
en onder invloed van het werk van Carver werd besloten tot publicatie van zowel een exact
parallelle test als een 'compactere maar uitgebreidere' test met alle parallelle items voor Set A
en B, vijf parallelle items voor Set C en D en verder een selectie van items uit Set E plus F en G
van het equivaleringsonderzoek.
hlet is algemeen bekend dat Rasch itemparameters wilde ontwikkelen die onafhankelijk zouden
zijn van de andere items in de toets en de begaafdheid van de toetspopulatie. Alom wordt
aangenomen dat dit grotendeels gelukt is (zij het dat grote aantallen nodig zijn om stabiliteit
te garanderen).
In werkelijkheid kwamen we tijdens het onderhavige onderzoek een enorme, en tot nu toe
grotendeels onverklaarde, variantie in itemparameters tegen, afhankelijk van welk van de in
Tabel 42 gegevenssets gebruikt werd voor de analyse. De verschillen waren zo groot dat het
noodzakelijk bleek, bijvoorbeeld de itemstatistieken voor Set C, D, E, X en Y te blokkeren bij het
invoeren of verwijderen van item-persoon-gegevenssets voor Set A en B.
Misschien een van de meest verbijsterende bevindingen was dat de parallelle items in Set A en
B waarvan de moeilijkheidsindices niet leken overeen te komen met die van de Classic-items
waaraan ze parallel zouden moeten zijn (m.a.w. die niet op de regressielijn lagen in het CPM-
equivalent van Figuur 3) varieerden afhankelijk van of de items ui't Set Ab a I dan niet opge-
nomen werden in de analyse. Dit ondanks het feit dat de statistieken gebaseerd waren op
dezelfde populatie respondenten.
Dit kan gedemonstreerd warden aan de hand van de mi'nst lastige van deze moeilijkheden.
Figuur 5 en 6, hoewel ze betrekking hebben op de uiteindelijk behouden 60 items, zijn geba-
seerd op de itemstatistieken van analyse van de 88 items die opgenomen waren in het uiteinde-
lijke equivaleringsonderzoek en waarvan voor 84 daarvan de statistieken zijn weergegeven in
Figuur 4. Figuur 9 is gecreeerd op basis van een nieuwe berekening van de itemstatistieken voor
dezelfde items van Set C, D en E (de itemparameters voor Set A en B waren geblokkeerd om de
hiervoor vermelde reden) aan de hand van dezelfde gegevens van dezelfde populatie respon-
denten, na weglating van de 28 ogenschijnlijk overtollige items. Let erop dat de benadering van
een rechte lijn minder sterk is en dat bovendien de positie van enkele items in de ogenschijnlijke
rangorde van moeilijkheidsgraad is gewijzigd.

Hierbij moet nog opgemerkt warden dat onze ervaringen tijdens deze analyse niet alleen grote
consequenties lijken te hebben voor wie op Rasch-analyses vertrouwt, maar ook voor het belang
dat gehecht mag warden aan de onderzoeken met verschillende populaties (verschillende leef-
tijden en begaafdheidsniveaus) die erop lijken te duiden dat de items in de Classic SPM anders
gerangschikt moeten warden.
FIGUURS Equivaleringsonderzoek 1996

SPM Plus: moeilijkheidsgraad van de items opnieuw berekend nu verwijdering van 28 overtollige items
-2
-4
(»)T-Mr!0»T-cQinNi>toio?o^^'^r«.tp^^>co^*-»--ô'iov-r«.t-ntMiQ>nis>co<ort???^>r^*-<-o>i-??T-?-??S-
;£m< ^ ia« S « ?EQQ DCia mmSo SG5 S3«£Sa!Uuiu? x?!3<5i 1>::S>? ? ? E E ? X a u?x ? S 5< ? x? ?

In deze Bijlage willen we trachten, in niet-technische taal, de basisprincipes uiteen te zetten van
de IRT-methode die is ontwikkeld om bepaalde problemen te verhelpen. Deze hebben, zoals
eerder aangegeven, betrekking op het feit dat de ogenschijnlijke omvang van veranderingen in
de scores van groepen en personen afhankelijk is van (a) het algemene moeilijkheidsniveau van
de test in verhouding tot de geteste begaafdheid en (b) de verdeling van de item parameters in
verhouding tot het interval van de latente trek waar de verandering zich voordoet.
De oplossing van deze problemen is, evenals de Progressive Matrices zelf, afhankelijk van de
toepassing van de itemresponstheorie (IRT) die kort beschreven wordt in de sectie Algemene
inleiding van deze Handleiding. Ondanks dat de methode ontwikkeld is op basis van IRT, is de
toepassing echter niet strikt beperkt tot IRT-tests. In veel gevallen kan de methode ook gebruikt
warden om bruikbare metingen van verandering te verkrijgen met tests die zijn opgebouwd
volgens de klassieke testtheorie
Er zijn twee belangrijke toepassingsgebieden voor de IRT-methode voor het meten van ver-
andering:
1. De meting en statistische toetsing van verandering in groepen (a) na verloop van tijd,
(b) in reactie opverschillende soorten ofdoseringen van behandeling(en), (c) in reactie
op dezelfde behandeling(en) voor verschillende begaafdheidsniveaus en (d) die ver-
schillen in karaktertrekken, geslacht, leeftijd ofandere waarneembare kenmerken;
De meting en statistische toetsing van verandering in personen (a) na verloop van tijd,
(b) in reactie
reactie op
op verschillende
verschillendesoorten
soortenofofdoseringen
doseringenvan
vanbehandeling(en)
behandeling(en) enen
(c)(c)
in in
op dezelfde behandeling(en), ongeacht het persoonlijke begaafdheidsniveau.
reactie op
De eenvoudigste manier om het principe toe te lichten is aan de hand van een situatie waarin
het differentiele effect van een experimentele behandeling (bijvoorbeeld een educatief ver-
rijkingsprogramma) op hoger en lager begaafde respondenten gemeten wordt, hoewel, naar zal
blijken, de methode in nog vele andere situaties toegepast kan warden.
Wanneer dezelfde test, zelfs als die niet eendimensionaal is, gebruikt is om de prestaties voor en
na een interventie te beoordelen, kan elk item dat beide keren voorgelegd is, behandeld wor-
den als een paar items met verschillende itemparameters binnen een gemeenschappelijke
Rasch-schaal, m.a.w. als een 'mini'-Rasch-schaal met een lengte '2'. Als bij de voor- en nameting
bijvoorbeeld dezelfde 10 items afgenomen warden, levert dat 10 mini-Rasch-schalen op. Deze
items hoeven geen gemeenschappelijke dimensie te meten; ze zouden zelfs, en bij klinisch
onderzoek is dat vaak ook zo, bewust geselecteerd kunnen warden om 10 verschillende dimen-
sies te meten om verandering zo uitgebreid mogelijk te controleren.
Desondanks hoeven er geen lange tests gebruikt te warden, omdat elk item een verschillende

latente dimensie meet. (Deze dimensies kunnen gecorreleerd, of op andere wijze wederzijds
afhankelijk, of onafhankelijk zijn.)
Vervolgens kan in een tweede stap gekeken warden of eventueel gesignaleerde effecten voor
alle items gelden. Als dat het geval is (en uit de vele beschikbare onderzoeken blijkt dat dat
meestal zo is), kan de totale omvang van het effect van de behandeling(en) berekend warden
of op andere wijze de relatieve omvang van het effect op de verschillende desbetreffende
'dimensies' gemeten warden. Het resultaat is uiteraard een uiterst flexibele reeks procedures.
Hoewel de ontwikkeling van deze procedures formeel gebaseerd is op IRT, wijkt de vermelde
methode fundamenteel af van de veronderstelling van eendimensionaliteit van de meeste IRT-
modellen. Daarom is het huidige veranderingsmodel het 'Linear Logistic Model with Relaxed
Assumptions' (LLRA) genoemd . Het model is gefmplementeerd in de software LPCM-Win 1.0
Er zijn varieties en uitbreidingen van de methode beschikbaar voor (a) tests waarvan bekend is
dat ze eendimensionaal zijn en (b) items met meer dan twee geordende antwoordcategorieen.
(Lezers die geTnteresseerd zijn in de psychometrische achtergrond van deze methode, kunnen
het boek Rasch Models, onder redactie van Fischer & Molenaar en het Handbook of the
Usage LPCM Win 7.0 raadplegen).
De LLRA en de andere gerelateerde modellen voor de meting van verandering maken verschil-
lende onderzoeksopzetten mogelijk:
(i) Afname van dezelfde itemsets op twee of meer tijdstippen bij dezelfde persoons-
groepen. De items kunnen eendimensionaal zijn, maardat hoeft niet.
(ii) Afname van verschillende, mogelijk overlappende, itemsteekproeven uit een een-
dimensionale itempool op twee of meer tijdstippen. Er kunnen een of meer een-
dimensionale itempools gebruikt warden binnen hetzelfde onderzoek, zodat de totale
itemsteekproef weer meerdimensionaal wordt. In zulke gevallen is het belangrijk dat
pertijdstip ten minste een item geselecteerd wordt uit elke eendimensionale itempool
om te waarborgen dat de respectievelijke latente dimensies werkelijk gemeten worden
op elk tijdstip. In prindpe is het aantal latente dimensies dat in het onderzoek opge-
nomen kan warden, onbeperkt, behalve uiteraard met het oog op de praktische
beperkingen van de testlengte.
(iii) De items kunnen dichotoom (zoals in de meeste begaafdheidstests) of polytoom (met

geordende antwoordcategorieen, zoals in veel klinische evaluatieschalen) zijn.
(iv) Aan het aantal behandelings- en controlegroepen zijn geen voorwaarden verbonden.
Een behandelingsgroep kan gedefinieerd warden als een groep personen die dezelfde
subsets items maken op dezelfde tijdstippen en die dezelfde behandelingen of behan-
delingscombinaties ondergaan.
(v) De gegevens kunnen compleet of incompleet zijn. Incompleetheid van de gegevens

(bijv. ontbrekende waarnemingen) brengen echter met zich mee dat formeel het aantal
behandelingsgroepen toeneemt, omdat alle personen binnen een behandelingsgroep
dezelfde subset items gemaakt moet hebben.

Uiteraard hebben deze kenmerken van toelaatbare onderzoeksopzetten betrekking op een
grote verscheidenheid aan mogelijke onderzoeken. Ervan uitgaande dat een bruikbaar onder-
zoek opgezet is met het oog op de gerealiseerde behandelingscombinaties, zal de toepassing
van de beschreven IRT-methode inschattingen opleveren van effectparameters van de behande-
lingen en van een of meerdere trendeffecten die oorzaken van verandering weergeven die geen
verband houden met de behandeling(en). De methode levert tevens significantietoetsen en
standaardfouten op voor de effectparameters. Bovendien ondersteunt LPCM-Win hetformuleren
en toetsen van enkele standaardhypotheses (bijv. generaliseerbaarheid van behandelingseffecten
of van de mate van verandering voor [a] subsets items en [b] deelgroepen personen) en talloze
specifieke hypotheses.
Om enkele van deze voordelen concreter te maken, denken we nogmaals aan een onderzoek
waarin het differentiele effect op verschillende soorten kinderen in een voorschools opleidings-
programma beoordeeld moet warden. In dit geval zullen de meeste deelnemers bij de nameting
een hogere score halen dan zelfs de score van de meest begaafden onder hen bij de voormeting.
Daardoor is het noodzakelijk moeilijkere items te gebruiken voor de nameting dan voor de voor-
meting.
In dergelijke gevallen kan gebruik gemaakt warden van de zogenaamde Hybrid LLRA. Dat is een
combinatie van Rasch-homogene itemparen en de meerdimensionaliteit van LLRA. Het is echter
afhankelijk van het vinden van Rasch-homogene itemparen via itemkalibratie. Het eenvoudigste
item van elk paar wordt voorgelegd bij de voormeting en het moeilijkste bij de nameting. Zo kan
gewaarborgd warden dat de items van de nameting hetjuiste moeilijkheidsniveau hebben. Een
mogelijke variant daarop zou gevormd kunnen warden door het gebruik van een subset items
uit een Rasch-homogene test (zoals de SPM P/us) bij de voormeting en de overige, zorgvuldig
geselecteerde items bij de nameting.
Hier moeten we een toelichting geven, zodat we er later op kunnen teruggrijpen, op de

conceptuele verschuiving die het mogelijk maakte de IRT te gebruiken voor het oplossen
van deze voorheen onhandelbare problemen bij de meting van verandering. In wezen is de
essentiele true het gebruik van een verschuiving in rtemparameters (die zoals hiervoor vermeld
mini-Rasch-schalen vormen) als een indicatie van verandering binnen personen. Technisch
gezien wordt hetzelfde item dat op de twee tijdstippen aan de respondenten voorgelegd wordt,
formeel beschouwd als een paar 'virtuele' items met verschillende itemparameters. Het verschil
tussen de itemparameters binnen de paren wordt dan een indicator van verandering van de
desbetreffende latente dimensie in de respondenten. Uitgaande van de generaliseerbaarheid
van verandering voor de latente dimensies die doorverschillende items en bij personen binnen
een behandelingsgroep gemeten warden, draagt elk paar virtuele items bij aan de complete
informatie over de mate van verandering in die groep. Combinatie van al deze bijdragen maakt
dus meting en statistische evaluatie van verandering mogelijk.
Bij de inschatting van effectparameters met behulp van de LLRA wordt geen inschatting
gemaakt van de item- of persoonsparameters. Uitsluitend de veranderingsparameters (d.w.z.
de effecten van behandeling of veranderingen na verloop van tijd) warden beoordeeld. De
berekening is volledig gebaseerd op antwoordcombinaties waarbij iemand s/echts een van de
items van een itempaar (= mini-Rasch-schaal) opgelost heeft. Antwoordcombinaties waarbij
beide antwoorden op de items van een paar correct of incorrect zijn, verschaffen geen informa-
tie over verandering en moeten buiten beschouwing gelaten warden. Het is dan ook gunstig zo

groot mogelijke getallen te hebben van score 1 (geen 0 of 2) op elk van deze mini-Rasch-schalen
(itemparen). Dit kan bereikt warden door intelligente selectie van de items bij het vormen van de
genoemde paren.
Een andere onderzoeksmotivatie leidt tot het onderzoek naar individuele verandering: klinische
psychologen zijn bijvoorbeeld benieuwd of een patient na een behandelingsperiode zijn/haar
prestatieniveau heeft kunnen verbeteren; onderwijspsychologen willen individuele groei binnen
een bepaalde periode vergelijken met de gemiddelde groei van het cohort; in de'toegepaste
psychologie is men geTnteresseerd in de mate van verandering van een karaktertrek in een
individu na programma voor training of persoonlijke ontwikkeling, enz. De gebruikte tests zijn
soms prestatietests met dichotome items (zoals de SPM P/us) en soms schalen van items met
verschillende (geordende) antwoordcategorieen, zoals 'altijd', 'meestal', 'zelden', 'nooit'. Vooral
deze gevallen is nu ook een IRT-methode beschikbaar die het mogelijk maakt individuele ver-
andering te meten en verandering statistisch te toetsen.
Hierbij moet echter benadrukt warden dat, in tegenstelling tot groepsgerichte onderzoeken, de
gebruikte itempool eendimensionaal moet zijn. Dat is eenvoudig te verklaren: als een onder-
zoek zich richt op individuen en als elk item mogelijk een andere dimensie meet, zijn er slechts
twee discrete antwoorden beschikbaar per latente dimensie, waardoor een wetenschappelijke
berekening van de mate van verandering per latent continuum onmogelijk wordt. Naast de
beperking tot eendimensionaliteit van de itempool, is de onderhavige methode tot nu toe
uitsluitend ontwikkeld voor twee tijdstippen. In onderzoeken met meer dan twee tijdstippen
moeten deze in afzonderlijke paren geanalyseerd warden.
Aan de andere kant is er veel flexibiliteit met betrekking tot de opbouw van de gebruikte tests
op de twee tijdstippen: uit de gegeven eendimensionale itempool kan voor elk tijdstip een wille-
keurige subset items geselecteerd warden. De respondenten kunnen dus twee keer dezelfde
items voorgelegd krijgen of er kunnen geheel verschillende subsets items geselecteerd warden
voor de voor- en nameting of de twee itemsets kunnen elkaar gedeeltelijk overlappen. De
onderzoeker kan de items dus selecteren aan de hand van zijn/haar theorie of doeistelling.
Als de .onderzoeker bijvoorbeeld verwacht dat de score van de respondent voor de te meten
vaardigheid of.karaktertrek zal toenemen, kan hij'/zij voor de voormeting eenvoudigere items
selecteren dan voor de nameting, zodat de verwachte verschuiving op de latente dimensie min
of meer gecompenseerd wordt door een toename van de moeilijkheidsgraad van de items.
Het idee achter de psychometrische methode is dat de mate van verandering in de bestudeer-
de persoon af te lezen is aan de itemparameters: opnieuw blijkt het concept van 'virtuele' items
essentieel te zijn om de methode te begrijpen. In plaats van te denken in termen van verande-
ring van de persoonsparameter (vaardigheid), kan verandering beter gezien warden als ver-
schuiving van de item para meters van de nameting ten opzicht van de itemparameters van de
voormeting De persoonsparameter (vaardigheid) wordt derhalve, ondanks de verandering in
werkelijkheid in technisch opzicht beschouwd als een constante, terwijl de item para meters van
de items van de nameting vervangen warden doorvirtuele itemparameters. Hierdoor kunnen de
door de persoon gegeven antwoorden voor beide tests behandeld warden als antwoorden van
een respondent voor slechts een test met een lengte van de som van d& lengte van de voor- en
van de nameting. Dat maakt het mogelijk de zogenaamde 'conditionele grootste aannemelijk-

heidsmethode' te gebruiken. hlet voordeel daarvan is dat de persoonsparameter bij de volgende
stappen van de meet- en statistische testprocedures buiten beschouwing gelaten wordt. Boven-
dien warden bij deze aanpak eventuele asymptotische benaderingen voorkomen, aangezien
alleen de exacte voorwaardelijke verdeling van de scorewinst gebruikt wordt.
In deze bijlage kunnen we geen gedetailleerde formele beschrijving van de methode geven
Het is voldoende op te merken dat de methode voor elk individu een inschatting oplevert van
de mate van verandering op de latente dimensie, dat deze inschatting onafhankelijk is van het
werkelijke aanvankelijke niveau van de karaktertrek of vaardigheid, dat betrouwbaarheidsinter-
vallen berekend kunnen warden voorde echte individuele mate van verandering en dat de mate
van verandering op significantie getest kan warden. Een goed voorbeeld van een praktische
toepassing van de methode is te vinden in Prieler . In dit onderzoek werd een uitgebreide
testbatterij afgenomen bij officiercadetten voor en na een zware nachtmars om te bepalen welke
verschi'/scores de beste predictors waren van geschiktheid voor de gekozen carriere.
Betrouwbaarheidsintervallen voor de veranderingsparameter en significantietoetsen kunnen op

twee manieren verkregen warden. Een eenvoudige en duidelijke methode is berekening van de
zogenaamde Clopper-Pearson betrouwbaarheidsintervallen en de bijbehorende significantie-
niveaus. Deze methode heeft enkele aantrekkelijke eigenschappen: er bestaat een zekere
'dubbele monotoniciteit' in de uitvoertabellen die overeenkomt met de verwachtingen uit een
inhoudelijk perspectief; de resultaten zijn in zoverre uniek dat voor bepaalde ruwe scores van
een individu ze op unieke wijze tot stand komen (behalve voor bepaalde 'grensgevallen' die
sowieso van weinig inhoudelijk belang zijn). Voor tests met dichotome items volgens het
Rasch-model kunnen deze Clopper-Pearson betrouwbaarheidsintervallen en de bijbehorende
significantieniveaus verkregen warden met behulp van LPCM-Win 1.0 (zie hiervoor). Voor
schalen van items met polytome geordende antwoordcategorieen zijn echter de onlangs in
Fischer beschreven methodes nodig. Tabel 43 Vm 46 zijn berekend met behulp van een
op dit moment nog niet gepubliceerd softwareprogramma van de eerste auteur.
Deze software produceert schattingen van individuele veranderingsparameters, betrouwbaarheids-

intervallen voor de echte mate van verandering en significantieniveaus van de waargenomen
verandering. Ter illustratie van mogelijke toepassingen van deze methode hebben we Tabel 43
en 44 hier opgenomen. De uiterst linkse kolom van Tabel 43 bevat alle mogelijke ruwe scores
die voor de SPM Plus-test gehaald kunnen warden (0 t/m 60), ervan uitgaande dat de volledige test
is afgenomen bij de voormeting (deze ruwe scores zijn aangegeven met r^; voor het gemak zijn
dezelfde ruwe scores herhaald in de uiterst rechtse kolom). De bovenste rij bevat alle mogelijke
scores voor de nameting, aangegeven met r^, opnieuw ervan uitgaande dat de volledige test is
afgenomen. (Ter bevordering van het leesgemakvan de tabel zijn de ruwe scores herhaald op de
onderste rij). In de rest van de tabel staan de significantieniveaus voor het verschil tussen de scores
van na- en voormeting bij elke ruwe score voor de voormeting r^. Een punt betekent significantie
op .10-niveau, een 's' op .05-niveau, een 'S' op .01-niveau en een 'T' op .001-niveau.
Zoals te zien is, betekent voor het merendeel van de ruwe scores een scoreverschil van r^ - r^ ca. 8
een significante stijging en een scoreverschil van r^ - r^ ca. -8 een significante daling van de
testresultaten (met een significantieniveau van .05). Tabel 43 is gebaseerd op een tweezijdige
statistische testprocedure. Let erop hoe aan beide zijden van de hoofddiagonaal de significantie-
niveaus monotoon afnemen, zowel horizontaal als verticaal. Dat wordt bedoeld met 'dubbele
monotoniciteit'

In Tabel 44 is dezelfde informatie op een andere manier weergegeven. De uiterst linkse kolom
bevat iemands score bij de voormeting r^, de andere kolommen bevatten de scores van de
nameting r^ die significant afwijken van de desbetreffende voormetingsscore r^, bij significantie-
niveaus van 0.1 tot 0.001 . Het symbool 'ns' geeft aan dat voor die nametingsscores de mate van
verandering niet significant is.
h-tet nadeel van deze methode is dat de betrouwbaarheidsintervallen en de bijbehorende

significantietoetsen enigszins 'conservatief zijn. Dit statistische begrip betekent dat soms geen
significantie bereikt wordt, terwijl een krachtigere toets wel significantie zou opleveren. Gelukkig
bestaan er manieren om 'uniform meest nauwkeurige'-betrouwbaarheidsintervatten (UMA) en
'uniform meest onderscheidende'-toetsen (UMP) op te stellen. hlet nadeel hiervan is dat ze
beide gebaseerd zijn op zogenaamde 'gerandomiseerde' scores. Randomisering betekent in
dit kader dat een kleine continue stochastische component toegevoegd wordt aan de waar-
genomen discrete scorewinst, waardoor deze verandert in een continue stochast. Voor lezers
die prijs stellen op de formele details: deze stochastische component is onafhankelijk van de
scorewinst en heeft een uniforme verdeling op het interval [0, 1). Hoewel het tegen de intuftie
indruist, leidt de toevoeging van die stochastische component echt tot een grotere nauwkeurig-
heid van het betrouwbaarheidsinterval voor de veranderingsparameter en een toename van het
onderscheidend vermogen van de statistische toets.
Het is duidelijk dat deze aanpak niet zonder problemen is: aangezien er een onafhankelijke
stochastische component aan de scorewinst toegevoegd moet warden in elk individueel geval,
waarbij de procedure voor twee personen met exact dezelfde ruwe scores voor zowel de voor-
als de nameting herhaald wordt, kan dat soms leiden tot een verschillende inschatting van de
significantie! Een andere consequentie daarvan is dat de 'dubbele monotoniciteit' van de uit-
voertabellen verloren gaat, wat sommige gebruikers intu'ftief zullen afkeuren. Een laatste punt is
dat er geen vaste tabellen zoals Tabel 43 of 44 afgedrukt kunnen warden, omdat het resultaat
deels afhankelijk is van de stochastische component.
We kunnen echter wel een tabel afdrukken, waarbij de stochastische component vastgezet is
op .5. hlet achterliggende idea is dat .5 de mediaanwaarde van de stochastische component
is en dat de grenzen van de significantieniveaus in de tabel dus de mediane grenzen zijn; dat
betekent dat in 50% van alle gevalten een iets smaller betrouwbaarheidsgebied (ofgrenzen van
de significantieniveaus) verwacht mag warden en in de andere 50% een breder gebied. Het
resultaat daarvan is weergegeven in Tabel45 en 46,die verder volledig analoog zijn aan respec-
tievelijk Tabel 43 en 44. Het is duidelijk dat door de randomisering nauwkeurigere informatie
verkregen wordt over de veranderingsparameter en de significantie ervan: terwijl in Tabel 43
voor een groot deel van de voormetingsscores een stijging van circa 8 punten significant was op
het 0.5-niveau, is een stijging van 7 punten nu soms even significant.
We hebben hier helaas niet voldoende ruimte om verdere details over deze methods te
verschaffen. Een veel gedetailleerder, maar ook veel formeler, verslag van de mogelijkheden
is te vinden in Fischer

TABEL43 Nomogmm van de significantie van scoreverschillen (gebaseerd op Clopper-Pearson betrouwbaarheids-
intervallen)
23456789012345678901234567890123456789012345678901234567890
0
1
2 2
3 3
4 4
5 5
6 6
7 Ss 7
8 Ss 8
9 TSs . 9
10 TSss 10
11 TTSss. n
12 TTTSss 12
13 TTTSSs 13
14 TTTTSss. 14
15 TTTTTSss 15
16 TTTTTSSss 16
17 TTTTTTSSss 17
18 TTTTTTTSSss 18
19 TTTTTTTTSSss 19
20 TTTTTTTTTSSss 20
21 TTTTTTTTTTSSss . sssS 21
22 TTTTTTTTTTTSsss s s s 22
23 TTTTTTTTTTTSSsss s s s 23
24 TTTTTTTTTTTTSSsss s s s 24
25 TTTTTTTTTTTTTSSsss. s s s 25
26 TTTTTTTTTTTTTTSSsss s s s 26
27 TTTTTTTTTTTTTTTSSsss sssS 27
28 TTTTTTTTTTTTTTTTSSsss .sss 28
29 sss. s s s 29
30 Ssss s s 30
31 s s 31
32 s s 32
33 ssSSTTTTTTTTTTTTTTTT 33
34 ssSSTTTTTTTTTTTTTTT 34
35 ssSSTTTTTTTTTTTTTT 35
36 ssSSTTTTTTTTTTTTT 36
37 .ssSSTTTTTTTTTTTT 37
38 ssSSTTTTTTTTTTT 38
39 ssSSTTTTTTTTTT 39
40 ssSSTTTTTTTTT 40
41 ssSTTTTTTTTT 41
42 ssSTTTTTTTT 42
43 sSSTTTTTTT 43
44 ssSSTTTTTT 44
45 ssSSTTTTT 45
46 ssSTTTTT46
47 ssSTTTT47
48 ssSTTT48
49 sSSTT49
50 sSTT50
51 ssST51
52 sST 52
53 sS 53
54 s 54
55 s 55
56 56
57 57
58 58
59 59
60 60
0123456789012345678901234567890123456789012345678901234567890

TABEL44 Tabel van kritische grenzen ruwe scores (gebaseerd op Clopper-Pearson betrouwbaarheidsintervallen)
r1 .001 .01 .05 .10 .10
n.s. .05 .01 .001
0 0-3 4-4 5-6 7-8 9-60
1 0-5 6-6 7-8 9-10 11-60
2 0-7 8-8 9-10 11-11 12-60
3 0-8 9-9 10-11 12-13 14-60
4 0-0 1-9 10-10 11-12 13-14 15-60
5 0-0 1-10 11-11 12-14 15-16 17-60
6 0-0 1-1 2-12 13-13 14-15 16-17 18-60
7 0-0 1-1 2-13 14-14 15-16 17-18 19-60
8 0-0 1-1 2-2 3-14 15-15 16-17 18-19 20-60
9 0-0 1-1 2-2 3-3 4-15 16-16 17-18 19-20 21-60
10 0-0 1-1 2-3 4-4 5-16 17-17 18-19 20-21 22-60
11 0-1 2-2 3-4 5-5 6-17 18-18 19-20 21-23 24-60
12 0-2 3-3 4-5 6-18 19-19 20-22 23-24 25-60
13 0-2 3-4 5-5 6-6 7-19 20-20 21-23 24-25 26-60
14 0-3 4-4 5-6 7-7 8-20 21-21 22-24 25-26 27-60
15 0-4 5-5 6-7 8-8 9-21 22-22 23-25 26-27 28-60
16 0-4 5-6 7-8 9-9 10-22 23-23 24-26 27-28 29-60
17 0-5 6-7 8-9 10-10 11-23 24-24 25-27 28-29 30-60
18 0-6 7-8 9-10 11-11 12-24 25-25 26-28 29-30 31-60
19 0-7 8-9 10-11 12-12 13-25 26-26 27-29 30-31 32-60
20 0-8 9-10 n-12 13-13 14-26 27-27 28-30 31-32 33-60
21 0-9 io-n 12-13 14-14 15-27 28-28 29-31 32-33 34-60
22 0-10 11-11 12-14 15-15 16-28 29-29 30-32 33-34 35-60
23 0-10 11-12 13-15 16-16 17-29 30-30 31-33 34-35 36-60
24 0-11 12-13 14-16 17-17 18-30 31-31 32-34 35-36 37-60
25 0-12 13-14 15-17 18-18 19-31 32-32 33-35 36-37 38-60
26 0-13 14-15 16-18 19-19 20-32 33-33 34-36 37-38 39-60
27 0-14 15-16 17-19 20-20 21-33 34-34 35-37 38-39 40-60
28 0-15 16-17 18-20 21-21 22-34 35-35 36-38 39-40 41-60
29 0-16 17-18 19-21 22-22 23-35 36-36 37-39 40-41 42-60
30 0-17 18-19 20-22 23-23 24-36 37-37 38-40 41-42 43-60
31 0-18 19-20 21-23 24-24 25-37 38-38 39-40 41-42 43-60
32 0-19 20-21 22-24 25-25 26-38 39-39 40-41 42-43 44-60
33 0-20 21-22 23-25 26-26 27-39 40-40 41-42 43-44 45-60
34 0-21 22-23 24-26 27-27 28-40 41-41 42-43 44-45 46-60
35 0-22 23-24 25-27 28-28 29-41 42-42 43-44 45-46 47-60
36 0-23 24-25 26-28 29-29 30-42 43-43 44-45 46-47 48-60
37 0-24 25-26 27-29 30-30 31-43 44-44 45-46 47-48 49-60
38 0-25 26-27 28-30 31-31 32-44 45-45 46-47 48-49 50-60
39 0-26 27-28 29-31 32-32 33-45 46-46 47-48 49-50 51-60
40 0-27 28-29 30-32 33-33 34-36 47-47 48-49 50-51 52-60
41 0-28 29-31 32-33 34-34 35-47 48-48 49-50 51-51 52-60
42 0-29 30-32 33-34 35-35 36-48 49-49 50-51 52-52 53-60
43 0-31 32-33 34-35 36-36 37-49 50-50 51-51 52-53 54-60
44 0-32 33-34 35-36 37-37 38-50 51-52 53-54 55-60
45 0-33 34-35 36-37 38-38 39-50 51-51 52-53 54-55 56-60
46 0-34 35-36 37-38 39-39 40-51 52-52 53-54 55-55 56-60
47 0-35 36-37 38-39 40-40 41-52 53-53 54-55 56-56 57-60
48 0-36 37-38 39-40 41-41 42-53 54-54 55-56 57-57 58-60
49 0-37 38-39 40-41 42-42 43-54 55-55 56-56 57-58 59-60
50 0-38 39-40 41-42 43-43 44-55 56-56 57-57 58-58 59-60
51 0-39 40-41 42-44 45-45 46-56 57-58 59-59 60-60
52 0-41 42-43 44-45 46-46 47-57 58-58 59-59 60-60
53 0-42 43-44 45-46 47-47 48-57 58-58 59-59 60-60
54 0-43 44-45 46-47 48-48 49-58 59-59 60-60
55 0-44 45-46 47-48 49-49 50-59 60-60
56 0-46 47-47 48-49 50-50 51-59 60-60
57 0-47 48-49 50-51 52-60
58 0-48 49-50 51-52 53-53 54-60
59 0-50 51-52 53-53 54-54 55-60
60 0-52 53-53 54-55 56-56 57-60
r1 .001 .01 .05 .10 n.s. .10 .05 .01 .001
144 RAVEN HANDLEID!NG

TABEL45 Nomogmm van de significantie van scoreverschillen (gebaseerd op UMA-betrouwbaarheidsintervallen en
UMP-statistische toetsen)
5 6
2345678901234567890
012345678901234567890123456789012345678901
0 0
1 1
2 2
3 3
4 4
5 5
6 Ss 6
7 Ss . 7
8 TSs . 8
9 TSss . 9
10 TTSss 10
11 TTSSs. 11
12 TTTSss. 12
13 TTTTSss 13
14 TTTTSSss. 14
15 TTTTTSSss 15
16 TTTTTTSSss 16
17 TTTTTTTSSss 17
18 TTTTTTTTSsss 18
19 TTTTTTTTSSss. 19
20 TTTTTTTTTSSss. 20
21 TTTTTTTTTTSSss. . 21
22 TTTTTTTTTTTSSss. 22
23 TTTTTTTTTTTTSSss. 23
24 TTTTTTTTTTTTTSSss 24
25 TTTTTTTTTTTTTTSSss. 25
26 TTTTTTTTTTTTTTTSSss 26
27 TTTTTTTTTTTTTTTTSSss 27
28 TTTTTTTTTTTTTTTTTSSss 28
29 29
30 TTTTTTTTTTTTTTTTTTTSSss 30
31 TTTTTTTTTTTTTTTTTTTTSSss 31
32 s s ssSSTTTTTTTTTTTTTTTTT 32
33 s s .ssSSTTTTTTTTTTTTTTTT 33
34 TTTTTTTTTTTTTTTTTTTTTTTSSss. ssSSTTTTTTTTTTTTTTT 34
35 ss.. sssSSTTTTTTTTTTTTTT 35
36 ss.. .sssSTTTTTTTTTTTTTT 36
37 Sss . sssSTTTTTTTTTTTTT 37
38 ss. .ssSSTTTTTTTTTTTT 38
39 ss ssSSTTTTTTTTTTT 39
40 ssSSTTTTTTTTTT 40
41 ssSSTTTTTTTTT 41
42 ssSSTTTTTTTT 42
43 .ssSSTTTTTTT 43
44 .ssSTTTTTTT44
45 .ssSTTTTTT45
46 .sSSTTTTT46
47 ssSSTTTT47
48 ssSTTTT48
49 .ssSTTT 49
50 .ssSTT 50
51 sSTT51
52 sST52
53 ssS 53
54 sS 54
55 . s 55
56 s 56
57 57
58 58
59 59
60 60
1 2 3 4
012345678901234567890
234567890123456789012345678901234567890

TABEL 46 Tabel van kritische grenzen ruwe scores
(gebaseerd op UIVlA-betrouwbaarheidsintervallen en UMP-statistische toetsen)
r1 .001 .01 .05 .10 n.s. .10 .05 .01 .001
0 0-3 4-5 6-7 8-60
0-4 5-5 6-7 8-9 10-60
2 0-6 7-7 8-9 io-n 12-60
3 0-7 8-8 9-10 11-12 13-60
4 0-0 1-8 9-9 10-12 13-14 15-60
5 0-0 1-1 2-10 n-n 12-13 14-15 16-60
6 0-0 1-1 2-11 12-12 13-U 15-16 17-60
7 0-0 1-1 2-2 3-12 13-13 14-15 16-17 18-60
8 0-0 1-1 2-2 3-3 4-13 14-14 15-16 17-19 20-60
9 0-0 1-1 2-3 4-4 5-14 15-15 16-18 19-20 21-60
10 0-1 2-2 3-4 5-15 16-16 17-19 20-21 22-60
11 0-1 2-3 4-4 5-5 6-16 17-17 18-20 21-22 23-60
12 0-2 3-3 4-5 6-6 7-17 18-19 20-21 22-23 24-60
13 0-3 4-4 5-6 7-7 8-18 19-20 21-22 23-24 25-60
14 0-3 4-5 6-7 8-8 9-19 20-21 22-23 24-25 26-60
15 0-4 5-6 7-8 9-9 10-20 21-22 23-24 25-26 27-60
16 0-5 6-7 8-9 10-10 11-22 23-23 24-25 26-27 28-60
17 0-6 7-8 9-10 11-11 12-23 24-24 25-26 27-28 29-60
18 0-7 8-8 9-11 12-12 13-24 25-25 26-27 28-29 30-60
19 0-7 8-9 10-11 12-13 14-25 26-26 27-28 29-30 31-60
20 0-8 9-10 11-12 13-14 15-26 27-27 28-29 30-31 32-60
21 0-9 10-11 12-13 14-15 16-27 28-28 29-30 31-32 33-60
22 0-10 11-12 13-14 15-15 16-28 29-29 30-31 32-33 34-60
23 0-11 12-13 U-15 16-16 17-29 30-30 31-32 33-34 35-60
24 0-12 13-14 15-16 17-17 18-30 31-31 32-33 34-35 36-60
25 0-13 14-15 16-17 18-18 19-31 32-32 33-34 35-36 37-60
26 0-14 15-16 17-18 19-19 20-32 33-33 34-35 36-37 38-60
27 0-15 16-17 18-19 20-20 21-33 34-34 35-36 37-38 39-60
28 0-16 17-18 19-20 21-21 22-34 35-35 36-37 38-39 40-60
29 0-17 18-19 20-21 22-22 23-34 35-36 37-38 39-40 41-60
30 0-18 19-20 21-22 23-23 24-35 36-37 38-39 40-41 42-60
31 0-19 20-21 22-23 24-24 25-36 37-38 39-40 41-42 43-60
32 0-20 21-22 23-24 25-25 26-37 38-39 40-41 42-43 44-60
33 0-21 22-23 24-25 26-26 27-38 39-40 41-42 43-44 45-60
34 0-22 23-24 25-26 27-27 28-39 40-41 42-43 44-45 46-60
35 0-23 24-25 26-27 28-29 30-40 41-41 42-44 45-46 47-60
36 0-24 25-26 27-28 29-30 31-41 42-42 43-45 46-46 47-60
37 0-25 26-27 28-29 30-31 32-42 43-43 44-46 47-47 48-60
38 0-26 27-28 29-30 31-32 33-43 44-44 45-46 47-48 49-60
39 0-27 28-29 30-31 32-33 34-44 45-45 46-47 48-49 50-60
40 0-28 29-30 31-32 33-34 35-45 46-46 47-48 49-50 51-60
41 0-29 30-31 32-33 34-35 36-46 47-47 48-49 50-51 52-60
42 0-30 31-32 33-35 36-36 37-47 48-48 49-50 51-52 53-60
43 0-31 32-33 34-36 37-37 38-48 49-49 50-51 52-53 54-60
44 0-32 33-34 35-37 38-38 39-49 50-50 51-52 53-53 54-60
45 0-33 34-35 36-38 39-39 40-50 51-51 52-53 54-54 55-60
46 0-34 35-36 37-39 40-40 41-51 52-52 53-53 54-55 56-60
47 0-36 37-38 39-40 41-41 42-52 53-54 55-56 57-60
48 0-37 38-39 40-41 42-42 43-52 53-53 54-55 56-56 57-60
49 0-38 39-40 41-42 43-43 44-53 54-54 55-56 57-57 58-60
50 0-39 40-41 42-43 44-44 45-54 55-55 56-57 58-58 59-60
51 0-40 41-42 43-44 45-45 46-55 56-56 57-57 58-58 59-60
52 0-41 42-43 44-45 46-46 47-56 57-57 58-58 59-59 60-60
53 0-42 43-44 45-47 48-48 49-57 58-59 60-60
54 0-44 45-46 47-48 49-49 50-58 59-59 60-60
55 0-45 46-47 48-49 50-50 51-58 59-59 60-60
56 0-46 47-48 49-50 51-51 52-59 60-60
57 0-48 49-49 50-51 52-52 53-59 60-60
58 0-49 50-51 52-53 54-60
59 0-51 52-52 53-54 55-55 56-60
60 0-52 53-54 55-56 57-57 58-60
r1 .001 .01 .05 .10 n.s. .10 .05 .01 .001
146 RAVEN HANDLEIDSNG

Raven Iq Test

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Raven Iq Test

Uploaded by

Copyright:

Available Formats

000161 NL'

7 Ontwikkeling van de Parallel" Pi .is-yersles van de tests 31

10 Computerversles van de test 61

Snstructies voor afname van de SPM~ en MHV-tests op papier 65

12 Scoren, evalueren en ropporteren 75

14 Referentiematerlaal: Classic" en Parallel-tests Bl

Tabel 15: (Classic en Parallel)

Gecorrigeerde normen voor Polen vergeleken met Britse gegevens 105

Gecorrigeerde normen uit 1998 voorjongeren in Frankrijk vergeleken met Britse

15 ReferentEemateriaaS: Standard Progressive Motrices Plus 111

Bajlage 1 De Amerikaanse voor voiwGssersen uit 1993 119

2 OnSwikkeiing vcsrs de ParGlSe8 caAfi A^ 'EDft<i B'L:- 123

3 een methode op basis van 8RT voor de beoordeling vaR

Zoals is aangetoond in de sectie A/gemeen bedroeg deze toename circa vijfstandaarddeviaties

Het is belangrijk de opmerkingen over het onderscheidend vermogen goed te interpreteren.

Zoals al is uitgelegd, zorgde de algemene verbetering van het deductief vermogen in de

Normering voor jongeren in Groot-Brittannie in 1979

^i"',Twring vo©r jo^geren h de VS m 1984/86

Normering voor volwassenen in Groot-Brittannie in 1992

Nauwkeurigheid van de normeringen voor volwassenen in Dumfries en Des Moines

In Onderzoekssupplement nr. 1 en nr. 3 zijn aanvullende normeringsgegevens te vinden van

Nauwkeyrigheid van de conversletabeElen

FIGUUR 3 Equivaleringsonderzoek 1996

HGUUR4 Equivaleringsonderzoek 1996

HCUUR 5 Equivaleringsonderzoek 1996

Bij de Britse normering voorjongeren in 1979 werden de correlaties tussen de moeilijkheids-

Aangezien de SPM-items gerangschikt zijn naar moeilijkheidsgraad en gebaseerd zijn op een

Deze onderzoeken zijn voornamelijk uitgevoerd in Noord-Amerika en Groot-Brittannie. Rapporten

Sorokin meldde een split-half-correlatiecoefficient van .96 voor Joegoslavische tieners en

Rao en Reddy meldden een even/oneven-betrouwbaarheidscoefficient tussen .92 en .93 en

Bij de aanvankelijke onderzoeken met de SPM , varieerde de betrouwbaarheid tussen .83 en

Inmiddels zijn er verschillende verdere onderzoeken gepubliceerd. Sheppard et al regis-

Goed uitgevoerde onderzoeken duidden derhalve op een bevredigende hertest-betrouwbaar-

De hoge hertest-betrouwbaarheid van de Mf7/ Hill Vocabulary Scale (Tabel 1) weerspiegelt

Onder normale omstandigheden blijven de scores voor de Vocabulary-test na het bereiken

(jaar) Gemiddelde Hertest- Gemiddelde Hertest- tussen SPM- en

Ouderdomsdementie lijkt geen normaal ouderdomsverschijnsel te zijn, maar een pathologische

Correlaties met concurrente intelligentiemaatstaven

Correlaties met concurrente prestatiemaatstaven

Bij verschillende onderzoeken met basisschoolleerlingen diende de California Achievement Test

hloffman en Jensen hebben aangetoond dat, hoewel verschillende etnische groepen in de

Gegevens uit Libanon--'', India , Oost-Afrika en Nigeria zijn in tegenspraak met de

Defries et al toonden cognitieve overeenkomsten aan tussen echtgenoten, broers en zussen,

De Progressive Matn'ces-test is beschreven als een van de zuiverste en beste meetinstrumenten

In hoofdstuk 8 van de editie 1990/2000 van Onderzoekssupp/emenf nr. 3 is een gedetailleerd

Er wordt, vooral in de neuropsychologie, steeds vaker gebruik gemaakt van gecomputeriseerde

De befnvloedbaarheid van RPM-scores, de hoogte van de stijging in de loop der tijd en de

Dit probleem kan als volgt geTllustreerd warden.

Uiteraard wordt hierdoor de vraag opgeworpen of de computerversie en de papieren versie ver-

Ondanks de resolutieproblemen op de Apple II melden Rock en Nolen , Beaumont en

Buxton deed onderzoek met de Apple Macintosh-versie en concludeerde dat beide

Zoals hiervoor is besproken, hebben Gudjonsson en Shackleton een formule opgesteld om

NB: de scoresleutel op de Easy-Score-antwoordbladen voor de Parallel SPM en de

U mag geen aantekeningen maken in het Progressive Matrices-testboekje.

^ Zo zien het Standard Progressive Matrices-antwoordblad en de Mf7/ Hi7/ Vocabulary-

DOE Houd het SPM-antwoordblad en de MHV-test omhoog.

ZEG De Mill Hill Vocabu/ary-test kunt u voorlopig opzij leggen.

Kijk naar het Standard Progressive Matrices-antwoordblad. Vul bovenaan uw naam, de

>? Denk eraan dat u al uw antwoorden op het antwoordblad moet noteren.

Schrijfalstublieft niet in het testboekje.

Neem nu het testboekje, maar laat het nog even dicht.

DOEHoud het SPM-testboekje omhoog.

DOE Houd het antwoordblad omhoog en wijs naar kolom 1