You are on page 1of 245

Inleiding in evidence-based medicine

Inleiding in evidence-based
medicine
Klinisch handelen gebaseerd op bewijsmateriaal

Derde, herziene druk

Onder redactie van:


Prof. dr. M. Offringa
Prof. dr. W.J.J. Assendelft
Dr. R.J.P.M. Scholten

Bohn Stafleu van Loghum


Houten 2008
Ó 2008 Bohn Stafleu van Loghum, onderdeel van Springer Uitgeverij
Alle rechten voorbehouden. Niets uit deze uitgave mag worden verveelvoudigd,
opgeslagen in een geautomatiseerd gegevensbestand, of openbaar gemaakt, in
enige vorm of op enige wijze, hetzij elektronisch, mechanisch, door fotokopieën
of opnamen, hetzij op enige andere manier, zonder voorafgaande schriftelijke
toestemming van de uitgever.
Voor zover het maken van kopieën uit deze uitgave is toegestaan op grond van
artikel 16b Auteurswet 1912 jo het Besluit van 20 juni 1974, Stb. 351, zoals gewij-
zigd bij het Besluit van 23 augustus 1985, Stb. 471 en artikel 17 Auteurswet 1912,
dient men de daarvoor wettelijk verschuldigde vergoedingen te voldoen aan de
Stichting Reprorecht (Postbus 3051, 2130 KB Hoofddorp). Voor het overnemen
van (een) gedeelte(n) uit deze uitgave in bloemlezingen, readers en andere com-
pilatiewerken (artikel 16 Auteurswet 1912) dient men zich tot de uitgever te
wenden.

Samensteller(s) en uitgever zijn zich volledig bewust van hun taak een betrouw-
bare uitgave te verzorgen. Niettemin kunnen zij geen aansprakelijkheid aanvaar-
den voor drukfouten en andere onjuistheden die eventueel in deze uitgave voor-
komen.

Eerste druk, 2000


Tweede, herziene druk, 2003
Derde, herziene druk, 2008

ISBN 978 90 313 5320 0


NUR 871

Ontwerp omslag: Studio Bassa, Culemborg


Ontwerp binnenwerk: Studio Bassa, Culemborg
Automatische opmaak: Pre Press, Zeist

Bohn Stafleu van Loghum


Het Spoor 2
Postbus 246
3990 GA Houten

www.bsl.nl
Inhoud

Lijst van auteurs 10

Woord vooraf bij de eerste en tweede druk 13


Bij de derde, herziene druk 14

Ten geleide bij de eerste druk 16


Bij de tweede druk 18
Bij de derde, geheel herziene druk 18

1 Inleiding 20
M. Offringa, W.J.J. Assendelft en R.J.P.M. Scholten
1.1 Evidence-based medicine 22
1.1.1 Evidence? 23
1.1.2 Evidence-based medicine in de klinische
praktijk 25
1.1.3 Uitdagend of bedreigend? kritiek op evidence-
based medicine 26
1.1.4 Gevaren en misbruik van evidence-based
medicine 28
1.1.5 De toekomst is hier! 29
1.2 Conclusie 30
1.3 Dit boek 31

2 De juiste vragen stellen 32


R.P. Koopmans, P.P.G. van Benthem en M. Offringa
2.1 Inleiding 32
2.2 Prioriteiten in vragen 34
2.3 Soorten vragen 34
2.4 Het PICO-systeem 35
2.5 De vraag als controle op de toepasbaarheid 39
2.6 Conclusie 40
Literatuur 40
6 Inleiding in evidence-based medicine

3 Zoeken en selecteren van literatuur 42


W.J.J. Assendelft en B. Aertgeerts
3.1 Inleiding 42
3.2 Zoeken naar aanleiding van een klinisch
probleem 43
3.2.1 Inleiding 43
3.2.2 Geaggregeerde evidence 44
3.3 Zoeken in een bibliografische database 46
3.3.1 Achtergrond 46
3.3.2 Aanpak zoekactie 47
3.3.3 Wat te doen bij een te lage opbrengst? 49
3.3.4 En wat bij een te grote opbrengst? 50
3.4 Metazoekmachines 51
3.5 Evidence-based bijblijven 51
3.6 Conclusie 52
Literatuur 53

4 Kritisch beoordelen van een artikel 54


4.1 Inleiding 54
M. Offringa, W.J.J. Assendelft en R.J.P.M. Scholten
4.2 Diagnose 56
R.J.P.M. Scholten, M. Offringa en B. Aertgeerts
4.2.1 Inleiding 56
4.2.2 Beoordeling van een onderzoek naar de
waarde van een diagnostische test 57
4.2.3 Conclusie 74
4.3 Prognose 75
W.J.J. Assendelft, J.C. Korevaar en J.B. Reitsma
4.3.1 Inleiding 75
4.3.2 Beoordeling van een onderzoek over prognose 75
4.3.3 Conclusie 85
4.4 Therapie 86
J.G.P. Tijssen en W.J.J. Assendelft
4.4.1 Inleiding 86
4.4.2 Beoordeling van een gerandomiseerd effect-
onderzoek 88
4.4.3 Conclusie 1 03
4.5 Bijwerkingen en etiologie 1 04
M. Offringa, E.P. van Puijenbroek en R.J.P.M.
Scholten
4.5.1 Inleiding 1 04
Inhoud 7

4.5.2 Beoordeling van een onderzoek over bijwer-


kingen of etiologie 1 08
4.5.3 Conclusie 1 17
4.6 Screening 1 19
Y. van der Graaf, W.J.J. Assendelft en R.J.P.M.
Scholten
4.6.1 Inleiding 1 19
4.6.2 Beoordeling van een onderzoek naar de
waarde van screening 121
4.6.3 Conclusie 1 33
4.7 Klinimetrie 1 34
C.B. Terwee, H.C.W. de Vet en R.J.P.M. Scholten
4.7.1 Inleiding 1 34
4.7.2 Beoordeling van een onderzoek naar de
klinimetrische eigenschappen van een
meetinstrument 1 35
4.7.3 Conclusie 1 48

5 Kritisch beoordelen van een artikel: secundair


onderzoek 1 50
5.1 Inleiding 1 50
R.J.P.M. Scholten, W.J.J. Assendelft en M. Offringa
5.2 Systematische reviews van interventieonder-
zoek 1 53
W.J.J. Assendelft, R.J.P.M. Scholten en L.M. Bouter
5.2.1 Inleiding 1 53
5.2.2 Opbouw van een systematische review van
interventieonderzoek 1 54
5.2.3 Beoordeling van systematische reviews 1 60
5.2.4 Conclusie 1 63
5.3 Systematische reviews van onderzoek naar de
waarde van een diagnostische test 1 64
R.J.P.M. Scholten, F. Buntinx en P.M.M. Bossuyt
5.3.1 Inleiding 1 64
5.3.2 Beoordeling van een diagnostische systema-
tische review 1 65
5.3.3 Conclusie 1 72
5.4 Systematische reviews van observationeel
onderzoek 1 74
D.A.W.M. van der Windt, M.P.A. Zeegers en
R.J.P.M. Scholten
5.4.1 Inleiding 1 74
8 Inleiding in evidence-based medicine

5.4.2 Beoordeling van een systematische review van


observationeel onderzoek 1 75
5.4.3 Meta-analyse van observationeel onderzoek 181
5.4.4 Conclusie 1 86

6 Evidence-based richtlijnen 1 88
J.S. Burgers, W.J.J. Assendelft en J.J.E. van
Everdingen
6.1 Inleiding 1 88
6.2 Beoordelen van een richtlijn 1 90
6.2.1 Kwaliteit van de richtlijn 1 90
6.2.2 Validiteit van de aanbevelingen 1 96
6.2.3 Toepasbaarheid in de eigen klinische situatie 203
6.3 Zoeken naar richtlijnen, zelf maken of imple-
menteren 205
6.4 Conclusie 205
Literatuur 206

7 Bewijs toepassen op individuele patiënten 207


M. Offringa, P.P.G. van Benthem en S. Middeldorp
7.1 Inleiding 207
7.2 Betekenis en bruikbaarheid van evidence 208
7.2.1 Individualiseren: kwalitatieve aspecten 21 1
7.2.2 Kwantitatieve aspecten 213
7.2.3 Waardeoordelen in beslissingen 214
7.3 Vijf stappen bij het toepassen van evidence bij
complexe beslissingen 215
7.4 Conclusie 220
Literatuur 220

8 Evidence-based medicine in de praktijk 222


M. Offringa, P.P.G. van Benthem en W.J.J. Assendelft
8.1 Inleiding 222
8.2 Hindernissen en oplossingen 222
8.3 Wat heeft men nodig? 224
8.4 Evidence-based medicine in de dagelijkse
praktijk 225
8.4.1 Op een ziekenhuisafdeling 226
8.4.2 Op een polikliniek 228
8.4.3 In de huisartspraktijk 228
8.4.4 Journal-clubs nieuwe stijl 229
8.5 Beschouwing 230
Inhoud 9

Literatuur 233

9 De Cochrane Collaboration 234


L. Hooft en R.J.P.M. Scholten
9.1 Missie 234
9.2 Organisatie van de Cochrane Collaboration 236
9.2.1 Cochrane Review Groups 236
9.2.2 Fields 237
9.2.3 Methods Groups 238
9.2.4 Cochrane Centres 240
9.3 Participeren in de Cochrane Collaboration 24 1
9.4 De Cochrane Library 242
9.5 De impact van Cochrane Reviews 242
9.6 Conclusie 244

Bijlage 1 Verklarende woordenlijst 246

Bijlage 2 Zoeken in PubMed 256

Bijlage 3 Zoeken in SUMSearch 27 1

Bijlage 4 Zoeken in TRIP Database 274

Register 279
Lijst van auteurs

prof. dr. b. aertgeerts, huisarts-epidemioloog


Academisch centrum voor Huisartsgeneeskunde, Katholieke Univer-
siteit, Leuven, België

prof. dr. w.j.j. assendelft, huisarts-epidemioloog


Afdeling Public Health en Eerstelijnsgeneeskunde, Leids Universitair
Medisch Centrum, Leiden

dr. p.p.g. van benthem, kno-arts


Afdeling Keel-, Neus- en Oorheelkunde, Gelre Ziekenhuizen,
Apeldoorn

prof. dr. p.m.m. bossuyt, epidemioloog


Afdeling Klinische Epidemiologie en Biostatistiek, Academisch
Medisch Centrum, Universiteit van Amsterdam, Amsterdam

prof. dr. l.m. bouter, epidemioloog


Instituut voor Extramuraal Geneeskundig Onderzoek, Vrije Universi-
teit, Amsterdam

prof. dr. f. buntinx, huisarts–epidemioloog


Afdeling Huisartsgeneeskunde, Katholieke Universiteit, Leuven,
België, en Afdeling Huisartsgeneeskunde, Universiteit Maastricht,
Maastricht

dr. j.s. burgers, huisarts


Kwaliteitsinstituut voor de Gezondheidszorg CBO, Utrecht

dr. j.j.e. van everdingen, dermatoloog


Kwaliteitsinstituut voor de Gezondheidszorg CBO, Utrecht
Lijst van auteurs 11

prof. dr. y. van der graaf, epidemioloog


Julius Centrum voor Gezondheidswetenschappen en Eerstelijns-
geneeskunde, Universitair Medisch Centrum, Utrecht

dr. l. hooft, epidemioloog


Dutch Cochrane Centre en afdeling Klinische Epidemiologie en
Biostatistiek, Academisch Medisch Centrum, Universiteit van
Amsterdam, Amsterdam

prof. dr. r.p. koopmans, internist


Afdeling Interne Geneeskunde, Academisch Ziekenhuis Maastricht,
Universiteit van Maastricht, Maastricht

dr. j.c. korevaar, epidemioloog


Afdeling Klinische Epidemiologie en Biostatistiek, Academisch
Medisch Centrum, Universiteit van Amsterdam, Amsterdam

dr. s. middeldorp, internist


Afdeling Klinische Epidemiologie en afdeling Algemene Interne
Geneeskunde, Leids Universitair Medisch Centrum, Leiden

prof. dr. m. offringa, kinderarts-epidemioloog


Afdeling Klinische Epidemiologie in de Kindergeneeskunde en
afdeling Neonatologie, Emma Kinderziekenhuis Academisch Medisch
Centrum, Universiteit van Amsterdam, Amsterdam

dr. e.p. van puijenbroek, huisarts


Nederlands Bijwerkingencentrum LAREB, Den Bosch

dr. j.b. reitsma, arts-epidemioloog


Afdeling Klinische Epidemiologie en Biostatistiek, Academisch
Medisch Centrum, Universiteit van Amsterdam, Amsterdam

dr. r.j.p.m. scholten, arts-epidemioloog


Dutch Cochrane Centre en afdeling Klinische Epidemiologie en
Biostatistiek, Academisch Medisch Centrum, Universiteit van
Amsterdam, Amsterdam

dr. c.b. terwee, epidemioloog


Instituut voor Extramuraal Geneeskundig Onderzoek, Vrije Universi-
teit Medisch Centrum, Amsterdam
12 Inleiding in evidence-based medicine

prof. dr. j.g.p. tijssen, epidemioloog


Afdeling Cardiologie, Academisch Medisch Centrum, Universiteit van
Amsterdam, Amsterdam

prof. dr. h.c.w. de vet, epidemioloog


Instituut voor Extramuraal Geneeskundig Onderzoek, Vrije Universi-
teit Medisch Centrum, Amsterdam

prof. dr. d.a.w.m. van der windt, epidemioloog


Afdeling Huisartsgeneeskunde, Instituut voor Extramuraal Genees-
kundig Onderzoek, Vrije Universiteit Medisch Centrum, Amsterdam;
Primary Care Musculoskeletal Research Centre, Keele University,
Staffordshire, Verenigd Koninkrijk

prof. dr. m.p.a. zeegers, genetisch epidemioloog


Unit of Genetic Epidemiology, Department of Public Health &
Epidemiology, University of Birmingham, Verenigd Koninkrijk;
Sectie Complexe Genetica, Nutrition and Toxicology Research
Institute Maastricht, Universiteit Maastricht, Maastricht
Woord vooraf bij de eerste en tweede druk

Ziekte en haar behandeling zijn indrukwekkende gebeurtenissen. Be-


slissingen over de behandeling hebben verstrekkende gevolgen voor
patiënten. Deze beslissingen moeten daarom ondersteund worden
met het beste bewijsmateriaal rond effectiviteit en veiligheid. Zowel op
het niveau van keuzes in de klinische praktijkvoering als in de orga-
nisatie van de gezondheidszorg wordt de vraag naar de juiste behan-
deling steeds vaker gesteld in de vorm van de vraag naar doelmatig-
heid. Met doelmatigheid wordt bedoeld het juiste handelen in aard, op
de juiste manier, op het juiste ogenblik, in de juiste omstandigheden
en voor de juiste patiënt. Evidence-based medicine is een methode
voor het ondersteunen van deze keuzes door ze te onderbouwen met
bewijsmateriaal (evidence) uit goed wetenschappelijk onderzoek.
Evidence-based medicine als manier van denken en werken is inmid-
dels geaccepteerd in de medische wereld, maar ook in de verpleeg-
kunde, de fysiotherapie en de psychotherapie. Sommigen menen zelfs
dat het verschijnen van evidence-based medicine de geneeskunde
definitief heeft veranderd. De belangrijkste verandering is misschien
wel dat een systematische analyse van het beschikbare bewijsmateriaal
de basis is geworden van behandelbeslissingen in plaats van hoofd-
zakelijk de adviezen van experts. Anderen zien in de hele ontwikkeling
een bewijs van wat ze altijd al hebben gedaan – niet stoppen bij een
aantrekkelijke hypothese, maar zoeken naar empirisch bewijsmateri-
aal.
Evidence-based medicine is nuttig, want het maakt de medische
praktijk doorzichtiger: welke uitspraken kan men baseren op bewijs-
materiaal uit gedegen onderzoek en in welke gevallen dient er juist
nog onderzoek te worden uitgevoerd. Dit inzicht is van direct belang
voor patiënten, maar ook voor onderzoekers en voor hen die medisch
onderzoek betalen. Het accent dat wordt gelegd op methodologische
kwaliteit heeft inmiddels ook zijn uitstraling op redacties van de grote
medische tijdschriften en op onderzoekers. Het resultaat is dat de
kwaliteit van de informatie waarop behandelbeslissingen kunnen
14 Inleiding in evidence-based medicine

worden gebaseerd, steeds beter wordt. Het ideaal is natuurlijk dat


behandelingen waarvoor duidelijke ‘evidence of no effect’ bestaat,
uit het verstrekkingenpakket kunnen en dat hiervoor in de
plaats een beter alternatief komt. In omstandigheden van on-
zekerheid is methodologisch rigoureus onderzoek de veiligste
optie.
Een bloeiende, op evidence-based medicine gestoelde gezondheids-
zorg is in het belang van alle burgers en daarom van elke regering. Het
is belangrijk dat de beroepsgroep hierbij zelf het voortouw neemt.
Training in evidence-based medicine leidt ertoe dat komende genera-
ties artsen, verpleegkundigen en andere zorgverleners vertrouwd ra-
ken met het gedachtegoed. Zij zullen zelf belangrijke informatie kun-
nen vinden en kritisch beoordelen en niet te snel verleid raken door
‘glossy’ advertenties. Zij zullen op verstandige wijze richtlijnen ge-
bruiken en weten wanneer hun beslissingen van de adviezen kunnen
afwijken. Ik hoop dat dit boek aan deze belangrijke ontwikkeling mag
bijdragen.

Dr. E. Borst-Eilers, voormalig minister van Volksgezondheid, Welzijn en Sport

Bij de derde, herziene druk

De samenleving stelt hoge eisen aan kwaliteit, effectiviteit, en veilig-


heid van de gezondheidszorg, en dat is terecht. Gezondheid en ziekte
hebben grote invloed op het welzijn, en diagnostiek en behandeling
kunnen verstrekkende gevolgen hebben. Beslissingen daarover moe-
ten daarom wetenschappelijk verantwoord en transparant zijn. Dat is
waarop evidence-based medicine zich richt: het onderbouwen van het
handelen in de zorg met het beste bewijsmateriaal dat de wetenschap
te bieden heeft, en daarmee het leveren van optimale input voor
praktijkrichtlijnen en patiënteninformatie. Ook als het bewijs onvol-
ledig is en er toch beslissingen moeten worden genomen – en dat
komt vaak voor – biedt evidence-based medicine houvast: het wordt
beter zichtbaar waar evidence ophoudt en het klinisch oordeel begint.
Dat is bij shared decision making voor patiënten even belangrijk als
voor zorgverleners, om goed te kunnen meebeslissen over voors en
tegens van een behandeling. Bovendien wordt duidelijk welke voor de
praktijk belangrijke kennisvragen nog onderzocht moeten worden.
Bij het in kaart brengen van bewijsmateriaal legt evidence-based
medicine veel nadruk op de methodologische kwaliteit van weten-
schappelijke publicaties. Dat heeft er inmiddels voor gezorgd dat die
publicaties, de beoordeling daarvan door redacties van medische tijd-
Woord vooraf bij de eerste en tweede druk 15

schriften, maar ook het onderzoek zelf aanzienlijk zijn verbeterd.


Daardoor verbetert de kwaliteit van de informatie waarop behandel-
beslissingen worden gebaseerd nog steeds. Ook sterkt kritische be-
oordeling van publicaties professionals en richtlijnontwikkelaars in
het herkennen van door commerciële of andere invloeden vertekende
informatie, en dat is essentieel voor optimale zorg.
Een jaar of vijftien geleden leefde het concept evidence-based medi-
cine binnen een kleine groep enthousiaste pioniers. Inmiddels is het
algemeen geaccepteerd als wetenschappelijk fundament van het den-
ken en doen in de medische wereld en in vele andere vakgebieden
zoals public health, fysiotherapie, verpleegkunde, psychotherapie, en
logopedie. Daarom wordt ook wel van evidence-based healthcare ge-
sproken. De ontwikkeling is nog verder gegaan, want ook van beleid
en bestuur wordt steeds meer wetenschappelijke onderbouwing ge-
vraagd. Denk maar aan beslissingen over wat er in het basispakket
moet – en wat er bij gebrek aan effectiviteit uit kan –, de evaluatie van
beleidsinterventies, het toezien op de kwaliteit en veiligheid van de
zorg, het valideren van prestatie-indicatoren, of het prioriteren van
onderzoeksfinanciering. In dit verband is de term evidence-based
policy in zwang geraakt, en dat is een goede zaak.
Bij het succes van evidence-based medicine past een nieuwe editie van
dit boek. Er hebben zich veel belangrijke nieuwe ontwikkelingen
voorgedaan die via deze geactualiseerde en uitgebreide uitgave toe-
gankelijk worden voor de gebruiker. Daarvoor tekent een keur van
topauteurs uit Nederland en België, landen die wat betreft evidence-
based medicine een vooraanstaande rol vervullen. Het boek doet niet
alleen uit de doeken wat evidence-based medicine is en hoe het werkt,
maar beschrijft ook welke belangrijke kennisbestanden en tools in-
middels beschikbaar zijn en hoe die zijn te vinden en te gebruiken.
Ook de verhouding tussen evidence-based medicine en individuele
patiëntenzorg komt aan bod. Dit helpt zorgverleners om in het consult
de beste algemene kennis te combineren met patiëntspecifieke over-
wegingen.
Inleiding in evidence-based medicine heeft veel te bieden aan studenten,
docenten, beroepsbeoefenaren, en jonge onderzoekers binnen het
domein van gezondheid, ziekte, en zorg. Ook patiëntenorganisaties en
het beleidscircuit kunnen er hun voordeel mee doen. Het is van blij-
vend belang voor de volksgezondheid dat ook komende generaties
verantwoordelijk en vertrouwd zijn met de evidence-based benade-
ring.

Prof. dr. André Knottnerus, voorzitter Gezondheidsraad


Ten geleide bij de eerste druk

Inleiding in evidence-based medicine is het eerste Nederlandstalige boek


dat aandacht besteedt aan evidence-based medicine. De vorm en in-
houd behoeven derhalve toelichting.

Veel van wat in dit boek wordt beschreven is eerder in vergelijkbare


vorm en inhoud in de Engelstalige literatuur verschenen. Dit komt
doordat zich rond de evidence-based medicine enkele hechte groepen
hebben gevormd die met name in Canada en het Verenigd Koninkrijk,
en meer recent ook in Australië, Scandinavië en Nederland belangrijke
centra hebben gevormd. Dezelfde groepen zijn actief binnen de Co-
chrane Collaboration. Er is een intensief persoonlijk contact. Men is
docent op elkaars cursussen, lesmateriaal wordt uitgewisseld en in
samenwerkingsverband worden series in tijdschriften en boeken ge-
schreven. De redactie van dit boek heeft niet gestreefd naar een vol-
ledig nieuwe vorm of inhoud. Er is getracht op basis van ervaringen in
cursussen en deels op basis van bestaand materiaal voor Nederlandse
gezondheidswerkers een handzame, praktische inleiding te schrijven.
We realiseren ons dat we gebruikmaken van het baanbrekende werk
van de pioniers op dit gebied. Met name professor David Sackett, de
grondlegger van de evidence-based medicine, moet hier worden ge-
noemd.

Evidence-based medicine vindt haar oorsprong in het ziekenhuis. Al


snel zijn de principes ook daarbuiten in de eerstelijnsgezondheids-
zorg, in de basisgezondheidszorg en in het gezondheidszorgbeleid
toegepast. Evidence-based medicine is niet het exclusieve domein van
artsen. Ook paramedici en beleidsmakers dienen op de hoogte te zijn
van de principes. Ook in de opleiding voor beroepen in deze sectoren
zal het evidence-based denken en handelen een steeds belangrijkere
plaats krijgen. Het uitgangspunt voor evidence-based medicine is de
directe zorg voor of rond de patiënt of cliënt. Deze Inleiding in evi-
dence-based medicine richt zich dus op gezondheidswerkers in de
Ten geleide bij de eerste druk 17

ruimste zin van het woord, alsmede op degenen die hiervoor in op-
leiding zijn. Om reden van leesbaarheid worden in dit boek echter
steeds ‘arts’ en ‘patiënt’ gebruikt. Om taalkundige redenen gebruiken
wij voor artsen en patiënten de hij-vorm, maar wij stellen uitdrukkelijk
dat overal waar ‘hij’ staat ook ‘zij’ gelezen kan worden.

Evidence-based medicine is de praktische vertaling van de epidemio-


logie, in het bijzonder de klinische epidemiologie, naar de dagelijkse
praktijk. Deze introductie kan dus niet gebruikt worden in plaats van
een leerboek over (klinische) epidemiologie. De principes hiervan
worden weliswaar kort besproken, maar worden eigenlijk als bekend
verondersteld. Voor de praktiserend arts die deze kennis niet (meer)
paraat heeft, is het echter niet noodzakelijk eerst een leerboek over
klinische epidemiologie door te nemen. Deze Inleiding sluit namelijk
voldoende aan op het klinisch denken en handelen om ook zonder
voorafgaande bestudering van een dergelijk boek begrepen en toege-
past te kunnen worden. Het is echter wel raadzaam een leerboek over
klinische epidemiologie bij de hand te hebben. Enkele speciale on-
derwerpen waarin de inzichten recent zijn gewijzigd of waarvoor nog
geen Nederlandstalig leerboek bestaat, worden in deze Inleiding wat
uitvoeriger behandeld.

De term evidence-based medicine blijft in dit boek onvertaald. Dit lijkt


vreemd voor een Nederlands leerboek. Het geeft echter ook aan dat de
informatie (artikelen in tijdschriften, websites op internet, zoeksyste-
men) vooral in de Engelse taal beschikbaar is. Het Nederlandse taal-
gebied is (nog) te klein om in een passend aanbod van informatie in
het Nederlands te kunnen voorzien. We verwachten dat dit in de nabije
toekomst snel zal veranderen. Het is vooralsnog raadzaam om bij de
praktische toepassing van evidence-based medicine een (medisch)
woordenboek Nederlands-Engels/Engels-Nederlands bij de hand te
hebben.

Zoals gezegd is deze Inleiding in evidence-based medicine deels een pro-


duct van internationale samenwerking. Daarnaast wordt in Nederland
door het Dutch Cochrane Centre, waar de redacteuren werkzaam zijn,
op dit gebied met verschillende instituten en instanties samengewerkt.
Dit vindt ten dele zijn weerslag in de keuze van de coauteurs die bereid
gevonden zijn aan de verschillende hoofdstukken mee te werken.
Daarnaast hebben wij veel ideeën verwerkt die zijn opgedaan in cur-
sussen en overleg met vele anderen. Zonder namen te noemen onze
dank hiervoor.
18 Inleiding in evidence-based medicine

Tot slot: vele aspecten van de methodologie van evidence-based


medicine zijn aan veranderingen onderhevig en deze tekst zal over
enkele jaren aan herziening toe zijn. In dit verband staan wij open voor
opmerkingen en suggesties en nodigen wij de lezer uit ons te helpen
bij de verdere ontwikkeling van deze Inleiding.

Wij wensen u veel leesplezier.

Amsterdam, september 2000 De redacteuren.

Bij de tweede druk

De ontwikkelingen in evidence-based medicine gaan door. Na twee-


ënhalf jaar is het daarom tijd voor een herziene druk van dit boek. Alle
hoofdstukken zijn geactualiseerd. De belangrijkste wijziging ten op-
zichte van de eerste druk betreft hoofdstuk 4. In dit hoofdstuk zijn een
paragraaf over de beoordeling van onderzoek betreffende screening
(paragraaf 4.6) en een paragraaf over de beoordeling van systemati-
sche reviews van observationeel onderzoek (paragraaf 4.9) toege-
voegd. Daarnaast zijn enkele storende foutjes in de tekst en formules
gecorrigeerd en zijn de literatuurverwijzingen en verwijzingen naar
websites geactualiseerd.

Wij danken onze collega’s en vele cursisten voor hun suggesties en


opmerkingen. Ook in de toekomst houden wij ons aanbevolen voor
op- en aanmerkingen die het boek verder kunnen verbeteren.

Amsterdam, maart 2003 De redacteuren.

Bij de derde, geheel herziene druk

Evidence-based medicine blijft actueel. Er zijn voortdurend nieuwe


ontwikkelingen, zoals nieuwe zoekmachines, nieuwe inzichten in de
rol van onderzoeksontwerp en de kans op vertekening (bias), nieuwe
regels voor het rapporteren van onderzoek (met klinkende namen als
CONSORT, QUOROM, QUADAS, STARD, STROBE). Ook krijgen
nieuwe soorten onderzoek meer aandacht, zoals onderzoek van
meetinstrumenten (klinimetrie).

Het was daarom tijd voor een geheel herziene druk van dit boek. Een
aantal nieuwe auteurs is toegetreden tot het auteurscorps en de lite-
ratuurverwijzingen zijn geactualiseerd. Helemaal nieuw bij deze derde
Ten geleide bij de eerste druk 19

editie is de lancering van de website www.pico.nu. Hierop vindt de


lezer verwijzingen naar de voor 2008 geactualiseerde en gecontro-
leerde websites, checklists, EBM-calculators, actualisaties van de
handleidingen voor het zoeken van literatuur, et cetera.

Dit boek wordt inmiddels veel op opleidingen en voor cursussen ge-


bruikt. Wij danken onze collega’s, studenten en cursisten voor hun
suggesties en opmerkingen bij de vorige editie. Ook in de toekomst
houden wij ons aanbevolen voor op- en aanmerkingen die het boek
verder kunnen verbeteren.

Amsterdam/Leiden, april 2008 De redacteuren.


Inleiding 1

M. Offringa, W.J.J. Assendelft en R.J.P.M. Scholten

In de gezondheidszorg wordt van de behandelaar verwacht dat hij


beschikt over solide informatie over de oorzaken van ziekte, de waarde
van diagnostische bevindingen, de prognose van de patiënt en de
verwachte gevolgen van therapeutische opties. Deze kennis over de
gevolgen van klinisch handelen wordt bij voorkeur ontleend aan be-
vindingen van klinisch-wetenschappelijk onderzoek.
Moderne gezondheidswerkers worden echter sinds een aantal jaren
overspoeld met informatie, terwijl de informatie die zij nodig hebben
steeds moeilijker te vinden is. Drukbezette artsen en paramedici kun-
nen nauwelijks overzicht houden over de continue stroom van nieuwe
onderzoeken. We bevinden ons middenin het ‘Informatietijdperk’,
maar de informatie die klinische beslissingen zou kunnen ondersteu-
nen, is versnipperd. Zelfs met streng selecteren van tijdschriften en
artikelen resteert een vaak onoverzichtelijke hoeveelheid leesmateriaal
per week.
De direct beschikbare informatie neemt inmiddels immense propor-
ties aan nu MEDLINE en andere medische informatie eenvoudig en
onbeperkt via internet kan worden geraadpleegd. Olkin schatte in
1995 al dat er 40 000 medisch-wetenschappelijke tijdschriften ver-
schijnen met meer dan één miljoen artikelen per jaar. Anno 2008 is dit
aantal met ten minste 15% gegroeid. Dit betekent voor een internist
dat deze tussen de 17 en 22 artikelen per dag moet lezen om het
publicatietempo bij te houden. Voor een huisarts ligt dit aantal wel-
licht nog hoger.
Daarnaast speelt dat er voortdurend wijzigingen zijn in inzichten,
waardoor het gewicht van bestaand bewijsmateriaal aan vrijwel con-
tinue inflatie onderhevig is. Bovendien zijn niet alle gepubliceerde
onderzoeken van dezelfde hoge wetenschappelijke kwaliteit.
Intussen krijgt de arts in toenemende mate te maken met de vraag wat
1 Inleiding 21

de voor de te nemen behandelingsbeslissing het onderbouwende be-


wijs is.
De patiënt verwacht van de arts de nieuwste diagnostiek en behande-
ling. Patiënten en hun familie hebben via het internet toegang tot
actuele en gedetailleerde medische informatie. Het is echter zeker dat
lang niet alle informatie die op het net kan worden gevonden ook de
kwaliteitstoets kan doorstaan. Ook kan de patiënt de – vooral voor
artsen bedoelde – informatie soms verkeerd interpreteren, waardoor
verwarring ontstaat.
Richtlijnen zoals de Standaarden van het Nederlands Huisartsen
Genootschap, de multidisciplinaire CBO-richtlijnen en het Farmaco-
therapeutisch Kompas scheppen welkome orde in deze gegevens-
stroom, maar dekken lang niet alle facetten van het vak. Over bepaalde
onderwerpen kan weliswaar genoeg bekend zijn, maar de informatie
kan simpelweg nog niet in een van deze bronnen zijn verwerkt, en
men kan er niet genoeg gedetailleerde informatie uithalen om een
specifieke klinische vraag te beantwoorden. Of er is recent nieuwe
wetenschappelijke informatie beschikbaar gekomen die nog niet in
deze bronnen verwerkt kán zijn.
De practicus zal regelmatig in deze ‘informatieberg’ op zoek moeten
naar informatie over een actueel praktijkprobleem. Als er al geschikte
literatuur wordt gevonden, dan moet deze eerst op kwaliteit en
bruikbaarheid worden beoordeeld voordat zij wellicht in de dagelijkse
praktijk kan worden toegepast. Helaas eindigen de meeste onderzoe-
ken niet met een samenvatting voor de praktijk als ‘hoe verhoudt zich
dit resultaat met wat er reeds bekend is over dit probleem’ en ‘wat
kunt u aan de hand van dit onderzoek het beste doen bij de eerstvol-
gende patiënt met dit probleem op uw spreekuur?’.
Op hetzelfde moment worden vanuit de ziektekostenverzekeraars en
de politiek bijna dagelijks vragen gesteld over de ‘doelmatigheid’ – in
termen van effectiviteit en toepasbaarheid – van de gangbare of nieu-
we behandelvormen of voorzieningen. Anno 2008 wordt bij de dis-
cussies over ‘wel of niet binnen het Geneesmiddelen Vergoedings
Systeem (GVS) vergoeden’ en bij de vaststelling van een nieuwe Diag-
nose Behandel Combinatie (DBC) te pas en te onpas informatie ge-
bruikt, soms gerapporteerde resultaten uit klinisch-wetenschappelijk
onderzoek.
Om in de lawine van informatie van wisselende kwaliteit en onder de
hooggespannen verwachtingen van de patiënt, de beroepsorganisatie,
de ziektekostenverzekeraar en de politiek het hoofd koel te houden,
moet de moderne gezondheidswerker een strategie hebben. Deze
22 Inleiding in evidence-based medicine

strategie, het werken volgens de methode van evidence-based medi-


cine (EBM), wordt in dit boek besproken.

1.1 Evidence-based medicine

De term evidence-based medicine is in de jaren tachtig van de vorige


eeuw ontstaan aan de McMaster Medical School in Canada, oor-
spronkelijk als naam voor de nieuwe onderwijsmethode. In het model
van de evidence-based medicine wordt de informatie over de indivi-
duele patiënt, verkregen uit anamnese, voorgeschiedenis, lichamelijk
onderzoek en aanvullend onderzoek, gecombineerd met uit klinisch-
wetenschappelijk onderzoek verkregen kwantitatieve gegevens over de
oorzaken van ziekte, de waarde van diagnostische bevindingen, de
prognose van de patiënt en de effecten van therapeutische interven-
ties. In deze ontwikkeling blijft de pathofysiologie de theoretische
grondslag. Klinisch-wetenschappelijk onderzoek wordt ontworpen op
grond van pathofysiologische en biomedische inzichten, en ook bij de
toepassing van de resultaten van dit onderzoek bij de behandeling van
de individuele patiënt kan de arts niet zonder pathofysiologisch rede-
neren.

Er zijn inmiddels vele definities van evidence-based medicine. De


volgende definitie illustreert de belangrijkste aspecten:

Evidence-based medicine is het zorgvuldig, expliciet en oordeel-


kundig gebruik van het huidige beste bewijsmateriaal om beslis-
singen te nemen voor individuele patiënten. De praktijk van evi-
dence-based medicine impliceert het integreren van individuele
klinische expertise met het beste externe bewijsmateriaal dat vanuit
systematisch onderzoek beschikbaar is. De voorkeuren, wensen en
verwachtingen van de patiënt spelen bij de besluitvorming een
centrale rol.

Het gaat dus om klinische beslissingen over individuele patiënten. Het


zorgvuldig, expliciet en oordeelkundig gebruik verwijst naar de vertaalsla-
gen die de arts moet maken om ‘het beste bewijsmateriaal’ – op wat dit
precies inhoudt komen we later terug – succesvol toe te passen en
recht te doen aan de individuele omstandigheden van de patiënt. Het
begrip individuele klinische expertise slaat op het in de loop van de tijd
vergaarde oordeelsvermogen van de clinicus om effectiever klinische
gegevens te verzamelen en de klinische toestand van de patiënt accu-
raat in te schatten, maar ook om de behoeften, voorkeuren en de
1 Inleiding 23

verwachtingen in kaart te brengen – wat leidt tot een beter onder-


bouwde besluitvorming.
In het individuele beslissingsproces spelen drie categorieën informatie
een rol (figuur 1.1). Het is zaak om eerst op grond van alle beschikbare
klinische informatie een idee over het natuurlijk beloop van de klach-
ten of de aandoening te krijgen en de prognose van de patiënt in te
schatten. Het gaat hier om de kans op het optreden van een onge-
wenste klinische uitkomst indien er zou worden afgewacht. Deze kans
wordt in het Engels ook wel het baseline risk op de ongewenste uit-
komst genoemd.

voorkeuren van
patiënt en arts

bewijsmateriaal keuze;
(evidence) beslissing

toestand van
patiënt; prognose

Figuur 1.1 De rol van informatie in het individuele beslissingsproces.

Het begrip het beste externe bewijsmateriaal slaat op de resultaten van


valide en relevant klinisch-wetenschappelijk onderzoek. In de be-
sluitvorming worden de opties met de patiënt of zijn vertegenwoor-
diger uiteengezet, waarop na een bespreking van de waarderingen
voor de verschillende uitkomsten van de scenario’s een geı̈nformeerde
beslissing wordt genomen. Onder vergelijkbare medische omstan-
digheden en in het licht van hetzelfde bewijsmateriaal nemen artsen
en patiënten soms toch verschillende beslissingen. De voorkeuren,
wensen en verwachtingen van de goed geı̈nformeerde patiënt of zijn ver-
tegenwoordigers kunnen verschillen en hiermee wordt in de genees-
kunde altijd rekening gehouden.

1.1.1 evidence?
In de Engelstalige literatuur wordt met opzet gesproken van evidence en
niet van proof. Evidence is strikt genomen niet hetzelfde als bewijs; het
is een aanwijzing die zo sterk kan zijn dat nauwelijks twijfel hoeft te
bestaan over de juistheid, of zo zwak dat zij nauwelijks overtuigt. In
het eerste geval komt evidence dicht bij bewijs. In de Nederlandse
24 Inleiding in evidence-based medicine

vertaling gaat veel van deze nuancering verloren. Vanwege dit verlies
aan nuance, en ook omdat evidence-based medicine een internatio-
naal begrip is geworden, wordt evidence hier onvertaald gelaten.
Wat kan als evidence worden beschouwd? Beslissingen in de genees-
kunde kunnen worden gestuurd door resultaten van wetenschappelijk
onderzoek en door anekdotische informatie. Anekdotische informatie
is informatie afkomstig van persoonlijke of klinische ervaringen, van
de beslisser zelf of van een goede collega, zonder dat er een formele
onderzoeksmethode is gebruikt. Beslissingen zijn doorgaans geba-
seerd op een samenspel van gegevens uit beide bronnen. Hierbij
spelen ook de normen en waarden van de beslissers, hun voorkeuren
en de omstandigheden waaronder de beslissingen moeten worden
genomen een rol.

Volgens de principes van evidence-based medicine moeten beslissin-


gen in de praktijk bij voorkeur op basis van het beste beschikbare bewijs-
materiaal worden genomen. Niet alle evidence komt echter in dezelfde
kwaliteit en vorm op ons af. In het ideale geval zijn dat bij de beoor-
deling van de waarde van een therapeutische interventie, de uitkom-
sten van klinisch onderzoek waarbij patiënten door het toeval (ge-
randomiseerd) zijn toegekend aan de experimentele dan wel aan de
controlegroep. Soms berust de beste evidence die beschikbaar is ech-
ter op observationeel onderzoek, of op praktijkervaring. Er is dus als
het ware een hiërarchie van evidence: sterke evidence verdringt
zwakke, en soms is het dus zwakke evidence waarop de beslissing kan
en moet worden genomen. Veel wetenschappelijke kennis kan met
behulp van een systematische verzameling van gegevens en heldere
regels voor de interpretatie ervan, uitmonden in een overzichtelijke
rangorde voor aanbevelingen. Door een ‘level of evidence’ toe te ken-
nen wordt de sterkte van wetenschappelijk bewijs op transparante
wijze aangegeven. Wanneer alleen wordt afgegaan op het ‘level of
evidence’ (gebaseerd op het studiedesign), dan schuilt het gevaar dat
men soms de resultaten van bijvoorbeeld een door vertekening ver-
stoorde klinische trial onterecht zwaarder weegt dan de resultaten van
een correct ontworpen en uitgevoerd gecontroleerd, maar niet geran-
domiseerd, onderzoek. Het gaat uiteindelijk om de kwaliteit van de
evidence – een maat voor de geloofwaardigheid van de resultaten. In
dit boek wordt het accent gelegd op de algemene kwaliteit van infor-
matie, en niet zozeer op de ‘level of evidence’.
Grofweg kunnen er twee vormen van evidence worden onderscheiden:
onbewerkte evidence – uit de originele onderzoeken – en evidence die
verwerkt is in synopses: systematische literatuuroverzichten, beslis-
1 Inleiding 25

kundige analysen, kosteneffectiviteitsanalysen, richtlijnen, formularia


en kompassen.
Eén enkel onderzoek is in de regel te beperkt om als basis voor
klinische beslissingen te dienen. Zowel voor het bepalen van een be-
handeleffect en de diagnostische waarde van een test, als voor het
onderzoek naar risicofactoren zijn vaak verscheidene onderzoeken
nodig om een goed beeld te krijgen. Het inzicht groeit met het aantal
uitgevoerde onderzoeken, zeker als deze individuele onderzoeken van
tijd tot tijd worden samengevat. Binnen deze bewerkte literatuur ne-
men systematische reviews (literatuuroverzichten) een centrale plaats
in. Andere voorbewerkte bronnen – besliskundige analysen, kosten-
effectiviteitsanalysen, richtlijnen – dienen bij voorkeur op evidence uit
systematische reviews te worden gebaseerd.
Voor de dagelijkse praktijk verdient in synopses verwerkte evidence de
voorkeur, omdat deze de gezondheidswerker ontlast van uitgebreide
zoekacties naar relevante artikelen en een diepgaande kwaliteitsbe-
oordeling per onderzoek. Gelukkig neemt het aantal van deze synop-
ses zienderogen toe. Er is anno 2008 een aantal specifieke hoogwaar-
dige bronnen beschikbaar en op het internet zijn er speciale
zoekmachines die naar synopses zoeken.

1.1.2 evidence-based medicine in de klinische


praktijk
Het toepassen van evidence-based medicine in de klinische praktijk is
het toepassen van een vijfstapsmethode.
1 Het klinische probleem vertalen in een beantwoordbare vraag.
2 Het efficiënt zoeken naar het beste bewijsmateriaal.
3 Het wegen van de gevonden evidence op methodologische kwaliteit
en toepasbaarheid in de eigen praktijksituatie.
4 Het nemen van een beslissing op grond van de beschikbare evi-
dence.
5 Het regelmatig evalueren van de kwaliteit van dit proces.

Voor het succesvol toepassen van deze methode zijn speciale vaardig-
heden bij de clinicus vereist en zijn technische hulpmiddelen nodig.
Natuurlijk is een gedegen pathofysiologische kennis onontbeerlijk.
Ook is enige kennis van de principes van de klinische epidemiologie
nodig. Het praktiseren van evidence-based medicine houdt een inte-
gratie in van kennis uit onderzoek met de praktische ervaring van de
clinicus om zo tot de beste zorg of de beste preventie te komen. Alléén
deze kennis of alléén klinische ervaring is niet genoeg; een integratie
leidt tot de beste resultaten. De patiënt of zijn vertegenwoordiger
26 Inleiding in evidence-based medicine

speelt met zijn voorkeuren een rol in de uiteindelijke beslissing over


de behandeling, na goed geı̈nformeerd te zijn over de evidence die
voorhanden is rond de alternatieve behandelopties.
Zoals gezegd is er tegenwoordig voor bijna alle belangrijke genees-
kundige problemen evidence in de literatuur te vinden. Dit boek is een
inleiding op het toepassen van deze evidence in de dagelijkse klinische
praktijk. Het volgt de hiervoor beschreven vijfstapsmethode.

1.1.3 uitdagend of bedreigend? kritiek op


evidence-based medicine
Naast het uitdagende karakter van evidence-based medicine wordt
deze manier van werken ook wel als een bedreiging gezien. Sommigen
zien het als een bedreiging van de beroepstrots (mijn unieke klinische
expertise) en anderen als een bron van schuldgevoel (gevoel ver achter
te zijn met het bijhouden van de vakliteratuur...). Inmiddels is wel
duidelijk geworden dat het hier een misverstand betreft: klinische
ervaring speelt wel degelijk een belangrijke rol bij het evidence-based
werken. Blijft de vraag waar men de tijd vandaan haalt om voor het
enorme aantal diverse problemen van de dagelijkse praktijk de juiste
literatuur te vinden en deze te beoordelen op kwaliteit en relevantie.
Op deze vragen zijn inmiddels ook weer antwoorden. Waarschijnlijk is
er in elke praktijkvoering een beperkt aantal problemen – geschat op
rond de 200 – dat belangrijk is en frequent genoeg voorkomt, en
waarvoor er goede evidence is. Vaak is deze evidence al door anderen
opgespoord en beoordeeld op websites, in bladen als ACP Journal Club,
Evidence-based Medicine, Evidence-based Nursing, Evidence-based Health Care
en in synopses als de Cochrane Database of Systematic Reviews of Clinical
evidence. Deze geselecteerde evidence omvat oorspronkelijke onder-
zoeken die kritisch zijn bekeken en in de context van klinisch gebruik
zijn uitgevoerd, systematische reviews van de kwalitatief beste be-
schikbare onderzoeken op een bepaald terrein, samenvattingen van de
oorspronkelijke onderzoeken en alsmede richtlijnen. Steeds meer Ne-
derlandse vaktijdschriften zijn er inmiddels toe overgegaan om derge-
lijke samenvattingen voor de praktijk te publiceren.

Men kan zich toch afvragen in hoeverre de organisatie en de praktijk


van de gezondheidszorg een wetenschappelijke basis hebben en in
welke mate het mogelijk is de kennis over wat wel en niet werkt toe te
passen in de dagelijkse zorg voor patiënten. Hier zijn drie hoofdvra-
gen te onderscheiden:
1 Inleiding 27

1 Is het mogelijk om altijd aan wetenschappelijk bewijs te komen?


2 Als de kennis er is, kan die dan altijd in duidelijke aanbevelingen
worden verwerkt, en zullen zorgverleners deze wetenschappelijk
onderbouwde aanbevelingen in de praktijk opvolgen?
3 Welke rol speelt het perspectief van de patiënt in deze ontwikke-
lingen?

Is het mogelijk om altijd aan wetenschappelijk bewijs te komen?


De vraag is of alle aspecten van het dagelijks medisch handelen wel
wetenschappelijk te onderzoeken zijn. Het antwoord is natuurlijk
ontkennend. In de praktijk van alledag gebeurt veel waarop geen enkel
wetenschappelijk antwoord van toepassing is. Het grootste probleem
bij het verkrijgen van medische kennis is dat er een grijs gebied lijkt te
bestaan met vragen waarop geen adequate antwoorden (kunnen) ko-
men of waarbij de antwoorden tot op heden tegenstrijdig zijn. De min
of meer duidelijke gebieden zijn ‘zwart’, met bewijs dat iets niet zinvol
of zelfs schadelijk is, of ‘wit’, met bewijs dat een behandeling meer
goed doet dan dat deze schade aanricht. ‘Grijs’ is nu net het gebied vol
dilemma’s waarmee de meeste artsen in hun dagelijkse praktijkuit-
oefening worstelen. Uit de resultaten van gepubliceerde onderzoeken
en ervaringen in de praktijk van alledag blijkt dat er echter vaak toch
veel meer informatie is dan men denkt, dat deze informatie relatief
snel te vinden is en vaak wel degelijk relevant is voor de te nemen
beslissingen.

Is het bewijs in eenduidige en toepasbare aanbevelingen te verwerken?


Dit is de vraag naar implementatie van wetenschappelijke informatie
in een doelmatige gezondheidszorg: een vraag die momenteel veel
aandacht krijgt. Uiteindelijk gaat het erom dat de praktijk beter wordt
van de uitkomsten van wetenschappelijk onderzoek en dat artsen in de
zorg hun gedrag overeenkomstig aanbevelingen veranderen. Of zij dat
ook zullen doen, hangt af van de kwaliteit, relevantie en hanteerbaar-
heid van de evidence, al dan niet vormgegeven in evidence-based
richtlijnen.

Aanbevelingen moeten bruikbaar worden gemaakt voor de behande-


ling van de individuele patiënt. Hier kunnen zich interessante situaties
voordoen. Uit precies dezelfde wetenschappelijke informatie over de
behandeling van hypertensie blijken in vijf verschillende landen vijf
verschillende nationale richtlijnen te zijn afgeleid. Het is dus mogelijk
dat verschillende adviesraden van deskundigen tot verschillende ad-
viezen komen. Een van de belangrijkste factoren die hierbij een rol
28 Inleiding in evidence-based medicine

spelen, is de gevolgde methodologie bij het ontwikkelen van de richt-


lijn en de samenstelling van de richtlijncommissie. Er zijn veel facto-
ren die bepalen op welke wijze uitkomsten die de wetenschap biedt
worden vertaald in richtlijnen (zie hoofdstuk 6). Aanbevelingen gel-
den in de regel alleen voor de ‘gemiddelde’ patiënt, en die bestaat
helaas niet. Zo zal de behandelaar altijd samen met de patiënt de
laatste stap moeten zetten, en beslissen welk deel van de aanbevelin-
gen wel relevant is en van welke aanbevelingen – geı̈nformeerd en
afgewogen – kan worden afgezien (zie figuur 1.1). Zo blijft de ge-
neeskunde altijd een ‘op maat’ product leveren.

Patiëntenvoorkeuren zijn belangrijker geworden


Hoewel sommige excessen van de moderne geneeskunde mede kun-
nen worden toegeschreven aan ‘patiëntenvoorkeuren’ (zoals het
commercieel behandelen van in principe niet of nauwelijks zieke
mensen), dwingen kostenbeheersing en doelmatig gebruik van mid-
delen tot een serieuze aandacht voor patiëntenvoorkeuren op alle
niveaus. Patiëntenvoorkeuren impliceren echter ook vaak conflicten
van belangen. De grote vraag is momenteel of de doelstelling van het
bevorderen van patiëntenvoorkeuren wel overeenstemt (of kan over-
eenstemmen) met het doel dat wordt nagestreefd met een op weten-
schap gebaseerde gezondheidszorg. Medische informatie is echter al
eenvoudig beschikbaar. Internet is voor veel patiënten een bron van
informatie en van uitwisseling van ervaringen. Veel patiëntengroepen
bieden informatie en ondersteuning.
Dankzij goed geı̈nformeerde patiënten kunnen voorzieningen effi-
ciënter worden en mogelijk kosten worden bespaard. Daartegenover
staan potentiële gevaren: kankerdiagnostiek en -behandeling die
worden aangeboden per e-mail is verwerpelijk. Eenzijdige of gebrek-
kige informatie kan leiden tot angst, onzekerheid en frustratie. Aan de
informatiebehoefte van patiënten moet via onafhankelijke kanalen
worden tegemoetgekomen, willen zij geen speelbal worden van lobby
of misleiding.

1.1.4 gevaren en misbruik van evidence-based


medicine
Manipulatie en misleiding van patiënten en hun artsen op basis van
misinformatie zijn in het huidige tijdperk helaas nog steeds aan de
orde van de dag. Maar er kleven ook potentiële gevaren aan het
klakkeloos toepassen van de resultaten van op zichzelf goed klinisch
onderzoek op individuele patiënten. Zonder degelijke klinische kennis
kan extern bewijsmateriaal nooit vruchtbaar worden toegepast. De
1 Inleiding 29

evidence kan incorrect zijn weergegeven en in de handen van mensen


zonder pathofysiologische kennis en klinische ervaring aanleiding
geven tot verwarring of zelfs tot fouten.
Regelrecht misbruik van evidence-based medicine is ook mogelijk.
Indien beleidsorganen alleen kijken naar behandelingen die kosten-
besparend zijn en indien uitsluitend behandelingen waarvoor vol-
doende goed bewijsmateriaal aanwezig is worden verstrekt, spreken
we van kostenreductiegeneeskunde, of evidence biased medicine, maar
niet van evidence-based medicine. Voorzieningen waarvoor echter een
duidelijk ‘evidence of no effect’ beschikbaar is, kunnen inderdaad
beter worden afgeschaft.

1.1.5 de toekomst is hier!


In een ideale evidence-based wereld komen onderzoekers met de
juiste antwoorden op de relevante klinische vragen en zorgverleners
hebben de wetenschappelijke evidence ter begeleiding van hun pro-
fessionele handelen onder handbereik. Financiële prikkels noch on-
gefundeerde persoonlijke voorkeuren bepalen wat een behandelaar
wel of niet doet. Ook op het gebied van communicatie tussen be-
handelaar en patiënt is er een open uitwisseling van informatie en
voorkeuren. Beleidsorganen vergoeden op transparante wijze effec-
tieve en veilige voorzieningen. Dit ideaal is echter helaas nog lang niet
bereikt.
Intussen moet de moderne arts inspelen op een aantal van de be-
langrijkste ontwikkelingen. Hij is al geconfronteerd met een kennis-
en machtsverschuiving, zichtbaar in computers aan het bed (ook voor
de patiënt). Er komt steeds betere informatie voor het grote publiek.
Patiënten kunnen inzicht krijgen in de variaties in kwaliteit en resul-
taten van behandelaars en instellingen. Er is steeds meer openheid
over budgettaire grenzen en selectiecriteria. En de wetenschappers
verdiepen zich steeds meer in problemen zoals die door de patiënten
zijn geı̈dentificeerd en beschreven.
David Sackett voorspelde in 1995 dat in het jaar 2005 de gewenste
informatie over deelgebieden binnen twaalf seconden in de eigen taal
beschikbaar zijn, in verwerkbare brokken van twee seconden, twee
minuten of twee uur. Dat hebben we inderdaad bijna bereikt! Klini-
sche bibliothecarissen kunnen uit de berg informatie voor artsen en
patiënten snel de kennis – inclusief kwantitatieve gegevens over nut,
risico en schade – identificeren die voor de actuele situatie betrouw-
baar en nuttig is. De farmaceutische industrie – zo voorspelde Sackett
in 1995 – zal niet nalaten om waar mogelijk in advertenties ten on-
rechte het begrip ‘evidence-based’ te gebruiken en uit de bestaande
30 Inleiding in evidence-based medicine

literatuuroverzichten gebrekkig te citeren. Dit is inderdaad op grote


schaal gebeurd en gebeurt nog steeds! Veel artsen en andere behan-
delaars hebben, geheel volgens Sackett’s voorspellingen, hun abon-
nement op de tijdschriften opgezegd en besteden hun schaarse tijd
voor lezen nog uitsluitend aan het napluizen van zinvolle databestan-
den die antwoorden geven op toegespitste vragen over de problemen
van individuele patiënten.

1.2 Conclusie

Evidence-based medicine is een denkwijze die ervan uitgaat dat het


zinvol is het medisch handelen zo veel mogelijk te baseren op feiten
die uit wetenschappelijk onderzoek zijn verkregen. Evidence-based
werken is een stijl van werken waarbij de behandelaar zich bij elke
beslissing afvraagt of er bewijsmateriaal is om deze beslissing te on-
dersteunen en hoe sterk het bewijs is. Het gaat dus om een basale
houding van de behandelaar. Volgens de principes van evidence-based
medicine moeten beslissingen in de praktijk bij voorkeur op basis van
het best beschikbare bewijs worden genomen. Dit vereist een aantal
vaardigheden, zoals het maken van een duidelijke vraagstelling, het
uitvoeren van een zoekstrategie naar artikelen over de vraagstelling,
het kritisch beoordelen van de gevonden artikelen en daarna het toe-

De ongemakkelijke weg van evidence-based medicine


Good doctors, rightly, are risk averse and conservative. As indi-
viduals, we find change difficult. What is fascinating about the
discourse of evidence based medicine is the psychological chal-
lenge it presents – of changing one’s practice from less effective
to more effective. Changing on the basis of new evidence means
accepting the uncomfortable notion that we did it wrong, or less
well, before. Thus we have needlessly harmed people in the past.
This is painful for health professionals, motivated by the urge to
help and heal, even if our actions were unintentional or the
evidence didn’t exist previously. Some find it easy to say ‘Well,
better stop harming now than carry on,’ but denial is simpler,
powerful, and comforting.

Getting to the bottom of evidence based medicine


April 2008, Susan Bewley, consultant obstetrician
(http://www.bmj.com/cgi/content/extract/336/7647/764)
1 Inleiding 31

passen van de resultaten. Documentatiebronnen waarin beslissingen


over klinische problemen worden gepresenteerd met uitgebreide we-
tenschappelijke onderbouwing zijn hierbij essentieel. Maar evidence-
based medicine is meer dan het zo veel mogelijk gebruikmaken van de
beschikbare evidence. Het is een houding van zich voortdurend af-
vragen op grond waarvan beslissingen worden genomen of therapie
wordt voorgeschreven. De moderne evidence-based behandelaar kent
de bewijskracht van het beschikbare bewijs rond bepaalde klinische
beslissingen en de daarbij behorende mate van onzekerheid.

1.3 Dit boek

Zorgverleners die in hun opleiding weinig of geen aandacht aan


evidence-based medicine hebben besteed, kunnen het toepassen van
evidence-based medicine in de praktijk leren. In dit boek worden de
belangrijkste begrippen behandeld die de behandelaar of de behan-
delaar in opleiding nodig heeft om zichzelf tijdens de opleiding of
na het afstuderen op een moderne manier up-to-date te houden. Als
men zichzelf op de juiste manier de juiste vragen stelt (hoofdstuk 2),
efficiënt leert zoeken in de geëigende bronnen (hoofdstuk 3), de
kwaliteit en relevantie van de geı̈dentificeerde onderzoeken kan in-
schatten (hoofdstuk 4, 5 en 6) en ten slotte het gevonden materiaal
weet toe te passen (hoofdstuk 7) en over te dragen aan collega’s en op
te slaan voor toekomstig gebruik (hoofdstuk 8), zal de meerwaarde
duidelijk worden. In het onderwijs is er inmiddels veel aandacht voor
deze vorm van leren. Dit boek richt zich op iedereen, van student tot
(bijna) gepensioneerd practicus die geı̈nteresseerd is om deze manier
van werken te leren en toe te passen.
De juiste vragen stellen 2

R.P. Koopmans, P.P.G. van Benthem en M. Offringa

2.1 Inleiding

‘Eén dwaas kan meer vragen dan tien wijzen kunnen antwoorden’,
luidt het spreekwoord. Vragen stellen is blijkbaar gemakkelijker dan
vragen beantwoorden. Dit geldt ook in de dagelijkse geneeskundige
praktijk. De zorgverlener die handelt in de geest van evidence-based
medicine (EBM) zal meestal zijn eigen vragen moeten beantwoorden
en het is van belang dat hij zichzelf hierbij niet onnodig in de pro-
blemen brengt. Het is dus belangrijk relevante, goed geformuleerde
vragen te leren stellen.
De wijze waarop de vraag wordt gesteld heeft directe consequenties
voor het elektronisch zoeken van literatuur; de vraagstelling kan te
veel of te weinig opleveren (hoofdstuk 3). Dit probleem kan worden
verkleind door een goed geformuleerde vraag. Zo’n goed geformu-
leerde vraag is ook van belang voor het controleren van de geselec-
teerde literatuur. Geeft deze eigenlijk wel antwoord op de gestelde
vraag?

Tips
– Formuleer een vraag zodanig dat zij beantwoordbaar is (bij-
voorbeeld met de PICO-methode, zie par. 2.4).
– Breng een rangorde aan in de door u bedachte vragen (bij-
voorbeeld op grond van waarde voor de praktijk).
– Probeer via vragen uit uw eigen praktijk uw vakkennis op peil
te houden.
– ‘Bewaar’ uw vragen, zodat u na enige tijd nog eens kunt
zoeken naar nieuw verschenen literatuur.
2 De juiste vragen stellen 33

Door zichzelf dikwijls goed geformuleerde vragen te stellen en deze te


beantwoorden, kan men ‘problem based’ leren. Deze wijze van leren
sluit aan bij de praktijk, kan levenslang worden volgehouden en is de
meest efficiënte manier om de eigen praktijkvoering te verbeteren.
Maar wat is nu een beantwoordbare en relevante vraag? Hoe vaak stelt
een gemiddelde arts een lacune in zijn of haar parate kennis vast?
Sommige artsen menen zelden een vraag te hebben. Is dat mogelijk?
Op deze vragen wordt in dit hoofdstuk een antwoord gezocht.

De inhoud van vragen in de klinische praktijk betreft grofweg de


domeinen diagnose, prognose, therapie (inclusief preventie) en bij-
werkingen (inclusief etiologie). Het is goed mogelijk met een paar
eenvoudige vuistregels op elk van die domeinen een inhoudelijk goede
vraag te stellen. Voor elk domein bestaan een of meer ‘beste’ onder-
zoekdesigns die het meest geschikt zijn voor het beantwoorden van de
vraag (zie hoofdstuk 4).

Voorbeeldvraag over etiologie


Op uw afdeling wordt een 53-jarige man opgenomen met een trombosebeen
links. De medische voorgeschiedenis is blanco en afgezien van het been heeft
de patiënt geen klachten. Onderzoek op risicofactoren voor trombose (zoals
factor-V Leiden) is negatief. Tijdens uw ochtendvisite begint u zich af te vragen
of er niet een nog occulte maligniteit in het spel kan zijn, vooral omdat de
patiënt u steeds vraagt wat nou toch de oorzaak is van het trombosebeen en of
hij wel echt helemaal gezond is. Zou het zinvol zijn te gaan zoeken naar een
maligniteit, bijvoorbeeld door een gastroscopie en een echo van het abdomen te
laten uitvoeren en het CEA te laten bepalen?
– Waarde van de vraag. Deze schat u hoog in, omdat dit probleem veel voorkomt
in uw praktijk en bij u toch steeds in het achterhoofd speelt of u niet iets over
het hoofd ziet. Bovendien wilt u uw patiënten goed informeren.
– Opzet van de PICO. Misschien is PICO niet nodig en kunt u het af met een
‘background question’ (zie verderop in par. 2.3). Zoiets als: ‘Is trombose
geassocieerd met maligniteiten?’ Na even denken vindt u dit toch geen ideale
oplossing. U wilt juist weten hoe waarschijnlijk een maligniteit is en op
grond van die kennis besluiten of de patiënt iets opschiet met een uitgebreide
analyse. Dat kan alleen met een PICO-aanpak.
– Dus: ‘Hoe groot is de kans op een maligniteit (O) bij een volwassene met een
trombosebeen zonder aanwijsbare oorzaak of risicofactoren (P)?’ In dit sta-
dium is er dus geen I of C.
– Sensitieve of specifieke search? De patiënt blijft nog enkele dagen in het zieken-
huis. Voordat hij naar huis gaat, moet het toch wel bekend zijn. U wilt voor
deze patiënt zeer relevante literatuur niet missen, maar in een breed over-
zicht over trombose en maligniteit bent u nu niet geı̈nteresseerd. U besluit tot
een specifieke search.
34 Inleiding in evidence-based medicine

2.2 Prioriteiten in vragen

Het is niet aangetoond dat meer opzoeken leidt tot een betere prak-
tijkvoering of tot betere uitkomsten van de behandeling. Dit is echter
wel aannemelijk. Daar staat tegenover dat met de huidige opzoek-
mogelijkheden het zelf beantwoorden van meerdere vragen per dag
meestal onmogelijk is. Er moet dus worden gekozen. Een aantal
strategieën is dan mogelijk. De meest voor de hand liggende moge-
lijkheid is een rangorde in de vragen aan te brengen. Criteria daarbij
kunnen zijn:
– Hoe vaak komt deze vraag terug in mijn praktijk?
– Hoe belangrijk is het antwoord voor de patiënt van vandaag?
– Is het antwoord gemakkelijk te vinden?
– Vind ik het probleem boeiend?
– Bestaan er wellicht recente richtlijnen voor mijn beroepsgroep op
dit gebied?

De keuze kan worden vergemakkelijkt door de volgende functie te


hanteren:

waarde van de informatie = relevantie (voor de patiënt) 6 validiteit


(van het onderzoek) / benodigde hoeveelheid werk om informatie te
vinden

Het moge duidelijk zijn dat het opzoeken in het Farmacotherapeutisch


Kompas of de dosis metoprolol drie keer daags 80 of 800 mg moet zijn,
een hoge ‘waarde’ heeft. Het tegendeel geldt voor de vraag of er een
voordeel is van atenolol versus metoprolol bij het risico op een de-
pressie als bijwerking. Door dit voorbeeld is het al meteen duidelijk
dat het inschatten van de ‘waarde’ zeer arbitrair is. Toch kan de
voorgaande functie voor het prioriteren van belang zijn.

2.3 Soorten vragen

Onervaren behandelaars stellen over het algemeen andersoortige vra-


gen dan ervaren behandelaars. Sackett e.a. gebruiken hiervoor de
termen ‘background question’ en ‘foreground question’. De eerstge-
noemde categorie vraagt naar algemene aspecten van een ziekte of
therapie, bijvoorbeeld: ‘Door welke verwekkers wordt pneumonie
veroorzaakt?’ of ‘Welke effecten kan acute alcoholonthouding zoal
geven?’ of nog voor de hand liggender: ‘Wat is de gebruikelijke dosis
van amiloride bij de behandeling van hypertensie?’ Het belang van
2 De juiste vragen stellen 35

deze vragen is groot, maar zij zijn niet specifiek voor de patiënt die
aanleiding gaf voor de vraag. Naarmate een behandelaar meer erva-
ring heeft, zal hij meer ‘foreground questions’ stellen: vragen die vrij
sterk in detail op de behandeling van de huidige patiënt zijn toege-
sneden. Dus: ‘Is de mortaliteit van patiënten met een community ac-
quired longontsteking lager wanneer vanaf het begin een antibioticum
wordt gekozen met activiteit tegen Legionella?’ Dit is al een echte
‘PICO-’vraag (zie hierna). Deze laatste categorie vragen heeft een
grotere impact op de zorg, onder andere omdat er expliciet een afwe-
ging van alternatieven plaatsvindt (in dit geval wel of geen antibioti-
cum met Legionelladekking).

Voorbeeldvraag over therapie


Een 35-jarige vrouw bezoekt het spreekuur van de huisarts van-
wege een ‘tenniselleboog’. Zij kan haar werk in een slagerij al
geruime tijd niet verrichten vanwege deze aandoening. U vraagt
zich af wat de zin is van corticosteroı̈dinjecties.
– Waarde van de vraag. Deze schat u hoog in, omdat de patiënt
door een effectieve behandeling wellicht niet in de WIA komt
en omdat u vermoedt dat over een dergelijke frequente aan-
doening veel onderzoeken zijn gepubliceerd.
– Opzet van de PICO. U beschouwt geslacht en leeftijd van de
patiënte als niet relevant. De interventie is corticosteroı̈dinjec-
tie – aantal, dosis en preparaat vindt u niet van belang. Com-
parison: de bij u tot nu toe gebruikelijke therapie is fysiothe-
rapie; dit wilt u als vergelijking hanteren. Outcome: pijn en
klachten zijn op zichzelf van belang; in dit geval gaat het u
echter alleen om de arbeidsgeschiktheid.
– Dus: ‘Leiden corticosteroı̈dinjecties (I) bij patiënten met epi-
condylitis lateralis (P) tot sneller herstel van de arbeidsge-
schiktheid (O) dan fysiotherapie (C)?’
– Sensitieve of specifieke search? Dit probleem ziet u vaak in uw
praktijk. Enkele weken vindt u een redelijke termijn om het uit
te zoeken. U besluit tot een sensitieve search.

2.4 Het PICO-systeem

Nadat een ‘foreground’ vraag is gekozen, moet deze dus zodanig


worden geformuleerd dat de kans op een zinvol antwoord zo groot
mogelijk is. In veel gevallen wordt aan deze stap te weinig aandacht
36 Inleiding in evidence-based medicine

besteed. Het gevolg kan zijn dat men het antwoord niet vindt, dat men
te veel antwoorden vindt en dus alsnog de vraag moet herformuleren
om een overzichtelijk aantal artikelen over te houden, of dat men bij
nader inzien de verkeerde vraag heeft gesteld.
De EBM-groep uit Oxford (Verenigd Koninkrijk) heeft als hulpmiddel
het PICO-systeem voorgesteld. Dit staat voor: patient – intervention –
comparison – outcome. Het PICO-systeem helpt bij het structureren
van de vraag en alle genoemde elementen moeten in de vraag worden
vermeld.
Een aldus opgestelde vraag laat zich betrekkelijk gemakkelijk vertalen
naar een zoekstrategie in een database (zie hoofdstuk 3). Men zoekt
‘breed’ op één of meer van de vier componenten afzonderlijk en
verbindt de resultaten van verschillende componenten met het woord
‘AND’. Voor wiskundig onderlegde lezers: men neemt de doorsnede
van de deelverzamelingen. Meestal begint men met één component
(bijvoorbeeld P of I) en als de oogst dan te groot is, voegt men een
andere component toe (zie hoofdstuk 3). Het hanteren van PICO heeft
ook het voordeel dat men gedwongen wordt tevoren goed na te den-
ken over wat men precies wil weten. Desondanks komt het voor dat
men op deze wijze te veel of te weinig informatie vindt. In dat geval is
herbezinning op de gestelde vraag noodzakelijk.
Het PICO-systeem laat in principe toe dat men het probleem uniek
omschrijft. Als men hierin te restrictief is (‘Wat is de mortaliteit na
dertig dagen als men een 56-jarige man met een pneumokokkenp-
neumonie en tevens diabetes mellitus type 2 behandelt met amoxicil-
line 3 keer daags 750 mg per os versus doxycycline 100 mg per os
gedurende tien dagen?’), leidt dit tot weinig of geen treffers. In dit
geval is bijvoorbeeld de patiëntengroep te nauw gedefinieerd of de
uitkomst te precies.
Als er (in het omgekeerde geval) te veel informatie uit de zoektocht
naar evidence komt, moet men restrictiever worden. Een bekende
valkuil is in dat geval dat men eerst de informatie eens een beetje
doorbladert en vervolgens alles ‘eigenlijk wel interessant’ vindt. Beter
is het eerst de eigen vraag in te perken, opnieuw te zoeken en pas in
tweede instantie de literatuur in te zien. In het volgende hoofdstuk
gaan we hier uitgebreid op in.
Het PICO-systeem leent zich uitstekend voor het opstellen van vragen
in de domeinen etiologie/schade, prognose en therapie/interventie.
Voor diagnostiek dienen tevens andere componenten benoemd te
worden (zie hierna). Vaak is het niet op het eerste gezicht duidelijk wat
wordt bedoeld met ‘intervention’, in het bijzonder als het om etiologie
of prognose gaat. Bij etiologie en prognose is de ‘intervention’ de
2 De juiste vragen stellen 37

aanwezigheid van een etiologische of prognostische factor (bijvoor-


beeld eiwit in de urine bij diabetes mellitus type 2) en de ‘comparison’
de afwezigheid van deze factor.
Bij comparison bij vragen over therapie/interventie hoeft men niet
direct een omschreven alternatief te kiezen. Vaak is ‘gebruikelijke
therapie’ of ‘niet behandelen’ een goede vergelijking. Uiteraard moe-
ten deze termen op de een of andere manier worden vertaald voor
de zoekmachine. Men kan er bijvoorbeeld voor kiezen bij het zoeken
geen comparison te hanteren en het resultaat van de zoektocht hand-
matig te ordenen op datgene wat men herkent als ‘gebruikelijke the-
rapie’.

Voorbeeldvraag over prognose


U ziet als arts-assistent op uw polikliniek neurologie een 36-
jarige vrouw bij wie in een ander ziekenhuis onlangs de diagnose
multiple sclerose (MS) is gesteld. Zij is nu naar uw regio ver-
huisd. Zij vraagt aan het einde van het consult hoe volgens u haar
toekomt eruitziet. Heel specifiek wil zij graag weten of zij over vijf
jaar nog zal kunnen lopen of dat zij dan aan een rolstoel gebon-
den zal zijn.
– Waarde van de vraag. Voor uw patiënt is dit uiteraard een zeer
belangrijke zaak. U hebt in uw opleiding geleerd dat het
beloop van MS mild kan zijn, maar soms ook grillig en snel
progressief. Of er literatuur over is? Dat moet haast wel, en u
gaat dus kijken.
– Opzet van de PICO. We hebben in dit geval geen specifieke
interventie (I) op het oog en ook geen vergelijkende behande-
ling (C). De vraag is wat, gegeven de huidige toestand van de
patiënt, de kans op rolstoelgebondenheid is over vijf jaar.
– Dus: ‘Wat is na vijf jaar de kans op invaliditeit/rolstoelgebon-
denheid (O) bij jonge vrouwen met recent gediagnosticeerde
MS (P)?’
– Sensitieve of specifieke search? Voor een sensitieve search op Pub-
Med hebt u geen tijd. Zie hoofdstuk 3 om te ontdekken waar-
om het best gestart kan worden met een zoekstrategie die een
recente richtlijn op dit terrein opspoort.

Het PICO-systeem leent zich minder goed voor een diagnostische


vraag. Met name de ‘O’ is lastig te benoemen (men neemt hiervoor
vaak de sensitiviteit of specificiteit of voorspellende waarden van de
38 Inleiding in evidence-based medicine

indextest) en er is geen plaats voor het opnemen van de ziekte of


aandoening die de test beoogt aan te tonen, en voor de zogenoemde
referentietest, ofwel de test waarmee men de ziekte of aandoening het
beste kan aantonen. Voor de ‘P’ moet men trachten alle elementen die
voor diagnostiek van belang zijn, te benoemen: met welke klachten is
de patiënt gekomen, in welke setting en welke diagnostische tests
heeft de patiënt al ondergaan, voordat de indextest (de test waarvan
men de validiteit wil weten) toegepast wordt. De ‘I’ staat uiteraard voor
de indextest. De ‘C’ zal niet vaak voorkomen; deze wordt gereserveerd
voor een andere indextest waarmee de eerste vergeleken wordt (bij-
voorbeeld met vervanging als doel). De ziekte of aandoening waarvoor
de indextest gebruikt wordt (bijvoorbeeld een aandoening die moet
worden aangetoond, of, in een andere toepassing, uitgesloten) dient
ook benoemd te worden, inclusief de referentietest. Het opstellen van
een ‘PICO’ voor een diagnostische vraag is derhalve een stuk lastiger.

Met behulp van PICO kan men sensitief (ruim) of specifiek (nauw)
zoeken. Het eerste levert meer literatuur op dan het tweede. Met enige
oefening heeft men dit snel onder de knie. Beide manieren van zoeken
zijn van belang. Wil men voor een probleem dat in de eigen praktijk
vaak voorkomt een richtlijn opstellen, dan zal men sensitief moeten
zoeken: een zeer algemene patiënt, wel een nauw omschreven inter-
vention en comparison (daar gaat het immers om) en wellicht ook een
reeks van uitkomsten. Gaat het echter om het voorschrijven van een
geneesmiddel aan een patiënt die morgen terugkomt, dan is een
specifieke zoektocht de enige mogelijkheid.

Voorbeeldvraag over bijwerkingen


Op uw afdeling Psychiatrie is twee weken geleden een 32-jarige
vrouw met een bipolaire stemmingsstoornis opgenomen. Zij was
in een depressieve episode geraakt en is inmiddels goed opge-
knapt na instellen op lithium. Zij kan binnenkort naar huis. Van
een verpleegkundige hoort u dat de patiënte heeft uitgesproken
dat zij graag een kind wil. Op het wekelijkse teamoverleg komt
het beleid bij jonge vrouwen die lithium gebruiken en die zwan-
ger willen worden ter sprake. Een van de vragen is of er een
verhoogd risico op schade aan de ongeboren vrucht is, en zo ja,
welke schade dat is en hoe groot de kans is.
– Waarde van de vraag. Deze schat u hoog in, omdat dit probleem
weliswaar niet veel voorkomt maar potentieel grote implicaties
2 De juiste vragen stellen 39

heeft voor moeder en kind. U wilt uw patiënte ook volledig


informeren en de risico’s goed met haar afwegen.
– Opzet van de PICO. Een eerste idee is: ‘Is lithium in de zwan-
gerschap geassocieerd met aangeboren afwijkingen?’ U weet
echter dat 1-5% van alle pasgeborenen een min of meer ern-
stige aangeboren afwijking heeft en u wilt dus weten hoe het
risico op een ernstige afwijking toeneemt bij lithiumgebruik.
Op grond van die kennis wilt u dan met de patiënte afwegen of
zwanger worden tijdens het gebruik van lithium niet te onvei-
lig is. Dat kan alleen weer met een PICO-aanpak.
– Dus: ‘Hoe groot is de kans op een ernstige aangeboren afwij-
king van het kind (O) bij een zwangere vrouw (P) die lithium
gebruikt (I) ten opzichte van een zwangere die geen lithium
gebruikt (of een ander antidepressivum) (C)?’
– Sensitieve of specifieke search? De patiënte blijft nog enkele dagen
op de afdeling. Tijdens deze periode wilt u deze voor haar zeer
relevante vraag op grond van relevante literatuur beantwoor-
den. U vermoedt dat er niet al te veel publicaties zijn en u wilt
proberen geen relevante artikelen te missen; u doet een sensi-
tieve search.

2.5 De vraag als controle op de toepasbaarheid

Indien u een relevante, goed geformuleerde vraag heeft opgesteld,


bijvoorbeeld volgens het PICO-systeem, dan zult u merken dat het
soms nog best ingewikkeld is om die studie uit de gevonden literatuur
te selecteren die uw vraag precies beantwoordt. Het is dan ook altijd
goed om na het lezen en eventueel op validiteit en resultaat beoordelen
van de geselecteerde studie, nog eens terug te gaan naar de oor-
spronkelijke vraag. Dat kan als volgt:
P. Is de populatie die onderzocht is in de studie wel vergelijkbaar met
mijn patiënt of gaat het hier (bijvoorbeeld) om volwassenen in plaats
van kinderen?
I. Is de interventie (of de blootstelling of prognostische factor) wel
dezelfde als die waarover ik iets wil weten, of is (bijvoorbeeld) de
dosering anders?
C. Vergelijken ze wel met (bijvoorbeeld) de tot nu toe eerste keus
therapie, of vergelijken ze juist met een placebo?
O. Meten ze wel de uitkomst waarin ik geı̈nteresseerd ben, (bijvoor-
beeld) de frequentie van otitis media acuta tot de vijfde verjaardag van
40 Inleiding in evidence-based medicine

het kind? Of meten ze otitiden in bredere zin, (bijvoorbeeld) otitis


media acuta, otitis media met effusie, en aantal episodes van loopoor?

Het is geen zeldzaamheid dat na deze check blijkt dat de geselecteerde


studie die aanvankelijk de vraag leek te beantwoorden, toch op heel
andere zaken antwoorden geeft.

2.6 Conclusie

De informatiebehoefte in de dagelijkse geneeskundige praktijk is


groot. Bij het effectief gebruiken van informatie dient men lacunes bij
zichzelf te herkennen, op enigerlei wijze te prioriteren, een vraag zo
effectief mogelijk te kunnen formuleren en te bepalen hoeveel tijd
men beschikbaar en nodig heeft om het antwoord te zoeken. De PICO-
methode is op dit moment het meest voor de hand liggende instru-
ment om een vraag te formuleren. Met deze methode kan een vraag
in voor de praktijk relevante onderdelen worden ontleed, die daarna
zonder extra inspanning in een database kunnen worden gezocht en
gecombineerd.

Literatuur

Coumou HC, Meijman FJ. How do primary care physicians seek answers to clinical
questions? A literature review. J Med Libr Assoc 2006 Jan;94(1):55-60.
Ely JW, Osheroff JA, Chambliss ML, Ebell MH, Rosenbaum ME. Answering physicians’
clinical questions: obstacles and potential solutions. Am Med Inform Assoc 2005
Mar-Apr;12(2):217-24.
Ely JW, Osheroff JA, Ebell MH, Bergus GR, Levy BT, Chambliss ML, Evans ER. Analysis
of questions asked by family doctors regarding patient care. BMJ 1999 Aug 7;
319(7206):358-61.
Ely JW, Osheroff JA, Ebell MH, Chambliss ML, Vinson DC, Stevermer JJ, Pifer EA.
Obstacles to answering doctors’ questions about patient care with evidence: quali-
tative study. BMJ 2002 Mar 23;324(7339):710.
Ely JW, Osheroff JA, Maviglia SM, Rosenbaum ME. Patient-care questions that physi-
cians are unable to answer. J Am Med Inform Assoc 2007 Jul-Aug;14(4):407-14.
González-González AI, Dawes M, Sánchez-Mateos J, Riesgo-Fuertes R, Escortell-
Mayor E, Sanz-Cuesta T, Hernández-Fernández T. Information needs and informa-
tion-seeking behavior of primary care physicians. Ann Fam Med 2007 Jul-Aug;5(4):
345-52.
Graber MA, Randles BD, Ely JW, Monnahan J. Answering clinical questions in the ED.
Am J Emerg Med 2008 Feb;26(2):144-7.
Green ML, Ruff TR. Why do residents fail to answer their clinical questions? A
qualitative study of barriers to practicing evidence-based medicine. Acad Med 2005
Feb;80(2):176-82.
2 De juiste vragen stellen 41

Straus SE, Richardson WS, Glasziou P, Haynes RB. Evidence-based medicine: How to
practice and teach EBM. 3. Diagnosis and screening. Third Edition. Edinburgh:
Churchill Livingstone, 2005.
Zoeken en selecteren van 3
literatuur

W.J.J. Assendelft en B. Aertgeerts

3.1 Inleiding

Iedere zorgverlener wordt overspoeld met tijdschriften, artsenbezoe-


kers, informatie op congressen, leerboeken en reclamebrieven. Kran-
ten en televisie geven steeds meer medische informatie in gepopula-
riseerde vorm, maar inhoudelijk vaak op hoogstaand niveau. Gevraagd
en ongevraagd is er een constante informatiestroom. De meest recente
ontwikkeling is dat patiënten zorgverleners confronteren met infor-
matie van patiëntenverenigingen, de Consumentenbond, de krant of
met uitdraaien van het internet. Een belangrijk deel van vooral diag-
nostische en therapeutische medische informatie veroudert steeds
sneller: na vijf jaar is de helft al verouderd.
Veruit de meeste informatie heeft vaak nog de vorm van jaren geleden:
uitgebreide teksten die niet uitgaan van een klinische vraag en waarbij
de informatie nogal eens onvolledig of vertekend is en waarin de uit-
komsten niet worden uitgedrukt in maten en getallen zoals in dit boek
wordt aanbevolen. Het is voor de behandelaar van belang op een ge-
richte en efficiënte manier met medische informatie om te gaan.
Gelukkig wordt dit steeds gemakkelijker, omdat er steeds meer bron-
nen zijn die de informatie op een evidence-based manier presenteren.
Met het steeds ruimer beschikbaar worden van internet is voor de
individuele behandelaar een schat aan informatie beschikbaar. Net als
bij het aanleren van een medische vaardigheid is het belangrijk om bij
het evidence-based zoeken en selecteren stapsgewijs en planmatig te
werk te gaan en niet te snel op te geven.
In dit hoofdstuk wordt uitgelegd dat de traditionele aanpak van in-
formatievoorziening door een interessante en inhoudelijk hoogwaar-
dige manier van werken kan worden vervangen.
3 Zoeken en selecteren van literatuur 43

Er zijn grofweg drie situaties waarin zorgverleners behoefte aan in-


formatie hebben. Allereerst omdat er bij een individuele patiënt een
vraag rijst. Een patiënt of een zorgverlener kan zich afvragen welke
chemotherapie zin heeft bij borstkanker, of stomen zin heeft bij ver-
koudheid, wat de beste termijn is om antistolling te blijven gebruiken
na een trombose. Zorgverleners hebben verder behoefte aan het bij-
blijven op verschillende terreinen, zonder dat er een individuele vraag
ligt. En op een minder individueel niveau kan informatie nodig zijn als
onderbouwing van lokale, regionale of nationale werkafspraken of
richtlijnen.
Het opstellen van richtlijnen of systematische reviews vereist een zeer
grondige zoektocht in meerdere databanken. Dit is echter een werk
van een aantal maanden en wordt uitgevoerd door specialisten op dit
gebied (zie ook hoofdstuk 5 en 6). Voor het zoeken naar een richtlijn
of systematische review verwijzen wij naar de desbetreffende hoofd-
stukken.
Zorgverleners die willen bijblijven met literatuur kunnen gebruikma-
ken van current contents van hun gespecialiseerde tijdschriften, e-mail
alerts van deze tijdschriften of gespecialiseerde services die gerichte
zoekvragen (PICO’s) periodiek terugkoppelen (zoals My NCBI).
Voor een clinicus is echter de meest voorkomende situatie dat een
klinisch probleem naar aanleiding van een patiëntencontact of een
discussie met een collega opduikt en dat hij hiervoor een goed on-
derbouwd antwoord wil zoeken.

3.2 Zoeken naar aanleiding van een klinisch probleem

3.2.1 inleiding
De afgelopen jaren is het zoeken van evidence-based materiaal bij een
individueel patiëntenprobleem veel efficiënter geworden. Het is vaak
niet meer nodig om uitgebreid naar losse artikelen te zoeken, omdat
de informatie al is samengevat en van een deskundig oordeel is voor-
zien.
Klinische informatie kan worden onderverdeeld in verschillende
soorten: de ‘kennispiramide’ (figuur 3.1). Tekstboeken staan onder
aan de piramide. Voor de aanpak van een klinisch probleem is altijd
een zekere mate van achtergrondkennis nodig; concepten en samen-
hang laten zich het best in een goed leerboek uitleggen. De manier
waarop voor een tekstboek de synthese van kennis tot stand komt is
echter meestal niet transparant, waardoor leerboeken soms eerder
meningen dan een samenvatting van kennis bevatten (authority-based
in plaats van evidence-based). Door de productietijd van soms jaren
44 Inleiding in evidence-based medicine

loopt de kennis in leerboeken meestal achter. Voor zeer gerichte vra-


gen zijn leerboeken daarom minder geschikt.

gericht zoeken:
de kennispiramide

gecomputeriseerde beslissings-
systemen
ondersteuning

evidence-based tijdschrift-
synopses
samenvattingen; richtlijnen

syntheses systematische reviews

studies originele artikelen in tijdschriften

studieboeken tekstboeken

Figuur 3.1 De kennispiramide.

Voor het evidence-based zoeken naar aanleiding van een klinisch


probleem kan het best boven aan de piramide worden begonnen. De
volgorde van zoeken van informatie wordt bepaald door een aantal
overwegingen:
– Het klinische probleem moet voldoende overeenkomen met de in-
formatie uit de evidence-based bron (zie ook hoofdstuk 2).
– Veel van het beschikbare materiaal is al samengevat in regelmatig
geüpdate evidence-based bronnen.
– Bronnen die voor een bepaalde aandoening of probleem verschil-
lende diagnostische of therapeutische mogelijkheden naast elkaar
bespreken zijn het meest efficiënt.
– Indien een dergelijke synopsis ontbreekt, verdient een systemati-
sche review de voorkeur boven losse onderzoeksartikelen (zie
hoofdstuk 5).
– Bronnen in het Nederlands zijn in de regel handiger dan in het
Engels.

3.2.2 geaggregeerde evidence


Gecomputeriseerde beslissingsondersteuningssystemen. Het meest ideaal is
wanneer de gezondheidswerker van een beslissingsondersteunings-
3 Zoeken en selecteren van literatuur 45

systeem gebruik kan maken, waarin de geaggregeerde evidence uit de


piramidelagen daaronder direct aan de klinische vraag wordt gekop-
peld. Een voorbeeld daarvan zijn de medicatievoorschrijfsystemen, die
aan de hand van de codering van de ziekte de voorschrijver direct een
kant-en-klaar voorschrijfadvies geven. Dergelijke systemen worden
aan de hand van revisies van de onderliggende bronnen automatisch
geüpdatet. De voorschrijver krijgt zo, zelfs als deze niet direct op de
hoogte is van de actualisering, altijd het meest actuele evidence-based
advies.
Synopses. Voor de praktijk is het gemakkelijk als de bestaande evidence
is samengevat, maar ook dat de gezondheidswerker een toelichting op
of een interpretatie van de evidence krijgt. Zo kan bij een klinische
vraag snel beslist worden welke diagnostiek of therapie moet worden
gekozen, zonder dat de behandelaar alle details van het oorspronke-
lijke onderzoek zelf hoeft te doorgronden.
Over veel onderwerpen zijn evidence-based richtlijnen (zie ook
hoofdstuk 6) beschikbaar. Een richtlijn is een document met aanbe-
velingen, adviezen en handelingsinstructies ter ondersteuning van de
dagelijkse praktijkvoering in de gezondheidszorg. Richtlijnen berus-
ten op resultaten van wetenschappelijk onderzoek met daarop geba-
seerde discussie en aansluitende meningsvorming, gericht op het ex-
pliciteren van goed medisch handelen (zie hoofdstuk 6). Dat is aller-
eerst handig: alles staat bij elkaar, inclusief een advies. Daarnaast
wordt een zorgverlener geacht om de van toepassing zijnde richtlijnen
te volgen, wat een andere reden is om eerst te kijken of er een rele-
vante richtlijn voorhanden is. Nationale richtlijnen hebben daarbij de
voorkeur boven internationale, en richtlijnen van de eigen discipline
boven die van een andere discipline. Een belangrijke bron van richt-
lijnen is de Amerikaanse National Guideline Clearing House, waarin
de richtlijnen van belangrijke richtlijnorganisaties uit diverse landen
zijn opgenomen, inclusief een samenvatting van de gebruikte metho-
den en de belangrijkste aanbevelingen. Ook de Britse National Library
of Guidelines en het Guidelines International Network (GIN) geven
een uitgebreid overzicht. Ten slotte zijn er veel organisaties die hun
richtlijnen via internet publiceren (zie www.pico.nu).
Daarnaast is er een aantal handige evidence-based bronnen beschik-
baar. Voor therapeutische vragen is de uitgave Clinical evidence een
aanrader. In dit boek wordt van een groot aantal patiëntgeoriënteerde
therapeutische vragen het beschikbare bewijs voor de clinicus geor-
dend en besproken. Clinical evidence wordt regelmatig geactualiseerd.
Een belangrijk beoordelingsaspect voor de keuze voor deze samen-
46 Inleiding in evidence-based medicine

gestelde bronnen is de actualiteit: een samenvatting is alleen nuttig als


deze voldoende recent is.
Systematische reviews. In een systematische review wordt de beschikbare
informatie uit de oorspronkelijke onderzoeken op een transparante,
valide en reproduceerbare wijze gezocht, geselecteerd, geëxtraheerd,
beoordeeld en samengevoegd. Systematische reviews zijn daardoor
een efficiënte en betrouwbare informatiebron. Een belangrijke bron
van systematische reviews is de Cochrane Library (zie hoofdstuk 9).
Daarnaast kan in bibliografische databases met specifieke zoekfilters
gemakkelijk naar systematische reviews worden gezocht (zie hierna).

3.3 Zoeken in een bibliografische database

3.3.1 achtergrond
Als er geen kant-en-klare evidence-based bron beschikbaar is, dan
moet er naar individuele onderzoeksartikelen worden gezocht. Dit
zijn systematische reviews of individuele onderzoeksartikelen. Om te
begrijpen hoe u in databases kunt zoeken, is enige kennis over de
achtergrond nodig.
In een bibliografische database worden vaak duizenden tijdschriften
geı̈ndexeerd. Dit geeft de mogelijkheid op trefwoorden, op tekst-
woorden in de titel of de samenvatting, op auteursnaam en bijvoor-
beeld op jaartal van publicatie te zoeken. MEDLINE is de bekendste
database. Via verschillende zoekmachines kan naar publicaties vanaf
1966 in meer dan 5000 tijdschriften worden gezocht. Hiervan is
PubMed, gratis via internet te raadplegen, een van de meest gebrui-
kersvriendelijke. Andere bibliografische databases zijn bijvoorbeeld
EMBASE en PsychLit.
Een zoekactie in een bibliografische database komt rechtstreeks voort
uit de klinische vraag (zie hoofdstuk 2) en bevat voor therapeutische
vragen zoektermen die verwijzen naar de aandoening en de interven-
tie, eventueel aangevuld met zoektermen die gerelateerd zijn aan de
setting (bijvoorbeeld bedrijfsgezondheidszorg) en gewenste uit-
komstmaten (bijvoorbeeld ‘pijn’ of ‘kwaliteit van leven’). Een voor-
beeld van een zoekactie is opgenomen in tabel 3.1. Zoeken in een
bibliografische database vereist instructie en vaardigheden. Veel uni-
versiteiten en ziekenhuizen verzorgen instructies. Daarnaast zijn er op
het internet veel handleidingen voor zoeken in PubMed te vinden,
waaronder ook een prima Engelstalige instructie op de website van
PubMed zelf. In bijlage 2 is een korte instructie opgenomen voor het
zoeken in MEDLINE met behulp van de zoekmachine PubMed.
3 Zoeken en selecteren van literatuur 47

Tabel 3.1 Zoekactie in PubMed op 12 maart 2008. Botulinetoxine voor tenniselleboog. Sensitief
zoekfilter voor RCT’s.
opdracht in PubMed aantal opmerking
treffers

#9 (#4 AND #8) AND ((clinical[Title/ 16 combinatie voor het zoeken naar botuline-
Abstract] AND trial[Title/Ab- toxine bij tenniselleboog met gebruik van
stract]) OR clinical trials[MeSH sensitief methodologisch filter voor RCT’s
Terms] OR clinical trial[Publica-
tion Type] OR random*[Title/
Abstract] OR random allocation
[MeSH Terms] OR therapeutic
use[MeSH Subheading])

#8 #5 OR #6 OR #7 1148 combinatie voor het zoeken naar tennis-


elleboog

#7 tennis elbow[Text Word] 1037 zoeken met vrije tekstwoorden (‘free text
words’) in de titel en de samenvatting; dit
maakt de zoekactie sensitiever maar min-
der specifiek

#6 (radial OR lateral) AND epicon- 428


dylitis

#5 tennis elbow [MeSH] 865 ‘MeSH heading’, betekent ‘trefwoord’

#4 #1 OR #2 OR #3 10677 combinatie voor zoeken op botulinetoxine

#3 Botulinum 10640

#2 botulinum toxins [MeSH] 7601

#1 Botox 3102

3.3.2 aanpak zoekactie


In PubMed kunt u zoeken aan de hand van vrije tekst en aan de hand
van trefwoorden. De in PubMed gebruikte trefwoorden (in het Engels
‘Medical Subject Headings’; afgekort MeSH-termen) staan in een
aparte database. Met vrije tekst wordt gezocht in de titels en samen-
vattingen van de artikelen (dus niet in het hele artikel). PubMed ge-
bruikt het systeem van Automatic Term Mapping om woorden op de
zoekbalk zo mogelijk om te zetten in MeSH-termen en vrije tekst. Bij
het zoeken op onderwerp is het namelijk belangrijk dat beide soorten
termen worden gebruikt. Bij het mappen gaat de computer na of de
zoektermen overeenkomen met MeSH-termen. Als dat het geval is,
wordt op die MeSH-termen gezocht, en bovendien op de vrije tekst.
Als geen MeSH-termen worden gevonden, dan worden de ingetypte
48 Inleiding in evidence-based medicine

zoektermen in de vrije tekst gezocht. PubMed ‘mapt’ alleen als er niet


getrunceerd (afgekort met een *: zie verderop) wordt gezocht.
Door gebruik te maken van jokertekens wordt het mogelijk om bij
zoeken op vrije tekst diverse uitgangen van hetzelfde woord te ge-
bruiken. Het afgebroken ‘‘inject*’’ levert zowel injection, injections als
injected als treffers op. Zoeken op trefwoorden heeft de voorkeur,
omdat dat veel specifieker is.
Analoog aan wat voor diagnostisch onderzoek in de klinische praktijk
geldt, gaat ook bij het zoeken in een bibliografische database een
hogere sensitiviteit (veel relevante treffers) bij het zoeken naar litera-
tuur in de regel samen met een lagere specificiteit (veel niet-relevante
treffers). Afhankelijk van het doel van de zoekactie en het aantal
beschikbare publicaties kan worden besloten om sensitief of juist
specifiek te zoeken. Bij sensitief zoeken wordt getracht zo veel moge-
lijk relevante publicaties op te sporen. De logische consequentie hier-
van is dat de zoekactie ook relatief meer niet-relevante treffers oplevert
(minder specifiek is). Indien u weinig tijd heeft of zeer veel potentieel
bruikbare publicaties verwacht, kunt u beter kiezen voor een speci-
fiekere zoekactie. Dit levert minder overbodige treffers op, maar een
of meer nuttige publicaties worden dan wellicht gemist. De meest
zinvolle manier om specifiek evidence-based te zoeken is het hanteren
van zogenoemde methodologische filters. Dit zijn uitgekiende com-
binaties van methodologische termen waarmee per domein (therapie,
diagnose, prognose, etiologie en bijwerkingen) naar het meest ge-
ëigende onderzoekstype voor het domein kan worden gezocht (bij-
voorbeeld RCT’s voor het domein Therapie). Zie de referenties bij dit
hoofdstuk en bijlage 2 voor verdere details over de inhoud van de
zoekfilters. De meest efficiënte zoekfilter is die voor systematische
reviews.
Indien een recente systematische review beschikbaar is, bent u
meestal klaar met zoeken. Als dat niet het geval is, moet verder naar
primaire onderzoeken worden gezocht. In de methodologische zoek-
filters zijn termen verwerkt die verwijzen naar kenmerken die samen-
hangen met het voor elk domein meest geëigende onderzoekstype. De
zoekfilters voor therapeutische onderzoeken bevatten bijvoorbeeld
termen die gericht zijn op het identificeren van RCT’s. Ook de me-
thodologische zoekfilters zelf kunnen weer sensitief of juist meer
specifiek zijn. Het is mogelijk methodologische zoekfilters zelf te
maken of een bestaande naar eigen behoefte en ervaring aan te passen
en in de computer op te slaan voor later gebruik (dit is een mogelijk-
heid binnen PubMed). Handig is dat dergelijke filters (zowel sensitief
als specifiek) in het zoekprogramma PubMed in MEDLINE zijn opge-
3 Zoeken en selecteren van literatuur 49

nomen. In de Clinical Queries van PubMed hoeft voor een sensitieve


evidence-based zoekactie naar de effectiviteit van een therapie dan
alleen ‘therapy’ en ‘sensitive’ te worden aangeklikt (zie ook bijlage 2).

3.3.3 wat te doen bij een te lage opbrengst?


Een zoekactie in MEDLINE kan soms op een teleurstelling uitlopen. Er
kunnen te veel treffers zijn of er wordt veel minder gevonden dan op
basis van de klinische vraag te verwachten was. Gelukkig zijn hiervoor
in de regel oplossingen (tabel 3.2).

Tabel 3.2 Tips bij een te kleine en bij een te grote oogst na het zoeken in een bibliografische database.
te kleine oogst

– (meer) vrije tekstwoorden naast MeSH headings

– gebruik jokertekens in tekstwoorden

– ‘related articles’ in PubMed

– gebruik van MeSH headings uit artikelen die al geı̈dentificeerd zijn

– als een specifiek methodologisch filter is gebruikt: schakel over op een sensitief filter

– raadpleeg de thesaurus

– raadpleeg een medisch bibliothecaris

te grote oogst

– beperkingen: taal (English), artikelen met een samenvatting (abstract), onderzoek met mensen (hu-
man)

– geaggregeerde evidence (richtlijnen, systematische reviews) (methodologisch filter, zoekprogramma


SUMSearch)

– specifieke MeSH headings (voor diagnostiek van tenniselleboog alleen tennis elbow/di)

– gebruik methodologische filters: systematische reviews, therapie, diagnostiek, etiologie, prognose,


bijwerkingen, screening; instelling: specifiek

– raadpleeg een thesaurus

– raadpleeg een medisch bibliothecaris

Bij een te kleine oogst kunnen allereerst meer vrije tekstwoorden aan
de zoekactie worden toegevoegd. Ook kan worden overwogen daar-
naast jokertekens in vrije tekstwoorden te gebruiken. Het gevaar is dan
dat er niet meer gemapt wordt (zie hiervoor). De optie ‘see related
articles’ in PubMed kan behulpzaam zijn om na te gaan of er mogelijk
meer gelijksoortige artikelen in MEDLINE geı̈ndexeerd zijn. Ook is het
50 Inleiding in evidence-based medicine

mogelijk dat niet de goede MeSH-termen zijn gebruikt. Het kan dan
nuttig zijn van een aantal bekende, geschikte artikelen na te gaan
welke MeSH-termen waren toegevoegd. Vaak kan dit goede ideeën
voor verbetering van de zoekactie opleveren. Als er bij het zoeken is
gebruikgemaakt van een specifiek methodologisch filter, dan is het bij
een te kleine oogst raadzaam om over te gaan op een sensitief filter.
Ten slotte kan de thesaurus (de ordening van MeSH-termen) worden
geraadpleegd. Een medisch bibliothecaris kan u adviseren als u er met
deze aanwijzingen niet uitkomt. Een bibliothecaris kan onder andere
ook inschatten of het gezien het onderwerp zinvol is nog andere
databases dan MEDLINE te raadplegen. De meest gangbare aanvul-
lende bibliografische database is EMBASE, die voor een substantieel
deel complementair is aan MEDLINE, onder andere doordat EMBASE
meer op farmacotherapie is gericht en ook meer Europees georiën-
teerd is. Afhankelijk van het onderwerp is de mate van overlap in
gevonden artikelen 10-75%. Ook kan er in nog andere onderwerp- of
professiespecifieke elektronische databases worden gezocht. In Ci-
nahl bijvoorbeeld ligt de nadruk meer op tijdschriften die van belang
zijn voor verpleegkunde en andere paramedische beroepen, terwijl de
focus van het eveneens veelvuldig geraadpleegde PsychLit meer op
psychologie en psychiatrie is gericht.

3.3.4 en wat bij een te grote opbrengst?


Bij een te grote oogst kan er allereerst worden gekeken of zich tussen
de treffers niet een of meer systematische reviews bevinden. Dit kan
men doen met de zoekfilter voor systematische reviews, of door ge-
bruik te maken van SUMSearch of TRIP waarin de systematische
reviews apart worden gepresenteerd (zie bijlage 3 en 4). Verder kan
met de optie ‘limits’ worden ingeperkt. Gangbare inperkingen zijn
beperking tot artikelen met een samenvatting (niet alle geı̈ndexeerde
artikelen hebben namelijk een samenvatting), artikelen in het Engels
en artikelen die mensen als onderwerp hebben (sluit dierexperimen-
teel onderzoek uit). Verder kunnen de MeSH-termen nader worden
gespecificeerd tot zogenoemde subheadings. Een vraag over de diag-
nostiek van een tenniselleboog (tennis elbow) kan worden beperkt tot
de sub-MeSH-term tennis elbow/di, waarbij de uitgang ‘/di’ staat voor
diagnostiek. Bij een grote oogst kan – indien dat nog niet was gedaan
– een methodologisch filter worden toegevoegd. Indien al een filter
was gebruikt, kan worden nagegaan of er een specifieker filter voor dit
onderzoekstype bestaat. Ten slotte kunnen ook de thesaurus en de
medisch bibliothecaris worden geraadpleegd.
3 Zoeken en selecteren van literatuur 51

3.4 Metazoekmachines

Er komen steeds meer internetsites waarin voor de gebruiker bij een


zoekvraag tegelijkertijd in diverse databases als richtlijnendatabases
en PubMed wordt gezocht en waarbij in eerdergenoemde hiërarchie
van de kennispiramide de oogst wordt aangeboden. Voorbeelden zijn
de Britse Clinical Knowledge Summaries van de National Health Ser-
vice, het Britse TRIP (‘turning research into practice’, bijlage 4) en het
Amerikaanse SUMSearch (bijlage 3). Het Belgisch Centrum voor Evi-
dence-Based Medicine CEBAM heeft ook een eigen zoekmachine, die
op deze wijze werkt. Ze hebben ieder hun eigen systematiek en voor-
delen. Deze websites komen niet in de plaats van de door ons voor-
gestelde manier van zoeken, omdat wij er in de praktijk de voorkeur
aan geven handzame bronnen, zoals nationale richtlijnen en Neder-
landstalige EBM-bronnen, gemakkelijk bij de hand te hebben. Juist
deze bronnen ontbreken in Engelstalige bronnen. Voor een brede
oriëntatie en om snel een indruk te krijgen zijn ze echter zeer geschikt.

3.5 Evidence-based bijblijven

Vaak worden (onderzoeks)artikelen gelezen om bij te blijven. Ook dit


‘bijblijven’ kan op een evidence-based manier gebeuren.

Attendering door PubMed


Een manier om bij te blijven op een of meer specifieke, favoriete
onderwerpen is het maken en opslaan van een zoekstrategie voor
MEDLINE en deze regelmatig, bijvoorbeeld iedere twee maanden, te
gebruiken, met als beperking (limit) de invoerdatum in MEDLINE. De
zoekstrategie in tabel 3.1 zou, indien deze regelmatig wordt gedraaid,
bijvoorbeeld ook voor een dergelijke manier van bijblijven kunnen
worden gebruikt. Behalve handmatig kan tegenwoordig binnen Pub-
Med in de optie ‘My NCBI’ een profiel worden aangemaakt dat naar
aanleiding van vastgelegde zoekstrategieën per e-mail automatisch de
referenties van nieuw verschenen artikelen stuurt (bijlage 2).

Evidence-based tijdschriften
Door middel van bladen als Evidence-Based Medicine, waarin onderzoe-
ken kort worden samengevat en van commentaar worden voorzien. Er
zijn steeds meer van dergelijke evidence-based tijdschriften: Evidence-
Based Cardiovascular Medicine, Evidence-Based Health Policy and Management,
Evidence-Based Mental Health en Evidence-Based Nursing. In het Nederlands
zijn er het Nederlands Tijdschrift voor Evidence-based practice voor ver-
52 Inleiding in evidence-based medicine

pleegkundigen en het Belgische tijdschrift voor evidence-based medi-


cine Minerva.

Evidence-based rubrieken in tijdschriften


Er is in steeds meer tijdschriften aandacht voor expliciete evidence-
based rubrieken. Voorbeelden zijn de samenvattingen uit Clinical Evi-
dence die regelmatig in het British Medical Journal staan, de serie over
rationeel lichamelijk onderzoek uit het Journal of the Americal Medical
Association, de Patient-Oriented Evidence that Matters (poems) in het
Journal of Family Practice en de speciale Cochranerubrieken in het
Nederlandse Huisarts en Wetenschap, Tijdschrift voor Fysiotherapie en het
Nederlands Tijdschrift voor Geneeskunde.

Internetrubrieken
Ook is er een aantal websites op internet die iedere maand of iedere
twee maanden met nieuw materiaal komen en een bezoek de moeite
waard maken. De artikelen met commentaar (CATs (critically apprai-
sed topics), poems, ACP Journal Club) hebben dezelfde opzet als de
eerdergenoemde evidence-based tijdschriften: een korte samenvatting
met deskundig commentaar op validiteit en relevantie van het artikel.

Overige aanraders
In Bandolier worden artikelen kort besproken, de gegevens zeer over-
zichtelijk gepresenteerd en er wordt vaak een duidelijk advies gegeven.
Ook kan als manier van bijblijven per aflevering van de Cochrane Data-
base of Systematic Reviews (verschijnt viermaal per jaar) of in Clinical
Evidence worden gekeken welke nieuwe reviews op het eigen vakgebied
verschenen zijn.
Helemaal zonder tijdschriften kunt u overigens niet. Goede ideeën
ontstaan immers meestal niet door gericht zoeken, maar door toeval-
lig iets te horen of te lezen

3.6 Conclusie

Het zoeken van evidence-based literatuur is een hoeksteen van de


EBM-aanpak. Het is nuttig en efficiënt om waar mogelijk uit te gaan
van geaggregeerde informatiebronnen. Richtlijnen en systematische
reviews zijn daarbij belangrijk, naast een aantal specifieke synopses.
Er bestaat een aantal intelligente metazoeksystemen die voor de be-
handelaar in een aantal bronnen zoeken en deze volgens de regels van
de piramide van evidence-synthese keurig voorsorteren.
3 Zoeken en selecteren van literatuur 53

Naast het gericht zoeken wordt ook het evidence-based bijblijven


steeds meer door methodologie en systemen ondersteund.

Literatuur

Etten F van, Deurenberg R. Praktische handleiding PubMed, 2e druk. Houten: Bohn


Stafleu van Loghum, 2008.
Everdingen, JJE van, Burgers JS, Assendelft WJJ. Evidence-based richtlijnontwikkeling.
Een leidraad voor de praktijk. Houten: Bohn Stafleu van Loghum, 2004.
Overzicht inhoud methodologische filters PubMed: http://www.ncbi.nlm.nih.gov/
entrez/query/static/clinicaltable.html
Straus SE, Richardson WS, Glasziou P, Haynes RB. Evidence-based medicine: How to
practice and teach EBM. 2. How to find current best evidence and how tot have
current best evidence find us, 3rd edition. Edinburgh: Churchill Livingstone, 2005.
Kritisch beoordelen van een 4
artikel

4.1 Inleiding

M. Offringa, W.J.J. Assendelft en R.J.P.M. Scholten

Na het stellen van een goed geformuleerde klinische vraag en na


toepassing van een daarop toegesneden zoekactie hebben we de
informatie getraceerd waarin het antwoord op deze vraag mogelijk
ligt opgesloten. De volgende stap is nu om het artikel te lezen en de
informatie kritisch te beoordelen. Deze evaluatie valt uiteen in de
beoordeling van de validiteit, het belang van de resultaten en de toe-
pasbaarheid ervan.

Validiteit
De validiteit ofwel de geldigheid van de informatie wordt het eerst
beoordeeld, omdat het weinig zin heeft met de resultaten van een
onderzoek te gaan werken als men niet voldoende zeker is dat de
resultaten bruikbaar zijn. Vrijwel alle soorten klinisch-wetenschappe-
lijk onderzoek kunnen door tekortkomingen in de opzet of uitvoering
geplaagd worden door verstorende factoren. Als niet scherp wordt
opgelet, kunnen deze verstorende factoren de resultaten soms flink
vertekenen. Indien er aanzienlijke systematische vertekening is opge-
treden, zijn de resultaten niet bruikbaar.
Informatie die inzicht geeft in de methodologische betrouwbaarheid
van een onderzoek is te vinden in de methodenparagraaf van een
artikel. Hierin wordt beschreven hoe de onderzoekers systematische
vertekening van het onderzoek hebben geprobeerd uit te bannen.
Hieruit kan dan – soms met enige fantasie – worden afgeleid hoe
groot de kans is dat de resultaten bewust of onbewust zijn beı̈nvloed
door de onderzoekers of door de patiënten. Deze beoordeling is vaak
een complexe zaak. Al te vaak zijn de antwoorden op de ‘klassieke’
vragen over de gebruikte methodologie niet te beantwoorden op
grond van de informatie in het gepubliceerde artikel. Men moet dan
4 Kritisch beoordelen van een artikel 55

per situatie het belang van de validiteitsvraag inschatten en op zoek


gaan naar aanwijzingen voor het feit of er al dan niet iets onregel-
matigs is gebeurd. Het is dan ook niet verwonderlijk dat twee beoor-
delaars soms van mening verschillen over de validiteit van de ge-
bruikte onderzoeksopzet en uitvoering. Belangrijk is echter dat kan
worden besloten of het onderzoekontwerp ‘fatale’ fouten bevat, die
het gebruik van de resultaten onmogelijk maken.

Belang
Indien is vastgesteld dat het zojuist beoordeelde onderzoek in opzet en
uitvoering valide is, kan worden overgegaan op de beoordeling van het
belang van de resultaten. De gepresenteerde uitkomsten moeten ui-
teraard relevant zijn voor de patiënt. ‘Resultaat’ bestaat uit de schat-
ting van het effect en de precisie van deze schatting (uitgedrukt met
behulp van een 95% betrouwbaarheidsinterval). Het effect wordt be-
schreven met behulp van een effectmaat (associatiemaat). Voor de
verschillende typen onderzoek bestaan verschillende effectmaten.
De interpretatie daarvan komt in de navolgende paragrafen van dit
hoofdstuk uitvoerig aan de orde.

Toepasbaarheid
Na beoordeling van de validiteit en het belang van de resultaten van
een onderzoek is er altijd de discussie in hoeverre de resultaten toe-
pasbaar zijn op andere dan de in het onderzoek betrokken patiënten.
Het betreft hier niet de interne validiteit van het onderzoek, maar de
externe validiteit, ofwel de toepasbaarheid van de resultaten. In de
volgende paragrafen van dit hoofdstuk wordt hierop uitgebreid inge-
gaan. Een algemene bespreking van de toepasbaarheid is daarnaast
ook nog opgenomen in hoofdstuk 7.

Dit hoofdstuk
In de volgende paragrafen worden criteria aangereikt voor het beoor-
delen van de validiteit en het interpreteren van de resultaten van
primair onderzoek. De beoordeling van secundair onderzoek (syste-
matische reviews) wordt in hoofdstuk 5 behandeld en de beoordeling
van richtlijnen in hoofdstuk 6.
In dit hoofdstuk komen achtereenvolgens de verschillende domeinen
die in de evidence-based medicine onderscheiden worden, aan de
orde: diagnose, prognose, therapie, bijwerkingen en etiologie. Ook
wordt aandacht besteed aan screening. Het hoofdstuk wordt afgeslo-
ten met een paragraaf over het beoordelen en interpreteren van on-
derzoek over de ontwikkeling van meetinstrumenten (klinimetrie).
56 Inleiding in evidence-based medicine

Alle checklists die in de volgende paragrafen gepresenteerd worden,


zijn te downloaden van www.pico.nu.

4.2 Diagnose

R.J.P.M. Scholten, M. Offringa en B. Aertgeerts

4.2.1 inleiding
Nadat een patiënt zich met een klacht bij de arts heeft aangemeld, is
een van de eerste doelen het stellen van een diagnose. Aan de hand van
een diagnose kan een uitspraak worden gedaan over de prognose,
zodat een patiënt weet wat hij kan verwachten, en kan het beleid
worden bepaald (verdere diagnostiek, verwijzen, afwachten, behan-
delen).
Voor het stellen van een juiste diagnose is uiteraard een valide diag-
nostische test nodig. ‘Diagnostische test’ kan van alles betekenen:
patiëntkenmerken (leeftijd, geslacht), anamnesevragen (hemoptoë,
doorzakgevoel van de knie), bevindingen bij lichamelijk onderzoek
(cachexie, positieve voorstekruisladetest), laboratoriumonderzoek
(verhoogde bezinking) en beeldvormende diagnostiek (onregelmatige
schaduw op de thoraxfoto). Een test die de aanwezigheid van een
ziekte of aandoening met maximale zekerheid kan aantonen, wordt
‘gouden standaard’ genoemd. Voorbeelden hiervan zijn het aantonen
van een longcarcinoom bij obductie of in een biopt en het vaststellen
van een voorstekruisbandruptuur van de knie door middel van artro-
scopie. In werkelijkheid is geen enkele test perfect: ook bij biopten
kan een diagnose worden gemist. Daarom spreekt men liever van
‘referentiestandaard’ of ‘referentietest’. Dit geeft aan dat deze test op
dit moment de meest aanvaardbare standaardtest is voor een bepaald
ziektebeeld of aandoening. Het toepassen van de referentietest is
echter niet altijd mogelijk of wenselijk: de referentietest kan te ge-
vaarlijk zijn, te moeilijk of te duur, de uitslag ervan kan te lang op zich
laten wachten of de referentietest is beperkt beschikbaar. In plaats van
deze referentietest of gouden standaard worden daarom vaak andere
diagnostische tests uitgevoerd die de waarheid zo goed mogelijk pro-
beren te achterhalen. Deze tests zijn meestal minder invasief, minder
duur of minder belastend voor de patiënt.
Diagnostische tests dienen de gouden standaard zo goed mogelijk te
benaderen om de diagnostische onzekerheid te reduceren. De waarde
van een diagnostische test voor het aantonen van een bepaalde aan-
doening wordt meestal onderzocht in een groep van opeenvolgende
patiënten waarin een bepaalde diagnose wordt vermoed. Alle patiën-
4 Kritisch beoordelen van een artikel 57

ten ondergaan de diagnostische test (in dit kader indextest genoemd)


en de referentietest. De referentietest geeft aan of de patiënt wel of niet
de vermoede aandoening heeft. Het resultaat van beide tests (positief
of negatief ) wordt onafhankelijk van elkaar vastgesteld. Vervolgens
worden de resultaten van de indextest vergeleken met die van de
referentietest en wordt de diagnostische waarde van de indextest uit-
gedrukt met behulp van verschillende parameters die iets zeggen over
de mate van overeenkomst van de indextest met de referentietest. Dit
zijn de sensitiviteit (proportie personen met een positieve indextest
onder de personen met de aan te tonen aandoening) en de specificiteit
(proportie personen met een negatieve indextest onder de personen
zonder de aan te tonen aandoening).
Bij het bepalen van de toepasbaarheid van de indextest moet men goed
nagaan, wat de plaats is van de test in het diagnostische proces. Gaat
het om een screenings- of triagetest, moet de nieuwe test een be-
staande test vervangen of wordt de nieuwe test ingezet na het uitvoe-
ren van een serie andere diagnostische tests? Voor iedere situatie dient
de juiste onderzoekspopulatie gekozen te zijn en dienen de eigen-
schappen van de indextest te voldoen aan andere voorwaarden.

4.2.2 beoordeling van een onderzoek naar de


waarde van een diagnostische test
De beoordeling van een onderzoek van een diagnostische test valt
uiteen in de beoordeling van de validiteit ervan, het belang van de
uitkomsten en de toepasbaarheid van de resultaten.

Validiteit
1 Valide referentietest
De referentietest dient zo goed mogelijk aan te tonen of iemand in
werkelijkheid de aandoening heeft of niet. De keuze van de referen-
tietest is soms echter problematisch. Soms zal men genoegen moeten
nemen met een minder valide referentietest. Bij afwezigheid van een
gouden standaard wordt een indextest vaak vergeleken met de test die
op dat moment het meest aanvaard wordt als beste voorhanden zijnde
test of wordt het langetermijnbeloop van de aandoening als referentietest
gebruikt. Uitkomsten van verschillende onderzoeken naar de waarde
van dezelfde diagnostische test kunnen onderling verschillen, omdat
verschillende referentietests zijn gebruikt. Indien geen valide referen-
tietest voorhanden is, kan dit leiden tot zowel een overschatting als
onderschatting van de eigenschappen van de indextest. Ook moeten in
het onderzoeksverslag duidelijke criteria vermeld zijn waarvoor men
het resultaat van de referentietest positief of negatief duidt.
58 Inleiding in evidence-based medicine

2 Onafhankelijke (blinde) vergelijking van de indextest met de


referentietest
Beide tests moeten onafhankelijk van elkaar (blind) worden beoor-
deeld. Dit betekent dat degene die de referentietest beoordeelt, geen
kennis mag hebben van het resultaat van de indextest en vice versa. Zo
mag de artroscopist bijvoorbeeld niet weten wat het resultaat was van
de voorsteschuifladetest (= indextest). Weet hij dat de voorsteschui-
fladetest positief was, dan zal hij geneigd zijn een twijfelachtige be-
vinding bij artroscopie eerder als positief (aanwezigheid van een
voorstekruisbandruptuur) te duiden. Gebeurt de beoordeling van
beide tests niet onafhankelijk van elkaar, dan zal dit in de regel leiden
tot een kunstmatig hogere overeenstemming van de indextest met de
referentietest (review bias).

3 Beoordeling van de indextest onafhankelijk van andere informatie


die sterk samenhangt met de werkelijke ziektestatus van de patiënt
Indien de beoordelaar van de indextest beschikt over klinische infor-
matie die zo sterk gerelateerd is met de werkelijke ziektestatus van de
patiënt dat hij de diagnose eigenlijk al in handen heeft, dan kan dit
leiden tot een vertekende beoordeling van de indextest en daardoor
tot een kunstmatig hogere overeenstemming met de referentietest. Zo
zal een orthopedisch chirurg een twijfelachtige voorstekruisladetest
(indextest) eerder als positief beoordelen, als hij weet dat er bij zijn
patiënt een haemarthros aanwezig is, een bevinding die sterk gerela-
teerd is met de aanwezigheid van een voorstekruisbandruptuur.
De beoordelaar van de indextest mag wel over andere klinische in-
formatie beschikken; het gaat bij dit item alleen om informatie waaruit
hij de werkelijke ziektestatus van de patiënt met grote zekerheid kan
afleiden.

4 Uitvoering van de referentietest onafhankelijk van de uitslag van


de indextest
De indextest en de referentietest moeten beide bij alle patiënten zijn
uitgevoerd. Soms is de referentietest veel te duur, te invasief of zijn er
organisatorische moeilijkheden, zodat het onmogelijk is om deze toe
te passen bij alle bij het onderzoek betrokken patiënten. Indien dat het
geval is, is het mogelijk dat de keuze om de referentietest al dan niet
uit te voeren samenhangt met de uitslag van de indextest. Men spreekt
dan van partiële verificatie. Zo kunnen bijvoorbeeld alle indextest-
positieven verwezen zijn voor het ondergaan van de referentietest,
maar niet alle indextest-negatieven. Indien patiënten aldus op basis
van de uitslag van de indextest verwezen zijn voor bevestiging met de
4 Kritisch beoordelen van een artikel 59

referentietest, worden de verhoudingen tussen de verschillende cate-


gorieën verstoord. De steekproef is dan ‘opgewerkt’ (work-up bias),
hetgeen een vertekend beeld geeft van de diagnostische waarde van de
indextest: de sensitiviteit wordt overschat en de specificiteit onder-
schat.
Het onderzoek is wel valide als de referentietest is uitgevoerd bij alle
indextest-positieven en bij een aselecte steekproef van de indextest-
negatieven. Bij het berekenen van de diagnostische parameters moe-
ten de onderzoekers dan wel gecorrigeerd hebben voor het nemen van
deze steekproef, want anders wordt ook in deze situatie de sensitiviteit
van de indextest overschat en de specificiteit onderschat.
Een andere oplossing is het (mede) toepassen van een alternatieve,
algemeen geaccepteerde referentietest voor de indextest-negatieven,
bijvoorbeeld het al dan niet optreden van de onderzochte ziekte tijdens
een voldoende lange follow-up. Als echter de eigenschappen van de
beide referentietests sterk verschillen en op verschillende wijze tot
misclassificatie aanleiding kunnen geven, kan ook in deze situatie
vertekening optreden. Men spreekt dan van differentiële verificatie.
Wees op uw hoede als er nauwelijks patiënten met een negatieve
indextest in het onderzoek zijn opgenomen. Waarschijnlijk heeft er
dan al vóór het onderzoek een selectie plaatsgevonden.

5 Valide selectie van patiënten voor het onderzoek


Het is van belang dat er vóór inclusie van patiënten in het onderzoek
geen selectie is opgetreden. Wanneer patiënten vanuit de bronpopu-
latie opeenvolgend of op basis van een aselecte steekproef toegelaten
worden tot het onderzoek, is dit valide. Indien niet met opeenvolgende
patiënten of met een aselecte steekproef is gewerkt, kan het zijn dat er
bewust of onbewust geselecteerd is op klinische kenmerken die het
moeilijker of juist eenvoudiger (meestal eenvoudiger) maken om met
de index of referentietest een juiste diagnose te stellen.

6 Ziektekenmerken van de onderzochte personen (spectrum)


Dit item gaat over het spectrum (de ernst, het stadium en de duur van
een aandoening, de setting en de patiëntkenmerken) van zowel de
zieken als de niet-zieken. De waarde van de indextest dient onderzocht
te zijn in een relevante en representatieve groep personen zoals men
die in de praktijk ook zou tegenkomen. Onderzoeken waarin ernstig
zieke patiënten worden vergeleken met gezonde vrijwilligers zijn van
weinig waarde. Iedere indextest zal het in een dergelijke situatie
immers uitstekend doen. De ernst, het stadium en de duur van de
klachten bij de zieken in het onderzoek moeten overeenkomen met de
60 Inleiding in evidence-based medicine

ernst, het stadium en de duur van de klachten bij de patiënten bij wie
men de indextest wil gaan toepassen. De groep niet-zieken in het
onderzoek moet bij voorkeur bestaan uit personen met aandoeningen
die in de praktijk gemakkelijk tot verwarring met de onderzochte
aandoening leiden. Is in een bepaalde setting normaliter sprake van
een breed ziektespectrum en wordt de indextest louter onderzocht bij
personen met een relatief ernstige vorm van de ziekte, dan zullen de
eigenschappen van de indextest doorgaans te gunstig zijn (overschat
worden) voor de onderzochte setting.
Aspecten waarop bij de beoordeling kan worden gelet zijn het spec-
trum van ziekte (bijv. tumorstadium zoals vastgesteld met de referen-
tietest), het spectrum van de niet-zieken, de setting (eerste lijn, tweede
lijn, polikliniek, opgenomen patiënten), de duur van de klachten
voorafgaand aan de tests, de aard en resultaten van voorafgaande tests
en demografische gegevens, zoals leeftijd en geslacht.

7 Niet-interpreteerbare testresultaten
In sommige situaties levert de indextest niet altijd duidelijke resultaten
op. Als dergelijke slecht te duiden resultaten uit het onderzoek worden
weggelaten en de diagnostische parameters worden berekend aan de
hand van de overgebleven patiënten met een goed te duiden testre-
sultaat, dan worden de noemers te klein waardoor de sensitiviteit en
specificiteit van de indextest overschat worden. Het is dan ook van
belang dat de slecht interpreteerbare resultaten in ieder geval gerap-
porteerd zijn, zodat men een inschatting kan maken van het effect
ervan op de resultaten van het onderzoek.

8 Selectieve uitval
Soms volgen niet alle patiënten het volledige protocol van het onder-
zoek en vallen zij uit de studie voordat de resultaten van de indextest,
de referentietest of beide bekend zijn. Hierdoor kan het ziektespec-
trum van de onderzochte patiënten beı̈nvloed worden (zie item 6) en
kunnen de resultaten vertekenen. Inzicht in de patiëntenstroom en
een beschrijving van de uitvallers is nodig om de kans op vertekening
te kunnen inschatten. Vaak echter wordt uitval slecht of helemaal niet
gerapporteerd.

Overige kwaliteitsaspecten
De hiervoor opgesomde kwaliteitsitems zijn belangrijke bronnen van
heterogeniteit of vertekening. Zij zijn afkomstig uit QUADAS, een ge-
valideerd instrument voor het bepalen van de methodologische kwa-
liteit van een diagnostisch accuratesseonderzoek. Het instrument be-
4 Kritisch beoordelen van een artikel 61

vat ook andere items die mogelijk tot vertekening kunnen leiden en
waarmee eventueel rekening gehouden moet worden. Hieronder val-
len een adequate beschrijving van de indextest (aanwijzingen voor de
uitvoering van de indextest, de interpretatie van de testuitslag (defi-
nitie van het afkappunt), de voorbereiding van de patiënt, benodigde
ervaring van de uitvoerders van de test, reproduceerbaarheid van de
test, etc.), tijd tussen het uitvoeren van de indextest en de referentie-
test (mogelijk is de ziektestatus van de patiënt ondertussen gewijzigd)
en ‘incorporatiebias’ (de indextest maakt deel uit van de referentie-
test). Voor een volledige beschrijving van het QUADAS-instrument
wordt naar de desbetreffende literatuur verwezen.

Beoordelingscriteria
(checklist beschikbaar op www.pico.nu)

Validiteit
1 Valide referentietest (gouden standaard)
2 Onafhankelijke (blinde) vergelijking van de indextest met de
referentietest
3 Beoordeling van de indextest onafhankelijk van andere infor-
matie die sterk samenhangt met de werkelijke ziektestatus van
de patiënt
4 Uitvoering van de referentietest onafhankelijk van de uitslag
van de indextest
5 Valide selectie van patiënten voor het onderzoek
6 Ziektekenmerken van de onderzochte personen (spectrum)
7 Niet-interpreteerbare testresultaten
8 Selectieve uitval

Belang
1 Diagnostische waarde van de indextest
2 Precisie van de geschatte diagnostische parameters

Toepasbaarheid
1 Geschiktheid van de diagnostische test voor uw patiënt
2 Inschatting van de voorafkans op ziekte voor uw patiënt
3 Doel van de test
4 Beı̈nvloeding van uw handelwijze door de verkregen achteraf-
kans
5 Belasting door de test
62 Inleiding in evidence-based medicine

Belang
1 Diagnostische waarde van de indextest
Indien we te maken hebben met een valide onderzoek naar de waarde
van een diagnostische indextest, moet worden vastgesteld hoe goed de
indextest de aan- of afwezigheid van de onderzochte aandoening kan
voorspellen. Wordt de onderzochte indextest gemeten op een dicho-
tome schaal (het testresultaat is positief of negatief), dan kunnen de
resultaten worden samengevat in een 2 6 2 tabel (tabel 4.1). Wordt de
onderzochte indextest gemeten op een continue schaal (bijv. het se-
rumglucosegehalte), dan dient eerst een afkappunt gekozen te zijn
voor het positief duiden van de indextest (zie hierna).
Voor de kwantificering van het diagnostische onderscheidingsvermo-
gen van de indextest zijn verschillende parameters beschikbaar (zie
tabel 4.1) die hierna worden besproken. Als voorbeeld nemen we een
onderzoek waarin de waarde van de voorsteschuifladetest wordt on-
derzocht voor het vaststellen van een voorstekruisbandruptuur van de
knie, vastgesteld met de referentietest artroscopie (tabel 4.2).
De sensitiviteit van de test is de proportie positieve indextestresultaten
onder de zieken (in ons voorbeeld de proportie personen met een
positieve voorsteschuifladetest onder de patiënten met een voorste-
kruisbandruptuur). De sensitiviteit van een test geeft dus aan welke
proportie (of welk percentage) van de zieken inderdaad een positieve
indextestuitslag heeft en dus door de indextest terecht als ziek ge-
classificeerd wordt. In ons voorbeeld bedraagt de sensitiviteit van de
voorsteschuifladetest voor het aantonen van een voorstekruisband-
ruptuur 39/58 = 0,67 (ofwel 67%): 67% van de personen met een
voorstekruisbandruptuur heeft inderdaad een positieve voorsteschui-
fladetest (terecht-positieven) en 33% van de voorstekruisbandrupturen
wordt dus door de voorsteschuifladetest gemist (fout-negatieven).
De specificiteit van een test is de proportie negatieve indextestresultaten
onder de niet-zieken (in ons voorbeeld de proportie personen met een
negatieve voorsteschuifladetest onder de personen zonder voorste-
kruisbandruptuur). De specificiteit van een test geeft dus aan welke
proportie (of welk percentage) van de niet-zieken inderdaad een ne-
gatieve indextestuitslag heeft en dus door de indextest terecht als niet-
ziek geclassificeerd wordt. In ons voorbeeld is de specificiteit van de
voorsteschuifladetest voor het aantonen van de afwezigheid van een
voorstekruisbandruptuur 14/16 = 0,88 (ofwel 88%): 88% van de per-
sonen zonder voorstekruisbandruptuur heeft inderdaad een negatieve
voorsteschuifladetest (terecht-negatieven) en 12% van de personen
zonder voorstekruisbandruptuur wordt dus door de voorsteschuif-
ladetest onterecht als ziek geduid (fout-positieven).
4 Kritisch beoordelen van een artikel 63

Tabel 4.1 Berekening van de parameters voor het kwantificeren van de waarde van een diagnostische
test (EXP[x] betekent: het natuurlijke getal e verheffen tot de macht x).
notatie ziekte (vastgesteld m.b.v. de
referentiestandaard)

ziek niet ziek totaal

uitslag indextest + a b a+b

uitslag indextest – c d c+d

totaal a+c b+d a+b+c+d

parameter berekening 95%-betrouwbaarheidsinterval

sensitiviteit (Se) = proportie positieve a / (a + c) Se ± 1,96 * H [ ac / (a + c)3 ]


indextestresultaten onder de zieken
(terecht-positieven)

specificiteit (Sp) = proportie negatieve d / (b + d) Sp ± 1,96 * H [ bd / (b + d)3 ]


indextestresultaten onder de niet-zieken
(terecht-negatieven)

voorafkans op de aanwezigheid van ziekte (a + c) / Pr ± 1,96 * H [(a + c) * (b + d) /


= prevalentie van ziekte (Pr) (a + b + c + d) (a + b + c + d)3 ]

voorspellende waarde positieve test a / (a + b) VW+ ± 1,96 * H [ ab / (a + b)3 ]


(VW+) = proportie zieken onder de per-
sonen met een positieve uitslag op de
indextest = achterafkans op aanwezigheid
van ziekte

voorspellende waarde negatieve test d / (c + d) VW– ± 1,96 * H [ cd / (c + d)3 ]


(VW–) = proportie niet-zieken onder de
personen met een negatieve uitslag op de
indextest = achterafkans op afwezigheid
van ziekte

likelihood-ratio positieve test (LR+) = (a / (a + c)) / EXP [ LN(LR+) ± 1,96 * H [ 1/a –


verhouding tussen de kans op een posi- (b / (b + d)) = 1/(a+c) + 1/b – 1/(b+d) ] ]
tieve uitslag op de indextest bij zieken en Se / (1–Sp)
die bij niet-zieken

likelihood-ratio negatieve test (LR–) = (c / (a + c)) / EXP [ LN(LR–) ± 1,96 * H [ 1/c –


verhouding tussen de kans op een nega- (d / (b + d)) = 1/(a+c) + 1/d – 1/(b+d) ] ]
tieve uitslag op de indextest bij zieken en (1–Se) / Sp
die bij niet-zieken

Sensitiviteit en specificiteit geven een beeld over de verdeling van de


indextestresultaten bij zieken en niet-zieken. Deze parameters zijn
echter voor de praktijk van weinig belang. Een arts ziet een patiënt met
een positief of een negatief testresultaat. Belangrijk om te weten is dan
hoeveel kans er bestaat dat deze patiënt ook werkelijk de ziekte heeft
of niet. Hiervoor zijn dus parameters nodig die iets over de patiënt
64 Inleiding in evidence-based medicine

Tabel 4.2 Bevindingen van een onderzoek naar de waarde van de voorsteschuifladetest voor het
vaststellen van een voorstekruisbandruptuur (prevalentie voorstekruisbandruptuur 78%).
voorstekruisbandruptuur
(vastgesteld d.m.v. artroscopie)

aanwezig afwezig totaal

voorsteschuifladetest + 39 2 41

voorsteschuifladetest – 19 14 33

totaal 58 16 74

Sensitiviteit = 39/58 = 0,67


Specificiteit = 14/16 = 0,88
Voorafkans op aanwezigheid van voorstekruisbandruptuur = 58/74 = 0,78
Voorafkans op afwezigheid van voorstekruisbandruptuur = 16/74 = 0,22
Voorspellende waarde positieve voorsteschuifladetest (VW+) = 39/41 = 0,95
Voorspellende waarde negatieve voorsteschuifladetest (VW–) = 14/33 = 0,42
Likelihood-ratio positieve voorsteschuifladetest (LR+) = 0,67 / 0,12 = 5,38
Likelihood-ratio negatieve voorsteschuifladetest (LR–) = 0,33 / 0,88 = 0,37
Bron: Richter et al. 1996;99:12-49.

zeggen: de voorspellende waarden van de indextest. De voorspellende


waarde van een positief indextestresultaat (positief voorspellende waarde)
is de proportie zieken onder de personen met een positieve uitslag op
de indextest (in ons voorbeeld de proportie patiënten onder de per-
sonen met een positieve voorsteschuifladetest die inderdaad een
voorstekruisbandruptuur hebben). De voorspellende waarde van een
negatief indextestresultaat (negatief voorspellende waarde) is de proportie
niet-zieken onder de personen met een negatieve uitslag op de index-
test (in ons voorbeeld de proportie personen onder de personen met
een negatieve voorsteschuifladetest die inderdaad geen voorstekruis-
bandruptuur hebben).
Deze voorspellende waarden zijn op te vatten als achterafkansen (pos-
teriorkansen) op respectievelijk de aan- en afwezigheid van ziekte. In
ons voorbeeld is de achterafkans op een voorstekruisbandruptuur bij
personen met een positieve voorsteschuifladetest 39/41 = 0,95 (ofwel
95%). De voorafkans op een voorstekruisbandruptuur is de prevalentie
(het vóórkomen) van voorstekruisbandruptuur onder de onderzochte
patiënten (58/74 = 0,78, ofwel 78%). Bij een positieve voorsteschui-
fladetest stijgt de kans op een voorstekruisbandruptuur daardoor van
78% naar 95%. De voorafkans op de afwezigheid van een voorste-
kruisbandruptuur is in dit voorbeeld 0,22 (16/74), en de achterafkans
0,42 (14/33). Bij een negatieve voorsteschuifladetest stijgt de kans op
4 Kritisch beoordelen van een artikel 65

afwezigheid van een voorstekruisbandruptuur daardoor van 22% naar


42%.
De voorspellende waarden van de indextest zijn echter sterk afhanke-
lijk van de prevalentie van de onderzochte aandoening in de groep
personen bij wie de test wordt uitgevoerd. Wordt de voorsteschuifla-
detest toegepast (met dezelfde sensitiviteit en specificiteit) in een set-
ting met een lagere prevalentie van voorstekruisbandruptuur (bijv. de
huisartspraktijk), dan veranderen de voorspellende waarden. In tabel
4.3 bedraagt de prevalentie van voorstekruisbandruptuur slechts 7%.
De voorspellende waarde van een positieve voorsteschuifladetest
wordt dan 28% en de voorspellende waarde van een negatieve voor-
steschuifladetest 97%. In deze setting neemt de diagnostische zeker-
heid op een voorstekruisbandruptuur toe van 7% tot 28% in geval van
een positieve voorsteschuifladetest, een niet erg relevante toename.
Ook een negatieve voorsteschuifladetest levert weinig diagnostische
winst op: de kans op afwezigheid van een voorstekruisbandruptuur
neemt toe van 93% naar 97%. De relatie van voorafkans (prevalentie)
en achterafkans op grond van het resultaat van de voorsteschuiflade-
test is weergegeven in figuur 4.1. De grootste ‘diagnostische winst’
wordt doorgaans geboekt in situaties met een voorafkans (prevalentie)
tussen de 30% en 70%. Bij lagere of hogere voorafkansen voegt het
testresultaat vaak niet veel toe aan de klinische (on)zekerheid.

Tabel 4.3 Bevindingen van een onderzoek naar de waarde van de voorsteschuifladetest voor het
vaststellen van een voorstekruisbandruptuur (prevalentie voorstekruisbandruptuur 7%).
voorstekruisbandruptuur
(vastgesteld d.m.v. artroscopie)

aanwezig afwezig totaal

voorsteschuifladetest + 39 100 139

voorsteschuifladetest – 19 700 719

totaal 58 800 858

Sensitiviteit = 39/58 = 0,67


Specificiteit = 700/800 = 0,88
Voorafkans op aanwezigheid van voorstekruisbandruptuur = 58/858 = 0,07
Voorafkans op afwezigheid van voorstekruisbandruptuur = 800/858 = 0,93
Voorspellende waarde positieve voorsteschuifladetest (VW+) = 39/139 = 0,28
Voorspellende waarde negatieve voorsteschuifladetest (VW–) = 700/719 = 0,97
Likelihood-ratio positieve voorsteschuifladetest (LR+) = 0,67 / 0,12 = 5,38
Likelihood-ratio negatieve voorsteschuifladetest (LR–) = 0,33 / 0,88 = 0,37
66 Inleiding in evidence-based medicine

1,0

achterafkans op voorstekruisbandruptuur
0,9 s t
ete
ad
0,8 u ifl
h
sc
te

s
0,7

or
vo
ve
0,6

n
ie

lij

st
sit

le

te
ra
po

de
0,5

ut

fla
ne

ui
0,4

ch
es
st
0,3 or
vo
ve
ie
0,2 gat
ne
0,1

0,0
0

0
0,

0,
0,

0,

1,
0,
0,

0,
0,

0,
0,

voorafkans op voorstekruisbandruptuur
(prevalentie)

Figuur 4.1 Relatie tussen de voorafkans op een voorstekruisbandruptuur (pre-


valentie) en de achterafkans bij een positieve en negatieve voorsteschuifladetest
(sensitiviteit = 0,67; specificiteit = 0,88).

Bron: Scholtern RJ et al. J Fam Pract 2003;52:689-95.

Als laatste parameters worden ook wel likelihood-ratio’s (aannemelijk-


heidsverhoudingen) gerapporteerd. Sommige clinici en onderzoekers
kunnen hiermee goed werken, andere hebben moeite met de inter-
pretatie ervan. De likelihood-ratio van een positieve test (LR+) is de ver-
houding tussen de kans op een positieve uitslag op de indextest bij
personen mét de ziekte en de kans op een positieve testuitslag bij
personen zonder de ziekte. Een test met een LR-waarde van 1 is niet
informatief. Een diagnostische test is informatiever naarmate de LR+
groter wordt (naar oneindig gaat). Bij een positieve uitslag van een
indextest met een grote LR+ is het ‘aannemelijker’ dat we met een
zieke te maken hebben dan met een niet-zieke. Een test met een
LR+-waarde van oneindig noemt men ‘pathognomonisch’ voor de
ziekte. De likelihood-ratio van een negatieve test (LR–) is de verhouding
tussen de kans op een negatieve uitslag op de indextest bij personen
mét de ziekte en de kans op een negatieve testuitslag bij personen
zonder de ziekte. Een test met een LR–-waarde van 1 is wederom niet
informatief. Een diagnostische test is informatiever naarmate de LR–
kleiner wordt (dichter tot 0 nadert). Bij een negatieve uitslag van een
4 Kritisch beoordelen van een artikel 67

indextest met een kleine LR– is het veel minder ‘aannemelijk’ dat we
met een zieke te maken hebben dan met een niet-zieke. Een negatieve
uitslag van een test met een LR–-waarde van 0 sluit de ziekte volledig
uit.
Met behulp van een likelihood-ratio kunnen voorafkansen (prevalen-
ties) worden omgezet in achterafkansen. De berekeningen hiervoor
lopen via odds (zie kader). Voor het berekenen van een achterafkans op

Likelihood-ratio / odds
Met behulp van een likelihood-ratio kunnen voorafkansen (prevalenties) worden
omgezet in achterafkansen. De berekeningen hiervoor lopen via odds. De odds
is de verhouding tussen de kans op het optreden van een gebeurtenis en het niet-
optreden ervan. De volgende vergelijkingen zijn van toepassing:

pretest odds = voorafkans / (1 – voorafkans)


posttest odds = LR * pretest odds

Deze laatste formule is voor het eerst beschreven door de Engelse dominee
Bayes in de zeventiende eeuw. Men noemt de formule dan ook het theorema van
Bayes. Van de posttest odds komt men weer als volgt op de achterafkans:

achterafkans = posttest odds / (posttest odds + 1)

Toegepast op het voorbeeld van tabel 4.2:

Voorafkans op aanwezigheid van voorstekruisbandruptuur = 0,78


Odds op aanwezigheid van voorstekruisbandruptuur = 0,78 / (1 – 0,78) = 3,55

Likelihood-ratio positieve voorsteschuifladetest (LR+) = 5,38


Posttest odds = 5,38 * 3,55 = 19,1
Achterafkans op aanwezigheid van voorstekruisbandruptuur =
19,1 / (19,1 + 1) = 0,95

Likelihood-ratio negatieve voorsteschuifladetest (LR–) = 0,37


Posttest odds = 0,37 * 3,55 = 1,31
Achterafkans op aanwezigheid van voorstekruisbandruptuur =
1,31 / (1,31 + 1) = 0,57

Het berekenen van een achterafkans op grond van een bepaalde LR-waarde en
voorafkans kan ook via het nomogram van figuur 4.2.
68 Inleiding in evidence-based medicine

0,1 99

0,2

0,5 95

1 1000 90
500
2 200 80
100
50 70
5
20 60
10 10 50
5 40
20 2 30
1
30 0,5 20
40 0,2
50 0,1 10
60 0,05
5
70 0,02
0,01
80 0,005 2
0,002
90 0,001 1

95 0,5

0,2

99 0,1
pre-test likelihood- post-test
probability ratio probability

Figuur 4.2 Nomogram voor het berekenen van een achterafkans op ziekte aan de
hand van een likelihood-ratio en een voorafkans. Trek een lijn vanaf de vooraf-
kans (pretest probability) op de linkeras naar het punt op de middelste as dat de
waarde van de likelihood-ratio aangeeft. Het snijpunt van deze lijn met de
rechteras geeft de achterafkans (posttest probability) weer.

Bron: Fagan TJ. N Engl J Med 1975;293:257.

grond van een bepaalde LR-waarde en voorafkans is ook een handig


nomogram beschikbaar (figuur 4.2).

Verschillende afkappunten voor een indextest gemeten op een continue schaal.


Wordt de onderzochte indextest gemeten op een continue schaal (bijv.
het serumglucosegehalte), dan kunnen verschillende afkappunten
worden gekozen voor het positief duiden van de indextest. Aan de
4 Kritisch beoordelen van een artikel 69

hand van deze verschillende afkappunten kunnen vervolgens de ver-


schillende parameters worden berekend op de hiervoor besproken
wijze. In tabel 4.4 staan verschillende afkappunten van het serumglu-
cosegehalte (indextest). Per afkappunt zijn de sensitiviteit en specifi-
citeit berekend voor het stellen van de diagnose diabetes mellitus, die
bepaald is aan de hand van de glucosetolerantietest (referentietest).
Hoe hoger men de grens voor het afkappunt legt, des te lager wordt de
sensitiviteit en des te hoger de specificiteit. Een lager afkappunt heeft
het tegenovergestelde tot gevolg: de sensitiviteit wordt hoger, maar dit
gaat ten koste van de specificiteit. Sensitiviteit en specificiteit zijn dus
negatief gecorreleerd. De relatie tussen sensitiviteit en specificiteit bij
verschillende afkappunten kan worden weergegeven in een zoge-
noemde receiver operating characteristic-curve (ROC-curve; figuur 4.3).
De Y-as geeft de sensitiviteit weer en de X-as het complement van de
specificiteit (1 minus specificiteit). Ieder blokje in de curve represen-
teert per afkappunt de combinatie van de waarden van sensitiviteit en 1
minus specificiteit. Er zijn veertien blokjes en dus veertien afkappun-
ten. Door te schuiven met het afkappunt kan de ‘beste’ combinatie van
sensitiviteit en specificiteit worden afgelezen. Dit is het punt dat het
dichtst in de linker bovenhoek van figuur 4.3 ligt. Bij gebruik van dit
afkappunt is de diagnostische misclassificatie geminimaliseerd – het aan-
tal fout-positieven en fout-negatieven is ‘minimaal’. Dat wil echter niet
zeggen dat dit afkappunt in de praktijk ook gebruikt wordt om
patiënten als ‘(mogelijk) ziek’ en ‘(mogelijk) niet ziek’ te classificeren.
Dit hangt af van de ernst van een gemiste of te laat gestelde diagnose
en de ernst van een ten onrechte afgegeven diagnose bij een patiënt
die de ziekte later toch niet blijkt te hebben. Hoe beter het diagnos-
tische onderscheidingsvermogen van de test, des te groter het opper-
vlak tussen de curve en de diagonaal (area under the curve). Een indextest
met een ROC-curve die in de buurt van de diagonaal (neutrale lijn)
loopt, is niet onderscheidend.

2 Precisie van de geschatte diagnostische parameters


De schattingen van sensitiviteit, specificiteit, voorspellende waarden
en likelihood-ratio’s zijn onderhevig aan toevalsvariatie. Met behulp
van een 95%-betrouwbaarheidsinterval kan de precisie van de schat-
tingen worden bepaald. Het 95%-betrouwbaarheidsinterval is het in-
terval van numerieke waarden waarvan we met 95% zekerheid mogen
aannemen dat de werkelijke waarde van de parameter erin ligt. Hoe
smaller het betrouwbaarheidsinterval, des te preciezer de schatting
van de waarde van de bestudeerde parameter. Een betrouwbaarheids-
interval wordt smaller naarmate er meer patiënten zijn. Kleine onder-
70 Inleiding in evidence-based medicine

Tabel 4.4 Serumglucosegehalte bij 300 personen met en 700 personen zonder diabetes mellitus, en
sensiviteit en specificiteit van het bepalen van het serumglucosegehalte voor het stellen
van de diagnose diabetes mellitus voor verschillende afkappunten.
Voorbeeld (zie kaders): afkappunt 9,0 mmol/l: aantal personen met diabetes mellitus en
serumglucose  9,0 mmol/l = 66 + 31 + 29 + 25 + 16 = 167. Sensitiviteit = 167/300 = 0,56.
Aantal personen zonder diabetes mellitus en serumglucose < 9,0 mmol/l = 4 + 5 + 20 + 30 +
52 + 111 + 166 +155 + 152 = 695. Specificiteit = 695 / 700 = 0,99.
serumglucose diabetes geen diabetes sensitiviteit specificiteit
(in mmol/l)

 11,0 66 0 0,22 1,00

10,5-10,9 31 0 0,32 1,00

10,0-10,4 29 1 0,42 1,00

9,5-9,9 25 1 0,50 1,00

9,0-9,4 16 3 0,56 0,99

8,5-8,9 19 4 0,62 0,99

8,0-8,4 10 5 0,65 0,98

7,5-7,9 16 20 0,71 0,95

7,0-7,4 20 30 0,77 0,91

6,5-6,9 18 52 0,83 0,83

6,0-6,4 13 111 0,88 0,68

5,0-5,9 16 166 0,93 0,44

4,0-4,9 11 155 0,97 0,22

< 4,0 10 152 1,00 0,00

totaal 300 700

zoeken hebben brede betrouwbaarheidsintervallen en leveren weinig


informatie (uitkomsten die minder zeker zijn). Bij de interpretatie van
de resultaten van diagnostisch accuratesseonderzoek dient u rekening
te houden met de door het betrouwbaarheidsinterval aangegeven on-
zekerheidsmarges. Als de gerapporteerde specificiteit van een test
90% bedraagt met een ondergrens van het 95%-betrouwbaarheids-
interval van 67%, dan kan de waarde van deze diagnostische test in de
praktijk nog wel eens tegenvallen.

De formules voor het berekenen van 95%-betrouwbaarheidsinterval-


len zijn vermeld in tabel 4.1. U kunt ook een van de op internet ge-
presenteerde ‘diagnostic calculators’ gebruiken (zie www.pico.nu).
4 Kritisch beoordelen van een artikel 71

1,0

0,9

0,8

0,7
sensitiviteit

0,6

0,5

0,4

0,3

0,2

0,1

0,0
0

0
0,

0,
0,

0,

1,
0,
0,
0,

0,
0,

0,
1 − specificiteit

Figuur 4.3 Receiver operating characteristic-curve (ROC-curve) van de relatie


tussen sensitiviteit en het complement van specificiteit (1 minus specificiteit) van
het bepalen van het serumglucosegehalte voor het stellen van de diagnose diabetes
mellitus bij veertien verschillende afkappunten (gegevens van tabel 4.4). Ieder
blokje representeert een afkappunt.

Toepasbaarheid
1 Geschiktheid van de diagnostische test voor uw patiënt
De kenmerken van de patiënt bij wie u de test wilt toepassen, moeten
voldoende overeenkomen met die van de in het onderzoek betrokken
patiënten. Indien de kenmerken van de onderzochte groep aanzienlijk
afwijken van de kenmerken van uw patiënt, wordt inschatting van de
waarde van de test bij die patiënt lastig. Bedenk hierbij dat het diag-
nostische onderscheidingsvermogen van de test in de regel samen-
hangt met de ernst van de aandoening (spectrum).

2 Inschatting van de voorafkans op ziekte voor uw patiënt


Een belangrijk, maar lastig item. Wat nodig is, is een inschatting van
de kans op de vermoede ziekte, bij voorkeur uit een onderzoek bij uw
patiënten met precies hetzelfde klachtenpatroon, dezelfde symptomen
en bevindingen, en dezelfde ziekteduur als uw huidige patiënt. Der-
gelijke gegevens zullen over het algemeen niet voorhanden zijn. Een
pragmatische oplossing is de voorafkans te nemen uit het artikel dat
we zojuist beoordeeld hebben. Zo kan men redelijkerwijs voor de
huidige patiënt de onder- en bovengrenzen aannemen op grond
72 Inleiding in evidence-based medicine

waarvan marges aangegeven kunnen worden voor de achterafkans op


ziekte voor deze patiënt. Met het nomogram in figuur 4.2 kunt u dan
bepalen of de testresultaten (positief of negatief ) een belangrijke ver-
andering in de kans op de ziekte voor uw patiënt opleveren en of dit
uw behandeling zal beı̈nvloeden.

3 Doel van de test


Een diagnostische test kan verschillende doelen hebben en in ver-
schillende fasen van het diagnostische proces ingezet worden. Van
belang is dan na te gaan of de eigenschappen van de test voldoende
zijn om het beoogde doel te bereiken en of de indextest ook inderdaad
onderzocht is in de vereiste situatie.
Wordt een test als triagetest ingezet (bijv. de Ottawa Ankle Rule (OAR)
voor het selecteren van patiënten voor het maken van een röntgenfoto
van de enkel), dan dient de test een hoge sensitiviteit te hebben (je wilt
immers geen patiënten met een enkelfractuur missen). In dat geval
ben je er bij een negatieve OAR-test vrij zeker van dat de patiënt ook
inderdaad geen fractuur geeft. De OAR-test-positieven worden dan
verwezen voor een röntgenfoto, waarmee de fout-positieven opge-
spoord kunnen worden. Op deze wijze kan het maken van een rönt-
genfoto efficiënt ingezet worden.
Sommige tests worden ingezet bij een subgroep van patiënten die
geselecteerd zijn op basis van een serie van andere diagnostische tests
(add-on test). Dit is bijvoorbeeld het geval indien sprake is van welis-
waar een accurate indextest, maar die om andere redenen minder
aantrekkelijk is dan bestaande tests, bijvoorbeeld positronemissie-
tomografie (PET) voor het opsporen van metastasen op afstand bij
patiënten met kanker. PET is duur en niet overal beschikbaar. PET kan
dan toegepast worden louter bij patiënten bij wie met conventionele
tests geen metastasen zijn aangetoond. Hiermee kunnen de fout-ne-
gatieven van de voorgaande tests alsnog opgespoord worden.
Wordt een nieuwe indextest overwogen ter vervanging van een be-
staande test (bijvoorbeeld MRI ter vervanging van CT-scanning bij
patiënten met een vermoeden op een hersenbloeding), dan dienen
de testeigenschappen van zowel de MRI als de CT-scan bij voorkeur
vergeleken te zijn bij dezelfde patiënten en dient de accuratesse van
de MRI minstens zo groot of groter te zijn dan de accuratesse van
CT-scanning.

4 Beı̈nvloeding van uw handelwijze door de verkregen achterafkans


Bij de overgang van diagnosestelling naar verder beleid komen twee
belangrijke vragen aan bod: is de waarschijnlijkheid van de voorop-
4 Kritisch beoordelen van een artikel 73

gestelde diagnose voldoende hoog om zinvolle hulp te bieden en kan


een bijkomende test de beslissing over het vervolgtraject nog wijzigen?
Hierbij is het gebruik van de waarschijnlijkheid van de aan- of afwe-
zigheid van een ziekte na het uitvoeren van een bepaalde test van groot
belang. Dit verschaft ons min of meer diagnostische zekerheid, maar
is dit dan ook voldoende om tot de actie over te gaan? Vaak wordt een
diagnostische test uitgevoerd om zekerheid te krijgen of een patiënt
wel of niet in aanmerking komt voor een bepaalde behandeling. Zeker
als deze behandeling belastend is voor de patiënt, is het verder aan-
nemelijk maken van de aan- of afwezigheid van de ziekte essentieel. Is
de voorafkans op de aandoening reeds zodanig laag (en stukken lager
dan de drempel waarvoor we de behandeling zouden starten) dat de
diagnose met voldoende zekerheid kan worden uitgesloten, of juist
zodanig hoog (boven een bepaalde behandeldrempel) dat de diagnose
vrijwel zeker is, dan kan de diagnostische test nauwelijks nog diag-
nostische winst opleveren en dus beter achterwege blijven. In het
tussengebied resulteert de test in het ideale geval in een achterafkans
op de aandoening die lager wordt dan de onderdrempel of juist hoger
dan de bovendrempel voor uw beslissing om af te zien van of juist te
starten met behandelen. Blijft de achterafkans tussen deze beide
drempels, dan is de diagnose nog niet uitgesloten en moet verdere
diagnostiek worden uitgevoerd. Vóór het uitvoeren van de test moet
dus worden ingeschat of een positief of negatief testresultaat vol-
doende diagnostische winst zal kunnen opleveren en tot een andere
behandeling aanleiding zal geven.

5 Belasting door de test


De patiënt moet uiteraard goed worden ingelicht over de inhoud van
de diagnostische test (te verwachten belasting, de gevaren van het
uitvoeren ervan), opdat hij zelf kan beslissen of hij de test wel wil
ondergaan. Ook hier kan de medische (diagnostische) interventie on-
gewenste bijwerkingen hebben, met soms belangrijke gevolgen voor
de patiënt. Een concreet voorbeeld is het uitvoeren van een scree-
ningstest voor downsyndroom in het eerste trimester van de zwan-
gerschap. Is de test positief, dan zal een vruchtwaterpunctie volgen,
waarbij een niet te negeren kans op abortus kan optreden. Een fout-
positieve screeningstestuitslag krijgt daardoor ernstige consequenties.
Het op goede gronden afzien van een diagnostische test kan in som-
mige gevallen veel problemen besparen. Belangrijk is in elk geval dat
zowel de behandelaar als de patiënt de gevaren van de diagnostische
test kan beoordelen.
74 Inleiding in evidence-based medicine

4.2.3 conclusie
In deze paragraaf is de beoordeling van een onderzoek naar de waarde
van een diagnostische test aan de orde geweest. Het gebruik van een
valide referentietest, onafhankelijke beoordeling van de indextest en
referentietest, en toepassing van de referentietest ongeacht het resul-
taat van de indextest bij de juiste patiënten kunnen mogelijke verte-
kening voorkómen. Daarnaast zal de arts zich een indruk moeten
vormen van de diagnostische waarde van de onderzochte indextest en
de mogelijkheden om deze test in zijn eigen setting toe te passen. De
consequenties van het uitvoeren van de test bij de eigen patiënt,
moeten ten slotte zodanig zijn dat het verdere beleid erdoor veranderd
kan worden.

Literatuur
Bossuyt PM, Reitsma JB, Bruns DE, Gatsonis CA, Glasziou PP, Irwig LM, et al.
Standards for Reporting of Diagnostic Accuracy Group. Standards for reporting of
diagnostic accuracy. Towards complete and accurate reporting of studies of
diagnostic accuracy: the STARD initiative. Ann Intern Med 2003;138:40-4.
Bossuyt PM, Reitsma JB, Bruns DE, Gatsonis CA, Glasziou PP, Irwig LM, Moher D,
Rennie D, de Vet HC, Lijmer JG. The STARD statement for reporting studies of
diagnostic accuracy: explanation and elaboration. Clin Chem 2003;49:7-18. Koste-
loos beschikbaar op website www.clinchem.org/cgi/content/full/49/1/7
Bossuyt PM, Irwig L, Craig J, Glasziou P. Comparative accuracy: assessing new tests
against existing diagnostic pathways. BMJ 2006;332:1089-92.
Bruel A van den, Cleemput I, Aertgeerts B, Ramaekers D, Buntinx F. The evaluation of
diagnostic tests: evidence on technical and diagnostic accuracy, impact on patient
outcome and cost-effectiveness is needed. J Clin Epidemiol 2007;60:1116-22.
Knottnerus JA, ed. The evidence base of clinical diagnosis. Londen: BMJ Publishing
Group, 2002.
Straus SE, Richardson WS, Glasziou P, Haynes RB. Evidence-based Medicine: How to
practice and teach EBM. 3. Diagnosis and screening. Third edition. Edinburgh:
Churchill Livingstone, 2005.
Users’ Guides to EBP. Centre for Health Evidence [geraadpleegd op 29 februari 2008].
Beschikbaar op website www.cche.net/usersguides/main.asp
Whiting P, Rutjes AW, Reitsma JB, Bossuyt PM, Kleijnen J. The development of
QUADAS: a tool for the quality assessment of studies of diagnostic accuracy
included in systematic reviews. BMC Med Res Methodol 2003; 3:25. Kosteloos
beschikbaar op website www.biomedcentral.com/1471-2288/3/25
4 Kritisch beoordelen van een artikel 75

4.3 Prognose

W.J.J. Assendelft, J.C. Korevaar en J.B. Reitsma

4.3.1 inleiding
Een van de eerste dingen die een patiënt na het vaststellen van een
diagnose wil weten is: ‘Wat kan ik nu verwachten?’ en ‘Wat stelt u voor
om te gaan doen?’. Om deze vragen te kunnen beantwoorden is er
kennis nodig van wat kan er gebeuren, hoe vaak deze uitkomsten
voorkomen en wanneer de betreffende uitkomst(en) te verwachten
zijn. Voor een goed advies en behandelkeuze is het dus belangrijk om
voldoende te weten van het klinisch beloop van deze ziekte, zowel met
als zonder behandeling, en ook wat de mogelijke invloed van prog-
nostische factoren is op de uitkomst(en). In de regel is bij patiënten
met een slechtere prognose (een relatief grotere kans op een ongun-
stige uitkomst) de winst van een interventie groter. Dit wordt in
hoofdstuk 7 verder uitgelegd.

4.3.2 beoordeling van een onderzoek over


prognose
Bij de beoordeling van een prognostisch onderzoek moet op verschil-
lende aspecten worden gelet: validiteit, belang en toepasbaarheid.
Onder een prognostische factor wordt een kenmerk verstaan dat met
een betere of slechtere prognose samenhangt. Prognostische factoren
kunnen beı̈nvloedbare factoren zijn, zoals rookgedrag, voedingspa-
troon, dagelijks activiteitenpatroon of behandeling, maar kunnen ook
niet-beı̈nvloedbare factoren zijn zoals leeftijd of geslacht. Onder uit-
komst wordt de gebeurtenis verstaan waarop de prognostische vraag
zich richt. In de regel is dit genezing, optreden van complicaties of
overlijden, maar ook een ziekenhuisopname of intrede in de WIA kan
de uitkomst zijn in een prognostisch onderzoek. Vaak richt een prog-
nostisch onderzoek zich op verschillende uitkomsten tegelijk.
Onderzoek naar prognostische factoren wordt dikwijls uitgevoerd aan
de hand van observationeel onderzoek (cohortonderzoek). Informatie
over de prognose na een behandeling zal vaker volgen uit gerando-
miseerd effectonderzoek (zie paragraaf 4.4), maar kan ook volgen uit
cohortonderzoek. Onderzoek kan zich specifiek richten op één prog-
nostische factor, maar kan ook het effect van meerdere factoren be-
studeren en de effecten samenvoegen in één prognostisch model (zie
belang van de resultaten voor de patiënt).
76 Inleiding in evidence-based medicine

Beoordelingscriteria

Validiteit
1 duidelijk omschreven representatieve groep patiënten die is
samengesteld op een gelijk moment in het ziektebeloop
2 duidelijke omschrijving van het verwijspatroon
3 volledige en voldoende lange follow-up
4 objectief en onafhankelijk (geblindeerd) vastgestelde uitkom-
sten
5 heldere definitie van prognostische factoren
6 onderscheiden van subgroepen met een verschillende prog-
nose

Belang
1 belang van de resultaten voor de patiënt
2 precisie van de resultaten

Toepasbaarheid
1 overeenkomst met eigen patiënt(en) (externe validiteit)
2 invloed van de informatie op de behandeling van de patiënt

Validiteit
1 Duidelijk omschreven representatieve groep patiënten die is
samengesteld op een gelijk moment in het ziektebeloop
De term voor een dergelijk samengestelde groep is ‘inceptiecohort’.
Het startpunt van het cohort is vaak het moment waarop de eerste
ondubbelzinnige symptomen merkbaar zijn of zodra de therapie
wordt gestart. Op deze manier worden zowel patiënten ingesloten die
volledig herstellen, die overlijden, als degenen bij wie de ziekte blijft
bestaan. Toch kan de behandelaar ook geı̈nteresseerd zijn in een
inceptiecohort dat later in het beloop is samengesteld. Aangezien veel
rugpijn binnen een aantal weken overgaat, is het vooral belangrijk te
weten welke proportie van de patiënten met klachten langer dan zes
weken na één jaar nog steeds klachten heeft. Het inceptiecohort wordt
voor die vraag dan pas gevormd bij zes weken lage-rugpijn.

Prognostisch onderzoek wordt af en toe gestart vanuit de uitkomst, en


vervolgens wordt er teruggevraagd naar het verleden. Dit is minder
valide dan onderzoek dat uitgaat van een inceptiecohort. Meestal
worden dan personen ingesloten die nog klachten hebben en die
4 Kritisch beoordelen van een artikel 77

contact met de gezondheidszorg hebben. Patiënten die zijn overleden


of juist genezen zijn worden zo vaak gemist. Ook kan het leiden tot
een oververtegenwoordiging van patiënten die herhaaldelijk dezelfde
klachten hebben: zij hebben immers meerdere keren de kans om in
een dergelijk onderzoek geı̈ncludeerd te worden, ten opzichte van
patiënten die de klacht slechts eenmalig krijgen.

2 Duidelijke omschrijving van het verwijspatroon


Het moet voor de lezer duidelijk zijn waar de patiënten gerekruteerd
zijn. Dit is nodig om te kunnen beoordelen of de resultaten van het
artikel toepasbaar zijn op de patiënten in de eigen praktijk. Het zal
duidelijk zijn dat patiënten die onder behandeling zijn bij de huisarts
een andere (doorgaans betere) prognose zullen hebben ten opzichte
van patiënten met eenzelfde aandoening die onder behandeling zijn
bij de specialist. Ook binnen de specialistische tweedelijnszorg be-
staan er weer verwijspatronen, waarbij referentiecentra (gespeciali-
seerde kankerklinieken, universitaire medische centra, topklinische
ziekenhuizen) in de regel patiënten met een slechtere prognose
doorverwezen krijgen.

3 Volledige en voldoende lange follow-up


In een prognostisch onderzoek dient de follow-up zo compleet mo-
gelijk te zijn. Het ontbreken van gegevens over patiënten bij de follow-
up kan gerelateerd zijn aan de ernst van de aandoening of aan de
uitkomst, en dus leiden tot vertekening. De gegevens van een patiënt
kunnen bijvoorbeeld ontbreken omdat hij genezen is en geen zin meer
had in nog een ziekenhuisbezoek, maar ook doordat de patiënt is
overleden. De mogelijke invloed van uitval op de resultaten van het
onderzoek kan op verschillende manieren worden nagegaan. Een
simpele methode is het uitrekenen van de meest extreme situaties. Dit
kan door de uitvallers in de eerste berekening mee te nemen alsof alle
uitvallers genezen zijn (‘best case’ scenario) en dit daarna nogmaals
uit te rekenen, maar nu alsof alle uitvallers de ongunstige uitkomst
hadden (‘worst case’ scenario). Wanneer bijvoorbeeld in een cohort
van 600 patiënten aan het einde van de follow-up periode 30 patiënten
zijn overleden en de gegevens ontbreken van 100 patiënten, dan is de
kans op de slechte uitkomst op basis van de patiënten met volledige
follow-up 30/500 = 6%. In geval van het ‘best case’ scenario, onder de
aanname dat alle ontbrekende patiënten niet zijn overleden, is dit
30/600 = 5%. Het ‘worst case’ scenario, onder de aanname dat alle
ontbrekende patiënten wel zijn overleden, geeft echter een mortaliteit
van (30 + 100)/600 = 22%. In het algemeen geldt hoe lager de kans op
78 Inleiding in evidence-based medicine

de (slechte) uitkomst, hoe groter het potentiële effect van ontbrekende


patiënten is. Een andere methode om de invloed van ontbrekende
patiënten te bepalen is op basis van de gegevens die wel bekend zijn
van een patiënt in te schatten wat de meest waarschijnlijke uitkomst
zou zijn geweest. Dit kan met behulp van statistische technieken
(hiervoor wordt de term ‘imputeren’ gebruikt). Het spreekt voor zich
dat deze techniek kennis en inzicht van het ziekteproces vereist en
dat er voldoende gegevens aanwezig moeten zijn van een uitgevallen
patiënt om een betrouwbare inschatting te maken. Een hoeveelheid
uitvallers (‘loss to follow-up’) van meer dan 20% is in de regel te hoog:
het aantal ontbrekende patiënten kan dan een te grote invloed op de
uitkomst hebben.
De observatietijd dient lang genoeg te zijn om de patiënt voldoende
informatie te kunnen geven over het beloop. Dit hangt uiteraard af van
de aard van de ziekte. Zo zal voor het bestuderen van het beloop van
een normale verkoudheid een observatieduur van veertien dagen ruim
voldoende zijn. Om het beloop van voorhoofdsholteontsteking vast te
stellen is twee maanden beter, en bij langzaam groeiende kankers zal
de observatietijd eerder vijf tot tien jaar moeten zijn.

4 Objectief en onafhankelijk (blind) vastgestelde uitkomsten


De uitkomsten van een onderzoek moeten expliciet en in objectieve
termen beschreven worden, zodat de lezer deze in verband kan bren-
gen met de eigen praktijk. Als in een artikel als uitkomstmaat de
eerstvolgende beroerte (herseninfarct of hersenbloeding) staat, dan
dient beroerte goed gedefinieerd te zijn. Zijn dat alleen beroerten die
leiden tot ernstige spraakstoornissen of verlamming waarna de patiënt
hulp nodig heeft bij dagelijkse activiteiten zoals wassen en aankleden,
of heeft de uitkomst ook betrekking op beroerten met alleen een
kleine afwijkingen bij lichamelijk onderzoek, zoals afname van de
reflexen? Een goede beschrijving in de vorm van objectieve criteria
waarmee een eerstvolgende beroerte wordt vastgesteld is dan ook
essentieel.
De uitkomst bij een patiënt dient bij voorkeur onafhankelijk (‘blind’)
te worden vastgesteld, dat wil zeggen zonder voorkennis over de pa-
tiënt, aangezien uitkomsten vaak worden gestuurd door bewuste of
onbewuste veronderstellingen van de onderzoeker. Bij een 70-jarige
mannelijke roker met een belaste familieanamnese zal de diagnose
hartinfarct sneller worden vermoed en dus ook worden gesteld dan bij
een 45-jarige vrouwelijke niet-roker. Daarom is het heel belangrijk dat
degene die de uitkomst bij de patiënt vaststelt niet op de hoogte is van
4 Kritisch beoordelen van een artikel 79

prognostische determinanten en andere relevante kenmerken van de


patiënt.
Als laatste moet de uitkomst klinisch en voor de patiënt relevant zijn.

5 Heldere definitie van prognostische factoren


De prognostische factoren kunnen duidelijke factoren zijn die een-
voudig te bepalen zijn, zoals leeftijd en geslacht. Prognostische fac-
toren kunnen echter ook biochemische parameters, fysiologische
metingen, tumormarkers of blootstelling aan omgevingsfactoren zijn.
Het meten van dergelijke parameters is veel minder vanzelfsprekend.
Om de invloed van dergelijke prognostische factoren voor de eigen
patiënten op waarde te kunnen schatten moeten deze expliciet en in
objectieve termen beschreven zijn. Daarnaast moet het duidelijk zijn
wanneer en onder welke condities de prognostische factoren zijn
bepaald.

6 Onderscheiden van subgroepen met een verschillende prognose


Binnen de groep patiënten met een aandoening kunnen op basis van
prognostische factoren patiënten worden onderscheiden met een be-
tere of juist een slechtere prognose. Een prognostische factor kan dus
helpen om het beloop van de ziekte beter te kunnen voorspellen.
Hiervoor is het niet noodzakelijk dat de prognostische factor een
direct oorzakelijk verband met de uitkomst heeft (dit is dus anders dan
bij onderzoek naar bijwerkingen, zie paragraaf 4.5). Het hebben van
gele vingers (als gevolg van overmatig roken) kan bijvoorbeeld een
indicator zijn van de prognose van astma, zonder dat de gele vingers
zelf een directe invloed hebben (de directe invloed komt namelijk van
het roken).
Verder kan een aantal prognostische factoren tezamen vaak een betere
voorspelling geven dan een enkele factor. Een bekend voorbeeld is de
zogenoemde apgar-score, waarbij direct na de geboorte verschillende
fysiologische parameters worden ingeschat. Een lage apgar-score
hangt samen met een verhoogde morbiditeit en mortaliteit. Tabel 4.5
geeft een ander voorbeeld van een voorspellend model.
De waarde van een voorspellend model of van een enkele prognosti-
sche factor is sterk afhankelijk van hoe goed (en hoe vaak) dit model
gevalideerd is. Het model wordt geloofwaardiger als het wordt toege-
past op een nieuwe groep patiënten en als daaruit vervolgens blijkt dat
de voorspelde prognose de werkelijke prognose goed benadert.
Een validatietraject bestaat dan ook uit meerdere stappen. De eerste
stap is het maken van een prognostisch model in een groep patiënten:
de testpopulatie. Vervolgens wordt dit model gevalideerd in een groep
80 Inleiding in evidence-based medicine

Tabel 4.5 Voorbeeld van een voorspellend model: kans op overlijden ten gevolge
van meningokokkenziekte. Voor iedere eigenschap uit tabel A krijgen
patiënten een score (wegingsfactor). De totaalscore (som van de
wegingsfactoren) bepaalt de kans op overlijden (tabel B). Een man van 72
jaar met een parese van de linker arm (focale neurologische stoornis) die
geen antibiotica vooraf ontving en die geen stollingsafwijkingen heeft,
heeft dus een prognostische score van 1 + 1 = 2. Zijn kans op overlijden is
dan dus groter dan 70%.
A

eigenschap wegingsfactor

stollingsafwijking 2

focale neurologische stoornis 1

ouder dan 60 jaar 1

antibiotica voorafgaand aan opname –1

totaalscore kans op overlijden (in %)

–1 0,0

0 2,3

1 27,3

2 73,3

3 100,0

Bron: Barquet et al. JAMA 1997;278:491-6.

andere patiënten: de zogenoemde validatiepopulatie. Idealiter is deze


validatiepopulatie geheel onafhankelijk van de testpopulatie, bijvoor-
beeld andere behandelcentra en een ander land. Indien er meerdere
validatiepopulaties beschikbaar zijn, kan de precisie van het prognos-
tisch model nog verder verbeterd worden. Vaak volgt uit zo’n valida-
tiestap dat de initiële prognostische factoren een groter effect laten
zien in de testpopulatie dan in de validatiepopulatie. Het overslaan van
deze kruisvalidatie leidt dus vaak tot een overschatting van het effect.
Oorzaken hiervoor kunnen zijn dat de testpopulatie uit te weinig
patiënten bestond of door verschillen tussen de test- en validatiepo-
pulatie. Meestal is het originele model te zeer toegespitst op de
patiënten uit de testpopulatie.
4 Kritisch beoordelen van een artikel 81

Belang
1 Belang van de resultaten voor de patiënt
Het is van belang de prognose in één of meer samenvattende getallen
uit te drukken. Voorbeelden hiervan zijn de vijfjaarsoverleving of de
mediane overlevingsduur (tijdstip waarop 50% van de patiënten nog
in leven is). Vaak ook wordt het beloop in de tijd in de vorm van een
grafiek weergegeven (figuur 4.4, patronen A t/m D). Op de verticale as
staat het percentage patiënten dat de bestudeerde uitkomst nog niet
heeft (bijv. nog in leven is), en op de horizontale as is de tijd uitgezet.
Uit dergelijke grafieken kan bijvoorbeeld ook de eerdergenoemde
mediane overlevingsduur worden afgeleid. De vorm van een dergelijke
grafiek geeft inzicht in wat op korte en lange termijn kan worden
verwacht. In deze figuur zijn vier patronen weergegeven.
Patroon A laat een relatief gunstig beloop zien. De overleving op zowel
de korte als lange termijn is gunstig.
Patroon B is karakteristiek voor een aandoening waarbij de uitkomst
relatief lang op zich laat wachten (een lange ‘incubatietijd’ heeft). Een
voorbeeld hiervan zijn vasculaire complicaties bij diabetes type 1 die de
eerste jaren na het ontstaan van diabetes niet optreden.
Patroon C is karakteristiek voor aandoeningen met een slechte prog-
nose: het optreden van de uitkomst is vrijwel onontkoombaar, blijk-
baar zijn er nauwelijks therapeutische mogelijkheden.
Patroon D ziet men bij aandoeningen waarbij de uitkomst vooral in de
periode kort na het ontdekken wordt vastgesteld, maar waarbij de
prognose gunstiger wordt naarmate de tijd verstrijkt. Dit patroon geldt
bijvoorbeeld voor veel vormen van kanker.
Om te beoordelen of de sterftekans van een bepaalde patiëntenpopu-
latie hoog is kan het informatief zijn om deze sterftekans te vergelij-
ken met die van een andere populatie of met een standaardpopulatie
(bijvoorbeeld de gehele Nederlandse populatie). Om sterftekansen
met elkaar te mogen vergelijken moet men rekening houden met
populatieverschillen, zoals een verschillende leeftijdsopbouw. Het
omrekenen van een waargenomen sterfte naar een andere referentie-
populatie heet standaardisatie. De Standardized Mortality Ratio geeft
de verhouding aan tussen het waargenomen sterftecijfer en het sterf-
tecijfer in de standaardpopulatie. Een SMR van bijvoorbeeld 1,1 geeft
een oversterfte van 10% van de patiëntenpopulatie weer ten opzichte
van de standaardpopulatie. Op vergelijkbare wijze kan men ook ge-
standaardiseerde verhoudingen berekenen voor uitkomsten anders
dan sterfte (Standardized Morbidity Ratio).
Prognostische modellen kunnen in verschillende vormen gepresen-
teerd worden, in zowel tabellen als figuren. Een voorbeeld van het
82 Inleiding in evidence-based medicine

100

percentage patiënten in leven


80
B

60

40 C

20 D

0
0 1 2 3 4 5 6 7 8 9 10 11 12
tijd in jaren

Figuur 4.4 Voorbeelden van vier overlevingspatronen, weergegeven in een


Kaplan-Meier-curve.

Horizontale lijn bij 50% geeft de mediane overlevingsduur grens aan.


Patroon A: Prognose gunstig. Percentage overlevenden neemt slechts langzaam af. De
mediane overleving is niet te geven, aan het einde van de follow-up periode (12 jaar) is meer
dan 50% van de patiënten nog in leven.
Patroon B: Prognose gunstig op korte termijn, ongunstig op lange termijn. Het percentage
overleden patiënten neemt vanaf zes jaar follow-up snel toe. De mediane overleving is circa
11,5 jaar.
Patroon C: Prognose ongunstig gedurende de gehele follow-up tijd. Mediane overleving is
circa 8,5 jaar.
Patroon D: Prognose zeer ongunstig op korte termijn. Voor de patiënten die de eerste vijf
jaar overleven is de prognose echter veel gunstiger, sterftekans neemt dan sterk af. De
mediane overleving is circa 3 jaar.

presenteren van resultaten van een prognostische studie is te zien in


figuur 4.5.

2 Precisie van de resultaten


Naast het uitdrukken van de prognose in één of meer samenvattende
getallen is ook de precisie van de schattingen van belang: hoe zeker
weten we dat dit het juiste getal is? Het 95%-betrouwbaarheidsinterval
geeft de marge aan waarbinnen we met 95% zekerheid mogen aan-
nemen dat de werkelijke waarde hierbinnen ligt. Een 95%-betrouw-
baarheidsinterval wordt smaller, indien er meer patiënten in het on-
derzoek zijn opgenomen of meer patiënten de uitkomst hebben. Bij
4 Kritisch beoordelen van een artikel 83

T1 T2 T3 T4
T stadium
0 8 11 19 punten

0 0,05 0,1 0,2 0,4 0,8


lymfeklier ratio
0 5 8 12 17 22 punten

nee ja
LNI
0 4 punten

totaal aantal
punten 0 5 10 15 20 25 30 35 40 45 50

1-jaars
overleving (%) 98 97 94 91 86 77 65 50 32 15 4,4

5-jaars
overleving (%) 90 83 74 61 44 26 11 2,5 0,2 0,0 0,0

Figuur 4.5 Nomogram voor ziektespecifieke overleving na operatie van patiën-


ten met adenocarcinoom van de distale slokdarm. Bereken op basis van boven-
staande drie prognostische factoren, tumorstadiëring (T) volgens de TNM-classi-
ficatie, de lymfeklierratio (aantal positieve lymfeklieren gedeeld door totaal
aantal lymfeklieren) en de doorgroei van de lymfeklieren (LNI), het totaal aantal
punten voor een patiënt. Door een rechte lijn vanuit het totaal aantal punten
naar beneden te trekken is de kans op ziektespecifieke overleving één en vijf jaar
na de operatie af te lezen. Bijvoorbeeld een patiënt met TNM van 2 (T2), een
lymfeklierratio van 0,20 en geen doorgroei van de lymfeklieren (LNI = Nee) heeft
8 + 12 + 0 = 20 punten. Een patiënt met 20 punten heeft 86% kans om e´én jaar
na de operatie nog in leven te zijn, en 44% kans om vijf jaar na de operatie nog
in leven te zijn.

zeldzame uitkomsten zullen voor een nauwkeurige schatting van de


prognose dus veel patiënten in het onderzoek moeten zijn opgeno-
men, bij vaak voorkomende uitkomsten relatief minder patiënten.
Voor een nauwkeurige schatting van meerdere prognostische factoren
moeten weer veel meer patiënten in het onderzoek zijn opgenomen
dan wanneer slechts één factor wordt bekeken. Als globale vuistregel
wordt vaak gehanteerd dat per prognostische factor minimaal tien
patiënten met de uitkomst in de studie moeten zijn opgenomen. Stel
dat in een onderzoek onder 600 patiënten 30 patiënten de uitkomst
hebben gekregen, dan kunnen dus maximaal drie prognostische fac-
toren in een prognostisch model meegenomen worden.
84 Inleiding in evidence-based medicine

Toepasbaarheid
1 Overeenkomst met eigen patiënt(en) (externe validiteit)
De samenstelling van de groep patiënten in het onderzoek bepaalt
voor een belangrijk deel de gerapporteerde prognose. Hiervoor is punt
2 van de validiteit: ‘duidelijke omschrijving van het verwijspatroon’
belangrijk. Indien de groep patiënten in het onderzoek afwijkt van
de patiënten in de eigen praktijk, dan zal ook de prognose mogelijk
(sterk) afwijken.
Vertekening door verwijspatronen. Vaak wordt een patiënt enige malen van
behandelaar naar behandelaar verwezen. De verwijzer maakt dan ie-
dere keer op basis van de aard en ernst van de aandoening een keuze
uit verschillende verwijsmogelijkheden. Dikwijls worden minder ern-
stige gevallen helemaal niet verwezen. In de regel worden patiënten
met een ernstiger ziektebeeld (en dus een slechtere prognose) naar
een (super)specialistisch centrum verwezen. Ook het tegenoverge-
stelde kan echter van toepassing zijn: patiënten met een slechte
prognose worden juist niet verwezen omdat verdere (super)specialis-
tische behandeling geen zin meer heeft.
Vertekening door vroegopsporing (‘lead time bias’). Indien door screening
een aandoening waarvoor geen afdoende behandeling bestaat eerder
wordt gediagnosticeerd, dan zal het lijken of de prognose beter wordt.
Dit is slechts schijn: de ziekte wordt gewoon eerder ontdekt (zie
paragraaf 4.6).
Vertekening door type behandelcentrum. Hieraan gerelateerd is de verteke-
ning die optreedt indien er in een bepaald centrum veel belangstelling
voor de aandoening bestaat. De resultaten zijn dan soms moeilijk te
extrapoleren, omdat in dergelijke centra vaak sneller vervolgdiagnos-
tiek wordt verricht, meer aandacht aan de patiënten wordt gegeven,
meer ervaring aanwezig is en vaker geavanceerde behandelingen
worden toegepast.
De toepasbaarheid op de eigen patiënt(en) kan worden nagegaan met
de volgende deelvragen:
1 Zijn de klinische karakteristieken van de in het onderzoek betrok-
ken patiënten gelijk aan die van mijn patiënt(en)?
2 Zijn de onderzochte patiënten op dezelfde manier gediagnosti-
ceerd?
3 Is het onderzoek in hetzelfde echelon uitgevoerd als waarin ik
werkzaam ben?
4 Waren dezelfde faciliteiten voorhanden als voor de eigen patiënten
ter beschikking zijn?
5 Is de ernst van de aandoening van de onderzochte patiënten gelijk
aan die van de eigen patiënten?
4 Kritisch beoordelen van een artikel 85

Een te strikte toepassing van deze vragen heeft tot gevolg dat er vrijwel
geen enkel geschikt onderzoek zal worden gevonden. Het is daarom
goed om bij een of meer negatieve antwoorden op voorgaande deel-
vragen de vraag om te draaien: is de groep patiënten uit het onderzoek
zo verschillend van de eigen patiënt dat de resultaten helemaal niet
kunnen worden gebruikt bij het geven van een prognose?

2 Invloed van de informatie op de behandeling van de patiënt


Indien de prognose gunstig is zonder behandeling zal dit aspect in het
gesprek met de patiënt benadrukt worden en kan worden besloten
geen behandeling te starten. Als de prognose zonder behandeling
echter minder gunstig is en er een behandeling beschikbaar is die
deze prognose gunstig kan beı̈nvloeden, zal dit een belangrijk onder-
deel van het gesprek met de patiënt vormen. Nauwkeurige, valide
prognostische informatie biedt de behandelaar dan de mogelijkheid
een op de patiënt toegesneden ‘number needed to treat’ te berekenen (zie
paragraaf 4.4 en hoofdstuk 7). In de discussie met de patiënt zullen
ook de aard en verwachte frequentie van mogelijke bijwerkingen
meegenomen moeten worden (‘number needed to harm’). Tot slot is ook
de informatie dat de prognose ongunstig is en dat er weinig tot geen
behandelingsmogelijkheden zijn belangrijk en informatief. Deze in-
formatie kan de patiënt en zijn familie in staat stellen belangrijke
besluiten te nemen.

4.3.3 conclusie
Kennis over de prognose is van belang om de patiënt te informeren en
om een weloverwogen keuze te kunnen maken voor een bepaalde
behandeling of om juist af te zien van behandelen. Idealiter wordt het
beloop van de ziekte uitgedrukt in een grafiek, omdat dit meer zegt
dan een enkel cijfer. Bij het beoordelen van onderzoeken moet vooral
worden opgelet of de onderzoekspopulatie voldoende is omschreven
en of deze voldoende overeenkomsten heeft met het werkterrein van
de behandelaar, en de ernst en duur van de ziekte van de patiënt. Bij de
beoordeling moet daarnaast worden gelet op volledigheid en duur van
de follow-up, objectieve vaststelling van de uitkomsten, duidelijke
rapportage van de prognostische factoren en de rapportage van rele-
vante subgroepen met een verschillende prognose. Idealiter wordt de
te verwachten prognose gevalideerd in een groep onafhankelijke
patiënten.
86 Inleiding in evidence-based medicine

Literatuur
Elm E von, Altman DG, Egger M, Pocock SJ, Gotzsche PC, Vandenbroucke JP for the
STROBE initiative. The Strengthening the Reporting of Observational Studies in
Epidemiology (STROBE) statement: guidelines for reporting observational studies.
Lancet 2007;370:1453-7.
Hemingway H. Prognosis research: Why is Dr. Lydgate still waiting? J Clin Epidemiol
2006;59:1229-38.
Levine MN, Browman GP, Gent M, Roberts R, Goodyear M. When is a prognostic factor
useful?: a guide for the perplexed. J Clin Oncol 1991;9:348-56.
McShane LM, Altman DG, Sauerbrei W, Taube SE, Gion M, Clark GM for the statistics
subcommittee of the NCI-EORTC working group on cancer diagnostics. REporting
recommendations for tumour MARKer prognostic studies (REMARK). Br J Can
2005;93:387-91.
Moher D, Schulz KF, Altman DG. The CONSORT statement: revised recommendations
for improving the quality of reports of parallel-group randomised trials. Lancet
2001;357(9263):1191-4.

4.4 Therapie

J.G.P. Tijssen en W.J.J. Assendelft

4.4.1 inleiding
Vrijwel ieder patiëntencontact gaat gepaard met een behandelbeslis-
sing. Ook de beslissing om even niets te doen is een impliciete be-
handelbeslissing: de prognose is zo gunstig of de behandelopties zijn
zo weinig effectief dat behandeling niet nodig is of geen zin heeft.
Juist ook bij therapie is het belangrijk de klinische vraag scherp te
krijgen. De vraagstelling van een therapeutisch onderzoek kent drie
kernelementen, te weten de ziekte (bijv. angina pectoris), de inter-
venties (bijv. het effect van een aceremmer ten opzichte van een pla-
cebo) en het ziektebeloop (bijv. het verdwijnen van de klachten).
In een therapeutisch onderzoek richt de belangstelling zich in de regel
op één specifieke behandeling. Meestal betreft het een behandeling
met een medicament, maar ook andere interventies, zoals een chirur-
gische behandeling of een therapeutische aanpak in bredere zin (bijv.
uitvoerige diagnostiek in combinatie met intensieve behandeling),
kunnen worden bestudeerd. De behandeling waar het om draait, heet
de indexbehandeling. Deze wordt vergeleken met een andere behan-
deling: de controlebehandeling. De ziekte wordt gedefinieerd in de
insluitcriteria voor deelname aan het onderzoek. De uitsluitcriteria
geven aan welke patiënten die aan de diagnostische criteria voldoen,
om een andere reden niet aan het onderzoek kunnen deelnemen,
bijvoorbeeld een contra-indicatie voor de onderzochte behandelingen.
4 Kritisch beoordelen van een artikel 87

Een recent ontwikkeld geneesmiddel kan worden vergeleken met een


placebo, met een gebruikelijk geneesmiddel, of met onthouding van
medicamenteuze behandeling.
De keuze van de controlebehandeling wordt bepaald doordat de on-
derzoeker vaststelt welke aspecten van de indexbehandeling bestu-
deerd moeten worden. Bij een geneesmiddel gaat de interesse meestal
naar het effect van de stof (de chemische substantie) zelf. Mogelijke
effecten die niet het gevolg zijn van de stof (bijv. het effect van de
begeleiding van de arts, inbeelding) behoren buiten de vergelijking te
blijven. Het geneesmiddel wordt daarom met een placebo vergeleken;
de niet-specifieke (externe) effecten van de zorg worden daardoor
buiten de vergelijking gehouden. Bij een chirurgische behandeling
gaat de belangstelling meestal naar het effect van de strategie als
geheel in vergelijking met voortgezette medicamenteuze behandeling.
Er zijn dan, per definitie, geen externe effecten. Patiënten uit de con-
trolegroep behoeven derhalve geen nepoperatie.
Een therapeutisch effect wordt in ieder therapeutisch onderzoek ge-
definieerd in termen van (bedoelde) verandering in het klinisch be-
loop. Het aspect van het klinisch beloop dat de behandelaar hoopt te
beı̈nvloeden, wordt in deze context de uitkomst genoemd. Sterfte
binnen een maand of binnen twee jaar, het optreden van een hart-
infarct en het verdwijnen van klachten zijn bijvoorbeeld enkele in de
cardiologie gehanteerde uitkomsten. Soms wordt gekozen voor de
verandering in een kwantitatieve parameter, zoals het cholesterol-
gehalte of de bloeddruk. Vaak zijn er verschillende uitkomstmaten
beschikbaar. De voorkeur gaat uit naar voor de patiënt relevante kli-
nische uitkomsten (zoals overleving, fractuurincidentie, wondheling)
of subjectieve patiëntgeoriënteerde uitkomstmaten (zoals dagelijks
functioneren of kwaliteit van leven).
Bij het zoeken naar een artikel zal dus allereerst de vraag volledig
moeten worden uitgeschreven (zie hoofdstuk 2). Daarna moet naar
een of meer geschikte artikelen worden gezocht. De meest ideale
situatie is dat er over het onderwerp een systematische review van
gerandomiseerde effectonderzoeken (randomised clinical trials
(RCT’s)) bestaat (zie paragraaf 5.2). Indien dit niet het geval is, zal er
moeten worden gezocht naar primaire onderzoeken. De RCT is dan
het onderzoekstype met de grootste ‘bewijskracht’. In volgorde van
bewijskracht volgen dan het niet-gerandomiseerde cohortonderzoek,
het patiëntcontroleonderzoek en de patiëntenserie. Aan de hand van
de volgende criteria kunnen een RCT en een niet-gerandomiseerd
vergelijkend cohortonderzoek worden beoordeeld. Het patiëntcontro-
88 Inleiding in evidence-based medicine

leonderzoek wordt besproken in paragraaf 4.5. Het beoordelen van


een patiëntenserie komt niet aan de orde.

4.4.2 beoordeling van een gerandomiseerd


effectonderzoek
De beoordeling van een gerandomiseerd effectonderzoek valt uiteen in
de beoordeling van de validiteit, het belang van de uitkomsten en de
toepasbaarheid van de resultaten.

Validiteit
Interne validiteit van een onderzoek impliceert dat het therapeutisch
effect zuiver (= niet vertekend) wordt gemeten binnen de context van
het onderzoek. Interne validiteit berust op een drietal kenmerken:
1 Weerspiegelt de vergelijking tussen de behandelingen dat aspect
van de behandeling waarin men werkelijk geı̈nteresseerd is (of
spelen externe effecten een rol)?
2 Zijn de behandelingsgroepen wat betreft prognose identiek sa-
mengesteld?
3 Is de wijze van waarneming (of bepaling) van de uitkomst identiek
bij de behandelingsgroepen?

De gebruikelijke methodieken om interne validiteit te bewerkstelligen


zijn (figuur 4.6):
– het gebruik van een placebo of nepbehandeling (om de invloed van
externe effecten gelijk te laten zijn);
– het gebruik van aselecte behandelingstoewijzing (om wat betreft
prognose vergelijkbare groepen te creëren);
– het gebruik van blindering (om vergelijkbaarheid van informatie te
garanderen.

Deze methodieken behoeven niet onder alle omstandigheden te wor-


den toegepast. De onderliggende denktrant vormt echter een leidraad
bij de beoordeling van interne validiteit. De hiervoor genoemde ele-
menten zijn de belangrijkste onderdelen van de beoordeling van de
interne validiteit.

1 Randomisatie
De gegevens van het onderzoek weerspiegelen het effect van de in-
dexbehandeling (ten opzichte van de controlebehandeling) slechts
dan wanneer de behandelingsgroepen wat betreft prognose vergelijk-
baar zijn. Met andere woorden, men moet gelijke uitkomsten voor de
groepen verwachten wanneer dezelfde behandeling gegeven zou
4 Kritisch beoordelen van een artikel 89

In- en exclusiecriteria: afgeleid van klinische bronpopulatie


vraag

Methode van randomisatie; blindering van randomisatie


randomisatie

Groepen na randomisatie indexgroep controlegroep


prognostisch vergelijkbaar

Naast toegewezen behandeling


gelijke behandeling en
indexbehandeling controlebehandeling
aandacht; blindering
behandelaar; blindering patiënt

Loss-to-follow-up acceptabel follow-up follow-up

Geblindeerde uitkomstmeting, uitkomst uitkomst


intention to treat-analyse

Figuur 4.6 Schema van gerandomiseerd effectiviteitsonderzoek (randomised


controlled trial; RCT) met bijbehorende beoordelingscriteria.

worden. Een arts heeft van nature de neiging de meest intensieve


behandeling of de voorkeursbehandeling te geven aan de meest ern-
stig zieke patiënt. Wanneer de arts een hoog risico vermoedt, vormt dit
een indicatie voor behandeling. Deze (respectabele) attitude maakt
een specifiek toewijzingsschema nodig bij de evaluatie van therapeu-
tische effecten. Immers, patiënten die in de dagelijkse medische
praktijk verschillende behandelingen krijgen, hebben per definitie een
verschillende indicatiestelling en dus een verschillende prognose. Dit
fenomeen, bekend als ‘indication bias’ of ‘confounding by indication’,
vormt een onoverkomelijke hindernis bij alle niet-experimentele eva-
luatie van therapie.
Het is dus nodig dat de toewijzing van de behandeling op zodanige
wijze tot stand komt dat iedere vorm van (bedoelde of onbedoelde)
manipulatie van patiënten naar een geprefereerde behandeling is uit-
gesloten. Alleen dan kunnen wat betreft prognose vergelijkbare groe-
pen worden verkregen. Randomisatie wordt gezien als de methode die
hiervoor bij uitstek geschikt is. Immers, bij randomisatie is de be-
handelingstoewijzing volledig onvoorspelbaar en dus ongrijpbaar
voor de behandelend arts. Bij een systematisch toewijzingsschema
(bijv. om en om, of toewijzing gebaseerd op geboorte- of opnamedag)
is de behandelend arts tevoren op de hoogte van de toewijzing. Deze
90 Inleiding in evidence-based medicine

kennis vooraf kan de beslissing over toelating beı̈nvloeden, en laat dus


mogelijkheden tot manipulatie toe.
Uit een vergelijking van het beloop in twee groepen patiënten die niet
via randomisatie tot stand gekomen zijn, kunnen geen harde conclu-
sies worden getrokken over de effectiviteit van de indexbehandeling
ten opzichte van de controlebehandeling.
Randomisatie is dus een methode waarbij gebruikgemaakt wordt van
het toeval om de te onderzoeken interventie en de controlebehande-
ling(en) toe te wijzen aan de patiënt. De methode dient om selectiebias
te voorkomen. Randomisatie houdt in dat ieder individu (of andere
eenheid van randomisatie) een gelijke kans heeft om bij elk van de
interventies betrokken te zijn. Een goede randomisatie kan bijvoor-
beeld gebruikmaken van een tabel met aselecte (random)getallen of
van een door een computer aangemaakte randomisatielijst.
Soms willen onderzoekers zeker zijn dat per behandelcentrum, per
behandelaar of per subgroep patiënten ongeveer evenveel patiënten in
de interventie- als de controlegroep terechtkomen. Dit kan door per
behandelaar of centrum een aparte randomisatie uit te voeren (ge-
stratificeerde randomisatie). Ook kan ernaar worden gestreefd steeds
ongeveer evenveel patiënten in de index- als in de controlegroep te
hebben. Dit kan door de verdeling over de index- en controlegroep na
een vast aantal patiënten steeds gelijk te zetten. Binnen een blok wordt
de volgorde dan random bepaald, maar na ieder veelvoud van de
blokgrootte is het aantal in beide groepen gelijk. Voorbeeld van een
blokrandomisatie met een blokgrootte van 6 is: aabbab babbaa aabbab
bbabaa etcetera.
Een bijzondere manier van randomisatie is clusterrandomisatie: niet
de patiënten worden gerandomiseerd, maar de behandellocatie of
groep behandelaren. Soms is het namelijk niet mogelijk om op pa-
tiëntniveau te randomiseren, omdat patiënten in de controlegroep dan
ook onderdelen van de interventie zouden kunnen krijgen. Dit speelt
wanneer een behandelaar of team na een uitgebreide training een
probleem op een bepaalde manier moet aanpakken of wanneer de
interventie een hele verandering van de zorg betekent. Een voorbeeld
is de aanpak van stoppen-met-roken in een huisartsenpraktijk. Als
zowel de assistente, de praktijkondersteuner als de huisarts bijzonder
alert en getraind is, kunnen ze deze aanpak niet aselect toepassen op
patiënten, zeker niet als de aanpak samengaat met posters in de
wachtkamer. Een ander voorbeeld is screening: vaak doet een hele
praktijk wel of niet mee, omdat anders patiënten die niet voor scree-
ning zijn uitgenodigd er toch van horen en alsnog de screening gaan
vragen. De oplossing is dan dus clusterrandomisatie. Voor cluster-
4 Kritisch beoordelen van een artikel 91

randomisatie geldt dat voor diverse validiteitsonderdelen, bijvoorbeeld


uitval en blindering, deze voor het cluster en de patiënten apart moe-
ten worden beoordeeld.
Er moet gewaarschuwd worden voor methoden van allocatie, die soms
wel als randomisatie beschreven zijn maar dit niet echt zijn: allocatie
op geboortedatum, volgorde van binnenkomst, dag van de week,
maand van het jaar, dossiernummer. Deze methoden heten daarom
ook wel ‘quasi random’.

2 Geblindeerde toewijzing van de interventie


De randomisatieprocedure moet zodanig zijn ingericht dat wordt
voorkomen dat degene die de patiënt beoordeelt en insluit op de
hoogte kan zijn van de randomisatievolgorde (concealment of allo-
cation). Goede manieren zijn: gebruik van centrale randomisatie-
schema’s, randomisatieschema’s die door een trialapotheek worden
beheerd, genummerde en gecodeerde verpakkingen met identieke
placebo en verummedicatie (= werkzame medicatie), genummerde,
niet-doorzichtige enveloppen, een op locatie aanwezige computer
waarvan de randomisatievolgorde pas wordt vrijgegeven na opgave
van de patiëntenkarakteristieken.
De in de toelichting bij het eerste criterium genoemde ‘quasi random’
procedures zijn per definitie niet blind voor randomisatie, omdat
degene die de patiënt includeert, kan voorzien welke behandeling de
patiënt gaat krijgen.
Blindering van randomisatie moet worden onderscheiden van blinde-
ring van effectmeting (criterium 5).

3 Blindering van patiënten


Door blindering van de patiënt wordt voorkomen dat a) hij bewust of
onbewust een grotere navolging van het protocol zal hebben, en b) de
uitkomstmeting door voorkeuren voor behandeling wordt beı̈nvloed.
Blindering van de patiënt wordt bereikt door de verum-behandeling (=
werkzame behandeling) en de placebobehandeling identiek te maken.
Medicijnen moeten dezelfde kleur, grootte, smaak en consistentie
hebben. Ook niet-medicamenteuze placebo-interventies, zoals fysio-
therapie of ruggordels, moeten voldoende identiek zijn om geloof-
waardig over te komen. Evaluatie van het succes van blindering is
gewenst. Indien een onderzoek als dubbelblind wordt beschreven
dient u goed na te gaan om wie het gaat: patiënt, behandelaar en/of
effectbeoordelaar. Dit is op voorhand niet altijd duidelijk.
92 Inleiding in evidence-based medicine

4 Blindering van behandelaars


Door blindering van de behandelaar wordt voorkomen dat hij – omdat
hij op de hoogte is van de aard van de toegewezen behandeling – een
bepaald enthousiasme zal uitstralen (selectieve vergroting van het
placebo-effect), en een verschillende mate van het opvolgen van de
richtlijnen in het onderzoeksprotocol zal hebben (door bijvoorbeeld
aan de placebogroep aanvullende behandeling aan te bieden). Ook
hier is evaluatie van het succes van blindering gewenst en dient u goed
na te gaan indien een onderzoek als dubbelblind wordt beschreven,
om wie het gaat: patiënt, behandelaar en/of effectbeoordelaar.

5 Blindering van effectbeoordelaars


Door blindering van de effectbeoordelaar wordt voorkomen dat hij de
effecten van interventie en controlebehandeling verschillend beoor-
deelt. Zoals ook gold bij de vorige twee items is evaluatie van het
succes van blindering gewenst en dient u goed na te gaan of in geval
van een als dubbelblind beschreven onderzoek, dit inderdaad de
effectbeoordelaar betreft. De keuze van een ‘harde’ uitkomst (bijv.
sterfte binnen zeven dagen) maakt geblindeerde verzameling van in-
formatie overbodig. Mits voor iedere patiënt informatie over de gehele
(van tevoren bepaalde) observatieduur wordt ingewonnen, is deze
uitkomst niet gevoelig voor informatiebias. In deze laatste situatie kan
blindering van de behandelend arts of van de patiënt nog steeds nodig
zijn in verband met vergelijkbaarheid van niet-specifieke factoren,
bijvoorbeeld met betrekking tot het voorschrijven van comedicatie.

6 Vergelijkbaarheid van de groepen aan het begin van het


onderzoek
Dit criterium kan belangrijk zijn voor RCT’s, maar vooral voor niet-
gerandomiseerde cohortonderzoeken. Bij niet-gerandomiseerd co-
hortonderzoek is het belangrijk extra aandacht te besteden aan de
vergelijkbaarheid van de groepen. De groepen moeten aan het begin
van het onderzoek op belangrijke prognostische kenmerken vol-
doende gelijk zijn. Theoretisch zouden de groepen alleen wat betreft
de toegewezen therapie moeten verschillen. Bij beoordeling kan wor-
den gelet op:
– belangrijke prognostische variabelen, waaronder bijvoorbeeld
ziekteduur, ernst, comedicatie, comorbiditeit;
– uitgangswaarden van de belangrijkste uitkomstmaten;
– demografische gegevens (geslacht, leeftijd).
4 Kritisch beoordelen van een artikel 93

Kleine verschillen kunnen op basis van toeval optreden. Bij grote


verschillen dient beredeneerd te worden in welke mate en in welke
richting de resultaten beı̈nvloed kunnen worden.

7 Volledigheid van follow-up


Het is belangrijk om per groep de aantallen patiënten bij randomisatie
en bij follow-up te vergelijken. Relatief grote uitval (loss-to-follow-up)
maakt een onderzoek gevoelig voor selectieve loss-to-follow-up. Aan-
tallen en redenen voor uitval moeten gerapporteerd zijn. Ook als er
geen uitvallers waren, dient dit te zijn beschreven. Indien de redenen
van uitval uit het onderzoek of wanneer de absolute aantallen uitval-
lers tussen de groepen verschillend zijn en tot een vertekening van de
uitkomsten kunnen leiden, heet dit selectieve loss-to-follow-up. Het
is niet mogelijk op voorhand per indicatiegebied aan te geven welk
percentage loss-to-follow-up nog acceptabel is.

8 Analyse van patiënten in de groep waarin ze waren


gerandomiseerd
Patiënten die uitvallen bij een onderzoek, zijn vaak patiënten met wie
het relatief goed gaat, of met wie het juist relatief slecht gaat. Dit geldt
ook voor patiënten die in de loop van het onderzoek de onderzoeks-
medicatie staken. Wanneer deze patiënten niet in de analyse betrokken
worden, kan vertekening ontstaan. Immers, bij selectieve uitval gaat
de balans in het risicoprofiel, die door randomisatie bewerkstelligd
werd, verloren. In de situatie dat het al dan niet overlijden van de
patiënt de uitkomst is van het onderzoek, kan deze uitkomst voor alle
patiënten worden achterhaald, ongeacht of de patiënt de onderzoeks-
medicatie gestaakt heeft. Wanneer op deze wijze de sterfte per be-
handelingsgroep wordt vastgesteld, spreekt men van een analyse vol-
gens het ‘intention to treat’-principe. Dit betekent dus dat de patiënt,
wat er ook gebeurt (overlijden aan een niet-gerelateerde oorzaak,
beëindigen van de onderzoeksmedicatie, verhuizen, enz.), blijft
meetellen bij de groep waarin hij aan het begin van het onderzoek was
ingedeeld. Ook wanneer de uitkomst minder ‘hard’ is, bijvoorbeeld
het optreden van een beroerte, kan een analyse volgens het ‘intention
to treat’-principe plaatsvinden.

Uitkomsten die optraden terwijl van de oorspronkelijk toegewezen


behandeling was afgeweken, worden in een ‘intention to treat’-analyse
dus toegerekend aan de bij randomisatie toegewezen behandeling.
De effecten van de indexbehandeling worden hierdoor verdund. Het
waargenomen effect zal dus minder groot zijn dan in principe moge-
94 Inleiding in evidence-based medicine

lijk is. Door sommigen wordt dit als nadeel gezien. Daar staat tegen-
over dat afwijkingen van de voorgeschreven behandeling ook in de
dagelijkse klinische praktijk voorkomen, zodat aangenomen mag
worden dat de ‘intention to treat’-analyse een realistisch beeld geeft
van de te verwachten uitkomsten.

Een alternatief is de ‘per protocol’-analyse, waarbij alleen die gebeur-


tenissen in acht worden genomen die optraden vóór beëindiging van
de onderzoeksmedicatie. In het algemeen leidt een dergelijke analyse
tot een te optimistisch beeld van de indexbehandeling, een reden
waarom de voorkeur wordt gegeven aan een analyse volgens het ‘in-
tention to treat’-principe. In de situatie dat een therapeutisch experi-
ment is uitgevoerd met als doelstelling te leren over de effecten van
een interventie die onder perfecte omstandigheden is uitgevoerd (een
verklarend onderzoek), wordt soms de voorkeur gegeven aan de ‘per
protocol’-analyse.

Het ‘intention to treat’-principe kan alleen worden toegepast wanneer


de uitkomst in principe voor alle patiënten (achteraf ) kan worden
vastgesteld. Wanneer de uitkomst het resultaat van een meting is,
bijvoorbeeld de afname van een depressiviteitschaal een half jaar na
randomisatie, kan het ‘intention to treat’-principe niet zonder meer
worden toegepast. De mate van depressiviteit na zes maanden kan
vaak niet voor alle patiënten worden vastgesteld. Het ligt voor de hand
dat patiënten die voortijdig ‘genezen’ of bij wie de klachten tot een
onhoudbare situatie leiden, zich uit het onderzoek terugtrekken. Het
heeft in deze situatie de voorkeur de laatst gemeten waarde van de
depressiviteitscore te substitueren voor de ontbrekende eindwaarde.
Men spreekt van een ‘last observation carried forward’-analyse. Ook
kan men nagaan wat de uitkomst is voor de uitvallers wanneer de
meest gunstige uitkomst wordt ingevuld (best case analyse) of wan-
neer juist de slechtste uitkomst wordt gekozen (worst case analyse).
Een analyse waarbij de patiënten met een ontbrekende eindwaarde
worden weggelaten, is onbetrouwbaar. Wanneer geen substitutie kan
plaatsvinden (bijvoorbeeld door het geheel ontbreken van scores na
randomisatie), is er vaak geen andere oplossing dan deze patiënten
van de analyse uit te sluiten. In dat geval worden de betreffende
patiënten als ‘niet-evalueerbaar’ gerapporteerd. De analyse geldt dan
als betrouwbaar indien aannemelijk is dat de uitval in beide groepen
vergelijkbaar is (criterium 7).
4 Kritisch beoordelen van een artikel 95

Bij een ‘intention to treat’-analyse wordt steeds getracht alle geran-


domiseerde patiënten in de analyse te betrekken. Slechts bij uitzon-
dering worden patiënten als niet-evalueerbaar van de analyse uitge-
sloten. Op deze wijze wordt recht gedaan aan het principe dat rand-
omisatie leidt tot vergelijkbare groepen en dat iedere afwijking hiervan
een bedreiging vormt voor de interne validiteit. Er is één uitzondering.
Indien achteraf ondubbelzinnig kan worden vastgesteld dat enkele
patiënten (op grond van gegevens gemeten voor randomisatie) niet
aan de inclusie voldeden, kan worden overwogen deze patiënten van
de analyse uit te sluiten. De randomisatie heeft deze patiënten immers
willekeurig over de behandelingsgroepen verdeeld. Het voordeel ligt
in een betere toepasbaarheid van de resultaten van het onderzoek. De
resultaten van de patiënten die niet aan de selectiecriteria voldeden,
vertroebelen de beoogde indicatiestelling.

9 Gelijke behandeling van de groepen, afgezien van de interventie


De behandeling van de patiënten in de verschillende groepen dient,
behalve het door randomisatie beoogde contrast, geen verschillen te
vertonen. Bij goed geblindeerde behandelingen is de vergelijkbaarheid
daarvan in de regel geen probleem.
Bij de beoordeling kan worden gelet op:
– co-interventies: verdeling van behandelingen anders dan de door
randomisatie toegewezen behandeling(en). Soms worden deze
door de onderzoekers onder controle en dus gelijk gehouden. In
andere gevallen worden de co-interventies per groep gerapporteerd.
Indien er geen melding van co-interventies wordt gemaakt, moet
men op zijn hoede zijn;
– contaminatie: in geval van contaminatie krijgt of zoekt de patiënt in
de loop van het onderzoek precies de behandeling die eigenlijk aan
de andere groep toegewezen is;
– therapietrouw: indien de therapietrouw aan de toegewezen behan-
deling in de ene groep veel groter is dan in de andere, kan dit de
interpretatie van de gegevens verstoren.

Belang
1 Grootte van het effect
De ruwe gegevens van een onderzoek bevatten alle informatie over het
onderzochte behandelingseffect. In deze vorm is de informatie echter
niet toegankelijk, noch voor de onderzoeker zelf, noch voor anderen.
In de paragraaf ‘resultaten’ van een artikel worden in de eerste plaats
de onderzoeksbevindingen beschrijvend in beknopte vorm weergege-
ven. Naast deze beschrijvende gegevens worden ook statistische
96 Inleiding in evidence-based medicine

grootheden gepresenteerd, die de lezer behulpzaam zijn bij de inter-


pretatie van de gegevens. Wij gebruiken de resultaten van het Epilog-
onderzoek als illustratie van de onderliggende principes. Epilog was
een gerandomiseerd onderzoek naar de effectiviteit van abciximab in
vergelijking tot een placebo bij patiënten die een coronaire revascula-
risatie moesten ondergaan. Beide groepen kregen daarnaast een be-
handeling met heparine. Abciximab is een monoklonaal antilichaam
tegen de glycoproteı̈ne-IB/IIIA-receptor. De resultaten van het onder-
zoek luiden als volgt:

behandeling eindpunt totaal percentage

abciximab 48 935 5,1%

placebo 109 939 11,6%

Het klinisch beloop in de groepen patiënten wordt gekarakteriseerd


door de proportie (fractie) patiënten die binnen dertig dagen over-
lijden, een hartinfarct krijgen, dan wel urgent gerevasculariseerd
worden: voor de met abciximab behandelde groep 5,1% en voor de
placebogroep 11,6%. Voor de individuele patiënt is dit percentage
(proportie 6 100%) de uitdrukking van het risico om gedurende de
observatieperiode het eindpunt te ontwikkelen.

Het effect van de indexbehandeling ten opzichte van de controlebe-


handeling wordt uitgedrukt in een effectschatting. Men kan het risico
in de indexgroep delen door dat in de controlegroep; hierdoor ontstaat
het relatieve risico (RR, relative risk, risicoratio of risk ratio). In het
voorbeeld is RR gelijk aan:

RR = 5,1%/11,6% = 0,44

Dit houdt in dat abciximab het risico op het (gecombineerde) eind-


punt een factor 0,44 doet afnemen. Een RR van 1 duidt op gelijke
effectiviteit van de behandelingen, RR < 1 op een (in dit geval) gunstig
effect en een RR > 1 op een ongunstig effect. Een maat die hier nauw
mee verwant is, is de relatieve risicoreductie (RRR), die gedefinieerd
wordt als:

RRR = 100% 6 (11,6% – 5,1%) /11,6% (= 100% 6 (1 – RR))


4 Kritisch beoordelen van een artikel 97

In het voorbeeld is de relatieve risicoreductie gelijk aan 56%. Dit houdt


dus in dat abciximab bij 56% van de patiënten het eindpunt voorkómt
waar ze zonder abciximab wel terecht zouden zijn gekomen. Met
andere woorden, door behandeling met abciximab neemt het risico op
het eindpunt af met 56%.

Een andere mogelijkheid is de risico’s van elkaar af te trekken. Hier-


door ontstaat het risicoverschil (RV) ook wel absolute risicoreductie
(ARR) genoemd. Voor abciximab is

RV = (11,6% – 5,1%) = 6,5%

Dit houdt in dat wanneer honderd patiënten met abciximab worden


behandeld, 6,5 eindpunten kunnen worden voorkómen.

Nauw verwant met het RV is het ‘aantal nodige behandelingen’ om één


gebeurtenis te voorkómen (number needed to treat (NNT)). In het
voorbeeld is

NNT = 1/(0,116 – 0,051) = 15,4

Dit houdt in dat vijftien tot zestien patiënten met abciximab behandeld
moeten worden om één eindpunt te voorkomen.

Er moet op gewezen worden dat de NNT afhankelijk is van: de follow-


up duur en het risico op de gebeurtenis in de controlegroep (ook wel
achtergrondrisico genoemd). Bij een langere follow-up duur is de
kans op een gebeurtenis (eindpunt) vanzelfsprekend groter. Als de
NNT’s van verschillende onderzoeken worden vergeleken, moet wor-
den gecontroleerd of de follow-up duren ook vergelijkbaar zijn. Indien
dat niet zo is, kan de NNT worden gestandaardiseerd. Dit kan alleen
als kan worden verondersteld dat de kans op een gebeurtenis gedu-
rende de follow-up min of meer constant is. Stel dat onderzoek A met
een follow-up duur van vijf jaar een NNT van 100 heeft en onderzoek B
met een follow-up van twee jaar een NNT van 200. De NNT van
onderzoek B kan dan worden gestandaardiseerd naar vijf jaar: NNT
onderzoek B, standaardisatie naar follow-up vijf jaar is dan 200 6
(2 jaar/5 jaar) = 80. Of in formule: NNT gestandaardiseerd = NNT
geobserveerd 6 (follow-up geobserveerd/follow-up standaardisatie).
De relatie tussen de NNT en het achtergrondrisico wordt verder toe-
gelicht onder het kopje Toepasbaarheid in deze paragraaf en in
hoofdstuk 7.
98 Inleiding in evidence-based medicine

In veel situaties bestaat de neiging de voorkeur te geven aan het ge-


bruik van de relatieve risicoreductie. Wanneer behandelingseffecten
op deze wijze worden uitgedrukt, maken zij meer indruk dan wanneer
het risicoverschil wordt gebruikt. Men vergelijke ‘het aantal eindpun-
ten wordt met 56% teruggebracht’ met ‘bij 100 behandelingen worden
6,5 eindpunten voorkomen’. Uit onderzoek is gebleken dat clinici bij
levensbedreigende aandoeningen minder geneigd zijn een nieuwe
behandeling toe te passen wanneer het behandelingseffect werd
weergegeven als risicoverschil dan wanneer de relatieve risicoreductie
werd gebruikt. Daar staat tegenover dat het RV (en de hieruit afgeleide
NNT) de gezondheidswinst relateert aan het benodigde aantal te be-
handelen patiënten. Zowel voor de individuele patiënt als voor de
maatschappij (de gezondheidswinst kan direct worden uitgedrukt in
relatie tot gemaakte kosten) is dit de meest relevante parameter.

Als de oorspronkelijke getallen in het artikel gepresenteerd worden,


kan men deze associatiematen dus ook zelf berekenen (tabel 4.6).
Hiervoor zijn overigens ook verschillende softwarepakketten beschik-
baar, die via een zoekmachine zijn op te sporen, onder andere met de
trefwoorden ‘‘EBM’’ en ‘‘calculator’’.

Tabel 4.6 Berekening van effectmaten (associatiematen) in een randomised controlled trial (RCT) of
cohortonderzoek met dichotome uitkomsten (EXP[x]betekent: het natuurlijke getal e
verheffen tot de macht x)
notatie uitkomst totaal

aanwezig afwezig

indexgroep (of blootgestelden) a b a+b

controlegroep (of niet-blootgestelden) c d c+d

parameter berekening 95%-betrouwbaarheidsinterval

kans op de uitkomst (risico) in a / (a+b)


de indexgroep

kans op de uitkomst (risico) in c / (c+d)


de controlegroep

risicoverschil (RV) a / (a+b) – c / (c+d) RV ± 1,96 * H [ ab / (a+b)3 + cd / (c+d)3 ]

relatieve risico (RR) [a / (a+b)] / [c / (c+d)] EXP [ ln(RR) ± 1,96 * H [1/a–1/(a+b)+


1/c–1/(c+d)] ]

relatieve risicoreductie (RRR) [ | a / (a+b) – c / (c+d) | ] via 95%-betrouwbaarheidsinterval voor


/ [ c / (c+d) ] RR

number needed to treat 1/ RV = 1 / [ | a / (a+b) – c via 95%-betrouwbaarheidsinterval voor RV


(NNT) / (c+d) | ]
4 Kritisch beoordelen van een artikel 99

2 Precisie van de effectschatting


De waargenomen risico’s, en dus de waargenomen RR en RV, zijn
onderhevig aan toevalsvariatie: andere uitkomsten kunnen worden
verwacht indien het onderzoek onder dezelfde omstandigheden op-
nieuw zou worden uitgevoerd. Deze toevalsvariabiliteit zorgt voor
onzekerheid over de bepaling van het RR en het RV. Het is mogelijk
deze onzekerheid over deze effectschattingen te kwantificeren. Hier-
voor wordt het 95%-betrouwbaarheidsinterval gebruikt, dat bestaat uit
een interval (rondom het waargenomen relatieve risico) van mogelijke
waarden die geacht mogen worden te passen bij de waarnemingen. In
het abciximab-voorbeeld (met een RR van 0,44) reikt het 95%-be-
trouwbaarheidsinterval van 0,32 tot 0,61. Waarden dicht bij het bere-
kende RR passen goed bij de gegevens, waarden aan de uiteinden
passen slechts marginaal. Het betrouwbaarheidsinterval kan worden
gezien als een intervalschatting van het werkelijke relatieve risico.
De breedte van het interval wordt bepaald door de grootte van de
behandelingsgroepen en door een gekozen waarde die de mate van
consistentie tussen het interval en de gegevens bepaalt. Dit betrouw-
baarheidspercentage, volgens conventie op 95% gesteld, geeft het
betrouwbaarheidsinterval een zodanige breedte dat het in 95% van
de toepassingen het werkelijke relatieve risico omsluit. Op grond van
deze eigenschap kan met 95% zekerheid gesteld worden dat het wer-
kelijke relatieve risico ook in het berekende interval ligt. De breedte
van het betrouwbaarheidsinterval weerspiegelt alleen informatie die
verkregen werd uit het onderhavige onderzoek (en niet de overige
informatie). Als zodanig kan het betrouwbaarheidsinterval gezien
worden als een indicatie van de precisie (nauwkeurigheid) waarmee
het behandelingseffect (RR) werd bepaald. De breedte van het interval
is sterk afhankelijk van de grootte van de groepen: hoe groter de
groepen, hoe smaller het betrouwbaarheidsinterval. Kleine onderzoe-
ken hebben brede betrouwbaarheidsintervallen en leveren weinig in-
formatie. Grote onderzoeken hebben smalle betrouwbaarheidsinter-
vallen en leveren veel informatie. Bij het opzetten van een onderzoek
bepaalt de onderzoeker door de keuze van de groepsgrootte de pre-
cisie van het onderzoek.

Een effectschatting (RR, RV, NNT) met betrouwbaarheidsinterval geeft


een direct interpreteerbare beschrijving van de relevante informatie uit
een onderzoek. Door de eerste wordt het behandelingseffect ge-
kwantificeerd, door de tweede de zekerheid. Dit is de enig juiste
methode, die dan ook bij elk onderzoek gehanteerd zou moeten wor-
den.
100 Inleiding in evidence-based medicine

Helaas vindt deze methode geen algemene toepassing. Nog steeds


wordt gebruikgemaakt van statistische toetsen met bijbehorende be-
grippen als ‘statistische significantie’ en ‘p < 0,05’. In tegenstelling tot
het betrouwbaarheidsinterval, met behulp waarvan de onzekerheid
over het waargenomen relatieve risico wordt gekwantificeerd, legt de
statistische toets de nadruk op de vraag of de waargenomen uitkom-
sten nog verenigbaar zijn met de hypothese dat de indexbehandeling
(middel) even effectief is als de controlebehandeling (placebo). Deze
hypothese wordt de nulhypothese (H0) genoemd. Een statistische
toets is een formeel beslissingsschema om, aan de hand van de re-
sultaten van het onderzoek, een kwalitatieve uitspraak te doen over
de werkzaamheid van het middel (of in statistisch jargon: om de
nulhypothese al dan niet te verwerpen). De uitspraak wordt gedaan op
geleide van de p-waarde: een getal tussen 0 en 1, dat uit de gegevens
van het onderzoek kan worden berekend. De regel is als volgt: een
behandelingseffect heet aanwezig (ofwel: de nulhypothese wordt ver-
worpen) wanneer de berekende p-waarde kleiner is dan 0,05. Het
onderzoeksresultaat heet dan statistisch significant. Het getal 0,05
wordt de drempelwaarde genoemd en wordt genoteerd als alfa (a).
Ook wordt de term significantieniveau gehanteerd. Het is tevens mo-
gelijk een andere drempelwaarde te kiezen, bijvoorbeeld 0,01. In dat
geval spreekt men van statistische significantie op het 1-procentsni-
veau.

Statistische significantie is een eigenschap van de onderzoeksresulta-


ten. De klinische relevantie van het behandelingseffect hangt vooral
af van de grootte van het behandelingseffect, dat wil zeggen van de
grootte van het waargenomen RR of het waargenomen RV. Vooral bij
grote onderzoeken komt het voor dat bij een waargenomen RR dat
klinisch gesproken nauwelijks van 1 verschilt, toch significantie op-
treedt (figuur 4.7). De statistische toets is dan gevoelig voor kleine,
klinisch niet-relevante behandelingseffecten en is praktisch niet
bruikbaar meer. Het omgekeerde komt echter veel vaker voor. Wan-
neer een onderzoek te klein is, heeft het een laag onderscheidings-
vermogen. Dit houdt in dat het onderzoek niet in staat is klinisch
relevante effecten statistisch te detecteren. De p-waarde is dus alleen
een bruikbaar hulpmiddel bij het trekken van conclusies wanneer de
onderzoeksgroepen voldoende groot zijn. Of het onderzoek voldoende
groot was, valt niet uit de p-waarde af te lezen. De criteria voor ‘vol-
doende groot’ zijn niet gemakkelijk te geven. Daardoor is de betekenis
van ‘significant’ en ‘niet-significant’ vaak moeilijk te schatten. Deze
problemen zijn te vermijden door gebruik te maken van direct inter-
4 Kritisch beoordelen van een artikel 101

preteerbare effectschattingen zoals RR en RV, aangevuld met een


betrouwbaarheidsinterval.

klinisch relevant
verschil

geen verschil

a b c d
statistisch significant statistisch niet significant

klinisch klinisch geen conclusie mogelijk daadwerkelijk negatief


belangrijk onbelangrijk

Figuur 4.7 Onderscheid tussen statistische significantie en klinische relevantie.


De verticale lijnen vertegenwoordigen de 95%-betrouwbaarheidsintervallen rond
het verschil tussen indexbehandeling en controlebehandeling:
a verschil is statistisch significant en klinisch relevant;
b verschil is statistisch significant maar klinisch onbelangrijk;
c verschil is statistisch niet-significant en de klinische relevantie onzeker;
d verschil is statistisch niet-significant en klinisch onbelangrijk

Bron: G. Berry. Med J Aust 1986;144:618-9.

Toepasbaarheid
De toepasbaarheid van trialresultaten op de individuele patiënt wordt
uitgebreider beschreven in hoofdstuk 7. We beperken ons hier tot de
hoofdzaken.

1 Overeenkomst van de patiënten in het onderzoek met de eigen


patiënt(en)
Hiervoor moet worden beoordeeld of de eigen patiënt wel voldoet aan
de in- en exclusiecriteria van het onderzoek. Bij de beoordeling kan
worden gelet op bijvoorbeeld ziekteduur, ernst, comedicatie, comor-
biditeit, het echelon waarin het onderzoek is uitgevoerd en demogra-
fische gegevens als geslacht en leeftijd. Het strikt toepassen van deze
vergelijking zal opleveren dat vaak een passend onderzoek ontbreekt.
102 Inleiding in evidence-based medicine

Daarom moet eerder een kwalitatieve klinische afweging worden ge-


maakt: zijn er redenen om aan te nemen dat mijn patiënt anders op de
interventie zal reageren dan de patiënten in het onderzoek?

Verder moet nauwlettend aandacht worden geschonken aan rappor-


tage van positieve effecten in bepaalde subgroepen, bijvoorbeeld al-
leen een positief effect bij mannen en niet bij vrouwen, of wel bij
vrouwen ouder dan vijftig jaar, maar niet bij vrouwen jonger dan vijftig
jaar. Door vele analysen na elkaar te doen, kan op basis van toeval een
subgroep met een positief effect voor de therapie worden gevonden.
Om dit soort fout-positieve bevindingen bij subgroeprapportages te
voorkomen, kan aandacht worden besteed aan de volgende beoorde-
lingscriteria:
– positieve resultaten in subgroepen die reeds voorafgaand aan het
onderzoek waren benoemd, zijn geloofwaardiger dan resultaten in
achteraf samengestelde subgroepen;
– de biologische en klinische plausibiliteit is belangrijk;
– duidelijk significante en klinisch relevante verschillen zijn geloof-
waardiger;
– een geı̈dentificeerde subgroep is geloofwaardiger indien deze con-
sistent in een aantal verschillende onderzoeken is gevonden;
– een klein aantal subgroepanalysen beperkt de kans op fout-posi-
tieve bevindingen.

2 Haalbaarheid in de eigen praktijkvoering


Hierbij zal moeten worden beoordeeld of de patiënt of de verzekering
in staat is de kosten van de behandeling, inclusief de noodzakelijke
controles, te betalen. Naast kosten bepalen de beschikbaarheid van
voldoende geschoold personeel en speciale apparatuur de haalbaar-
heid.

3 Voor- en nadelen van behandeling voor de patiënt


De NNT hangt af van het absolute risico van een patiënt op de uit-
komst. Een patiënt met een laag risico (en dus een gunstige prognose)
heeft relatief minder baat bij een behandeling, wat tot uitdrukking
komt in een grotere NNT. De NNT wordt in de behandelbeslissing
afgewogen tegen met name de kosten en bijwerkingen (zie voor een
uitgebreidere bespreking van deze afwegingen hoofdstuk 7).

4 Ideeën en voorkeuren van de patiënt


De patiënt zal moeten worden geı̈nformeerd over de effectiviteit van
de therapie en de mogelijke bijwerkingen. De patiënt kan dan mede
4 Kritisch beoordelen van een artikel 103

bepalen aan welke uitkomstmaat hij de meeste waarde hecht. Dit kan
soms duidelijk verschillen van wat de arts meent dat belangrijk is.
De arts kan zich bijvoorbeeld vooral op de kans op overleven richten,
terwijl de patiënt de kwaliteit van leven (bijv. het nog kunnen deel-
nemen aan verenigingsactiviteiten) het belangrijkst blijkt te vinden.
Ook de waardering van bijwerkingen kan per patiënt verschillend zijn.
Voor de ene patiënt is een verminderd libido onaanvaardbaar, terwijl
het de andere patiënt niets uitmaakt. Sommige patiënten besluiten op
basis van informatie of eerdere ervaringen (van henzelf of van fami-
lieleden) om bepaalde effectief bevonden behandelingen toch niet te
willen ondergaan of behandelingen met minimale voordelen juist wel
te willen ondergaan.

4.4.3 conclusie
In deze paragraaf is in het bijzonder de beoordeling van de RCT aan
de orde geweest. Door randomisatie, en indien mogelijk blindering,
kunnen veel potentiële bronnen van vertekening van het therapiere-
sultaat worden uitgeschakeld. Indien een RCT beschikbaar is, of een
systematische review van RCT’s, dan kan de arts zich hier in eerste
instantie op richten. Het kritisch lezen van een RCT dient systematisch
te gebeuren, omdat elk beoordelingsaspect een belangrijke versto-
rende invloed kan hebben. Ten slotte zal de arts zich een indruk
moeten vormen van de effectiviteit van de interventie in zijn eigen
setting en voor de individuele patiënt voor wie op dat moment een
keuze moet worden gemaakt. De inschatting van de NNT speelt hierin
een grote rol. De afwegingen die hierbij moeten worden gemaakt,
worden uitgebreid besproken in hoofdstuk 7.

Literatuur
Altman DG, Schulz KF, Moher D, Egger M, Davidoff F, Elbourne D, Gøtzsche PC, Lang
T; CONSORT GROUP (Consolidated Standards of Reporting Trials). The revised
CONSORT statement for reporting randomized trials: explanation and elaboration.
Ann Intern Med 2001;134:663-94.
Elbourne DR, Campbell MK. Extending the CONSORT statement to cluster random-
ized trials: for discussion. Stat Med 2001;20:489-96.
Moher D, Schulz KF, Altman DG. The CONSORT statement: revised recommendations
for improving the quality of reports of parallel-group randomised trials. Lancet
2001;357:1191-4.
Schuling J, Toenders WGM. Evidence-based medicine: betekenis voor de farmaco-
therapie. Geneesmiddelen Bull 1999;33:71-7.
Straus SE, Richardson WS, Glasziou P, Haynes RB. Evidence-based Medicine: How to
practice and teach EBM. 5 Therapy. 3rd ed. Edinburgh: Churchill Livingstone, 2005.
Users’ Guides to EBP. Centre for Health Evidence [geraadpleegd op 29 februari 2008].
Beschikbaar op website www.cche.net/usersguides/main.asp
104 Inleiding in evidence-based medicine

4.5 Bijwerkingen en etiologie

M. Offringa, E.P. van Puijenbroek en R.J.P.M. Scholten

4.5.1 inleiding
Als we een patiënt een behandeling aanbieden, dient deze behande-
ling uiteraard veilig te zijn en vrij van ernstige bijwerkingen. Het
inschatten van het optreden van (ernstige) bijwerkingen in relatie tot
de behandeling is dan ook een belangrijke stap in het behandelings-
proces. Zo wil men bijvoorbeeld vaststellen of een derdegeneratie
anticonceptiepil vergeleken met een pil van de tweede generatie al dan
niet een verhoogd risico geeft op diepe veneuze trombose of op kanker
bij een individuele patiënt. Onderzoek naar ernstige bijwerkingen
heeft veel overeenkomsten met etiologisch onderzoek – het onderzoek
naar oorzaken van ziekten. In dit hoofdstuk komen dan ook zowel
onderzoek naar ernstige bijwerkingen als etiologisch onderzoek aan
de orde. In etiologisch onderzoek is de determinant dan geen medi-
sche interventie maar een potentieel schadelijke factor.

Van de ontdekking van een bijwerking naar de individuele kans op schade


De ontdekking van nog onbekende bijwerkingen en het vaststellen van
de incidentie hiervan zijn twee afzonderlijke zaken. Het signaleren van
mogelijk nieuwe bijwerkingen vindt veelal plaats aan de hand van
observaties in de dagelijkse praktijk. Het analyseren van deze casuı̈s-
tiek heeft een ander doel dan RCT’s, cohort- of patiëntcontroleonder-
zoek, waarbij kwantificeren van een mogelijke relatie veelal voorop-
staat. Door het publiceren of het melden van deze observaties aan
hiervoor aangewezen instanties worden ook anderen opmerkzaam
gemaakt en zo kunnen soortgelijke waarnemingen eerder herkend
worden. De casuı̈stiek neemt daarom in de huidige evidence-based
wereld onveranderd een eigen onmisbare plaats in.

Epidemiologische onderzoeken – inclusief randomised controlled


trials (RCT’s) – spelen een minder grote rol bij het ontdekken van
bijwerkingen. RCT’s zijn veelal ontworpen voor het vaststellen van de
effectiviteit van de geneesmiddelen. Wat betreft de veiligheid worden
in RCT’s in de regel alle onverwachte klinische verschijnselen (adverse
events) en niet alleen die met een causale relatie met het gebruikte
geneesmiddel (adverse drug reaction ofwel de ‘echte’ bijwerking) verza-
meld, waardoor de interpretatie van gegevens over mogelijke bijwer-
kingen lastig kan zijn. De grootte van RCT’s is bovendien doorgaans
‘beperkt’ tot hooguit een paar duizend patiënten, en alleen de vaak
4 Kritisch beoordelen van een artikel 105

voorkomende bijwerkingen kunnen in een RCT aan het licht komen.


Daarnaast worden bijwerkingen met een lange latentietijd (zoals kan-
ker) door de beperkte duur van de RCT’s vaak evenmin ontdekt. Bij de
inclusie worden vaak relatief gezonde proefpersonen geselecteerd, die
in de regel geen comedicatie gebruiken, niet zwanger zijn en bij wie
geen sprake is van een uitgebreide comorbiditeit. Ouderen en kinde-
ren worden veelal van deze onderzoeken uitgesloten. Bij het beoor-
delen van de bruikbaarheid van gegevens over de bijwerkingen die uit
deze trials voortkomen, dient dan ook rekening te worden gehouden
met deze beperkingen. Men dient zich te realiseren dat de gegevens uit
deze trials niet zonder meer van toepassing zijn op de individuele
patiënt.

Op het moment dat de eerste berichten over een mogelijk verband


tussen een geneesmiddel en een nieuwe bijwerking in de publiciteit
worden gebracht, wordt veelal ook aanvullend onderzoek noodzake-
lijk geacht. Een wetenschappelijke analyse van de relatie tussen ge-
neesmiddel en mogelijke bijwerking aan de hand van gecontroleerd
onderzoek neemt naar verhouding veel tijd in beslag. Er kan echter in
een vroeg stadium een roep om maatregelen zijn. Dit brengt met zich
mee dat beslissingen naar aanleiding van signalen over mogelijke
bijwerkingen, bijvoorbeeld aanpassingen in de bijsluitertekst of het uit
de handel nemen van geneesmiddelen soms alleen op casuı̈stiek be-
rusten.

De detectie van bijwerkingen


Bij het ontdekken van bijwerkingen na het op de markt brengen
van een geneesmiddel zijn observaties in de dagelijkse klinische
praktijk van onmisbare waarde. Deze kunnen gemeld worden aan
het Nederlands Bijwerkingen Centrum Lareb waar nadere analyse van
een mogelijk signaal van een nieuwe bijwerking plaatsvindt,
onder meer aan de hand van andere meldingen uit soortgelijke
centra wereldwijd. Door deze praktijkobservaties te publiceren
kan een eerste signaal afgegeven worden dat een geneesmiddel
mogelijk een bijwerking veroorzaakt. Voor het daadwerkelijk
bepalen van de incidentie van een bijwerking is aanvullend epi-
demiologisch onderzoek noodzakelijk.

In de hiërarchie van validiteit van onderzoek naar bijwerkingen komt


de randomised controlled trial op de eerste plaats, gevolgd door ver-
106 Inleiding in evidence-based medicine

schillende vormen van niet-experimenteel ofwel observationeel on-


derzoek: cohortonderzoek en patiëntcontroleonderzoek (zie ook
hoofdstuk 6). Het is uiteraard niet ethisch onderzoek naar bijwerkin-
gen (of oorzaken van ziekte) door middel van een RCT uit te voeren en
gezonden aan een schadelijke factor bloot te stellen. Het optreden van
onschuldige bijwerkingen (zoals misselijkheid of duizelingen) kan
dus in het kader van een RCT worden ontdekt, maar voor de analyse
van meer zeldzame en ernstige bijwerkingen moet gebruikgemaakt
worden van patiëntcontroleonderzoeken of een grootschalige obser-
vationele cohortstudie (zie hierna). Betreft het onderzoek naar bij-
werkingen inderdaad een RCT, dan wordt voor de beoordeling hiervan
verwezen naar paragraaf 4.4.

Onderzoek naar ernstige bijwerkingen betreft dus doorgaans obser-


vationeel onderzoek (cohortonderzoek of patiëntcontroleonderzoek).

In cohortonderzoek worden aan de interventie (of schadelijke factor)


blootgestelden en niet-blootgestelden gedurende een voldoende lange
periode gevolgd en wordt het optreden van de ongewenste bijwerking
bestudeerd. Een bijzondere vorm van cohortonderzoek gericht op het
onderzoek naar bijwerkingen is de ‘intensive monitoring’. Bij dit niet-
gerandomiseerd onderzoek worden gebruikers van geneesmiddelen
gedurende langere tijd gevolgd in cohorten van soms enkele tiendui-
zenden gebruikers. Intensive monitoring systemen worden gebruikt in
het Verenigd Koninkrijk, Nieuw-Zeeland, Japan en sinds kort ook in
Nederland.

In patiëntcontroleonderzoek wordt blootstelling aan de onderzochte


interventie (of schadelijke factor) van patiënten met de bestudeerde
bijwerking vergeleken met die van controles zonder de bijwerking.

Door het observationele karakter kent onderzoek naar bijwerkingen


typisch methodologische problemen. Als niet scherp wordt opgelet,
kunnen verstorende factoren de resultaten van dergelijk onderzoek
flink vertekenen. Deze verstorende factoren zijn vaak risicofactoren
die zowel samenhangen met de ongewenste uitkomst als met de kans
op blootstelling aan de schadelijke factor of de kans op het ondergaan
van de behandeling. Een voorbeeld hiervan is dat bepaalde medica-
menten worden voorgeschreven aan patiënten met een verhoogd risi-
co op een ongunstige uitkomst. Hierdoor lijkt het alsof deze medicatie
de slechte uitkomst veroorzaakt; men spreekt dan van confounding by
indication. Verder kan vertekening optreden als de kans op inclusie
4 Kritisch beoordelen van een artikel 107

Bijwerkingen in de praktijk
– Gerandomiseerde gecontroleerde onderzoeken naar de oor-
zaken van ziekte of oorzaken van zeldzame maar ernstige
bijwerkingen zijn zeer moeilijk of onmogelijk – want
onethisch – uit te voeren.
– We maken daarom gebruik van de resultaten van patiëntcon-
troleonderzoek of cohortonderzoek. Hierbij treden speciale
methodologische problemen op.
– Belangrijke begrippen bij de interpretatie van dit type onder-
zoek zijn bias, toeval en causaliteit. De resultaten worden vaak
uitgedrukt in de moeilijk interpreteerbare odds-ratio.
– De behandelaar zal zich bij het interpreteren van de toepas-
baarheid van een onderzoek over bijwerkingen moeten afvra-
gen of het effect groot en gevaarlijk genoeg is, of de klinische
karakteristieken van de bestudeerde patiënten niet te veel
afwijken van die van de actuele patiënt, of dat deze laatste juist
een verhoogde kans op de bijwerking heeft, en dat de behan-
deling om die reden niet gestart moet worden.

in het onderzoek als patiënt of controle sterk gerelateerd is aan de


blootstellingsstatus; men spreekt dan van selectiebias. Een bijzondere
vorm van selectiebias is ‘channeling’, waarbij patiënten met een ver-
hoogd risico op een bepaalde bijwerking (bijvoorbeeld maaglijden bij
NSAID-gebruik) juist die middelen voorgeschreven krijgen waarvan
geclaimd wordt dat ze een bepaalde bijwerking minder hebben. Ook
dienen de belangrijkste onderzoeksvariabelen, de blootstelling en uit-
komst, in beide groepen op dezelfde of goed vergelijkbare wijze te zijn
gemeten, anders kan er sprake zijn van informatiebias. Vooral het gevaar
van de bekende recall-bias is bij retrospectief onderzoek naar bijwerkin-
gen groot (zie paragraaf 4.5.2, item 3). Vergeleken met experimenteel
onderzoek (RCT’s) is de kans op vertekening bij observationeel onder-
zoek dus veel groter. Beoordeling van de kwaliteit van publicaties over
dit type onderzoek is dan ook met name gericht op het vaststellen van
de afwezigheid van selectiebias, informatiebias en confounding.

Is eenmaal een valide onderzoek naar bijwerkingen of etiologisch


onderzoek gevonden, dan dient vastgesteld te worden of de relatie
tussen de beoogde interventie (blootstelling) en de bijwerking (ziekte)
inderdaad als causaal opgevat kan worden. Ook hieraan wordt in dit
hoofdstuk aandacht besteed.
108 Inleiding in evidence-based medicine

4.5.2 beoordeling van een onderzoek over


bijwerkingen of etiologie
De beoordeling van een vergelijkend onderzoek over bijwerkingen valt
uiteen in de beoordeling van de validiteit, het belang van de uitkom-
sten en de toepasbaarheid van de resultaten. Dezelfde items worden
gebruikt bij het beoordelen van de kwaliteit van etiologisch onderzoek
waarbij de blootstelling dan potentieel schadelijke factoren betreft.

Beoordelingscriteria

Validiteit
1 Definiëring van de te vergelijken groepen
2 Afwezigheid van selectiebias
3 Onafhankelijke (blinde) meting van blootstelling en uitkom-
sten
4 In cohortonderzoek: duur en volledigheid van follow-up
5 In patiëntcontroleonderzoek: nieuwe (incidente) ziektegevallen
6 In patiëntcontroleonderzoek: afwezigheid misclassificatie
7 Adequate correctie (in de analyse) voor belangrijke prognos-
tische factoren (confounders)

Belang
1 Grootte van het effect
2 Precisie van de effectschatting

Toepasbaarheid en implicatie
1 Overeenkomst met de eigen patiënt(en)
2 Kans op de bijwerking
3 De verwachtingen, voorkeuren en waarderingen
4 Beschikbaarheid van alternatieve behandelingen

De beoordeling van een observationeel onderzoek wordt in de praktijk


nogal eens beperkt door een onvolledige rapportering van de validi-
teitsitems in het gepubliceerde artikel. Net als na de introductie van
het CONSORT-Statement zal het eind 2007 gelanceerde STROBE-
(STrengthening the Reporting of OBservational studies in Epidemiology) State-
ment de beoordeling van artikelen in de nabije toekomst gemakkelij-
ker maken en mogelijk verbeteren. Case reports kunnen beoordeeld
worden aan de hand van richtlijnen die recent door Kelly et al. (2007)
voor dit doel opgesteld zijn.
4 Kritisch beoordelen van een artikel 109

Validiteit
1 Definiëring van de te vergelijken groepen
De belangrijkste kenmerken van de onderzochte groepen moeten
duidelijk beschreven zijn. Het gaat hier om demografische gegevens,
de setting waarin het onderzoek plaatsvond, de criteria voor selectie in
de cohorten (cohortonderzoek) of voor selectie van patiënten en con-
troles (patiëntcontroleonderzoek), de definitie van blootstelling (aard,
dosis, duur), de definitie van de uitkomst (de ongewenste bijwerking)
en het moment van optreden ervan. Als het duidelijk is dat er factoren
bestaan die de uitkomst sterk beı̈nvloed kunnen hebben, en dat deze
factoren niet gelijk over de onderzochte groepen verdeeld waren,
wordt het belangrijk om erop te letten dat voor deze ‘verstorende’
factoren (confounders) in de analyse gecorrigeerd is (zie item 7).

2 Afwezigheid van selectiebias


Selectiebias is vertekening van de effectschatting ten gevolge van sys-
tematische fouten bij de selectie van onderzoeksdeelnemers. In co-
hortonderzoek is sprake van selectiebias, als de kans om uiteindelijk
als zieke of niet-zieke in het onderzoek terecht te komen afhankelijk is
van de blootstellingsstatus. Omdat de uitkomst (de bijwerking of
ziekte) gemeten wordt na de blootstelling, is de kans op selectiebias in
cohortonderzoek gering. Het risico van het selectief voorschrijven van
geneesmiddelen aan patiënten blijft echter aanwezig (channeling). Se-
lectiebias vormt vooral een bedreiging in patiëntcontroleonderzoek.
Selectiebias kan in deze gevallen optreden als de kans op inclusie in
het onderzoek als patiënt of controle afhankelijk is van de blootstel-
lingsstatus. Bij patiëntcontroleonderzoek dienen de controles boven-
dien een goede afspiegeling te vormen van de bronpopulatie (de
populatie waaruit de patiënten zijn voortgekomen). In feite moet het
onderzoek zo zijn ontworpen dat de controles die in de toekomst ziek
worden in een toekomstige versie van precies hetzelfde onderzoek als
patiënten worden geselecteerd. Het is bijvoorbeeld onjuist als contro-
les uit een ander land of een andere cultuur komen dan de patiënten,
tenzij aannemelijk is dat de kans op blootstelling onafhankelijk is van
woongebied en cultuur.

3 Onafhankelijke (blinde) meting van blootstelling en uitkomsten


Blootstelling en uitkomst dienen op dezelfde wijze en onafhankelijk
van elkaar bepaald te zijn. Als de onderzoeksvariabelen (blootstelling
en uitkomsten) in beide groepen niet op vergelijkbare wijze zijn ge-
meten is sprake van onvergelijkbaarheid van informatie en dreigt
informatiebias. Een speciale vorm hiervan is ‘recall bias’: deze treedt
110 Inleiding in evidence-based medicine

op in patiëntcontroleonderzoek als de patiënten zich de onderzochte


blootstelling beter herinneren dan de controles. Dit komt nogal eens
voor omdat patiënten de natuurlijke neiging hebben een verklaring te
zoeken voor het feit dat zij ziek zijn geworden. De kans op informa-
tiebias kan worden verminderd door het gebruik van objectieve uit-
komsten (bijvoorbeeld ‘plotse dood’), gestandaardiseerde, objectieve
meetinstrumenten (bijvoorbeeld vaststellen van blootstelling aan de
hand van biochemisch onderzoek) of door objectieve, onafhankelijke
beoordelaars. De uitkomst moet altijd onafhankelijk (blind) van de
blootstellingsstatus gemeten worden en vice versa.

4 In cohortonderzoek: duur en volledigheid van follow-up


De follow-up duur dient zodanig lang te zijn dat de bestudeerde uit-
komst erin kan optreden. Bovendien mag het percentage uitvallers
niet te groot zijn. Relatief grote uitval (loss-to-follow-up) maakt een
cohortonderzoek gevoelig voor selectieve uitval. Dit is in het bijzonder
het geval als de absolute aantallen uitvallers en de redenen van uitval
uit het onderzoek tussen de groepen met en de groepen zonder de
onderzochte blootstelling verschillen. Aantallen en redenen voor uit-
val dienen gerapporteerd te zijn. Ook als er geen uitvallers waren,
dient dit te zijn beschreven. Het is niet mogelijk op voorhand aan te
geven welk percentage loss-to-follow-up in welke situatie nog accep-
tabel is. Als vuistregel wordt een loss-to-follow-up van < 20% als
acceptabel beschouwd.

5 In patiëntcontroleonderzoek: nieuwe (incidente) ziektegevallen


In patiëntcontroleonderzoek dienen bij voorkeur incidente (nieuwe,
bij voorkeur recente) ziektegevallen geselecteerd te worden, waardoor
een homogene groep patiënten verkregen wordt. Bestaande (preva-
lente) ziektegevallen vormen (o.a. door verschillen in ziekteduur) een
heterogene groep. Zo kan het feit dat iemand al jaren een zeldzame
bindweefselziekte heeft, wijzen op de aanwezigheid van bepaalde
gunstige prognostische factoren; factoren die kunnen ontbreken bij
een acute en agressievere vorm van diezelfde ziekte na een toxische
blootstelling. Deze blootstelling kan gemakkelijk ontbreken bij de
groep chronische patiënten en men beschouwt dan in feite twee af-
zonderlijke ziektevormen. Om deze ziektevormen niet te vermengen
en de bestudering van de relatie van de toxische blootstelling met de
zeldzame ziekte niet te verstoren, kiest men daarom het liefst voor een
homogene groep met recente ziektegevallen.
4 Kritisch beoordelen van een artikel 111

6 In patiëntcontroleonderzoek: risico op misclassificatie


In patiëntcontroleonderzoek naar bijwerkingen bestaat het risico op
misclassificatie. Indien van een geneesmiddel al langer bekend is dat
het bepaalde bijwerkingen kan geven, is het niet ondenkbaar dat juist
bij patiënten die aan het middel blootgesteld zijn geweest klinische
verschijnselen ten onrechte als bijwerking gelabeld zijn. Nadere vali-
datie van alle cases en controles is daarom aangewezen.

7 Adequate correctie (in de analyse) voor belangrijke prognostische


factoren (confounders)
Het probleem van vertekening door confounding doet zich voor in elk
niet-gerandomiseerd onderzoek. Beide onderzochte groepen dienen
voldoende vergelijkbaar te zijn wat betreft de aanwezigheid van be-
langrijke prognostische factoren (anders dan de onderzochte inter-
ventie of blootstelling), anders dreigt confounding. In een RCT wordt
confounding in principe voorkómen door de randomisatie. In obser-
vationeel onderzoek zal vrijwel altijd sprake zijn van een ongelijke
verdeling van prognostische factoren over de groepen. Om een zuiver
beeld te verkrijgen van de associatie van de determinant met de uit-
komst, moet voor potentiële confounders gecorrigeerd worden door
een gestratificeerde of multivariate analyse toe te passen waarin de
belangrijkste confounders verdisconteerd worden. Bij de beoordeling
van een artikel kan worden gelet op correctie voor belangrijke prog-
nostische variabelen, waaronder bijvoorbeeld ziekteduur, ernst, co-
medicatie, comorbiditeit en demografische gegevens zoals geslacht en
leeftijd.

Hierna wordt een algemene inschatting van de validiteit van het be-
schouwde onderzoek gemaakt. Het gaat hier om een samenvattend
oordeel van de beoordelaar, in het licht van alle andere informatie die
over de schadelijkheid van de behandeling beschikbaar is. Er zijn geen
regels te geven voor welke items positief gescoord moeten worden of
welk aantal items ten minste positief gescoord moet worden. Dit is
deels afhankelijk van de ‘state-of-the-art’ met betrekking tot het be-
treffende onderwerp. De belangrijkste items zijn de nummers 2, 3
en 7; hierover dient de beoordelaar in ieder geval een duidelijk beeld
te hebben verkregen. Als er ‘fatale fouten’ blijken te bestaan, is het
waarschijnlijk beter niet te lang bij de resultaten en het belang van het
onderhavige onderzoek stil te staan.
112 Inleiding in evidence-based medicine

Belang
1 Grootte van het effect
De uitkomsten van onderzoek naar bijwerkingen zijn in de regel
dichotoom (wel/geen bijwerking of ziekte). Het effect van één eenheid
blootstelling kan dan uitgedrukt worden in een relatief risico (RR),
een odds-ratio (OR) of in een risicoverschil (RV). In patiëntcontrole-
onderzoek kan alleen de OR gebruikt worden.

In alle gevallen dient een analyse uitgevoerd te zijn waarmee ‘gecor-


rigeerd’ is voor potentiële confounders. Dit zijn prognostische facto-
ren die ongelijk verdeeld zijn over beide blootstellingsgroepen, en
daardoor het gevonden resultaat mede verklaren. Correctie voor con-
founding is doorgaans met multivariate logistische regressie gebeurd
(het resultaat hiervan is een OR die gecorrigeerd is voor alle con-
founders die door de onderzoekers in het multivariate regressiemodel
zijn opgenomen) of met een zogenoemde Cox-overlevingsduuranalyse
(waarmee gecorrigeerde hazard-ratio’s verkregen worden). Een andere
analyse waarmee gecorrigeerd kan worden voor confounding, is een
gestratificeerde analyse met bijvoorbeeld de methode van Mantel-
Haenszel. Hiermee kunnen voor de aanwezigheid van confounders
gecorrigeerde OR’s, RR’s of RV’s verkregen worden.
Alleen in een cohortonderzoek kan de uitkomst ook continu zijn
(bijvoorbeeld bloeddruk of cholesterolwaarde). Het effect wordt dan
uitgedrukt in een verschilscore (Engels: mean difference (MD)); deze
dient ook weer (door middel van multivariate lineaire regressie) ge-
corrigeerd te zijn voor potentiële confounders.
Uit het RV kan het ‘number needed to harm’ (NNH) worden berekend:
NNH = [1 / RV]. NNH is in dit verband de tegenhanger van number
needed to treat (NNT).
In tabel 4.7a t/m d is het afleiden van numbers needed to harm weerge-
geven uit relatieve risico’s en odds-ratio’s bij verschillende achter-
grondrisico’s (risico op de uitkomst in de niet-blootgestelde groep).
Deze tabellen gelden overigens ook voor het afleiden van numbers
needed to treat.

2 Precisie van de effectschatting


Rond de hiervoor genoemde effectmaten dient een 95%-betrouw-
baarheidsinterval te zijn berekend. Als het 95%-betrouwbaarheids-
interval de neutrale waarde uitsluit, is de gevonden relatie tussen
blootstelling en uitkomst statistisch significant. In geval van de OR
en het RR is de neutrale waarde 1; bij het RV en het verschil van ge-
middelden (MD) is de neutrale waarde 0.
4 Kritisch beoordelen van een artikel 113

Tabel 4.7a Numbers needed to harm (NNH) naar achtergrondrisico (= kans op de uitkomst in de
controlegroep) en relatieve risico (RR) (RR > 1,0).
Formule: NNH = 1 / [achtergrondrisico * (RR – 1)]
achtergrond- relatieve risico (RR)
risico
1,1 1,25 1,5 1,75 2,0 2,25 2,5 3,0 4,0

0,001 10000 4000 2000 1334 1000 800 667 500 334

0,005 2000 800 400 267 200 160 134 100 67

0,010 1000 400 200 134 100 80 67 50 34

0,015 667 267 134 89 67 54 45 34 23

0,02 500 200 100 67 50 40 34 25 17

0,05 200 80 40 27 20 16 14 10 7

0,10 100 40 20 14 10 8 7 5 4

0,15 67 27 14 9 7 6 5 4 3

0,20 50 20 10 7 5 4 4 3 2

Tabel 4.7b Numbers needed to harm (NNH) naar achtergrondrisico (= kans op de uitkomst in de
controlegroep) en odds-ratio (OR) (OR > 1,0). Formule: NNH = 1 / [ |achtergrondrisico
– 1 / (1+ (1 – achtergrondrisico) / (OR 6 achtergrondrisico))| ]
achtergrond- oddsratio (OR)
risico
1,1 1,25 1,5 1,75 2,0 2,25 2,5 3,0 4,0

0,001 10012 4006 2004 1336 1003 802 669 502 335

0,005 2012 806 404 270 203 162 136 102 69

0,010 1012 406 204 136 103 82 69 52 35

0,015 678 272 137 92 69 56 47 35 24

0,02 512 206 104 70 53 42 36 27 19

0,05 212 86 44 30 23 18 16 12 9

0,10 113 46 24 16 13 10 9 7 5

0,15 80 33 17 12 10 8 7 6 4

0,20 64 27 14 10 8 7 6 5 4
114 Inleiding in evidence-based medicine

Tabel 4.7c Numbers needed to harm (NNH) naar achtergrondrisico (= kans op de uitkomst in de
controlegroep) en relatieve risico (RR) (RR < 1,0).
Formule: NNH = 1 / [achtergrondrisico 6 (1 – RR)]
achter- relatieve risico (RR)
grondrisico
0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9

0,1 12 13 15 17 20 25 34 50 100

0,2 6 7 8 9 10 13 17 25 50

0,3 4 5 5 6 7 9 12 17 34

0,4 3 4 4 5 5 7 9 13 25

0,5 3 3 3 4 4 5 7 10 20

0,6 2 3 3 3 4 5 6 9 17

0,7 2 2 3 3 3 4 5 8 15

0,8 2 2 2 3 3 4 5 7 13

0,9 2 2 2 2 3 3 4 6 12

Tabel 4.7d Numbers needed to harm (NNH) naar achtergrondrisico (= kans op de uitkomst in de
controlegroep) en oddsratio (OR) (OR < 1,0). Formule:
NNH = 1 / [achtergrondrisico – 1 / (1 + (1 – achtergrondrisico) / (OR 6 achtergrondrisico))]
achter- oddsratio (OR)
grondrisico
0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9

0,1 12 13 15 18 22 27 36 55 110

0,2 6 7 8 10 12 15 20 30 62

0,3 4 5 6 7 9 11 15 23 47

0,4 3 4 5 6 7 9 13 20 40

0,5 3 3 4 5 6 8 12 18 38

0,6 3 3 4 5 6 8 12 19 40

0,7 2 3 4 5 7 9 13 21 45

0,8 2 3 4 6 8 11 16 27 58

0,9 3 4 6 9 13 18 28 46 102

Toepasbaarheid en implicatie
Bij het toepassen van de informatie op de eigen patiënten speelt de
externe validiteit (generaliseerbaarheid van de resultaten) van het
voorliggende onderzoek een grote rol. Niet alle resultaten zijn direct
4 Kritisch beoordelen van een artikel 115

bruikbaar bij de individuele patiënt in de spreekkamer. De behande-


laar moet daarom zelf een inschatting maken welke andere bijko-
mende factoren een rol kunnen spelen bij het optreden van bijwer-
kingen bij de individuele patiënt. Comorbiditeit en gebruikte comedi-
catie spelen hier een belangrijke rol.
Om echter te besluiten dat de associatie tussen de determinant (de
behandeling of de blootstelling) en de uitkomst (de ongewenste bij-
werking of de ziekte) gevolgen moet hebben voor de behandeling van
uw individuele patiënt, dient u aan te nemen dat er sprake is van een
causale relatie en dat het toepassen van de interventie uw patiënt met
voldoende waarschijnlijkheid kan schaden.
Het bepalen van de causaliteit van een in een cohortonderzoek of
patiëntcontroleonderzoek geobserveerd verband is echter niet een-
voudig. Causaliteit kan in de regel nooit in één onderzoek worden
vastgesteld, maar dient te worden gebaseerd op alle beschikbare in-
formatie uit laboratoriumonderzoek, dierproeven, dosis-responson-
derzoek, toxicologie of ervaringen met soortgelijke stoffen en liefst op
grond van meerdere empirische onderzoeken bij patiënten die de be-
handeling hebben ondergaan.
We dienen hier onderscheid te maken tussen ziekten die zonder de
bedoelde blootstelling niet of nauwelijks voorkomen, en ziekten die
wel voorkomen in de bevolking, maar waarop de kans bij gebruik van
een bepaald medicament bijvoorbeeld vertienvoudigd wordt. Een
voorbeeld van de eerste situatie is het optreden van ernstige focomelie
bij twee Australische pasgeborenen, wier moeders in de zwangerschap
thalidomide tegen misselijkheid hadden gebruikt. Dit leidde tot de
publicatie van een artikel in de Lancet door McBride, en tot de start van
de Softenon-affaire. Door waarneming van dezelfde associatie in en-
kele andere landen wordt er momenteel niet aan de teratogene effec-
ten van thalidomide getwijfeld.
In de praktijk is het vaak de vraag of de incidentie van veelvoorko-
mende aandoeningen door het gebruik van een geneesmiddel ver-
hoogd wordt. Is er een verhoogde kans op cataract na inhalatiecorti-
costeroı̈den, komt leukemie bij kinderen vaker voor na blootstelling
aan elektromagnetische velden onder hoogspanningslijnen, en komt
wiegendood vaker op de kinderdagopvang voor dan thuis? De bekende
statisticus Sir Austin Bradford Hill postuleerde criteria die men kan
gebruiken bij het vaststellen van een causale relatie (tabel 4.8). Hoe
meer van deze Hill-criteria van toepassing zijn, des te waarschijnlijker
het is dat er inderdaad een causaal verband bestaat.
116 Inleiding in evidence-based medicine

Tabel 4.8 Criteria voor de beoordeling van de causaliteit van het verband tussen een determinant
(blootstelling) en een uitkomst (bijwerking, ziekte).
1 tijdsrelatie de blootstelling aan de risicofactor ging vooraf aan het optreden van de ziekte

2 plausibiliteit er is een plausibel verklarend pathofysiologisch mechanisme

3 consistentie de relatie is in meerdere onderzoeken gevonden

4 biologische er is een dosis-responserelatie tussen de risicofactor en de ziekte


gradiënt

5 grootte van het grote effecten kunnen moeilijker door andere factoren worden verklaard
effect

6 interventie de ziekte wordt minder vaak gezien als de blootstelling aan de risicofactor wordt
gestaakt

7 specificiteit de relatie is specifiek voor één ziekte – de blootstelling aan de risicofactor wordt
gezien bij mensen met botkanker, niet bij andere vormen van kanker

8 coherentie van de relatie tussen de risicofactor en de ziekte is coherent met andere kennis over de
informatie omgevingsfactoren en de biologie

9 analogie er bestaat een vergelijkbare geaccepteerde relatie tussen de blootstelling aan de


risicofactor en de ziekte

Bron: Hill, Proc R Soc Med 1965;58:295-300.

De volgende items dient men zich af te vragen als het gaat om het
toepassen van de evidence over bijwerkingen bij een individuele patiënt
(zie ook hoofdstuk 7).

1 Overeenkomst met de eigen patiënt(en)


De kenmerken van de onderhavige patiënt moeten bij voorkeur vol-
doende overeenkomen met die van de in het onderzoek betrokken
patiënten. Indien uw patiënt aanzienlijk afwijkt van de onderzochte
groep, wordt inschatting van de toepasbaarheid van het gevonden
effect bij de onderhavige patiënt soms lastig. Zeker wanneer de evidence
voortkomt uit een RCT, zal dit vaker het geval zijn omdat, zoals eerder
besproken, er in de regel een strenge selectie van patiënten voor RCT’s
bestaat. Het gaat erom dat men een inschatting maakt of het gevonden
relatieve risico op de ongewenste uitkomst onder behandeling (of
blootstelling aan de schadelijke factor) ten opzichte van geen behan-
deling (of blootstelling aan de schadelijke factor) voor de onderhavige
patiënt wel of niet zal gelden. Op grond van biologische factoren (het
pathofysiologisch mechanisme, de ziekte-ernst van de patiënt) is soms
te beredeneren of uw patiënt onder de behandeling mogelijk een
4 Kritisch beoordelen van een artikel 117

hoger relatief risico of juist een lager relatief risico op de ongewenste


bijwerking heeft dan in het onderzoek werd gevonden.

2 Kans op de bijwerking
De behandelaar dient zich af te vragen of de kans op de ongewenste
bijwerking in relatie tot het beoogde gunstige effect van de behande-
ling bij deze patiënt zodanig hoog is dat de behandeling om die reden
niet gestart moet worden. Daartoe dient eerst een schatting gemaakt
te worden van het absolute risico van de patiënt op de ziekte bij
afwezigheid van de interventie (of blootstelling). Als die kans nul is,
worden alle gevallen van de ongewenste uitkomst door de medicatie
veroorzaakt. Als die kans groter is dan nul, kan voor deze patiënt het
NNH worden berekend (zie tabel 4.7) en impliciet het risico op de
bijwerking (ziekte) na interventie (blootstelling). Hierna kan aan de
hand van het NNT een afweging gemaakt worden van de baten (gun-
stig effect) en lasten (bijwerkingen) van behandeling.

3 De verwachtingen, voorkeuren en waarderingen


In een gesprek met de patiënt of zijn vertegenwoordigers kan de kans
op een gunstig resultaat van de behandeling in het perspectief worden
gezet van de kans op een bijwerking. Naargelang de patiënt de te
vermijden uitkomst als belangrijker waardeert, kan samen een geı̈n-
formeerde beslissing worden genomen of voor deze patiënt de ver-
houding baten/lasten gunstig uitvalt, of dat moet worden afgezien van
deze interventie, of om een alternatieve therapie te zoeken.

4 Beschikbaarheid van alternatieve behandelingen


Of een alternatieve behandeling met eventueel minder ernstige bij-
werkingen kan worden toegepast of dat de behandeling eventueel kan
worden gestaakt, hangt natuurlijk af van de beschikbaarheid van der-
gelijke alternatieve behandelingen (met bijbehorende bijwerkingen!)
en de beschikbare informatie over de veiligheid van het staken.

4.5.3 conclusie
Primum non nocere is het aloude adagium in de geneeskunde. In deze
paragraaf hebben we gezien dat vragen over etiologie en bijwerkingen,
alhoewel relatief minder vaak gesteld in de geneeskunde dan diag-
nostische en therapeutische vragen, belangrijk zijn. Om te besluiten of
een interventie de patiënt soms ook schade kan doen is niet eenvoudig
en de zorgverlener wordt vaak geconfronteerd met onderling tegen-
strijdige evidence.
118 Inleiding in evidence-based medicine

Onderzoeksvormen met relatief minder zeggingskracht dan gerando-


miseerde trials staan ons ter beschikking om bewijsmateriaal voor
causaliteit te leveren (case reports, het patiëntcontroleonderzoek en
het cohortonderzoek) en er is dan ook vaak veel discussie over de ware
oorzaak van ‘bijwerkingen’. De gebruikelijke uitbreiding van de evi-
dence uit genoemde typen onderzoek is met laboratoriumonderzoek en
dosis-responsonderzoeken. Als de evidence aanwezig is, valide is en de
risico’s van bijwerkingen en de kans op gunstige effecten voor de
individuele patiënt kunnen worden geschat, is er ruimte voor een
geı̈nformeerde beslissing over de vraag of voor de individuele patiënt
moet worden afgezien van de voorliggende behandeling, of dat er een
alternatieve therapie moet worden gebruikt. De resultaten van patiën-
tcontroleonderzoek worden in de vorm van de moeilijk te interprete-
ren oddsratio gegeven; in de komende jaren zullen we steeds vaker de
begrippen Number Needed to Harm en Likelihood of being Helped versus
Harmed zien.

Literatuur
Bijl D, Grobbee DE. Het patiënt-controleonderzoek. Geneesmiddelenbulletin 1999:33:
127-34.
Hill AB. The environment and disease: association or causation? Proc R Soc Med 1965;
58:295-300.
Kelly WN, et al. Guidelines for submitting adverse event reports for publication. Drug
Safety 2007;30 (5):367-73.
Stehouwer CDA. Rapportage van observationeel onderzoek: nuttige en welkome aan-
bevelingen ter verbetering. Ned Tijdschr Geneeskd 2008;152:182-4.
Straus SE, Richardson WS, Glasziou P, Haynes RB. Evidence-based medicine: How to
practice and teach EBM. 6 Harm. 3rd ed. Edinburgh: Churchill Livingstone, 2005.
Talbot JCC, Stephens MDB. Clinical trials; Collection of safety data and establishing
the adverse reaction profile. In: Talbot JCC, Waller P (eds). Stephens’ detection of
new adverse drug reactions. Chichester: Wiley, 2004:167-233.
Users’ Guides to EBP. Centre for Health Evidence [geraadpleegd op 29 februari 2008].
Beschikbaar op website www.cche.net/usersguides/main.asp
Vandenbroucke JP. Het belang van medische casuı̈stiek te midden van ‘evidence-based’
geneeskunde en moleculaire verklaringen. Ned Tijdschr Geneeskd 2002;146:1699-
703.
4 Kritisch beoordelen van een artikel 119

4.6 Screening1

Y. van der Graaf, W.J.J. Assendelft en R.J.P.M. Scholten

4.6.1 inleiding
Screening of vroege opsporing houdt in dat men personen die geen
medische hulp zoeken gaat testen op de aanwezigheid van een afwij-
king. De meest bekende voorbeelden van screening zijn de bevol-
kingsonderzoeken naar baarmoederhals- en borstkanker. Op deze
manier kan men in een vroeg stadium een tumor opsporen die bij
afwezigheid van screening pas jaren later tot klachten zou hebben
geleid. Soms wordt onder screening ook het opsporen van risicofac-
toren zoals hoge bloeddruk of verhoogd cholesterol verstaan. Door
gevonden risicofactoren te behandelen denkt men een latere compli-
catie (zoals hartinfarct of beroerte) te voorkomen. Ook bij het scree-
nen van familieleden van mensen met een erfelijke afwijking screent
men in principe op een verhoogde kans op bepaalde afwijkingen.
Voorbeelden hiervan zijn de screening van familieleden van patiënten
met een familiaire hypercholesterolemie of hartritmestoornissen. In
principe verschillen deze screeningsprogramma’s niet van die waarbij
men aantoonbare afwijkingen opspoort. De verschillen zitten vooral in
het beleid dat naar aanleiding van de screeningsuitslag wordt gevoerd.
Bij de screening op risicofactoren zal het beleid gericht zijn op de
reductie van risicofactoren, terwijl bij de screening op aantoonbare
afwijkingen meestal chirurgische verwijdering (borstkanker, dikke-
darmpoliepen, aneurysma van de aorta) of gerichte behandeling (zoals
bloedsuikerverlagende medicijnen bij diabetes of ijzersuppletie bij
anemie) volgt.
Screening lijkt op het eerste gezicht aantrekkelijk, omdat men de
ziekte in een vroeg stadium opspoort en behandelt, wat de prognose
gunstig zou moeten beı̈nvloeden. In het geval van kanker betekent
vroegere detectie mogelijk een geringere kans op uitzaaiing en bij
diabetes mogelijk minder kans op vasculaire complicaties. Een be-
langrijk nadeel van screening is echter dat men in het algemeen zeer
veel mensen moet screenen om slechts enkele afwijkingen op te spo-
ren. Zo vertonen bijvoorbeeld ongeveer drie van de duizend uitstrijkjes
premaligne afwijkingen en lang niet alle verdachte uitstrijken zijn ook
werkelijk een voorstadium van kanker (fout-positieven).
Daarnaast kan screening veel ongerustheid teweegbrengen. Het is ook

1 Voor een goed begrip van deze paragraaf dienen de paragrafen 4.2 tot en met
4.5 bestudeerd te zijn.
120 Inleiding in evidence-based medicine

niet altijd zo dat afwijkingen die via screening worden ontdekt, ver-
volgens ook succesvol kunnen worden behandeld of dat de gescreende
altijd met de behandeling instemt. Een voorbeeld van het eerste is
screening op prostaatcarcinoom met het prostaatspecifiek antigeen
(PSA), waarvan de waarde nog niet vaststaat. Een voorbeeld van het
laatste is screening van zwangere vrouwen op downsyndroom met de
bloedtripletest, waarbij de ouders besluiten om geen abortus te laten
uitvoeren. In deze gevallen kan men zich afvragen wat de vroegere
diagnose de patiënt of ouder heeft opgeleverd. Soms leidt de behan-
deling van de opgespoorde afwijking al direct tot schade, bijvoorbeeld
als iemand overlijdt aan de behandeling van een aneurysma van de
buikslagader dat bij screening is opgespoord. Voordat men kan gaan
screenen, moet dus aan veel voorwaarden zijn voldaan. Behalve dat er
een goede screeningstest voorhanden moet zijn, die acceptabel en
niet-invasief is, moet er een goede behandeling van de opgespoorde
afwijking beschikbaar zijn en screening moet uiteindelijk overtuigend
aantoonbaar tot minder klinisch manifeste ziekte en sterfte leiden. In
1968 formuleerden Wilson en Jungner in een door de Wereldgezond-
heidsorganisatie uitgegeven publicatie de tien criteria waaraan een
verantwoord bevolkingsonderzoek zou moeten voldoen. Hoewel deze
criteria bijna een halve eeuw geleden werden geformuleerd, zijn ze
nog steeds algemeen aanvaard. Er zijn nadien wel nieuwere lijstjes
gemaakt, maar deze zijn een variatie op de door Wilson en Jungner
aangedragen thema’s.

Toetsing aan de criteria van Wilson en Jungner


1 De ziekte in kwestie moet een belangrijk gezondheidsprobleem zijn.
2 Er moet een aanvaarde behandeling bestaan voor de ziekte.
3 Er moeten faciliteiten bestaan van diagnose en behandeling.
4 Er moet een detecteerbare asymptomatische of vroeg-symptomatische fase
bestaan.
5 Er moet een betrouwbare test voorhanden zijn.
6 Het testen moet aanvaardbaar zijn voor de bevolking.
7 Het natuurlijk beloop van de ziekte, met name hoe de asymptomatische fase
in echte ziekte overgaat, moet voldoende bekend zijn.
8 Er moet consensus over bestaan wie men als patiënt zal behandelen.
9 De kosten om mensen op te sporen en te behandelen moeten economisch in
evenwicht zijn met de uitgaven voor gezondheidszorg als geheel.
10 De vroege opsporing moet een continu proces zijn en geen eenmalige acti-
viteit.
4 Kritisch beoordelen van een artikel 121

4.6.2 beoordeling van een onderzoek naar de


waarde van screening
Het proces van screening bestaat uit twee fasen. De eerste is het vast-
stellen van de afwijking met de screeningstest en de tweede de even-
tuele behandeling van de personen met de opgespoorde aandoening.
Deze onderdelen moeten als één geheel geëvalueerd worden om de
waarde van screening te kunnen vaststellen. Vaak wordt een onderzoek
naar de effecten van screenen voorafgegaan door een aantal onder-
zoeken naar de diagnostische waarde van de gebruikte test, omdat het
vrijwel onmogelijk is alle aspecten van screening in één onderzoek te
bestuderen. Voordat de onderzoeken naar de effecten van borstkan-
kerscreening werden uitgevoerd, moest er voldoende bewijs zijn dat de
mammografie een goede diagnostische test is in de gangbare klinische
situatie. Hetzelfde geldt voor het uitstrijkje van de baarmoederhals.
Reeds tientallen jaren voor de toepassing van het uitstrijkje bij vrouwen
zonder klachten werd aangetoond dat met het uitstrijkje kwaadaardige
cellen van de baarmoederhals konden worden opgespoord.

A Evaluatie van de screeningstest


Een onderzoek naar een screeningstest moet in principe voldoen aan
dezelfde criteria ten aanzien van validiteit van de test, het belang van
de uitkomsten en de toepasbaarheid van de resultaten als een diag-
nostisch onderzoek (zie paragraaf 4.2). Daarnaast is een aantal as-
pecten van belang die met name samenhangen met de lage prevalentie
van de aandoening in de te screenen populatie en de afwezigheid van
klachten. Deze prevalentie is afhankelijk van de aandoening waarop
en de populatie waarin men screent en varieert van enkele promillen
(pre-invasieve baarmoederhalskanker) tot 5% (verwijding van de
buikslagader). De gerapporteerde prevalentiecijfers bevatten ook vaak
de afwijkingen waarop niet direct een behandeling wordt ingesteld. Bij
de screening op het aneurysma bijvoorbeeld wordt slechts een klein
deel (indien het aneurysma groter is dan vijf centimeter) van de op-
gespoorde aneurysma’s operatief verwijderd. Het grootste deel (on-
geveer 70%) van de patiënten heeft een kleiner aneurysma (tussen de 3
en 5 centimeter). In dat geval worden er regelmatig echo’s gemaakt
om eventuele groei van het aneurysma vast te stellen. In de genees-
kundige praktijk wordt aangeraden een diagnostische test niet uit te
voeren wanneer de voorafkans op de aandoening lager is dan 30%,
omdat anders de achterafkans meestal niet boven de 50% komt en
men te maken krijgt met een niet-informatieve testuitslag. Om deze
reden kunnen alleen zeer sensitieve en specifieke tests in screenings-
situaties gebruikt worden om ervoor te zorgen dat de positieve en
122 Inleiding in evidence-based medicine

negatieve voorspellende waarden acceptabel zijn. Het uitstrijkje van de


baarmoederhals, maar ook het mammogram, zijn tests met een rela-
tief hoge positief voorspellende waarde (of achterafkans), vooral in het
licht van de lage prevalentie van afwijkingen (enkele afwijkingen per
1000 gescreenden).
Het screenen in hoogrisicogroepen kan de positief voorspellende
waarde van een test aanzienlijk verhogen. De waarde van de multi-
slicecomputertomografie voor de vroegdetectie van longkanker wordt
bijvoorbeeld onderzocht in een gerandomiseerd onderzoek waarvoor
om die reden uitsluitend rokers zullen worden uitgenodigd.
Bij de beoordeling van een onderzoek naar een screeningstest zijn behalve
de in paragraaf 4.2 genoemde aspecten de volgende punten van belang.

Beoordelingscriteria
Voor de beoordeling van A) de waarde van een screeningstest en B) de effecti-
viteit van screening gelden dezelfde criteria als voor het beoordelen van een
diagnostische test (paragraaf 4.2) en interventieonderzoek (paragraaf 4.4). De
volgende punten vragen extra aandacht.

A Screeningstest
Validiteit
1 Valide referentietest: follow-up lang genoeg om fout-negatieven te schatten?
2 Ziektekenmerken van de onderzochte personen (spectrum)
3 Adequate beschrijving screeningstest
Belang
1 Diagnostische waarde van de screeningstest
2 Precisie van de geschatte diagnostische parameters
Toepasbaarheid
1 Geschiktheid van de diagnostische test voor de te screenen populatie
2 Beschikbaarheid en kosten van de diagnostische test
3 Inschatting van de voorafkans
4 Beı̈nvloeding van de handelwijze door de verkregen achterafkans

B Effectiviteit van screening


Validiteit
1 Randomisatie (individueel of cluster)
2 Vergelijkbaarheid van de groepen
3 Follow-up
4 Keuze van het eindpunt
Belang
1 Grootte van het effect
2 Number needed to screen
3 Kosteneffectiviteit
4 Kritisch beoordelen van een artikel 123

Validiteit
1 Valide referentietest
Bij de evaluatie van een diagnostische test moet de referentietest de
werkelijkheid zo goed mogelijk benaderen en patiënten zullen meestal
de indextest en de referentietest ondergaan. Indien men in de kliniek
voor het aantonen van een vaatvernauwing het invasieve contraston-
derzoek wil vervangen door niet-invasief echografisch onderzoek, laat
men bij de evaluatie van de nieuwe test alle patiënten ook nog het
invasieve onderzoek ondergaan. Er is immers geen alternatief. In de
screeningssituatie kan dit niet, omdat de personen die aan screening
deelnemen geen klachten hebben en het daarom niet ethisch is een
invasieve referentietest uit te voeren wanneer de screeningstest nega-
tief is. Bij de evaluatie van het mammogram als screeningstest kan
men alleen maar de vrouwen met een positief mammogram onder-
werpen aan een volgend onderzoek (een naaldbiopt of chirurgische
excisie) om de uitkomst van het mammogram te bevestigen. De diag-
nostische waarde van een dergelijke screeningstest kan in feite pas
berekend worden door de test-negatieven jaren te volgen en systema-
tisch na te gaan of in deze groep de aandoening waarop gescreend
werd niet alsnog is opgetreden. Op deze manier wordt inzicht ver-
worven in de proportie fout-negatieven. Hierbij moet men zich goed
realiseren dat men dan in feite gebruikmaakt van een tweede (minder
betrouwbare) referentietest (differentiële verificatie). Van groot belang
hierbij is de lengte van de follow-up waarin de gemiste afwijkingen
aan het licht kunnen komen. Deze moet in overeenstemming zijn met
de latentietijd van de aandoening. Bij baarmoederhalskanker kunnen
bijvoorbeeld na tien jaar nog afwijkingen gesignaleerd worden die bij
screening al aanwezig geweest moeten zijn. Bij borstkanker kan deze
follow-up korter zijn, maar toch minstens enkele jaren bedragen.
Door kort na een eerste screeningstest een tweede uit te voeren kan
het aantal fout-negatieven in een aantal screeningssituaties worden
beperkt, waardoor de sensitiviteit hoger wordt. Bij de screening op
baarmoederhalskanker ontstaat een deel van de fout-negatieve uitsla-
gen doordat de afwijking niet in het uitstrijkje is terechtgekomen, een
tweede uitstrijkje maakt dan de kans op het vangen van de afwijking
groter. Indien een test fout-negatief is omdat de afwijking weliswaar
aanwezig is maar te klein is om zichtbaar te zijn (bijvoorbeeld mam-
ma- of longtumor), leidt een tweede test niet tot een verhoging van de
sensitiviteit.
124 Inleiding in evidence-based medicine

2 Onafhankelijke (blinde) vergelijking van de screeningstest met de


referentietest
Beide tests moeten onafhankelijk van elkaar (blind) worden beoor-
deeld. Dit betekent dat degene die de referentietest beoordeelt, geen
kennis mag hebben van het resultaat van de screeningstest en vice
versa. Soms echter kan degene die de referentietest beoordeelt, de
uitslag van de screeningstest eenvoudig bevroeden. Zo zal het door
de omvang van de gevonden afwijking voor de patholoog of chirurg
vaak duidelijk zijn dat het om een afwijking gaat die met screening is
opgespoord. Mammatumoren die met screening worden opgespoord
zijn namelijk meestal niet palpabel en kleiner dan tumoren die in de
curatieve sector worden gevonden.

3 Beoordeling van de indextest onafhankelijk van andere informatie


die sterk samenhangt met de werkelijke ziektestatus van de patiënt
Indien de beoordelaar van de screeningstest beschikt over andere
klinische informatie die gerelateerd is met de werkelijke ziektestatus,
wordt de overeenstemming met de referentietest kunstmatig hoger.
Omdat gescreenden per definitie geen klachten hebben, zal dit
meestal geen erg grote rol spelen. Wel kan de kennis over andere
factoren (zoals leeftijd, risicofactoren en familiaire belasting) op de-
zelfde wijze als klinische informatie de beoordeling beı̈nvloeden.

4 Uitvoering van de referentietest onafhankelijk van de uitslag van


de screeningstest
In de ideale situatie moet iedere deelnemer de referentietest onder-
gaan, ongeacht de uitslag van de screeningstest. Ook deze voorwaarde
kan in de screeningssituatie zelden worden gerealiseerd. Er worden
immers vrijwel uitsluitend personen met een positieve screeningstest
onderworpen aan de (meestal invasieve) referentietest en de personen
met een negatieve screeningstest zullen noodgedwongen aan een
andere, minder valide referentietest onderworpen worden, bijvoor-
beeld jarenlange follow-up (differentiële verificatie, zie ook item 1).

5 Ziektekenmerken van de onderzochte personen (spectrum)


De waarde van een screeningstest dient onderzocht te zijn in de
relevante populatie. In de Multicentre Aneurysm Screening Study
(MASS) werden bijna 70.000 mannen in de leeftijd van 65-74 jaar
gerandomiseerd voor de interventie- en de controlegroep. Men richtte
zich uitsluitend op mannen, omdat een aneurysma van de abdominale
aorta bij vrouwen zeldzaam is, en men beperkte zich tot mannen van
65-74 jaar, omdat in deze groep de prevalentie relatief hoog is (4,9%)
4 Kritisch beoordelen van een artikel 125

en de lichamelijke conditie over het algemeen zo goed dat een operatie


uitgevoerd kan worden. Uitbreiding van de screeningsleeftijd naar
boven zou te vaak leiden tot het opsporen van een aneurysma dat
vanwege comorbiditeit niet kan worden verwijderd.

6 Adequate beschrijving screeningstest


De criteria voor een positieve en negatieve testuitslag moeten bij een
screeningstest duidelijk gedefinieerd zijn. Dit blijkt bij screening veel
lastiger dan in de curatieve sector. In de curatieve sector presenteren
patiënten zich met klachten en het hebben van klachten is weer sterk
gerelateerd aan het ziektestadium en over het algemeen presteren
diagnostische tests veel beter naarmate de ziekte gevorderd is. Plavei-
selcelcarcinoomcellen zijn goed aan te tonen met een uitstrijkje van de
baarmoederhals, maar wat betekent een preklinische afwijking zoals
‘geringe dysplasie’ in een uitstrijkje van de baarmoederhals? Van deze
preklinische afwijkingen wordt geschat dat slechts 50% zal door-
groeien naar een invasief stadium. Hetzelfde geldt voor een verwijding
van de buikslagader. Dat een verwijding van de aorta met een door-
snede van zeven centimeter abnormaal is en een operatie moet worden
overwogen leidt tot weinig discussie, maar wat moet het beleid zijn bij
een aneurysma van 4,5 centimeter? Door te screenen krijgen we te
maken met afwijkingen waarvan we niet weten wat ze betekenen. Zo
ging men in de klinische praktijk steeds kleinere aneurysma’s opere-
ren, totdat de ‘small aneurysm’ trial liet zien dat men deze kleine
aneurysma’s met echografie moet vervolgen in plaats van direct een
operatieve correctie uit te voeren.

Belang
1 Diagnostische waarde van de screeningstest
Net als bij de beoordeling van een artikel over een diagnostische test
moet worden vastgesteld hoe goed de screeningstest de aan- of afwe-
zigheid van de aandoening kan voorspellen en worden de resultaten in
een 262 tabel uitgezet (zie tabel 4.1). In de praktijk heeft men zelden
met dichotome testuitslagen te maken en afkappunten worden op
grond van expertmeningen gekozen. Zelden echter zullen al deze
afkappunten op empirisch onderzoek berusten, omdat doorgaans
onvoldoende informatie voorhanden is over het natuurlijk beloop.
Indien bij de screening een carcinoma in situ van de baarmoederhals
wordt gevonden, zal de vrouw voor een biopsie (en histologisch on-
derzoek) naar een gynaecoloog worden verwezen. Indien echter een
geringe dysplasie wordt gevonden, wordt er in de regel geen biopsie
en histologisch onderzoek naar de verdachte afwijking gedaan. Dit
126 Inleiding in evidence-based medicine

betekent dat we niet geı̈nformeerd zijn over de referentiestandaard,


die namelijk idealiter zou bestaan uit een afwachtend beleid, waarbij
de progressie van geringe dysplasie respectievelijk carcinoma in situ
tot invasief carcinoom wordt afgewacht.
Wanneer men een artikel over een screeningstest beoordeelt, moet
men nagaan of voor elke testuitslag apart de positief en negatief
voorspellende waarde wordt gegeven. Deze zal voor een cytologische
uitslag pap-IIIb heel wat hoger zijn dan voor een geringe dysplasie.
De diagnostische waarde van de screeningstest is cruciaal voor de
opbrengsten van screening en is sterk afhankelijk van de te detecteren
afwijking en meestal niet te vatten in één waarde. De positief voor-
spellende waarde van een cervixuitstrijkje (pap-IIIb of IV) is rond de
70%. Hoewel dit relatief hoog is, betekent dit grote aantallen fout-
positieven wanneer jaarlijks meer dan 800.000 vrouwen worden ge-
screend. Bij een geschatte specificiteit van de uitstrijk van 99% leidt dit
tot minstens 8000 fout-positieven.

2 Precisie van de geschatte diagnostische parameters


De schattingen van sensitiviteit, specificiteit, voorspellende waarden
en likelihood-ratio’s zijn onderhevig aan toevalsvariatie. Voor de be-
tekenis hiervan zie paragraaf 4.2 over diagnostiek.

Toepasbaarheid
1 Geschiktheid van de screeningstest voor de te screenen populatie
De personen bij wie u de test wilt toepassen moeten overeenkomen
met de personen die in het onderzoek beschreven zijn. In de regel is
het ziektestadium in de screeningssituatie anders dan in de curatieve
geneeskunde. Dit heeft grote consequenties voor het onderschei-
dingsvermogen van een test. In de screeningssituatie wil men juist
preklinische afwijkingen opsporen, waardoor tests die goed voldoen
in de huisarts- of specialistische praktijk minder presteren in scree-
ningssituaties. Omdat personen die aan screening deelnemen geen
klachten hebben, weegt de belasting (straling, kans op complicaties)
van de screeningstest zwaar. Meestal is de belasting van de gebruikte
screeningstests laag, maar komt de belasting pas bij vervolgonderzoek
om de hoek kijken. Bij de evaluatie van een screeningstest hoort ook
een evaluatie van de belasting van de tests die worden uitgevoerd
nadat de screeningstest positief is gebleken. Denk hierbij bijvoorbeeld
aan het mammabiopt na een positief mammogram. Bij 50% van de
doorverwezen vrouwen zal uit dit mammabiopt blijken dat er geen
sprake is van borstkanker, terwijl intussen wel een chirurgische in-
greep is uitgevoerd. Zo moet ook rekening worden gehouden met de
4 Kritisch beoordelen van een artikel 127

belasting van bijvoorbeeld een colposcopie na een positief uitstrijkje of


een coloscopie na een fecesscreening op occult bloedverlies.

2 De beschikbaarheid en kosten van een screeningstest


De beschikbaarheid en kosten van een screeningstest zijn van groot
belang, omdat vaak tienduizenden mensen de test zullen moeten
ondergaan en slechts enkelen een positieve testuitslag hebben. Indien
men bijvoorbeeld zou gaan screenen op het aneurysma van de abdo-
minale aorta in Nederland, moeten bijna een miljoen 65-74-jarige
mannen worden uitgenodigd en moeten 800.000 echo’s van de buik
worden gemaakt. Bij 5% zal een aneurysma worden opgespoord,
waarvan bij ongeveer 10% een operatieve verwijdering zal moeten
plaatsvinden. Per gewonnen levensjaar wordt op meer dan 45.000
euro gerekend.

3 De inschatting van de voorafkans


De inschatting van de voorafkans speelt net als bij de beoordeling van
een diagnostisch artikel een belangrijke rol, omdat dit de opbrengst
van een screeningsprogramma bepaalt.

4 Beı̈nvloeding van de handelwijze door de verkregen achterafkans


Een diagnostische test wordt uitgevoerd om zekerheid te krijgen of
een patiënt wel of niet in aanmerking komt voor een behandeling. In
principe ligt de achterafkans in de screeningssituatie vast, omdat een
voorwaarde voor doelmatige screening is dat precies bekend is welk
beleid moet worden gevolgd naar aanleiding van de uitkomsten van
een bepaalde screeningstest. Indien bij een bepaald persoon de
screeningsuitslag geen consequenties heeft, moet men deze persoon
niet screenen. Indien een opgespoord aneurysma van de aorta nooit
verwijderd kan worden vanwege ernstige comorbiditeit moet men
hiernaar ook niet op zoek gaan, omdat de kwaliteit van leven van een
patiënt niet (direct) zal verbeteren wanneer hij weet dat hij een onbe-
handelbaar aneurysma van de aorta heeft. Om deze reden is pas recent
de screening op taaislijmziekte (mucoviscoı̈dose) in de neonatale
screening opgenomen. De afgelopen jaren zijn de interventies op
jonge leeftijd pas dermate effectief dat van vroegherkenning ook le-
vensverlenging en hogere kwaliteit van leven verwacht kan worden.

B Evaluatie van de effectiviteit van screening


Indien een valide screeningstest voorhanden is, is de volgende vraag
of screening wel het beoogde effect heeft. Evaluatie van effectiviteit
van screening geschiedt bij voorkeur door het uitvoeren van een ge-
128 Inleiding in evidence-based medicine

randomiseerd onderzoek. De ene helft van de populatie krijgt met een


bepaald interval (elke vijf jaar bij screening op baarmoederhalskanker,
elke twee jaar bij screening op borstkanker) screening aangeboden en
de andere helft niet. De sterfte aan de desbetreffende ziekte in de beide
groepen wordt na een aantal jaren vergeleken en op deze manier kan
worden vastgesteld of screening leidt tot een reductie en zo ja, hoe
groot die reductie is. Vaak worden hier ook de kosten bij betrokken
(kosteneffectiviteitsonderzoek) en wordt berekend hoeveel een ge-
wonnen levensjaar kost. Het evalueren van screening is een kostbare
en langdurige bezigheid. Bovendien is het moeilijk uit te leggen dat
screening lang niet altijd beter is en vaak eist de populatie of de
politiek in de controlegroep ook screening, omdat men het gevoel
heeft dat die groep iets goeds wordt onthouden. Dit overkwam on-
derzoekers in de jaren zeventig van de vorige eeuw bij de opzet van een
wetenschappelijk onderzoek naar baarmoederhalskanker. De politiek
verhinderde een experiment waardoor er altijd twijfels zijn blijven
bestaan over de effectiviteit van deze vorm van screening.

Alleen nieuwe vormen van screening kunnen dus eigenlijk goed wor-
den geëvalueerd in een gerandomiseerd experiment. Zo gauw de test
(bijvoorbeeld de echo van de aortadiameter) gemakkelijk verkrijgbaar
is, wordt de vraag naar de test in de controlegroep zo groot dat het
effect van screening wordt verdund. Om het effect van screening aan
te tonen zijn honderdduizenden mensen nodig, omdat het meestal
gaat om aandoeningen die weinig voorkomen. In een lopend onder-
zoek naar de effecten van screening op prostaatkanker worden
200.000 personen gerandomiseerd over de interventie (bepaling van
het serumprostaatspecifieke antigeen (PSA)) en de controlegroep.
Bij de beoordeling van een gerandomiseerd screeningsonderzoek
moeten exact dezelfde overwegingen gehanteerd worden als die bij de
evaluatie van een therapeutisch onderzoek. Hoe de interne validiteit
van het onderzoek, het belang ervan en de toepasbaarheid van de
interventie moeten worden beoordeeld is te vinden in paragraaf 4.4.
Hierna staat een aantal punten die met name bij de uitvoering van een
screeningsonderzoek van belang zijn.

Validiteit
1 Randomisatie
Hoewel individuele randomisatie de voorkeur verdient, is dit om lo-
gistieke en methodologische redenen niet altijd mogelijk en wordt
zogenoemde clusterrandomisatie toegepast. Bij clusterrandomisatie
worden geen individuen gerandomiseerd maar groepen van indivi-
4 Kritisch beoordelen van een artikel 129

duen (clusters), bijvoorbeeld regio’s of huisartspraktijken. Met deze


clusterrandomisatie probeert men ook vaak beı̈nvloeding door de
screening (contaminatie) van de controlegroep te voorkomen. Conta-
minatie van de controlegroep leidt tot een vermindering van het con-
trast tussen gescreende personen en de controlegroep. Idealiter wordt
een gerandomiseerde screeningstrial uitgevoerd op het moment dat er
gerede twijfel bestaat over de waarde van de screeningstest. Indien de
screeningstest (het uitstrijkje of de echografie van de aorta) al op grote
schaal in de reguliere gezondheidszorg te verkrijgen is, is de kans dat
personen uit de controlegroep ook de screeningstest ondergaan groot.
Dit kan leiden tot verdunning van het screeningseffect en bij de eva-
luatie moet men hiermee rekening houden.

2 Blindering van screeningstest en interventie


Blindering van de persoon is in de screeningssituatie niet mogelijk.
Omdat het om zeer grootschalige onderzoeken gaat, kan contaminatie
optreden en ook de personen uit de controlegroep zullen via de media
of anderszins over de screeningsinterventie worden geı̈nformeerd. Als
zij dat willen, kunnen zij zich vaak via hun arts laten screenen (uit-
strijkje van de baarmoederhals, röntgenfoto van de borsten, echo van
de buik). Ook blindering van de behandelaar zal vaak onmogelijk zijn,
omdat de relatief vaak geringe omvang van de afwijking kan verraden
dat het om een bij screening ontdekte afwijking gaat.

3 Vergelijkbaarheid van de groepen aan het begin van het


onderzoek
Onvergelijkbaarheid speelt vooral een rol bij evaluatie van screening
waarin niet gerandomiseerd is en de effecten van screening moeten
worden afgeleid uit observationele onderzoeken (baarmoederhals-
kanker). Ook indien gerandomiseerd is, kan initiële vergelijkbaarheid
van de groepen echter verloren gaan door selectieve selectie of parti-
cipatie in clustergerandomiseerde trials, loss-to-follow-up en/of
doordat een deel van de controlegroep toch in de reguliere gezond-
heidszorg de screeningstest ondergaat. Clusterrandomisatie kan soms
tot onvergelijkbaarheid van de experimentele groep en de controle-
groep leiden, als er bijvoorbeeld grote sociaaleconomische verschillen
tussen de clusters bestaan en deze op hun beurt weer gekoppeld zijn
aan de kans op ziekte. Zo komt borstkanker bijvoorbeeld frequenter
voor in sociaaleconomisch hoge klassen en baarmoederhalskanker in
sociaaleconomisch lage klassen. Onvergelijkbaarheid tussen de inter-
ventie- en de controlegroep kan ook ontstaan doordat de ziekte
waarop men screent al latent aanwezig is. Indien men randomiseert is
130 Inleiding in evidence-based medicine

dat niet erg, omdat dit fenomeen zich in de controle- en de interven-


tiearm voordoet. Het geeft echter aanleiding tot ernstige vertekening,
indien personen met bij eerste inspectie reeds aanwezige ziekte alleen
uit de interventiearm worden uitgesloten en niet uit de controlearm.
Indien men heeft gekozen voor clusterrandomisatie is het vaak niet
mogelijk om hier in controle- en interventiearm identiek te handelen,
omdat hierover in de controlearm onvoldoende informatie is. Indien
de effecten van screening uit observationeel onderzoek geschat moe-
ten worden, is de kans op vertekening groot en men krijgt te maken
met de zogenoemde length-time bias. Length-time bias speelt een rol,
als men bijvoorbeeld de overleving vergelijkt van personen met een bij
screening ontdekte tumor met die van personen bij wie de tumor
buiten de screening werd opgespoord. Met screening worden relatief
meer langzaam groeiende tumoren opgespoord. Deze tumoren heb-
ben meestal een gunstiger prognose. De snelgroeiende tumoren wor-
den vooral in de intervallen tussen twee screeningen opgespoord.

4 Follow-up
Indien men randomiseert, kunnen de interventie- en controlearm op
ieder moment in de tijd ten aanzien van het optreden van het gekozen
eindpunt worden vergeleken. Grote problemen ontstaan wanneer niet
is gerandomiseerd. Het vergelijken van overlevingscijfers in de ge-
screende en niet-gescreende groep leidt dan tot een kunstmatig gun-
stiger overlevingscijfer in de gescreende groep, doordat de ziekte door
screening eerder onderkend wordt. De overleving is immers de pe-
riode tussen onderkenning van de ziekte en het tijdstip van overlijden
aan de ziekte. Dit wordt ook wel ‘lead time’ bias genoemd en ontstaat
omdat de diagnose wordt vervroegd terwijl het tijdstip van overlijden
hetzelfde is (figuur 4.8).

5 De keuze van het eindpunt


Net als in een therapeutische trial is de keuze van het eindpunt cru-
ciaal bij de evaluatie van screening. Men kan het optreden van de
ziekte, sterfte aan de ziekte en totale sterfte als eindpunt in scree-
ningsonderzoek nemen. Aan alle keuzes kleven echter nadelen. Om-
dat met screening afwijkingen worden opgespoord, is het vergelijken
van opgespoorde afwijkingen (tumoren, diabetes, hypertensie) onge-
schikt. Men vergroot immers zelf het aantal personen met de ziekte,
om uiteindelijk minder gevorderde morbiditeit en sterfte aan de aan-
doening of de gevolgen van de risicofactor te voorkomen. Met het
bevolkingsonderzoek naar baarmoederhalskanker spoort men dys-
plasie, carcinoma in situ en micro-invasief carcinoom op om invasieve
4 Kritisch beoordelen van een artikel 131

A heeft een
knobbeltje
van 10 mm dat B heeft een
na 1,5 jaar knobbel van
wordt ontdekt 7 cm die na A en B
begin bij een 4,5 jaar wordt overlijden
kanker screenings- ontdekt bij beiden na
bij A en B mammografie palpatie 8 jaar

0 ------------ 1 ------------ 2 ------------ 3 ------------ 4 ------------ 5 ------------ 6 ------------ 7 ------------ 8 -------

vertekening door vroege


ontdekking (‘lead time bias’)

Figuur 4.8 Voorbeeld van vertekening van overlevingsduur door vroegopsporing


(‘lead time bias’): het natuurlijk beloop van borstkanker.

Bron: Rosser en Shaffir, 1998.

carcinomen en sterfte hieraan te voorkomen. Bij de evaluatie van de


borstkanker- en aneurysmascreening is sterfte gerelateerd aan de
aandoening waarop wordt gescreend als eindpunt gekozen. Hierop is
kritiek mogelijk waarbij deze zich vooral richt op de subjectiviteit van
de beoordeling van de doodsoorzaak. Veelal gebeurt het vaststellen
van de doodsoorzaak niet ‘blind’ en de kennis dat de persoon aan
screening heeft deelgenomen zou de beoordeling beı̈nvloed kunnen
hebben. Daarnaast is de beoordeling van doodsoorzaken lastig en een
deel van de doodsoorzaken wordt, afhankelijk van de ziekte, fout ge-
classificeerd. Vaak wordt een eindpunt gekozen dat niet ideaal is om
de eenvoudige reden dat de keuze van het juiste eindpunt (totale
sterfte) zou leiden tot onuitvoerbare onderzoeken waaraan meer dan
een miljoen mensen zouden moeten deelnemen. Dit komt omdat het
aandeel van de sterfte aan de desbetreffende ziekte te klein is, de
bereikte effecten te gering zijn en niet de gehele uitgenodigde popu-
latie ook daadwerkelijk aan de screening deelneemt. Naast ziektespe-
cifieke sterfte moet altijd de totale sterfte worden bekeken. Deze totale
sterfte geeft indirect informatie over de kwaliteit van een gerandomi-
seerd onderzoek en bij vergelijkbaarheid van gescreende en controle-
groep op het tijdstip van randomisatie verwacht men gelijke sterfte-
kansen aan aandoeningen die geen relatie hebben met de ziekte
waarop wordt gescreend.
132 Inleiding in evidence-based medicine

6 Het screeningsinterval
Het optimale screeningsinterval wordt vaak gebaseerd op kennis om-
trent het natuurlijk beloop van een ziekte. Door gebruikmaking van
allerlei mathematische modellen kan voor verschillende screenings-
intervallen de kans op ziekte worden gesimuleerd. Het screenings-
interval is vrijwel nooit onderwerp van gerandomiseerde onderzoeken
waarin verschillende screeningsintervallen met elkaar worden verge-
leken. Deze onderzoeken zijn vanwege hun grote omvang niet reali-
seerbaar.

Het belang van de interventie


Net als bij de evaluatie van therapie wordt de grootte van het effect
gekwantificeerd door het absolute risico in de gescreende groep te
vergelijken met dat in de controlegroep. Zo was in de gescreende
groep uit de Multicentre Aneurysm Screening Study (MASS) het ab-
solute risico om te overlijden aan een aandoening gerelateerd aan het
aneurysma 0,19% in een gemiddelde follow-up periode van 4,1 jaar,
terwijl dit in de controlegroep 0,33% was. Of men ook daadwerkelijk
bereid is de inspanningen te verrichten die in dit onderzoek gedaan
zijn om deze sterftereductie te bereiken, hangt in het bijzonder samen
met de kosten en de negatieve aspecten van de screening. Om in vier
jaar 47 doden ten gevolge van een aneurysma te voorkomen, moesten
bijna 34.000 mannen een echo laten maken. Ook kan men zich af-
vragen of het gekozen eindpunt relevant is, maar omdat de sterfte
aan het aneurysma zeldzaam is en slechts een zeer klein deel van de
cardiovasculaire sterfte beslaat (3%), laat screening geen effecten zien
op de cardiovasculaire sterfte.

Analoog aan het ‘number needed to treat’ (zie paragraaf 4.4) kan het
‘number needed to screen’ worden berekend. Hiervoor moet men
weten wat de prevalentie van de aandoening is en welke sterftereductie
bij ontdekking bereikt kan worden. Het ‘number needed to screen’ is
dan het aantal mensen dat gedurende een bepaalde periode gescreend
moet worden om één dode te voorkomen.
Naast het primaire eindpunt moet in screeningsonderzoeken aandacht
worden besteed aan kwaliteit-van-leven-aspecten. Hierbij moet men
vooral waarderen hoe kwaliteit van leven gemeten is bij fout-positieve
en fout-negatieve testuitslagen. Daarnaast moet ook worden nagegaan
wat de invloed van de vroeg-herkenning en de daarna volgende be-
handeling op de kwaliteit van leven is. Sommige behandelingen zijn
relatief kortdurend, zoals de operatieve verwijdering van een prema-
ligne afwijking, en hebben daardoor een beperkt effect op de kwaliteit
4 Kritisch beoordelen van een artikel 133

van leven, maar behandelingen kunnen ook zeer langdurig zijn, bij-
voorbeeld na vroege opsporing van diabetes, nierfalen of cystische
fibrose. Ook moet het aantal interventies nauwkeurig worden bijge-
houden in de experimentele en interventiegroep. Screening leidt vrij-
wel altijd tot overbehandeling, omdat afwijkingen worden opgespoord
waaraan men nooit zou overlijden en die soms zelfs helemaal geen
klinische betekenis hebben. Dit fenomeen moet worden meegenomen
in de afweging om wel of niet op een aandoening te screenen.

4.6.3 conclusie
In deze paragraaf is de beoordeling van onderzoek naar de waarde van
screening aan de orde gekomen. Bij de beoordeling van dergelijk
onderzoek dienen zowel aspecten ten aanzien van de diagnostische
waarde van de screeningstest te worden beschouwd als het effect van
de screening zelf. In geval van screeningsonderzoek geldt voor beide
componenten, dat nuanceringen aangebracht dienen te worden in de
oorspronkelijke beoordelingscriteria voor diagnostisch onderzoek
(paragraaf 4.2) en interventieonderzoek (paragraaf 4.4). De conse-
quenties met betrekking tot fout-negatieven, fout-positieven en kwa-
liteit van leven dienen voldoende aandacht te krijgen, omdat in be-
ginsel gezonde personen worden onderzocht. Omdat screeningspro-
gramma’s zeer kostbaar zijn en leiden tot politieke keuzen moet de
kosteneffectiviteitsanalyse aan zeer hoge eisen voldoen.

Literatuur
Barratt A, Irwig L, Glasziou P, et al. Users’ guides to the medical literature. XVII. How
to use guidelines and recommendations about screening. JAMA 1999;281:2029-34.
Day NE. The theoretical basis for cancer screening. Cancer Treat Res 1996;86:9-24.
Klaveren RJ van, Oudkerk M, Mali WThM, Koning HJ de. Screenen op longkanker met
de multidetector-CT: voorlopig nog af te raden. Ned Tijdschr Geneeskd 2008;152:
125-8.
Rosser WW, Shaffir MS. Evidence-based family practice. Hamilton: Decker, 1998.
Straus SE, Richardson WS, Glasziou P, Haynes RB. Evidence-based medicine: How to
practice and teach EBM. 3 Diagnosis and screening. 3rd ed. Edinburgh: Churchill
Livingstone, 2005.
The UK National Screening Committee. Criteria for appraising the viability, effective-
ness and appropriateness of a screening programme. [geraadpleegd op 29 februari
2008]. Beschikbaar op http://www.nsc.nhs.uk/uk_nsc/uk_nsc_ind.htm
Users’ Guides to EBP. Centre for Health Evidence [geraadpleegd op 29 februari 2008].
Beschikbaar op www.cche.net/usersguides/main.asp
Wilson JMG, Jungner G. Principles and practice of screening for disease. Public Health
Paper no 34. Genève: WHO, 1968.
134 Inleiding in evidence-based medicine

4.7 Klinimetrie

C.B. Terwee, H.C.W. de Vet en R.J.P.M. Scholten

4.7.1 inleiding
In de jaren tachtig van de vorige eeuw introduceerde Alvan Feinstein
de term klinimetrie in de medische literatuur als een methodologische
discipline die zich richt op het meten van klinische verschijnselen.
Klinimetrie houdt zich bezig met de kwaliteit van klinische metingen.
Daarbij gaat het zowel om de kwaliteit van de meetinstrumenten als
om de kwaliteit van de metingen zelf. Bij klinische meetinstrumenten
kan men denken aan bepalingen in het bloed en de urine, beoorde-
lingen van röntgenfoto’s, bevindingen van het lichamelijk onderzoek,
vragenlijsten, interviews, observatiemethoden, dagboeken, etc. De
kwaliteit van de meetinstrumenten hangt af van de meeteigenschap-
pen van het instrument, de zogenoemde klinimetrische eigenschap-
pen. De kwaliteit van de metingen zelf hangt af van de persoon die
de metingen verricht (bijv. de mate van expertise), de persoon die ge-
meten wordt (bijv. cognitieve vermogens van de patiënt) en van om-
gevingsfactoren (bijv. tijdstip van de dag).
Voor het stellen van de juiste diagnose, voor het inschatten van de
prognose en voor het bepalen van de effectiviteit van een interventie
zijn meetinstrumenten nodig. Deze dienen uiteraard van de hoogst
mogelijke kwaliteit te zijn en het is dan ook van groot belang de
kwaliteit van deze meetinstrumenten te bepalen. Vaak zijn er meerdere
meetinstrumenten beschikbaar voor een bepaalde situatie en moet er
een keuze worden gemaakt. Naast praktische overwegingen als kosten
en belasting voor de patiënt, spelen de klinimetrische eigenschappen
van het meetinstrument een belangrijke rol bij de keuze.
Meetinstrumenten kunnen verschillende doelen hebben:
1 het meten van de gezondheidstoestand van patiënten op één mo-
ment in de tijd om onderscheid te kunnen maken tussen patiënten
met een betere of slechtere gezondheidstoestand (discriminatie,
bijv. diagnostiek);
2 het meten van veranderingen in de gezondheidstoestand van
patiënten in de tijd (evaluatie, bijv. effectonderzoek); en
3 het voorspellen van de gezondheidstoestand van patiënten in de
toekomst (predictie, bijv. prognostisch onderzoek).
Binnen elk van deze drie doelen kan men geı̈nteresseerd zijn in de
meting van één patiënt (gebruik op individueel niveau), zoals in de
dagelijkse klinische praktijk, of in de metingen van een groep patiën-
ten (gebruik op groepsniveau), zoals in onderzoek. Het doel waarvoor
4 Kritisch beoordelen van een artikel 135

men het meetinstrument wil gebruiken en het niveau waarop men wilt
meten, bepalen welke klinimetrische eigenschappen van belang zijn
en hoe ‘goed’ de klinimetrische eigenschappen moeten zijn.

4.7.2 beoordeling van een onderzoek naar de


klinimetrische eigenschappen van een
meetinstrument
Het beoordelen van een onderzoek naar de klinimetrische eigen-
schappen van een meetinstrument bestaat, net als bij de beoordeling
van andere soorten onderzoek, uit een beoordeling van de validiteit,
het belang en de toepasbaarheid van het onderzoek. Bij validiteit gaat
het erom dat de juiste klinimetrische methoden zijn toegepast. Pas als
dit het geval is, kan men het belang van de resultaten beoordelen.
Daarbij gaat het erom of de klinimetrische eigenschappen van een
meetinstrument ‘goed genoeg’ zijn voor het gebruik van het meetin-
strument voor een bepaald doel. Na beoordeling van de validiteit en
het belang van de resultaten moet beoordeeld worden in hoeverre de
resultaten toepasbaar zijn op andere dan de in het onderzoek betrok-
ken situaties.

Validiteit en belang
De beoordeling van de klinimetrische eigenschappen van een meet-
instrument is een complexe zaak. De verschillende klinimetrische
eigenschappen, hun definities en criteria voor beoordeling staan
vermeld in tabel 4.9. Ze worden hierna kort behandeld.
Het is niet altijd noodzakelijk dat alle klinimetrische eigenschappen
van een meetinstrument aan de gestelde eisen voldoen. Sommige
klinimetrische eigenschappen zijn voor bepaalde toepassingen heel
belangrijk, maar voor andere toepassingen niet. Wanneer dit het geval
is, wordt hierna aangegeven voor welke doelen of voor welk soort
meetinstrumenten deze klinimetrische eigenschap wel of niet van
belang is.

1 Inhoudsvaliditeit
Inhoudsvaliditeit is de mate waarin de inhoud van het meetinstrument
een adequate afspiegeling is van het construct (datgene wat het
meetinstrumentbeoogt te meten). Het construct moet daarom duide-
lijk omschreven zijn. Vervolgens moeten alle relevante aspecten van
het construct worden gemeten. Bijvoorbeeld: bij een vragenlijst om
functionele beperkingen te meten van patiënten met schouderklach-
ten, moet aannemelijk zijn dat alle relevante (potentiële) beperkingen
van patiënten met schouderklachten aan bod komen in de vragen en
136 Inleiding in evidence-based medicine

Tabel 4.9 Beoordelingscriteria voor onderzoek naar de ontwikkeling en/of validering van een
meetinstrument (Terwee et al. J Clin Epidemiol 2007;60:34-42).
klinimetrische definitie kwaliteitscriteria1,2
eigenschap

1 inhoudsvaliditeit De mate waarin de in- + een duidelijke beschrijving van het doel, de
houd van het meetin- doelpopulatie, de constructen die het meetinstru-
strument een adequate ment beoogt te meten, en de itemselectie en
afspiegeling is van het -reductie EN doelpopulatie en (onderzoekers OF
construct dat het meet- experts OF literatuur) waren betrokken bij item-
instrument beoogt te selectie;
meten ? een duidelijke beschrijving van voorgaande
aspecten ontbreekt OF alleen de doelpopulatie
was betrokken bij de itemselectie OF (potentiële)
methodologische tekortkomingen;
– doelpopulatie niet betrokken bij itemselectie;
0 geen informatie over inhoudsvaliditeit.

2 interne consisten- De mate waarin de items + factoranalyse uitgevoerd in populatie van


tie van het meetinstrument voldoende omvang (7 6 # items en  100) EN
aan elkaar gerelateerd Cronbach’s alfa(’s) berekend per dimensie EN
zijn Cronbach’s alfa(’s) tussen 0.70-0.95;
? geen factor analyse OF (potentiële) methodologi-
sche tekortkomingen;
– Cronbach’s alfa(’s) < 0.70 of > 0.95, ondanks
adequaat design en methode;
0 geen informatie over interne consistentie.

3 criteriumvaliditeit De mate waarin de sco- + overtuigende argumenten dat de gouden stan-


res op het meetinstru- daard echt valide is EN correlatie met gouden
ment een adequate af- standaard  0.70;
spiegeling zijn van een ? geen overtuigende argumenten dat de gouden
gouden standaard standaard echt valide is OF (potentiële) methodo-
logische tekortkomingen;
– correlatie met gouden standaard < 0.70, ondanks
adequaat design en methode;
0 geen informatie over criteriumvaliditeit.

4 constructvaliditeit De mate waarin de sco- + specifieke hypothesen vooraf geformuleerd EN


res op het meetinstru- ten minste 75% van de resultaten is in overeen-
ment consistent zijn met komst met deze hypothesen;
hypothesen*, gebaseerd ? (potentiële) methodologische tekortkomingen
op de aanname dat het (bijv. geen hypothesen);
meetinstrument valide – minder dan 75% van de hypothesen is bevestigd,
het construct meet dat ondanks adequaat design en methode;
het beoogt te meten 0 geen informatie over constructvaliditeit.
* bijvoorbeeld met betrek-
king tot interne relaties,
relaties met scores op an-
dere meetinstrumenten, of
verschillen tussen relevante
groepen
4 Kritisch beoordelen van een artikel 137

klinimetrische definitie kwaliteitscriteria1,2


eigenschap

5 reproduceerbaar- De mate waarin een


heid meting vrij is van meet-
fouten.

5.1 meetfout De systematische en + SDCindividual of SDCgroup < MIC OF MIC buiten de


toevallige fout van een LOA OF overtuigende argumenten dat de meetfout
score die niet kan wor- acceptabel is;
den toegeschreven aan ? (potentiële) methodologische tekortkomingen OF
echte veranderingen in (MIC niet bepaald EN geen overtuigende argumen-
het construct dat het ten dat de meetfout acceptabel is);
meetinstrument beoogt – SDCindividual of SDCgroup  MIC OF MIC gelijk aan
te meten of binnen de LOA, ondanks adequaat design en
methode;
0 geen informatie over de meetfout.

5.2 betrouwbaarheid De mate waarin perso- + ICC of gewogen Kappa  0.70;


nen van elkaar kunnen ? (potentiële) methodologische tekortkomingen
worden onderscheiden, (bijv. tijdsinterval niet genoemd);
ondanks de meetfout – ICC of gewogen Kappa < 0.70, ondanks adequaat
design en methode;
0 geen informatie over betrouwbaarheid.

6 responsiviteit Het vermogen van het + SDCindividual of SDCgroup < MIC OF MIC buiten de
meetinstrument om ver- LOA OF responsiviteitsratio > 1.96 OF AUC  0.70;
anderingen in de tijd te ? (potentiële) methodologische tekortkomingen;
kunnen meten in het – SDCindividual of SDCgroup  MIC OF MIC gelijk aan
construct dat het meet- of binnen de LOA OF responsiviteitsratio  1.96 OF
instrument beoogt te AUC < 0.70, ondanks adequaat design en methode;
meten 0 geen informatie over responsiviteit.

7 bodem- en pla- Het aantal responden- + < 15% van de respondenten heeft de laagst of
fondeffecten ten dat de laagst of hoogst mogelijk score;
hoogst mogelijke score ? (potentiële) methodologische tekortkomingen;
heeft – >15% van de respondenten heeft de laagst of
hoogst mogelijk score, ondanks adequaat design
en methode;
0 geen informatie over bodem- en plafondeffecten.

8 interpretatie De mate waarin men + gemiddelde scores en SD gepresenteerd van ten


scores en veranderingen minste vier relevante subgroepen personen EN MIC
in scores betekenis kan bepaald;
geven ? (potentiële) methodologische tekortkomingen OF
minder dan vier subgroepen OF MIC niet bepaald;
0 geen informatie over interpretatie.

1
+ = positieve beoordeling; ? = onbepaalde beoordeling; – = negatieve beoordeling; 0 = geen informatie
beschikbaar.
2
(Potentiële) methodologische tekortkomingen = onduidelijke beschrijving van het design of de onderzoeks-
methoden van de studie, groepsgrootte kleiner dan 50 personen (moet ten minste 50 zijn in iedere (sub-
groep)analyse), of andere belangrijke methodologische tekortkomingen of potentiële vormen van bias in het
design of de uitvoering van de studie.
ICC = intraclass correlation coefficient; MIC = minimal important change; SDC = smallest detectable change;
LOA = limits of agreement; SD = standaarddeviatie.
138 Inleiding in evidence-based medicine

dat alle vragen relevant zijn voor patiënten met schouderklachten. Het
is hiervoor essentieel dat de doelpopulatie (patiënten met schouder-
klachten) bij het ontwikkelen van het meetinstrument betrokken is
geweest. De methode van itemselectie en itemreductie moet duidelijk
beschreven zijn. Ten slotte moet het meetinstrument begrijpelijk zijn.
Bijvoorbeeld: een vragenlijst moet in gemakkelijke taal geschreven zijn
en de vragen mogen niet op verschillende manieren interpreteerbaar
zijn. Ook moeten de instructies bij een fysisch-diagnostische test
duidelijk zijn, zodat de test altijd op dezelfde manier wordt uitgevoerd.
Het is dan ook van belang dat een pilotstudie is uitgevoerd om het
meetinstrument te testen.

2 Interne consistentie
Interne consistentie is de mate waarin de items van het meetinstru-
ment met elkaar samenhangen. In een unidimensionale (sub)schaal
(bijvoorbeeld een subschaal over beperkingen met lopen) geeft interne
consistentie de mate weer waarin de items hetzelfde construct meten.
Interne consistentie is van belang voor vragenlijsten die uit meerdere
items bestaan, waarvan verwacht wordt dat deze items hoog met
elkaar correleren. Een voorbeeld is een vragenlijst voor het meten van
beperkingen bij het uitvoeren van dagelijkse activiteiten voor patiënten
met artrose. In de vragenlijst wordt gevraagd hoeveel moeite de pa-
tiënt heeft met het uitvoeren van verschillende activiteiten. Verwacht
wordt dat patiënten die moeite hebben met bijvoorbeeld honderd
meter lopen en lopen op een ongelijke ondergrond, ook moeite zullen
hebben met traplopen. Deze vragen zullen naar verwachting hoog met
elkaar correleren. In een vragenlijst die lichamelijke activiteit meet,
wordt echter gevraagd welke activiteiten iemand op een dag allemaal
doet. Deze activiteiten hoeven helemaal niet met elkaar te correleren:
als iemand voetbalt, hoeft hij helemaal niet ook te zwemmen of te
basketballen. In zo’n geval is interne consistentie niet relevant.
Cronbach’s alfa is een algemeen geaccepteerde maat voor interne
consistentie van een (sub)schaal. De Cronbach’s alfa geeft een soort
gemiddelde correlatie weer tussen alle items in een schaal. Een
Cronbach’s alfa tussen de 0.70 en 0.95 wordt over het algemeen als
goed beschouwd. Als de Cronbach’s alfa te hoog is (> 0.95), wijst dit
op redundantie: er zitten dan te veel vragen in de (sub)schaal die zo
goed als hetzelfde meten. Dit levert niets op, maar verhoogt wel de
belasting voor de patiënt.
Voordat de Cronbach’s alfa berekend kan worden, moet echter altijd
eerst een factoranalyse zijn uitgevoerd om te kijken welke dimensies,
of subschalen, er in een vragenlijst te onderscheiden zijn. In een
4 Kritisch beoordelen van een artikel 139

factoranalyse zullen items die hoog met elkaar correleren één factor
(of subschaal) vormen; items die laag met elkaar correleren worden
aan verschillende factoren toegekend. De Cronbach’s alfa moet ver-
volgens per subschaal zijn bepaald.

3 Criteriumvaliditeit
Criteriumvaliditeit is de mate waarin de scores op het meetinstrument
een adequate afspiegeling zijn van een gouden standaard, bijvoorbeeld
de correlatie tussen het totale energieverbruik berekend uit een vra-
genlijst naar de mate van lichamelijke activiteit, en het totale energie-
verbruik berekend met de methode van dubbel gelabeld water. Voor
deze correlatie wordt meestal de gangbare pearson-correlatiecoëffici-
ënt gebruikt. Een correlatie van ten minste 0.70 wordt als acceptabel
beschouwd.
Diagnostische tests kunnen soms worden vergeleken met een gouden
standaard, waarbij de sensitiviteit en specificiteit kunnen worden be-
paald (zie paragraaf 4.2).

4 Constructvaliditeit
Voor veel metingen bestaat geen gouden standaard, bijvoorbeeld voor
het meten van kwaliteit van leven. In dat geval kan criteriumvaliditeit
niet worden bepaald en is men aangewezen op zogenoemde con-
structvaliditeit. Constructvaliditeit is de mate waarin de uitslagen van
scores op het meetinstrument consistent zijn met resultaten van an-
dere meetinstrumenten. Het te valideren meetinstrument moet dan
hoog correleren met andere meetinstrumenten die hetzelfde construct
beogen te meten (convergente validiteit) en laag correleren met meet-
instrumenten die een ander construct beogen te meten (divergente
validiteit). Een vragenlijst voor het meten van lichamelijke activiteit,
bijvoorbeeld, zou hoger moeten correleren met accelerometer counts
dan met body mass index of uithoudingsvermogen, omdat deze laatste
door veel meer andere factoren dan alleen lichamelijke activiteit wor-
den bepaald. Voor het op deze wijze meten van constructvaliditeit
dienen vooraf hypothesen opgesteld te worden, bijvoorbeeld met be-
trekking tot onderlinge correlaties tussen de items, relaties met scores
op andere meetinstrumenten, of verschillen tussen relevante groepen.
Ook moeten verschillen in scores op het meetinstrument worden
aangetoond tussen groepen waarvan men op grond van theoretische
kennis verwacht dat de groepen verschillen in het construct dat het
meetinstrument beoogt te meten (‘known-groups’ validiteit). Wanneer
men significante verschillen in kwaliteit van leven verwacht tussen
140 Inleiding in evidence-based medicine

patiënten met en zonder chronische aandoening dan moet een valide


kwaliteit-van-leven instrument deze verschillen ook kunnen aantonen.
Constructvaliditeit moet dus zijn bepaald aan de hand van specifieke
hypothesen die zijn getoetst over verwachte verschillen tussen groepen
of over verwachte relaties tussen het te valideren meetinstrument en
andere meetinstrumenten, bijvoorbeeld in termen van verwachte ver-
schillen in gemiddelden of verwachte correlaties (zie kader ‘Con-
structvaliditeit’). Hoe specifieker de hypothesen en hoe meer er zijn
bevestigd, des te beter de constructvaliditeit is aangetoond. Als vuist-
regel kan worden gehanteerd dat ten minste 75% van de hypothesen
moet zijn bevestigd.

Voorbeelden van hypothesen voor constructvaliditeit


1 Een correlatie van ten minste 0.50 tussen de HOOS-subschaal
Pijn en de SF-36 subschaal Lichamelijke Pijn.
Bevestigd? Ja
2 Een correlatie van ten minste 0.50 tussen de HOOS-subschaal
Pijn en de VAS Pijn.
Bevestigd? Ja
3 De correlatie tussen de HOOS-subschaal ADL en de SF-36
subschaal Fysiek Functioneren is hoger dan de correlatie tus-
sen de HOOS-subschaal Sport/Recreatie en de SF-36 subschaal
Fysiek Functioneren.
Bevestigd? Ja
4 De correlatie tussen de HOOS-subschaal Pijn en de SF-36
subschaal Lichamelijke Pijn moeten minstens 0.10 hoger zijn
dan de correlatie tussen de HOOS-subschaal Pijn en de andere
subschalen van de SF-36.
Bevestigd? Ja
5 Een correlatie van ten minste 0.50 tussen alle subschalen van
de HOOS en de OHS.
Bevestigd? Ja
Naar De Groot et al. Osteoarthritis Cartilage 2007;15:109.
4 Kritisch beoordelen van een artikel 141

40

30

20

10

0 d

-10

-20

-30

-40
-40 -20 0 20 40 60 80 100 120

Figuur 4.9 Voorbeeld van een Bland en Altman plot met bijbehorende limits of
agreemeent. De limits of agreement lopen van –23.4 tot 14.2 punten.

Bron: De Winter et al. BMC Musculoskeletal Disorders 2004;5:18.

5 Reproduceerbaarheid
Reproduceerbaarheid is de mate waarin een meting vrij is van meet-
fouten. Binnen reproduceerbaarheid kan onderscheid gemaakt wor-
den tussen de meetfout en de betrouwbaarheid. Beide zijn belangrijke
klinimetrische eigenschappen, dus zowel de meetfout als de be-
trouwbaarheid moet zijn bepaald.

5.1 Meetfout
De meetfout is de systematische en toevallige (‘random’) fout van een
score die niet kan worden toegeschreven aan echte veranderingen in
het construct dat het meetinstrument beoogt te meten. De meetfout
geeft aan welke fout men kan verwachten bij herhaalde metingen,
uitgedrukt in de eenheid van het meetinstrument. De meetfout van een
personenweegschaal kan bijvoorbeeld wel 500 gram zijn. Dat betekent
dat bij een herhaalde weging een persoon 500 gram zwaarder of
lichter kan lijken zijn als gevolg van meetfouten. De meetfout moet
zijn bepaald door middel van een test-hertestonderzoek, waarbij het
meetinstrument twee keer is afgenomen bij een groep stabiele perso-
nen. De tijd tussen de metingen moet zo kort mogelijk zijn geweest
om te zorgen dat de personen stabiel bleven, maar niet zo kort dat
142 Inleiding in evidence-based medicine

men zich de vorige resultaten nog kan herinneren. Bij vragenlijsten is


een periode van twee weken meestal acceptabel.
De meest eenvoudig te berekenen maat voor een meetfout is de ‘limits
of agreement’. Hiertoe wordt in een figuur (een Bland en Altman plot)
het gemiddelde tussen de twee herhaalde metingen uitgezet tegen het
verschil van de twee metingen, zie figuur 4.9 voor een voorbeeld. Het
gemiddelde verschil (uitgedrukt met de letter d, van ‘difference’) geeft
de systematische meetfout weer. De afstand van de punten tot de lijn
geeft aan hoe groot de meetfouten zijn. Als de meetfout klein is, lig-
gen alle punten dicht bij de lijn. Per definitie ligt 95% van de
verschillen tussen de twee metingen tussen d–1,96 6 SD en d+1,96 6
SD. Dit worden de limits of agreement genoemd. SD staat voor
standaarddeviatie, een maat voor de spreiding van de verschillen rond
het gemiddelde. De SD geeft de toevallige meetfout weer. De inter-
pretatie van de limits of agreement is als volgt: wanneer een meetin-
strument voor een tweede maal wordt ingevuld, kan de tweede score
zomaar d+1,96 6 SD punten hoger of d–1,96 6 SD punten lager zijn
dan de eerste score, alleen vanwege de meetfout. Dit betekent dat
alleen veranderingen in de score die buiten de limits of agreement
vallen kunnen worden gezien als ‘echte’ veranderingen.
Een andere maat voor de meetfout is de zogenoemde standaardmeet-
fout (‘Standard Error of Measurement’, SEM) of het hiervan afgeleide
kleinst aantoonbare verschil in score (‘Smallest Detectable Change’,
SDC). De SDC is in principe gelijk aan de ruimte tussen de limits of
agreement.
Het maakt niet uit of de limits of agreement zijn bepaald of de SEM of
de SDC. Elk van deze maten zijn goede maten voor een meetfout.
Om te kunnen beoordelen of de meetfout groot of klein is, moet
worden bekeken of met deze meetfout klinisch relevante verschillen
aangetoond kunnen worden. Hiervoor is het nodig te weten wat het
kleinste verschil in score op het meetinstrument is dat men klinisch
relevant vindt (‘Minimal Important Change’, MIC). Als het minimaal
klinisch relevant verschil groter is dan de meetfout, is de meetfout
acceptabel. Als het minimaal klinisch relevant verschil kleiner is dan
de meetfout, betekent dit dat je dit klinisch relevant verschil niet kunt
onderscheiden van meetfout. De meetfout is dus te groot. Deze inter-
pretatie geldt echter alleen voor het gebruik van meetinstrumenten bij
individuele patiënten, dus wanneer men kijkt naar veranderingen in
scores bij één patiënt. Wanneer men kijkt naar gemiddelde verande-
ringen in scores in groepen patiënten, mag men rekening houden met
het feit dat meetfouten uitmiddelen in groepen. De meetfout van een
groepsgemiddelde is dus kleiner dan de meetfout van één individuele
4 Kritisch beoordelen van een artikel 143

meting. De SDC wordt in een groep kleiner met een factor Hn (men
spreekt dan van groeps SDC), waarbij n de grootte van de groep
weergeeft. Zo kan men zelf de groepsgrootte bepalen die nodig is om
met het betreffende meetinstrument klinisch relevante verschillen op
groepsniveau te kunnen onderscheiden van meetfouten. Op basis
hiervan kan men beoordelen of het meetinstrument geschikt is om in
de eigen situatie te gebruiken.

5.2 Betrouwbaarheid
Betrouwbaarheid is de mate waarin personen van elkaar kunnen
worden onderscheiden, ondanks de meetfout. Een hoge betrouw-
baarheid is noodzakelijk voor discriminatieve doeleinden, wanneer
men personen met bijvoorbeeld een minder of meer ernstige vorm van
ziekte van elkaar wil kunnen onderscheiden. De betrouwbaarheid en
de meetfout kunnen beide zijn bepaald in hetzelfde test-herteston-
derzoek. De intraclass correlatiecoëfficiënt (ICC) is een algemeen ge-
accepteerde maat voor het kwantificeren van de betrouwbaarheid van
meetinstrumenten met continue uitkomsten, zoals bloeddruk of ge-
wicht. In de ICC wordt de variatie tussen personen gedeeld door de
totale variatie (= de variatie tussen personen plus de meetfout). De ICC
is dus dat deel van de variatie in scores dat kan worden toegeschreven
aan ‘echte’ verschillen tussen personen. Er kunnen verschillende
soorten ICC’s zijn berekend. Voor test-hertestbetrouwbaarheid is de
ICC voor absolute overeenstemming het meest geschikt.
Voor ordinale maten, dat wil zeggen schalen met een beperkt aantal
opeenvolgende categorieën, bijvoorbeeld een 7-puntsschaal, moet een
gewogen Cohen’s Kappa zijn bepaald. Kappa drukt de mate van over-
eenstemming uit tussen twee metingen of twee beoordelaars die boven
de toevalsvariatie uitstijgt. Zou men louter het percentage overeenstem-
ming berekenen dan geeft dat een iets te optimistisch resultaat, omdat
hierbij geen rekening wordt gehouden met toevalsovereenkomst.
Een ICC of gewogen Kappa van ten minste 0.70 wordt over het alge-
meen acceptabel gevonden voor metingen op groepsniveau. Voor me-
tingen op individueel niveau moet de betrouwbaarheid hoger zijn (net
zoals de meetfout kleiner moet zijn). Vaak wordt een waarde van 0.90
als minimum genoemd.

6 Responsiviteit
Responsiviteit is het vermogen van een meetinstrument om verande-
ringen in de tijd te meten in het construct dat het meetinstrument
beoogt te meten. Dit is van belang wanneer men het meetinstrument
voor evaluatieve doeleinden wil gebruiken. Responsiviteit is een vorm
144 Inleiding in evidence-based medicine

van validiteit in het tijdsverloop (longitudinale validiteit). Deze kan


dan ook op dezelfde manier worden bepaald als constructvaliditeit,
namelijk door hypothesen te formuleren over verwachte correlaties
tussen veranderingen in het meetinstrument en veranderingen in an-
dere meetinstrumenten of over verwachte verschillen tussen verande-
ringen op het meetinstrument tussen groepen. Het verschil met con-
structvaliditeit is dat het bij construct validiteit gaat om verwachtingen
ten aanzien van de scores zelf en bij responsiviteit om verwachtingen
ten aanzien van veranderingen in scores.
Een andere manier om responsiviteit te bepalen is om te kijken of het
meetinstrument klinisch relevante veranderingen kan onderscheiden van
meetfouten (zie item 5.1). De meetfout moet kleiner zijn dan het mini-
maal klinisch relevante verschil. Vaak wordt ‘Guyatt’s responsiveness
statistic’ gebruikt, waarbij het minimaal klinisch relevante verschil ge-
deeld wordt door de standaarddeviatie van verschilscores bij stabiele
personen. Deze standaarddeviatie is de SD uit de limits of agreement. Als
de responsiveness statistic groter is dan 1.96 betekent dit dat de meetfout
kleiner is dan het minimaal klinisch relevante verschil en dat je dus
kleine, relevante veranderingen kunt onderscheiden van meetfouten.
Een andere adequate maat voor responsiviteit die veel gebruikt wordt
is de ROC-curve. Deze wordt ook veel in de diagnostiek gebruikt (zie
paragraaf 4.2). In een ROC-curve wordt sensitiviteit uitgezet tegen
1–specificiteit. Het oppervlak onder de ROC-curve is een maat voor
hoe goed het meetinstrument in staat is onderscheid te maken tussen
personen die wel of niet veranderd zijn (volgens een extern criterium).
Een oppervlakte onder de ROC-curve van ten minste 0.70 kan als een
goede maat voor responsiviteit worden beschouwd.

7 Bodem- en plafondeffecten
Bodem- en plafondeffecten zijn aanwezig wanneer meer dan 15% van
de gemeten patiënten de laagst (bodem) of hoogst (plafond) mogelijke
score heeft. Als dat zo is, is het denkbaar dat er items ontbreken aan
de uiteinden van de schaal. Deze patiënten zouden slechter of beter
kunnen zijn dan de slechtst of best mogelijke score. Dit betekent dat
het instrument een gebrekkige inhoudsvaliditeit (item 1) heeft. Meer
items aan het uiteinde van de schaal zouden deze mensen verder uit
elkaar kunnen trekken. Als gevolg van bodem- of plafondeffecten
kunnen patiënten aan de uiteinden van de schaal niet goed van elkaar
worden onderscheiden, wat de betrouwbaarheid beperkt (item 5.2).
Tevens kan de responsiviteit van het meetinstrument beperkt zijn,
omdat patiënten aan het uiteinde van de schaal niet nog slechter of
nog beter kunnen worden (item 6).
4 Kritisch beoordelen van een artikel 145

8 Interpreteerbaarheid
Interpreteerbaarheid van scores is van groot belang voor elke toepas-
sing van het meetinstrument. Van sommige meetinstrumenten zijn de
scores direct interpreteerbaar, bijvoorbeeld in geval van een vragenlijst
over lichamelijke activiteit die het aantal minuten in kaart brengt dat
iemand bepaalde activiteiten per dag uitvoert. De score wordt uitge-
drukt in het totaal aantal minuten activiteit per dag. Deze score is
direct interpreteerbaar. Veel meetinstrumenten produceren echter
scores die niet direct interpreteerbaar zijn. Wat betekent bijvoorbeeld
een score van 40 punten op een kwaliteit-van-leven schaal van 0-100?
Gaat het dan slecht met een patiënt, is dat een indicatie voor behan-
deling? Hoe scoort de gemiddelde patiënt of de gemiddelde persoon
uit de algemene bevolking op deze schaal? Als iemand na verloop van
tijd vijf punten hoger scoort, is dat dan een belangrijke verbetering?
Welk verschil in score is een minimaal klinisch relevant verschil? Dit
soort vragen moet beantwoord zijn, wil men het instrument kunnen
gebruiken in de praktijk en voor onderzoek.
Verschillende typen informatie kunnen bijdragen aan inzicht in de
interpreteerbaarheid van scores, bijvoorbeeld gemiddelde scores (met
standaarddeviatie) van een referentiepopulatie (bijv. de algemene be-
volking, bij voorkeur zowel totaalscores als scores uitgesplitst naar
leeftijd en geslacht), gemiddelde scores van ‘herkenbare’ subgroepen
van patiënten (bijv. verschillende diagnosecategorieën), gemiddelde
scores van patiënten voor en na een standaardbehandeling, of ge-
middelde verschilscores van patiënten per categorie van een globale
maat (bijv. een 7-puntsschaal) voor de mate van ervaren herstel. Hoe
meer van dit soort gegevens beschikbaar is, hoe beter men in staat is
absolute scores en verschilscores te interpreteren.
Ook moet altijd een minimaal klinisch relevant verschil (minimal
important change, MIC) in de score op het meetinstrument zijn be-
paald om verschilscores interpreteerbaar te maken en om power be-
rekeningen voor nieuwe studies te kunnen doen. Dit kan het beste met
een zogenoemde ‘anchor-based’ methode. Bij ‘anchor-based’ metho-
den wordt een externe maat (anker) gebruikt waaraan verschilscores
op het meetinstrument worden gerelateerd. Voor evaluatiedoeleinden
is dit anker vaak een globale maat (bijv. een 7-puntsschaal) voor de
mate van ervaren herstel die door de patiënt zelf wordt ingevuld. Voor
het bepalen van het minimaal klinisch relevante verschil tussen groe-
pen (voor discriminatie) worden vaak klinische maten als anker ge-
bruikt. Op basis van dit anker worden patiënten ingedeeld in personen
die wel en personen die niet verbeterd zijn. In figuur 4.10 is een
voorbeeld te zien van een pijnschaal die loopt van –6 tot 12 punten. In
146 Inleiding in evidence-based medicine

de figuur is de verdeling van de scores op de pijnschaal weergegeven


in de groepen patiënten die wel of niet verbeterd zijn volgens het anker
(linker en rechter deel van de figuur). Het minimaal klinisch relevante
verschil in score op het meetinstrument kan worden bepaald door met
behulp van een ROC-curve het optimale afkappunt op het meetin-
strument te bepalen: dat wil zeggen dat afkappunt dat het best on-
derscheid kan maken tussen patiënten die wel of niet verbeterd zijn
volgens het anker (net als in de diagnostiek, zie paragraaf 4.2). In het
voorbeeld in figuur 4.10 blijkt uit de ROC-analyse dat het optimale
afkappunt ligt bij 2.5 punten. Dus de MIC is hier 2.5 punten.

anker
− verandering in score op het meetinstrument +

verbeterd volgens 12 niet verbeterd


het anker volgens het anker
10

4
ROC-afkappunt
2

-2

-4

-6

Figuur 4.10 Voorbeeld van een methode om de ‘Minimal Important Change’


(MIC) te bepalen. Het ROC-afkappunt geeft de MIC-waarde aan.

De Vet et al. Quality of Life Research 2007;16:131-42.

In de literatuur worden ook vaak ‘distribution-based’ methoden aan-


gewend, waarbij statistische maten worden gebruikt om het minimaal
klinisch relevante verschil in score te bepalen. Zo kan men bijvoor-
beeld een halve (baseline) standaarddeviatie als minimaal klinisch
relevant verschil gebruiken, of een waarde van 1 6SEM of 1,96 6SEM.
Deze methoden geven echter geen informatie over de belangrijkheid
van de verschilscores en zijn daarom geen goede maten om het mini-
maal klinisch relevante verschil te bepalen.
4 Kritisch beoordelen van een artikel 147

Overige aspecten
Naast de hiervoor in de checklist opgenomen aspecten is het voor een
juiste beoordeling van de klinimetrische eigenschappen van een
meetinstrument van belang dat de klinimetrische studie valide is uit-
gevoerd en dat er geen potentiële vertekening kan worden geconsta-
teerd. Om dat te kunnen beoordelen is een duidelijke omschrijving
nodig van de selectie van patiënten, de wijze waarop de data zijn
verzameld en de data-analyses. Ook moet de onderzoekspopulatie
voldoende groot zijn om een betrouwbare uitspraak te kunnen doen
over de klinimetrische eigenschappen. Een groepsgrootte van vijftig
patiënten wordt over het algemeen als acceptabel beschouwd. Wan-
neer bepaalde aspecten van de klinimetrische studie niet goed be-
schreven zijn, wanneer de onderzoekspopulatie te klein is, of wanneer
er sprake is van potentiële vormen van bias (bijv. selectiebias) of
andere methodologische tekortkomingen, kunnen de betreffende
klinimetrische eigenschappen niet goed worden beoordeeld.

Toepasbaarheid
De klinimetrische eigenschappen van een meetinstrument zijn niet
zonder meer generaliseerbaar van de ene naar de andere populatie.
Een vragenlijst voor het meten van functionele beperkingen van vol-
wassenen is bijvoorbeeld niet zonder meer valide voor het meten van
functionele beperkingen van kinderen. Sommige vragen zijn irrelevant
voor kinderen (bijvoorbeeld vragen over werk), terwijl belangrijke
vragen voor kinderen kunnen ontbreken (bijvoorbeeld vragen over
buitenspelen). Evenzo is een meetinstrument met een goede be-
trouwbaarheid in een algemene populatie niet per definitie ook een
betrouwbaar meetinstrument in een populatie ernstig zieke patiënten.
Ernstig zieke patiënten zijn misschien moeilijker van elkaar te onder-
scheiden dan personen uit de algemene bevolking, waar heel gezonde
en heel zieke mensen bij zitten. Ook is een meetinstrument dat ont-
wikkeld is voor discriminatieve doeleinden niet per definitie bruikbaar
voor evaluatiedoeleinden. Voor evaluatiedoeleinden moeten de vragen
of testuitslagen veranderbaar zijn en moet het meetinstrument res-
ponsief zijn, voor discriminatie hoeft dat niet.
Om de generaliseerbaarheid van de klinimetrische studie naar een
andere patiëntenpopulatie te kunnen beoordelen, is een goede be-
schrijving nodig van de inhoud en het doel van het meetinstrument en
de populatie waarvoor het meetinstrument is ontwikkeld. Ook is een
goede beschrijving nodig van de populatie waarin de klinimetrische
studie is uitgevoerd (diagnosen, demografische en klinische kenmer-
ken). Dit kan een andere populatie zijn dan de populatie waarvoor het
148 Inleiding in evidence-based medicine

meetinstrument is ontwikkeld. Ten slotte moet men beoordelen of de


testomstandigheden (bijv. gebruik van zelfrapportage of interview,
testopstelling) generaliseerbaar zijn.

4.7.3 conclusie
Het kritisch beoordelen van een klinimetrisch artikel vereist enige
kennis van zaken en praktische oefening. Men name het beoordelen
van de inhoudsvaliditeit van een meetinstrument is een lastige zaak,
omdat men afhankelijk is van de vaak beperkte informatie die in het
artikel is gepresenteerd. Met name informatie over de constructen die
het meetinstrument beoogt te meten, het doel waarvoor het meetin-
strument is ontwikkeld en de itemselectie, is vaak gebrekkig. Bij het
beoordelen van een klinimetrisch artikel moet ook goed worden gelet
op een voldoende duidelijke beschrijving van de populatie waarin de
klinimetrische eigenschappen zijn bepaald en de wijze waarop de data
zijn verzameld en geanalyseerd.
Voor sommige klinimetrische eigenschappen bestaat algemene con-
sensus over de optimale methode, bijvoorbeeld Cronbach’s alfa voor
het bepalen van interne consistentie, maar voor andere klinimetrische
eigenschappen, bijvoorbeeld voor validiteit en responsiviteit, bestaat
geen consensus. Ook worden er in de literatuur nauwelijks afkap-
punten beschreven voor wat ‘goede’ klinimetrische eigenschappen
zijn en worden er nauwelijks uitspraken gedaan over de benodigde
groepsgrootte voor klinimetrisch onderzoek. De hier gepresenteerde
criteria en afkappunten zijn gebaseerd op de beschikbare literatuur en
op jarenlange ervaring in het ontwikkelen en valideren van meetin-
strumenten.
Kennis over de klinimetrische eigenschappen van meetinstrumenten
is van groot belang, omdat er belangrijke beslissingen worden ge-
nomen op basis van de scores of testuitslagen van deze meetinstru-
menten. Daarom is het onontbeerlijk dat we erop kunnen vertrouwen
dat de scores betrouwbaar en valide zijn. In de praktijk valt hierop vaak
nog heel wat aan te merken, wanneer men een meetinstrument eens
kritisch beoordeelt. Juist deze kritische beoordeling moet echter bij-
dragen tot het signaleren van tekortkomingen, tot het opzetten van
meer en beter klinimetrisch onderzoek en tot het verbeteren van de
meetinstrumenten zelf.
4 Kritisch beoordelen van een artikel 149

Literatuur
Feinstein AR. Clinimetrics. New Haven, CT: Yale University Press, 1987.
Kirshner B, Guyatt G. A methodological framework for assessing health indices. J
Chronic Dis 1985;38:27-36.
Scientific Advisory Committee of the Medical Outcomes Trust. Assessing health status
and quality-of-life instruments: Attributes and review criteria. Quality of Life
Research 2002;11:193-205.
Streiner DL, Norman GR. Health measurement scales. A practical guide to their
development and use. Oxford: Oxford University Press, 2003.
Terwee CB, Bot SDM, Boer MR de, Windt DAWM van der, Knol DL, Dekker J, Bouter
LM, Vet HCW de. Quality criteria for clinimetric studies of health status question-
naires. J Clin Epidemiol 2007;60:34-42.
Vet HCW de, Terwee CB, Bouter LM. Current challenges in clinimetrics. J Clin Epide-
miol 2003;56:1137-41.
Vet HCW de, Terwee CB, Knol DL, Bouter LM. When to use agreement versus reliability
measures. J Clin Epidemiol 2006;59:1033-9.
Kritisch beoordelen van een 5
artikel: secundair onderzoek

5.1 Inleiding

R.J.P.M. Scholten, W.J.J. Assendelft en M. Offringa

Zoals in hoofdstuk 3 is uitgelegd, is het een goede gewoonte en erg


efficiënt bij een nog onbeantwoorde vraag uit de praktijk eerst te
zoeken naar geaggregeerde evidence, ofwel systematische reviews
(secundair onderzoek). Als een goede, recente systematische review
gevonden is, is alle beschikbare evidence betreffende het klinische
probleem overzichtelijk samengevat en kan men deze samengevatte
evidence toepassen in de eigen situatie. Is de review minder recent,
dan kan de behandelaar zelf de review eventueel aanvullen met recente
onderzoeken met gebruikmaking van dezelfde methoden als be-
schreven in de review.
Een systematische review gaat uit van een expliciete vraagstelling, een
zorgvuldige, uitputtende zoekstrategie, een objectieve selectie van
onderzoeken die de vraagstelling betreffen, beoordeling van de kwa-
liteit van de aldus geselecteerde onderzoeken en een transparante
presentatie van de resultaten. Indien de verschillende onderzoeken in
de review voldoende op elkaar lijken wat betreft de onderzochte deel-
nemers, de determinanten (interventies, blootstelling of prognosti-
sche factoren) en uitkomsten, kan naast een kwalitatieve samenvatting
van de resultaten tevens een kwantitatieve samenvatting onderdeel zijn
van een systematische review. Zo’n meta-analyse leidt tot zeer nauw-
keurige schattingen van het effect van de determinant en geeft ook de
mogelijkheid subgroepspecifieke effecten te onderscheiden.
De voordelen van een systematische review zijn duidelijk: het proces is
systematisch, transparant en reproduceerbaar. Omdat de systemati-
sche review op valide wijze de resultaten uit verschillende onderzoe-
ken samenvat, wordt deze in de hiërarchie van klinisch bewijs op de
hoogste plaats gezet (zie hoofdstuk 6). Een recente systematische
5 Kritisch beoordelen van een artikel: secundair onderzoek 151

review is voor de behandelaar dus een efficiënte manier om snel een


valide antwoord op een klinische vraag te krijgen.
Systematische reviews zijn vaak onderdeel van richtlijnen. Een richtlijn
is een document met aanbevelingen, adviezen en handelingsinstructies
ter ondersteuning van de dagelijkse praktijkvoering in de gezond-
heidszorg. Een evidence-based richtlijn bestaat idealiter uit een bun-
deling van systematische reviews en richtlijnen kunnen daardoor op
dezelfde wijze gebruikt worden voor het beantwoorden van een klini-
sche vraag als systematische reviews.
De beoordeling van systematische reviews betreft, net zoals de be-
oordeling van primair onderzoek, de validiteit, het belang en de toe-
pasbaarheid.

Validiteit
Een systematische review is weliswaar systematisch, maar er kunnen
nog steeds subjectieve elementen in de review geslopen zijn. Daarom
dient men kritisch te kijken naar de wijze waarop de review is uitge-
voerd. Over het algemeen wordt beoordeeld of de methoden van
samenvatten (zoals die ook beschreven zijn in de hoofdstukken 2 t/m
4 van dit boek) goed zijn toegepast. De beoordeling betreft derhalve de
formulering van de vraagstelling, de uitgebreidheid en diepgang van
de zoekstrategie, de wijze waarop selectie van onderzoeken heeft
plaatsgevonden, de wijze waarop de kwaliteit van de in de review
opgenomen onderzoeken beoordeeld en verdisconteerd is, en de uit-
voering en geldigheid van een eventueel uitgevoerde meta-analyse.
Mogelijke bronnen van vertekening die specifiek zijn voor systemati-
sche reviews, zijn zogenoemde taalbias (alleen selectie van artikelen
die in een beperkt taalgebied gepubliceerd zijn, bijvoorbeeld alleen
Engelstalige onderzoeken) en publicatie- of uitkomstbias (selectieve
publicatie van onderzoeken of uitkomsten). Ook wordt vaak aandacht
besteed aan mogelijke belangenverstrengeling door partijen die be-
lang hebben bij de uitkomsten.

Belang
Indien is vastgesteld dat de zojuist beoordeelde review in opzet en
uitvoering valide is en indien een meta-analyse is uitgevoerd, kan
worden overgegaan tot de beoordeling van het belang van de resulta-
ten. Net als bij de afzonderlijke onderzoeken (zie hoofdstuk 4) wordt
in een meta-analyse het resultaat uitgedrukt met behulp van een
puntschatter en een 95%-betrouwbaarheidsinterval. De interpretatie
van de verschillende effectmaten (associatiematen) is uitvoerig be-
schreven in de verschillende paragrafen van hoofdstuk 4. Meta-ana-
152 Inleiding in evidence-based medicine

lyse of poolen is echter alleen zinvol en valide, als de ingrediënten van


de meta-analyse voldoende op elkaar lijken (ofwel homogeen zijn).
Klinische kennis is nodig om te kunnen beoordelen of de afzonder-
lijke in de review opgenomen onderzoeken voldoende vergelijkbaar
zijn met betrekking tot de onderzochte personen, determinanten (in-
terventies, blootstelling of prognostische factor) en uitkomsten. Is dit
niet het geval, dan spreekt men van heterogeniteit. Pooling is dan vaak
niet zomaar mogelijk en kan zelfs leiden tot onjuiste of slecht inter-
preteerbare resultaten. Bij de interpretatie van een meta-analyse dient
men dan ook goed na te gaan of de meta-analyse wel geoorloofd was.

Toepasbaarheid
Het beoordelen van de toepasbaarheid van de resultaten van systema-
tische reviews verloopt in principe op precies dezelfde wijze als bij
primair onderzoek, zoals beschreven in hoofdstuk 4. Indien geen
meta-analyse uitgevoerd kon worden en alleen een kwalitatieve sa-
menvatting van de resultaten gepresenteerd is, vergt het beoordelen
van de toepasbaarheid enige improvisatie. Soms kan men uit de review
zelf die onderzoeken selecteren die het best aansluiten bij de eigen
vraagstelling, hetgeen de beoordeling van de toepasbaarheid verge-
makkelijkt.

Dit hoofdstuk
In de volgende paragrafen worden criteria aangereikt voor het beoor-
delen van de validiteit en het interpreteren van de resultaten van
systematische reviews. Achtereenvolgens komen systematische re-
views van onderzoeken naar de effectiviteit van interventies (therapie
en preventie), systematische reviews van onderzoeken naar de waarde
van een diagnostische test en systematische reviews van observatio-
neel onderzoek aan de orde. Hoewel de principes van het uitvoeren
van systematische reviews gelden voor alle EBM-domeinen, heeft ieder
domein zo zijn eigen eigenaardigheden en vergt de beoordeling
daarvan meer aandacht.
De beoordeling van richtlijnen wordt in hoofdstuk 6 besproken.

Alle checklists die in de volgende paragrafen gepresenteerd worden,


zijn te downloaden van www.pico.nu.

Literatuur
Assendelft WJJ, Scholten RJPM, Hoving JL, Offringa M, Bouter LM. De praktijk van
systematische reviews. VIII. Zoeken en beoordelen van systematische reviews. Ned
Tijdschr Geneeskd 2001;145:1625-31.
5 Kritisch beoordelen van een artikel: secundair onderzoek 153

Egger M, Davey Smith G, Altman DG. Systematic reviews in health care: meta-analysis
in context. Londen: BMJ Publishing Group, 2001.
Higgins JPT, Green S (red.). Cochrane Handbook for Systematic Reviews of Interven-
tions Version 5.0.0 [updated February 2008]. The Cochrane Collaboration, 2008
[geraadpleegd op 29 februari 2008]. Beschikbaar op www.cochrane-handbook.org.
Kahn KS, Kunz R, Kleijnen J, Antes G. Systematic reviews to support evidence-based
medicine. How to review and apply findings of healthcare research. Londen: Royal
Society of Medicine Press Ltd, 2003.

5.2 Systematische reviews van interventieonderzoek1

W.J.J. Assendelft, R.J.P.M. Scholten en L.M. Bouter

5.2.1 inleiding
Zoals in paragraaf 5.1 is uiteengezet, gaat een systematische review uit
van een expliciete vraagstelling, een zorgvuldige, uitputtende zoek-
strategie, een objectieve selectie van onderzoeken, beoordeling van de
kwaliteit van de geselecteerde onderzoeken en een transparante pre-
sentatie van de resultaten. Deze opbouw geldt ook voor een systema-
tische review van interventieonderzoek.
Idealiter is een systematische review van interventieonderzoek geba-
seerd op randomised controlled trials (RCT’s), omdat RCT’s de minste
kans op vertekening geven. Systematische reviews van niet-gerando-
miseerde onderzoeken bevinden zich dan ook op een lager niveau van
bewijs. Men moet zich echter realiseren dat voor veel onderwerpen en
interventies RCT’s simpelweg ontbreken of onmogelijk zijn. Het zou
bijvoorbeeld onethisch zijn nog een gerandomiseerd onderzoek naar
postexpositieprofylaxe bij hiv uit te voeren, terwijl aan de hand van
retrospectief onderzoek reeds bekend is dat de relatieve risicoreductie
van direct toegediend zidovudine 79% is. In dat geval kan ook een
systematische review gebaseerd op observationeel onderzoek uitge-
voerd worden (zie paragraaf 5.4).
Naast een kwalitatieve samenvatting van de resultaten kan een syste-
matische review van interventieonderzoek tevens een kwantitatieve
samenvatting (statistische pooling of meta-analyse) bevatten. Dit ge-
talsmatig combineren van gegevens uit verschillende onderzoeken
vergroot de precisie van de effectschattingen en maakt analyse van
subgroepen mogelijk die wellicht gevoeliger zijn voor een interventie.
In deze paragraaf wordt eerst aandacht besteed aan de opbouw van
een systematische review van interventieonderzoek en de beoordeling

1 Voor een goed begrip van deze paragraaf dient paragraaf 4.4 bestudeerd te zijn.
154 Inleiding in evidence-based medicine

van een meta-analyse. Daarna worden handvatten aangereikt voor de


beoordeling van dergelijke reviews.

5.2.2 opbouw van een systematische review van


interventieonderzoek
Voor de beoordeling van de methodologische kwaliteit van een syste-
matische review is het belangrijk alle relevante onderdelen van een
review goed te begrijpen.

Vraagstelling
Een systematische review moet uitgaan van een expliciete klinische
vraagstelling (zie hoofdstuk 2). De noodzakelijke ingrediënten van een
dergelijke vraag zijn: de patiëntencategorie, de interventie, de contro-
le-interventie, de uitkomst en eventueel ook de gewenste follow-up
duur. Hiervoor wordt het Engelse acroniem PICO gebruikt: Patients,
Intervention, Control, Outcome. Een voorbeeld van een vraagstelling
is: wat is bij patiënten met een acute, subacute of chronische tennis-
elleboog (patients) de effectiviteit, uitgedrukt in mate van ervaren
herstel (outcome), van corticosteroı̈dinjecties (intervention) ten op-
zichte van een placebo of afwachtend beleid (control)? Bij deze vraag
is gekozen voor ervaren herstel als uitkomst en bijvoorbeeld niet voor
pijn, hoewel deze uitkomst ook in een systematische review had kun-
nen worden opgenomen. Vaak wordt echter voor een review een min-
der scherp geformuleerde vraagstelling genomen. Dan worden een of
meer onderdelen van de PICO niet of minder uitgebreid uitgewerkt.
De lezer moet zich in die situatie steeds afvragen welke van de con-
clusies van de review zijn gebaseerd op de onderdelen van de P, de I,
de C en de O die de lezer bij het klinische probleem voor ogen heeft.
Vraag u dus steeds af of de review niet gaat over een bredere of andere
vraagstelling dan de PICO van u.

Zoekactie
Uitgaande van de vraagstelling dient op gestructureerde wijze uitge-
breid (sensitief) in de internationale literatuur te zijn gezocht. Er
mogen immers geen studies worden gemist. Een minimumvereiste
hiervoor is een zoekactie in de elektronische databases MEDLINE,
EMBASE (zie hoofdstuk 3), het Cochrane Central Register of Con-
trolled Trials (hoofdstuk 9) en controle van de referenties van de
verzamelde artikelen. Optionele aanvullende zoekacties zijn: zoeken in
(gespecialiseerde) trialregisters, gedrukte indexen, het aanschrijven
van experts en fabrikanten en het handmatig doorzoeken van tijd-
schriften.
5 Kritisch beoordelen van een artikel: secundair onderzoek 155

De zoekactie dient gezien de actualiteit van een onderwerp voldoende


recent te zijn. Algemene richtlijnen hiervoor zijn niet te geven, maar
reviews van ouder dan vijf jaar dienen met grote voorzichtigheid ge-
bruikt te worden. De lezer kan met de zoektermen van de review zelf
in PubMed zoeken naar recentere onderzoeken en kijken of deze in
lijn zijn met de conclusies van de review.

Selectie
De selectie van de in de systematische review te includeren artikelen
moet bij voorkeur door ten minste twee reviewers aan de hand van
expliciete in- en exclusiecriteria onafhankelijk van elkaar zijn uitge-
voerd.
In veel reviews wordt de inclusie beperkt tot publicaties in de talen die
de reviewers zelf machtig zijn (meestal het Engels). Het is niet duide-
lijk of dit in de regel tot afwijkende conclusies (bias) leidt. De impact
van een taalrestrictie kan per review verschillend zijn (over- of onder-
schatting van het effect van de interventie).

Kwaliteitsbeoordeling
De validiteit van de aanbevelingen in een systematische review hangt
sterk af van de kwaliteit van de oorspronkelijke RCT’s.
Er is een veelheid aan kwaliteitsbeoordelingslijsten beschikbaar.
Slechts van een klein aantal interne validiteitsitems staat vast dat deze
tot vertekening kunnen leiden: geblindeerde toewijzing van de inter-
ventie (‘concealment of allocation’), blindering van de effectbeoorde-
laars en compleetheid van de follow-up (geen selectieve uitval) (zie
ook paragraaf 4.4). Een in de systematische review gebruikte kwali-
teitsbeoordelingslijst dient dus ten minste deze items te bevatten.
Net als de selectie dient de kwaliteitsbeoordeling in de systematische
review door ten minste twee reviewers onafhankelijk van elkaar te zijn
uitgevoerd.

Presentatie van de resultaten


In een systematische review dienen de gegevens die direct bij de
vraagstelling aansluiten, op overzichtelijke wijze te worden gepresen-
teerd. De resultaten uit de oorspronkelijke RCT’s worden in een voor
alle RCT’s identieke associatiemaat uitgedrukt. In een systematische
review wordt dus geen genoegen genomen met de mededeling dat een
gevonden verschil in een RCT al dan niet statistisch significant is. Voor
dichotome uitkomstmaten (bijv. wel/niet genezen) wordt de associatie
uitgedrukt in de oddsratio (OR), het relatieve risico (RR) of het risi-
coverschil (RV) met het bijbehorende 95%-betrouwbaarheidsinterval
156 Inleiding in evidence-based medicine

(95%-BI), voor continue variabelen (bijv. opnameduur in dagen) in een


al dan niet gestandaardiseerde verschilscore met 95%-BI. Ook de data-
extractie moet bij voorkeur door ten minste twee reviewers onafhan-
kelijk van elkaar geschieden.

Combineren van resultaten


In de meta-analyse of statistische pooling worden de gegevens die in
het kader van een systematische review zijn vergaard statistisch sa-
mengevoegd om te komen tot een schatting van het in deze onder-
zoeken bestudeerde effect. Daarnaast wordt natuurlijk ook gekeken
naar eventuele verschillen tussen de onderzoeken onderling (hetero-
geniteit). Voor het combineren van effectschattingen (‘pooling’) zijn
diverse statistische technieken beschikbaar. Met behulp van statisti-
sche pooling wordt een schatting van het effect van een interventie
verkregen, die gebaseerd is op het grootst mogelijke aantal patiënten,
waardoor een maximale precisie wordt verkregen (smalle betrouw-
baarheidsintervallen), zodat ook kleine effecten gedetecteerd kunnen
worden. Figuur 5.1 is een voorbeeld van een meta-analyse naar de
effectiviteit van corticosteroı̈den versus placebo bij bacteriële menin-
gitis, met overlijden als uitkomst.
Soms zijn de gebruikte meetinstrumenten voor een uitkomstmaat
verschillend, zodat deze niet rechtstreeks te combineren zijn. De-
pressie wordt bijvoorbeeld met een groot aantal verschillende meet-
schalen geëvalueerd. De uitkomsten kunnen in dat geval worden om-
geschreven (gestandaardiseerd) naar zogenoemde standardised mean
differences (ook wel effectsizes genoemd). Deze zijn dan wel weer te
poolen. De klinische interpretatie van de uitkomsten van een derge-
lijke pooling is echter lastig, omdat een effectsize zich moeilijk laat
terugvertalen naar een klinisch gangbare uitkomst, omdat dat er
meerdere zijn. Om een gevoel te krijgen voor het gevonden effect kan
de effectsize worden gekoppeld aan een standaarddeviatie in een stu-
die. Lucassen et al. gebruikten bijvoorbeeld de standaarddeviatie van
een trial in hun review (Hill et al.) om te berekenen dat de door hen in
de review gevonden effectsize van 0.18 overeenkwam met een number
needed to treat van 6.

Pooling is het meest in het oog springende, maar tegelijkertijd ook een
veelvuldig verkeerd begrepen en misbruikt onderdeel van een syste-
matische review. Net als bij de analyse van gegevens binnen een RCT
doen statistische softwarepakketten braaf hun werk indien de gege-
vens per onderzoek worden ingevoerd. Voorwaarde voor pooling is
echter dat de onderzoeken zowel klinisch als statistisch voldoende
5 Kritisch beoordelen van een artikel: secundair onderzoek 157

review: corticosteroids for acute bacterial meningitis


comparisation: 01 all patients
outcome: 01 mortality

study treatment control relative risk (fixed) weight relative risk (fixed)
n/N n/N 95% CI (%) 95% CI

Bademosi 1979 11/28 12/24 5,8 0,79 [0,43, 1,45]


Belsey 1969 2/43 1/43 0,4 2,00 [0,19, 21,24]
Bennet 1963 16/38 22/47 8,8 0,90 [0,56, 1,46]
Bhaumik 1998 1/14 3/16 1,3 0,38 [0,04, 3,26]
Ciana 1995 8/34 12/36 5,2 0,71 [0,33, 1,51]
De Gans 2002 11/157 21/144 9,8 0,48 [0,24, 0,96]
De Lemos 1969 2/54 1/63 0,4 2,33 [0,22, 25,03]
Girgis 1989 20/210 42/219 18,5 0,50 [0,30, 0,82]
Kanra 1995 2/29 1/27 0,5 1,86 [0,18, 19,38]
x Kipli 1995 0/32 0/26 0,0 not estimable
King 1994 0/50 1/51 0,7 0,34 [0,01, 8,15]
Lebel 1988a 0/51 1/49 0,7 0,32 [0,01, 7,68]
x Lebel 1988b 0/51 0/49 0,0 not estimable
Lebel 1989 0/31 1/30 0,7 0,32 [0,01, 7,63]
Molyneux 2002 96/305 91/291 41,8 1,01 [0,79, 1,28]
Odio 1991 1/52 1/49 0,5 0,94 [0,06, 14,65]
Qazi 1996 12/48 5/41 2,4 2,05 [0,79, 5,33]
x Schaad 1993 0/60 0/55 0,0 not estimable
Thomas 1999 3/31 5/29 2,3 0,56 [0,15, 2,14]
Wald 1995 1/69 0/74 0,2 3,21 [0,13, 77,60]

total (95% CI) 1387 1363 100,0 0,83 [0,71, 0,99]

total events: 180 (treatment), 220 (control)


test for heterogeneity: chi-square=16,96 / df=16 / p=0,39 / P=5,7%
test for overall effect: z=2,12 / p=0,03

0,1 0,2 0,5 1 2 5 10


favours treatment favours control

Figuur 5.1 Voorbeeld uit de Cochrane Database of Systematic Reviews van een
meta-analyse. Corticosteroı̈den versus placebo bij acute bacteriële meningitis, met
als uitkomst mortaliteit.
Ieder horizontaal lijntje geeft de uitkomst weer van een onderzoek, waarbij het
lijntje het 95%-betrouwbaarheidsinterval (95%-BI) aangeeft. Het vierkantje in
het midden van de lijn geeft de puntschatter van het relatieve risico (RR). Aan elk
onderzoek is een gewicht gegeven. Hoe groter het onderzoek, des te groter het
gewicht. Het relatieve gewicht van het onderzoek staat onder ‘weight’ en is ook
af te lezen aan de grootte van het bij het onderzoek behorende blokje en aan de
breedte van het betrouwbaarheidsinterval. De ruit is het gecombineerde (statis-
tisch gepoolde) resultaat van de zeventien onderzoeken. De verticale lijn geeft een
RR van 1 aan. Resultaten die links van de verticale lijn liggen wijzen hier op een
gunstig effect van de onderzochte therapie ten opzichte van de controlegroep. De
p-waarde van de test voor heterogeniteit is 0,39 en de I2 5,7%. Er lijken dus geen
aanwijzingen te bestaan voor heterogeniteit. Corticosteroı̈den blijken volgens deze
meta-analyse bij bacteriële meningitis effectiever dan een placebo: het RR is 0,83
en 95%-BI (0,71-0,99) sluit de neutrale waarde 1 uit. De kans op een slechte
uitkomst neemt dus af met 17% (relatieve risicoreductie).

Bron: Van de Beek et al. Cochrane Database of Systematic Reviews 2007, Issue 1. Art. No.:
CD004405.
158 Inleiding in evidence-based medicine

gelijk (homogeen) zijn om bij elkaar gevoegd te mogen worden. Is dat


niet het geval, dan spreekt men van heterogeniteit. Er is sprake van
klinische heterogeniteit als de interventies, patiënten of de uitkomst-
maten niet voldoende vergelijkbaar zijn (figuur 5.2). De beoordeling
van klinische homogeniteit is bij uitstek een zaak voor de clinicus.
Hiervoor zijn geen goede beoordelingscriteria beschikbaar. Klinische
heterogeniteit kan worden voorkomen door vooraf (a priori) voldoen-
de vergelijkbare subgroepen te definiëren. Indien deze niet voorhan-
den zijn, moet worden afgezien van pooling.

onderzoeken klinisch homogeen?

nee

klinisch homogene subgroepen? ja

ja

nee statistische homogeniteit?

nee ja

niet poolen exploreren poolen poolen


(metaregressie- of (random effects model) (fixed effect model)
subgroepanalyse)

Figuur 5.2 Analyse van heterogeniteit in de resultaten van individuele onder-


zoeken in een systematische review.

Indien de resultaten van de verschillende onderzoeken ondanks de


aanname van klinische homogeniteit (sterk) uiteenlopen, spreekt men
van statistische heterogeniteit. Statistische heterogeniteit kan berus-
ten op toeval, daadwerkelijke verschillen tussen de onderzoeken (kli-
nische heterogeniteit), of verschillen in methodologische kwaliteit
tussen onderzoeken. Vaak echter zal de oorzaak ervan onbekend zijn.

De inschatting van statistische homogeniteit is lastig. Hiervoor bestaat


weliswaar een chikwadraattoets, maar aan de hand van deze relatief
ongevoelige statistische toets kan gemakkelijk ten onrechte gecon-
5 Kritisch beoordelen van een artikel: secundair onderzoek 159

cludeerd worden dat er geen verschil is tussen de onderzoeken (ho-


mogeniteit kan niet verworpen worden). Als de meta-analyse namelijk
weinig en vooral kleine onderzoeken bevat (en dat is vaak het geval),
moeten de verschillen tussen de effectschattingen van de afzonderlijke
onderzoeken erg groot zijn om de homogeniteittoets significant te
krijgen (p-waarde < 0,05). Heterogeniteit wordt in dat geval gewoon-
weg niet opgepikt door de toets. Statistici spreken dan van een gebrek
aan onderscheidingsvermogen. Door het significantieniveau van de
toets iets ruimer te nemen (p-waarde < 0,10) kan men enigszins aan dit
gebrek aan onderscheidingsvermogen tegemoetkomen. Er dient te
worden opgelet bij de interpretatie van de chikwadraattoets. Een
waarde groter dan de afkapwaarde (bijv. p > 0,1) betekent homogeni-
teit en beneden de afkapwaarde heterogeniteit.
Een betere, maar lastig over te brengen methode voor het bepalen van
homogeniteit is visuele inspectie van de mate van overlap van de
betrouwbaarheidsintervallen van de effectschattingen in de afzonder-
lijke onderzoeken. Als er voldoende overlap is dan is er geen sprake
van statistische heterogeniteit. Formele criteria hiervoor zijn helaas
niet te geven.

Naast de chikwadraattoets kan statistische heterogeniteit aan de hand


van de zogenoemde I2 statistiek gekwantificeerd worden. In een meta-
analyse bestaan twee bronnen van variatie: variatie tussen personen
(steekproefvariatie) en variatie tussen onderzoeken (heterogeniteit).
I2 geeft aan hoeveel procent van de totale variatie in de meta-analyse
op het conto van heterogeniteit geschreven kan worden. Bij een I2 <
30% is nauwelijks sprake van heterogeniteit en bij een I2 > 60% van
aanzienlijke heterogeniteit (in welk geval eigenlijk niet gepoold mag
worden).
Bij statistische heterogeniteit kan men de heterogeniteit modelleren,
verklaren of geheel afzien van pooling (zie figuur 5.2). De heteroge-
niteit wordt soms echter genegeerd door de statistische methode niet
aan te passen (toepassing van het ‘fixed-effectmodel’). Probleem
hierbij is dat het fixed-effectmodel sneller significante uitkomsten
geeft (te lage p-waarde of te smal betrouwbaarheidsinterval) dan het
‘random-effectsmodel’ (zie hierna) en dat de uitkomst dan klinisch
moeilijk te interpreteren is. Door toepassing van het zogenoemde
random-effectsmodel voor pooling kan met de verschillen tussen on-
derzoeken rekening worden gehouden. Het random-effectsmodel
modelleert de aanwezige heterogeniteit, het houdt rekening met va-
riatie tussen onderzoeken en geeft daardoor in de regel bredere be-
trouwbaarheidsintervallen.
160 Inleiding in evidence-based medicine

Dit model is dus ‘conservatiever’ (geeft minder snel significante re-


sultaten) dan het fixed-effectmodel. Een andere optie is heterogeniteit
trachten te verklaren door subgroepanalysen uit te voeren. Dergelijke
subgroepanalysen dienen bij voorkeur te worden gebaseerd op een
aan de systematische review voorafgaand analyseplan om ‘visexpedi-
ties’ naar mogelijke redenen en het daarmee samenhangende risico op
fout-positieve bevindingen te voorkomen. Subgroepanalysen achteraf,
die niet vooraf in het protocol waren opgenomen, kunnen slechts als
hypothesegenererend worden beschouwd en niet als hypothesetoet-
send (bewijzend); het post-hockarakter ervan dient daarvoor in de
review vermeld te worden. In veel situaties met heterogeniteit, ten
slotte, is geheel afzien van pooling wellicht de beste oplossing.
Sensitiviteitsanalysen. Na de berekening van een overall effect wordt
soms nagegaan hoe gevoelig (sensitief) de uitkomst is voor verande-
ringen in de insluitcriteria voor de meta-analyse, of wordt nagegaan of
er verschil is tussen RCT’s van hoge en van lage kwaliteit. Als de
waarde van de gepoolde schatting hierdoor sterk verandert, dient het
resultaat van de review met grote voorzichtigheid geı̈nterpreteerd te
worden. Dit is echter geen ‘verplicht’ onderdeel van een systematische
review.

5.2.3 beoordeling van systematische reviews


Het aantal systematische reviews in de internationale literatuur stijgt
exponentieel. De uitkomsten van een systematische review zijn echter
pas valide en toepasbaar in de klinische praktijk indien de vraagstel-
ling van de review voldoende aansluit bij de praktische vraagstelling
van de clinicus, de methoden aansluiten bij de vraagstelling en als de
methodologische kwaliteit van de systematische review voldoende is.
In tabel 5.1 zijn de belangrijkste punten samengevat.
Daarnaast zijn er rond de beoordeling van systematische reviews nog
twee aspecten die aandacht verdienen: publicatie- en uitkomstbias en
het voorkomen van tegenstrijdige systematische reviews over hetzelfde
onderwerp.

Publicatie- en uitkomstbias
Publicatiebias is selectieve publicatie van onderzoeken. Onderzoeken
waar niets uitkomt of waarin de controle-interventie het beter doet dan
de experimentele interventie, worden nogal eens niet gepubliceerd. Op
die manier kunnen ‘positieve’ onderzoeken (onderzoeken met een
duidelijk gunstig effect in het voordeel van de interventie) de overhand
krijgen in de review. Het resultaat is dan een overschatting van het
effect van de interventie.
5 Kritisch beoordelen van een artikel: secundair onderzoek 161

Tabel 5.1 Checklist voor de beoordeling van systematische reviews (checklist beschikbaar op
www.pico.nu)
item toelichting

vraagstelling systematische review dient uit te gaan van een expliciete vraagstelling (PICO)

zoekactie – ten minste MEDLINE, EMBASE, Cochrane Central Register of Controlled Trials en
controle van referenties van verzamelde artikelen
– gezien actualiteit onderwerp voldoende recent

selectie – bij voorkeur door twee reviewers onafhankelijk van elkaar


– aan de hand van expliciete in- en exclusiecriteria
– geen taalrestrictie

kwaliteitsbeoorde- – bij voorkeur door twee reviewers onafhankelijk van elkaar


ling – expliciet en daardoor reproduceerbaar voor anderen
– gevalideerde checklist met ten minste de items concealment of allocation,
geblindeerde uitkomstmeting en volledigheid follow-up

data-extractie en – resultaten op eenduidige wijze gepresenteerd


-presentatie – per studie wordt per uitkomstmaat een puntschatter van het effect en be-
trouwbaarheidsinterval gepresenteerd

combineren van – pooling indien studies klinisch en statistisch homogeen


resultaten – subgroepanalyse gebaseerd op vooraf opgesteld analyseplan

heterogeniteit indien aanwezig beschreven en adequaat opgelost

resultaten relevant voor de vraagstelling

conclusie ondersteund door de resultaten

Aanwijzingen voor publicatiebias kunnen in beeld worden gebracht


door middel van een ‘funnelplot’ (omgekeerde trechter) (zie figuur
5.3). In deze plot wordt de grootte van de effectschatting uitgezet
tegen een maat voor de precisie van de effectschatting (bijvoorbeeld 1
gedeeld door de standaardfout of 1 gedeeld door de omvang van het
onderzoek). Wanneer de trechter niet symmetrisch is, kan sprake zijn
van publicatiebias. De vorm van een funnelplot wordt echter ook door
andere factoren beı̈nvloed, zoals de keuze van de effectmaat, hetero-
geniteit en de invloed van (kleine) onderzoeken van slechte metho-
dologische kwaliteit. Een asymmetrische funnelplot wordt dus niet
altijd veroorzaakt door publicatiebias.
Een vergelijkbare en wellicht nog veel meer voorkomende vorm van
publicatiebias is selectieve publicatie van uitkomsten (uitkomstbias).
Uitkomsten met een niet-significant effect van de interventie worden
vaak (bewust of onbewust) buiten de rapportage gelaten, wat kan
leiden tot een overschot aan ‘positieve’ uitkomsten in de publicaties
(interne publicatiebias) en in de review. Analoog aan voorgaande
162 Inleiding in evidence-based medicine

standard error of log odds ratio 0 0 0

1 1 1

2 2 2

3 3 3
0,1 0,33 0,6 1 3 0,1 0,33 0,6 1 3 0,1 0,33 0,6 1 3
relative risk

Figuur 5.3 Funnel plot en publicatiebias.

Uitleg funnel plot


Links: symmetrische plot in afwezigheid van bias (de lichtgekleurde rondjes vertegenwoor-
digen kleine studies waarin geen positief effect werd gevonden.
Midden: asymmetrische plot door publicatiebias (kleinere studies waarin geen effect werd
gevonden zijn weggelaten).
Rechts: asymmetrische plot door bias die wordt veroorzaakt door kleine studies van on-
voldoende methodologische kwaliteit waarin er een overschatting is van het effect.
Donkere stippellijn is de gepoolde odds-ratio en de lichte lijn geeft de neutrale waarde 1 aan
(geen effect).
Bron: Sterne et al. BMJ 2001;323:101-5.

redenering leidt deze uitkomstbias dan tot overschatting van de


daadwerkelijke effecten.

Tegenstrijdige reviews
Steeds vaker vindt de clinicus meerdere reviews over hetzelfde onder-
werp. De conclusies van verschillende reviews over (schijnbaar) het-
zelfde onderwerp zijn soms tegenstrijdig. De oorzaak van de ver-
schillen kan met behulp van een algoritme worden geanalyseerd (fi-
guur 5.4). In de regel lukt het aan de hand van dit algoritme om een of
meer eenduidige systematische reviews te selecteren en tot een be-
slissing te komen.
Het is bij tegenstrijdige systematische reviews over hetzelfde onder-
werp allereerst belangrijk om te kijken welke systematische review een
vraagstelling heeft die het dichtst bij de eigen klinische vraag staat.
Indien dezelfde RCT’s in de verschillende systematische reviews zijn
ingesloten, kan men zich richten op de methodologisch beste syste-
matische review. Indien er geen verschil in kwaliteit is, zal de lezer een
nauwkeurige analyse moeten maken van de manier waarop de gege-
vens zijn geëxtraheerd (bijv. door twee reviewers onafhankelijk van
elkaar), hoe met heterogeniteit is omgegaan en of de uitkomsten op de
5 Kritisch beoordelen van een artikel: secundair onderzoek 163

dezelfde vraagstelling SRs?

ja nee
dezelfde RCT’s in SRs ingesloten? selecteer SR met vraagstelling
dichtst bij eigen klinische vraag

ja nee
dezelfde kwaliteit SRs? dezelfde selectiecriteria RCT’s?

ja, let dan op: nee: ja, let dan op: nee, let dan op:
methode data-extractie in SRs selecteer SR uitvoering zoekstrategie voor RCT’s inclusie van ongepubliceerde RCT’s
heterogeniteit RCT’s met de hoogste toepassing selectiecriteria voor RCT’s kwaliteit RCT’s als inclusiecriterium
methode van datasynthese in SRs kwaliteit taalrestrictie voor opname RCT’s

Figuur 5.4 Algoritme voor het kiezen van de best passende systematische
review(s) (SR(s)) wanneer er over hetzelfde onderwerp systematische reviews met
tegenstrijdige conclusies beschikbaar zijn.

Bron: Jadad et al. Can Med Assoc J 1997;156:1411-6.

juiste manier zijn gepoold. Indien niet dezelfde RCT’s zijn ingesloten,
dan moet allereerst worden beoordeeld of bij dezelfde vraagstelling
wel dezelfde selectiecriteria voor onderzoeken zijn gehanteerd en of
de reviews in actualiteit verschillen. Indien deze factoren het verschil
niet verklaren, dan kan het wel of niet opnemen van ongepubliceerde
onderzoeken het verschil verklaren. Daarnaast kunnen de systemati-
sche reviews onderling verschillen in een eventuele beperking op
grond van taal of methodologische kwaliteit van de RCT’s. Indien er
met betrekking tot al deze criteria geen verschil bestaat, dan kunnen
de verschillen in conclusie mogelijk worden verklaard door de ver-
schillen in de praktische uitvoering van het zoeken en selecteren,
waarbij vooral de uitvoering hiervan door twee personen onafhankelijk
van elkaar menselijke fouten helpt te beperken.

5.2.4 conclusie
De systematische review verschaft op een transparante en reprodu-
ceerbare manier snel inzicht in een grote hoeveelheid informatie.
Systematische reviews dienen vaak als basis voor klinische richtlijnen.
Indien dergelijke richtlijnen ontbreken, is de systematische review een
efficiënte en valide manier om inzicht te krijgen in een bepaald on-
derwerp. Het is bij een klinische vraagstelling van belang systemati-
sche reviews te selecteren die bij de vraagstelling aansluiten en van een
zo hoog mogelijke methodologische kwaliteit zijn.
164 Inleiding in evidence-based medicine

Literatuur
Egger M, Davey Smith G, Altman DG. Systematic reviews in health care: meta-analysis
in context. Londen: BMJ Publishing Group, 2001.
Higgins JPT, Green S (red.). Cochrane Handbook for Systematic Reviews of Interven-
tions Version 5.0.0 [updated February 2008]. The Cochrane Collaboration, 2008
[geraadpleegd op 29 februari 2008]. Beschikbaar op www.cochrane-handbook.org..
Jadad AR, Cook DJ, Browman GP. A guide to interpreting discordant systematic
reviews. Can Med Assoc J 1997;156:1411-6..
Kahn KS, Kunz R, Kleijnen J, Antes G. Systematic reviews to support evidence-based
medicine. How to review and apply findings of healthcare research. Londen: Royal
Society of Medicine Press Ltd, 2003..
Montori VM, Wilczynski NL, Morgan D, Haynes RB; Hedges Team. Optimal search
strategies for retrieving systematic reviews from Medline: analytical survey. BMJ
2005;330:68. Epub 2004 Dec 24..
Shea BJ, Bouter LM, Peterson J, Boers M, Andersson N, Ortiz Z, Ramsay T, Bai A,
Shukla VK, Grimshaw JM. External Validation of a Measurement Tool to Assess
Systematic Reviews (AMSTAR). PLoS ONE, 2007;2:e1350..
Shea BJ, Grimshaw JM, Wells GA, Boers M, Andersson N, Hamel C, Porter AC, Tugwell
P, Moher D, Bouter LM. Development of AMSTAR: a measurement tool to assess the
methodological quality of systematic reviews. BMC Med Res Methodol 2007;7:10..
Sterne JA, Egger M, Smith GD. Systematic reviews in health care: Investigating and
dealing with publication and other biases in meta-analysis. BMJ 2001;323:101-5..
Tulder M van, Furlan A, Bombardier C, Bouter L; Editorial Board of the Cochrane
Collaboration Back Review Group. Updated method guidelines for systematic
reviews in the Cochrane Collaboration Back Review Group. Spine 2003;28:1290-9.

5.3 Systematische reviews van onderzoek naar de waarde van


een diagnostische test2

R.J.P.M. Scholten, F. Buntinx en P.M.M. Bossuyt

5.3.1 inleiding
De ingrediënten van een systematische review van onderzoek naar de
waarde van een diagnostische test zijn dezelfde als die van een sys-
tematische review van randomised controlled trials (RCT’s) (zie para-
graaf 5.2): een duidelijke vraagstelling, een uitgebreide zoekactie,
duidelijk omschreven selectieprocedure en data-extractie, een kriti-
sche beoordeling van de methodologische kwaliteit (validiteit) van de
oorspronkelijke onderzoeken, een adequate analyse en een duidelijke
presentatie van de resultaten.
Een diagnostische systematische review kent echter enkele speciale
problemen, vooral op het gebied van het zoeken, het beoordelen en
het analyseren van de resultaten (meta-analyse). Onderzoeken naar

2 Voor een goed begrip van dit hoofdstuk dienen de paragrafen 4.2 en 5.2
bestudeerd te zijn.
5 Kritisch beoordelen van een artikel: secundair onderzoek 165

diagnostische tests verschillen in opzet, waarbij veel onderzoek me-


thodologisch tekortschiet. De opvattingen over wat een goede manier
is om dergelijk onderzoek op te zetten zijn pas vrij laat goed ontwik-
keld. Soms hanteren onderzoekers een ander afkappunt om de resul-
taten van de bestudeerde indextest als ‘hoog’ of ‘laag’ te bestempelen,
als ‘normaal’ dan wel ‘abnormaal’. Verschillende onderzoekers be-
studeren dezelfde test, maar in verschillende groepen patiënten. Om al
deze redenen is bij een diagnostische review nog meer heterogeniteit
te verwachten dan, bijvoorbeeld, bij reviews van RCT’s. Al deze pro-
blemen nemen niet weg dat ook een diagnostische systematische
review op een efficiënte, valide, transparante en reproduceerbare ma-
nier de stand van zaken met betrekking tot de waarde van een diag-
nostische test kan samenvatten.
Omdat variatie eerder regel dan uitzondering is, dienen in een review
de bronnen voor die variatie ook zoveel mogelijk te worden aangege-
ven. Daarbij moet onderscheid worden gemaakt tussen echte, klini-
sche verschillen (door verschillen in aard van de patiënten of aard van
de test) en kunstmatige, methodologische verschillen (door gebreken
in onderzoeksopzet of rapportage). De aanbevelingen die hierna
worden gegeven, zijn dan ook bedoeld om te beoordelen in welke
mate een review in die opzet geslaagd is.

5.3.2 beoordeling van een diagnostische


systematische review
De beoordeling van een diagnostische systematische review valt uiteen
in de beoordeling van de validiteit ervan, het belang van de uitkomsten
en de toepasbaarheid van de resultaten.

Vraagstelling
Net als bij een systematische review van interventieonderzoek dient
een diagnostische review een duidelijke vraagstelling te bevatten met
een adequate beschrijving van de volgende elementen: de onderzochte
patiëntengroep (met welke klachten komen de patiënten, om welke
setting gaat het en welke diagnostische tests zijn reeds uitgevoerd
voordat de indextest toegepast wordt), de indextest(s) (om welke test
gaat het, eventueel andere tests waarmee de indextest vergeleken
wordt) en de ziekte of aandoening waarvoor de test gebruikt wordt
(bijvoorbeeld een aandoening die moet worden aangetoond, of, in een
andere toepassing, uitgesloten). Deze elementen dienen duidelijk be-
schreven te zijn in de review.
166 Inleiding in evidence-based medicine

Tabel 5.2 Checklist voor het beoordelen van systematische reviews van onderzoek naar de waarde
van een diagnostische test. (Checklist beschikbaar op www.pico.nu.)
item toelichting

vraagstelling vermelding van een expliciete vraagstelling

zoekactie ten minste MEDLINE en EMBASE, controle van referenties van verzamelde artikelen
en overleg met één of meerdere inhoudelijke experts

selectie – geen taalrestrictie


– bij voorkeur door  2 reviewers onafhankelijk van elkaar aan de hand van
expliciete in- en exclusiecriteria

kwaliteitsbeoorde- – bij voorkeur door  2 reviewers onafhankelijk van elkaar


ling – expliciet en daardoor reproduceerbaar voor anderen aan de hand van een
geaccepteerde checklist (bijvoorbeeld QUADAS) met ten minste items betref-
fende het design, de referentietest (aard en toepassing), review bias, work-up
bias en spectrum van zieken en niet-zieken

data-extractie bij voorkeur door  2 reviewers onafhankelijk van elkaar

presentatie van de op eenduidige wijze gepresenteerd:


gegevens – onderzochte populatie: per onderzoek ten minste leeftijds- en geslachtsverde-
ling, spectrum van de zieken en niet-zieken
– index- en referentietest: wijze van uitvoering en criteria voor duiden testresul-
taat
– indextestkarakteristieken: per indextest samenvattende 2 6 2 tabel of een
combinatie van aantal onderzochte personen, prevalentie van de onderzochte
aandoening, sensitiviteit en specificiteit
– studiekenmerken

combineren van re- – schatten van summary ROC-curve (sROC-curve) of samenvattende schatters
sultaten en analyse van sensitiviteit en specificteit aan de hand van bivariate of HSROC-methode
van heterogeniteit – subgroepanalyse of metaregressieanalyse indien aangewezen

resultaten relevant voor de vraagstelling

conclusie ondersteund door de resultaten

Zoekactie
Uitgaande van de vraagstelling dient uitgebreid en op gestructureerde
wijze in de internationale literatuur te zijn gezocht. Minimumvereisten
hiervoor zijn een zoekactie in de elektronische databases MEDLINE en
EMBASE, controle van de referenties van de verzamelde artikelen (zie
hoofdstuk 3) en overleg met één of meerdere inhoudelijke experts.
Artikelen over diagnostische tests zijn moeilijk terug te vinden. Het is
belangrijk dat de auteurs daarom de zoekactie voldoende ‘breed’
hebben opgezet.
5 Kritisch beoordelen van een artikel: secundair onderzoek 167

Selectie van artikelen


Er dienen duidelijke in- en exclusiecriteria vermeld te zijn voor de
selectie van in de systematische review op te nemen artikelen. De
selectie van artikelen dient bij voorkeur door ten minste twee revie-
wers onafhankelijk van elkaar te zijn geschied. Hoewel geen empirisch
onderzoek gedaan is naar de invloed van taalrestricties op het resultaat
van een diagnostische review (bijvoorbeeld alleen inclusie van En-
gelstalige onderzoeken) kan een beperking tot één of meerdere talen
leiden tot minder precieze, en mogelijk ook vertekende, schattingen.

Kwaliteitsbeoordeling
Uiteraard dient ook aandacht besteed te zijn aan bepaling van de
methodologische kwaliteit van de in de review opgenomen onderzoe-
ken. Kwaliteit dient ook hier te worden opgevat als de vatbaarheid
voor vertekening in de resultaten door tekortkomingen in de opzet. De
beoordeling dient door ten minste twee reviewers onafhankelijk van
elkaar te zijn uitgevoerd.
Er bestaat een gevalideerde checklist voor de beoordeling van diag-
nostisch onderzoek in een systematische review: QUADAS. Deze lijst
is samengesteld op basis van de kennis die bestaat over vatbaarheid
voor vertekening. Dit betreft onder meer de representativiteit van de
patiënten, keuze en gebruik van de referentietest, selectief of gedeel-
telijk verifiëren van de resultaten van de indextest en blindering van de
beoordelaars. De belangrijkste items van deze lijst zijn in paragraaf
4.2 besproken. Deze kenmerken mogen in geen geval worden sa-
mengevat in een QUADAS ‘score’. Beter is het om te rapporteren
hoeveel van de artikelen in het review aan de items in QUADAS vol-
doen, en hoeveel niet.

Data-extractie
Ook de data-extractie dient bij voorkeur door ten minste twee revie-
wers onafhankelijk van elkaar te zijn geschied. Gezien de gebrekkige
kwaliteit en rapportage van veel artikelen over onderzoek naar de
waarde van diagnostische tests wordt vaak een slechts matige inter-
beoordelaarsovereenstemming gerapporteerd.

Presentatie van gegevens


In een diagnostische systematische review dienen de gegevens van de
oorspronkelijke onderzoeken op overzichtelijke wijze te worden ge-
presenteerd, zodat de lezer een goed beeld kan krijgen van de aard van
de onderzochte patiëntenpopulaties en de testkarakteristieken. Per
onderzoek moeten in ieder geval de leeftijds- en geslachtsverdeling
168 Inleiding in evidence-based medicine

van de onderzochte deelnemers gepresenteerd worden. Van de ‘zieke’


deelnemers (de groep die de test hoopt te identificeren) dient het
ziektespectrum vermeld te worden. Van het spectrum is een beschrij-
ving van de verdeling van de ernst van de aandoening (bijvoorbeeld
partiële en totale meniscuslaesies) en de frequentie van bijkomende
laesies (bijvoorbeeld voorstekruisbandrupturen) belangrijk. Een test is
bij voorkeur geëvalueerd in de klinische situatie waar deze gebruikt zal
worden. Als dat het geval is, dient die vermeld te worden (patiënten bij
de huisarts of patiënten verwezen naar de chirurg). Bij de niet-zieken
moet worden aangegeven om welk type patiënten het gaat. Er dient
duidelijk te worden aangegeven welke indextest gebruikt werd (soms
bestaan verschillen tussen kits of verschillen in deskundigheid van de
beoordelaars) en welke referentietest.
De meest gebruikelijke manier om de resultaten van een onderzoek
naar de diagnostische eigenschappen van een test weer te geven is een
2 6 2 tabel. Van een dergelijke tabel kunnen de meeste andere indices
(zoals sensitiviteit, specificiteit, voorspellende waarden, likelihood-
ratio’s) worden afgeleid (zie ook paragraaf 4.2). Om die reden dient
een samenvattende tabel van de resultaten van een systematic review
dan ook bij voorkeur de ruwe getallen uit de 2 6 2 tabel van elk
afzonderlijk onderzoek te bevatten. Worden deze 2 6 2 tabellen niet
gepresenteerd, dan dienen in ieder geval het totale aantal onderzochte
personen, de prevalentie van de onderzochte aandoening en de sen-
sitiviteit en specificiteit vermeld te zijn.
Figuur 5.5 geeft een mooi voorbeeld hoe de resultaten van de afzon-
derlijke onderzoeken gepresenteerd kunnen worden. De figuur betreft
tien onderzoeken naar de waarde van MRI voor het aantonen van
lymfekliermetastasen bij vrouwen met cervixcarcinoom en geeft naast
de numerieke resultaten een grafische weergave (forest plot) van de
sensitiviteit en specificiteit van de afzonderlijke onderzoeken. Een-
voudig is te zien, dat vooral de sensitiviteit sterk varieert.

Meta-analyse
Omdat verschillen in resultaten eerder regel dan uitzondering vormen,
is het niet altijd eenvoudig om bij diagnostische reviews tot samen-
vattende schatters te komen. Een review zal dan ook in de eerste plaats
de bronnen van de variabiliteit moeten onderzoeken. In een aantal
gevallen is het wel mogelijk om, bij voldoende homogeniteit, tot
samenvattende schatters te komen. Een methode daartoe staat hierna
beschreven.
5 Kritisch beoordelen van een artikel: secundair onderzoek 169

study TP FP FII FIII sensitivity specificity sensitivity specificity


Greco 1989 3 6 5 32 0,38 [0,09, 0,76] 0,84 [0,69, 0,94]
Hawnaur 1994 12 4 4 29 0,75 [0,48, 0,93] 0,88 [0,72, 0,97]
Heuck 1997 16 2 2 22 0,89 [0,65, 0,99] 0,92 [0,73, 0,99]
Ho 1992 0 0 5 15 0,00 [0,00, 0,45] 1,00 [0,82, 1,00]
Hricak 1988 9 2 2 44 0,82 [0,48, 0,98] 0,96 [0,85, 0,99]
Janus 1989 3 2 1 16 0,75 [0,19, 0,99] 0,89 [0,65, 0,99]
Kim 1990 3 1 12 44 0,20 [0,04, 0,48] 0,98 [0,88, 1,00]
Kim 1993 7 2 22 67 0,24 [0,10, 0,44] 0,99 [0,96, 1,00]
Kim 1994 23 5 14 30 0,62 [0,45, 0,78] 0,98 [0,95, 0,99]
Subak 1995 8 5 5 53 0,62 [0,32, 0,86] 0,91 [0,81, 0,97]

0 0,2 0,4 0,6 0,8 1 0 0,2 0,4 0,6 0,8 1

Figuur 5.5 Resultaten van tien onderzoeken naar de accuratesse van MRI voor
het aantonen van lymfekliermetastasen bij vrouwen met cervixcarcinoom. TP =
true positive; FP = false positive; FN = false negative; TN = true negative.

Bron: Scheidler J, et al. JAMA 1997;278:1096-101.

Resultaten en conclusie
De gebruikswaarde van een diagnostische systematische review wordt
vergroot door een adequate bespreking van de resultaten en bijpas-
sende conclusies, in relatie tot de eigen klinische vraagstelling.

Beoordeling van een diagnostische meta-analyse


Net als bij een systematische review van interventieonderzoek kan bij
een diagnostische meta-analyse onderscheid gemaakt worden tussen
‘poolen’ (het berekenen van samenvattende effectschatters) en on-
derzoek naar bronnen van heterogeniteit.
Er ontstaat geleidelijk een consensus over de ideale wijze om een
diagnostische meta-analyse uit te voeren. Belangrijk om te weten is dat
een onderzoek naar de diagnostische accuratesse niet één maat ople-
vert (zoals een relatief risico of risicoverschil) maar twee met elkaar
samenhangende maten: bijv. de sensitiviteit (in de groep patiënten
met de ziekte) en de specificiteit (in de patiënten zonder de ziekte), of
de likelihood-ratio van een positief en een negatief testresultaat. Om-
dat deze parameters met elkaar samenhangen, moet een meta-analyse
met beide rekening houden. Onderzoeken met een hogere sensitiviteit
hebben in de regel een lagere specificiteit, en omgekeerd. Dat kan het
geval zijn door een verschil in het afkappunt, maar ook door ver-
schillen in de ingesloten patiënten, of door een verschil in de gehan-
teerde methoden. Een goede meta-analyse houdt met die samenhang
rekening (zie hierna).
170 Inleiding in evidence-based medicine

De invloed van de keuze van het afkappunt op de verhouding tussen de


sensitiviteit en specificiteit van een indextest kan gevisualiseerd wor-
den door een zogenoemde ROC-curve (figuur 4.10). Deze in paragraaf
4.2 besproken curve geeft, binnen één onderzoek, de relatie weer
tussen de sensitiviteit en specificiteit voor verschillende afkappunten
van de indextest. In een diagnostische meta-analyse heeft men echter
niet te maken met sensitiviteit-specificiteitsparen uit één onderzoek
maar met paren uit verschillende onderzoeken. Als in die onderzoeken
verschillende afkappunten gehanteerd zijn, zijn sensitiviteit en speci-
ficiteit negatief gecorreleerd en kan een curve berekend worden die er
net zo uitziet als een ROC-curve (figuur 5.6). Ieder blokje in de curve
van figuur 5.6 representeert nu de combinatie van de waarden van
sensitiviteit en 1 minus specificiteit voor ieder afzonderlijk onderzoek,
elk met een eigen afkappunt. Er zijn tien onderzoeken en dus tien
blokjes. Een dergelijke samenvattende ROC-curve wordt in het Engels
Summary ROC curve genoemd (sROC-curve).
De sROC-curve van figuur 5.6 bevat tien onderzoeken naar de waarde
van MRI voor het aantonen van lymfekliermetastasen bij vrouwen met
cervixcarcinoom. Hoewel de MRI niet op een continue schaal gemeten
wordt, is hier toch sprake van een vergelijkbare situatie als in figuur
4.10. Ook bij dichotome tests (waarbij de uitslag alleen positief of
negatief kan zijn) kan sprake zijn van verschillende afkappunten: de
ene arts duidt de MRI blijkbaar eerder positief dan de andere. In dit
voorbeeld verschillen de afkappunten waarschijnlijk onbewust (im-
pliciet). In andere gevallen (continue meetwaarden) kan dit expliciet
zijn, zoals in het voorbeeld van het serumglucosegehalte. Een diag-
nostische meta-analyse dient dus een nadere analyse van het moge-
lijke bestaan van verschillende afkappunten (impliciet of expliciet) te
bevatten. Als er aanwijzingen zijn voor het bestaan van een (impliciet
of expliciet) afkappunt, dan is de sROC-curve in principe de samen-
vatting van de resultaten. Een sROC-curve wordt op dezelfde wijze
geı̈nterpreteerd als een ROC-curve (zie paragraaf 4.2): hoe groter het
oppervlak tussen de curve en de diagonaal, des te beter het onder-
scheidingsvermogen van de test.
Er bestaan eenvoudige en meer verfijnde methoden om een sROC-
curve te bepalen. Het voordeel van de meer verfijnde methoden, zoals
de hierarchical summary ROC (HSROC-)methode en de bivariate random
effects methode, is dat er ook een samenvattend punt in de ROC-ruimte
berekend kan worden. Een dergelijk samenvattend punt vereenvoudigt
de interpretatie van de analyse.
5 Kritisch beoordelen van een artikel: secundair onderzoek 171

1,0

0,9

0,8

0,7
sensitiviteit

0,6

0,5

0,4

0,3

0,2

0,1

0,0
0

0
0,
0,
1,

0,

0,
0,

0,
0,

0,

0,
0,

specificiteit

Figuur 5.6 Relatie tussen sensitiviteit (Y-as) en specificiteit (X-as) van MRI voor
het aantonen van lymfekliermetastasen bij vrouwen met cervixcarcinoom en de
geschatte summary Receiver Operating Characteristic curve (sROC-curve) van tien
onderzoeken. De hoogte van de blokjes is evenredig met het aantal vrouwen met
metastasen (zieken) en de breedte met het aantal zonder metastasen (niet-zieken)
in de afzonderlijke onderzoeken. De sROC-curve bestrijkt louter het gebied waar-
voor gegevens voorhanden zijn. De zwarte stip geeft de gemiddelde sensitiviteit en
specificiteit weer en de ellips het 95%-betrouwbaarheidsinterval rond deze
gemiddelden.

Bron: Scheidler J, et al. JAMA 1997;278:1096-101.

Er bestaat bij veel lezers en auteurs een voorkeur om likelihood-ratio’s


te gebruiken in plaats van sensitiviteit en specificiteit. Het is echter
niet aan te raden om afzonderlijke meta-analyses van likelihood-
ratio’s uit te voeren. Ook hier gaat het om twee grootheden die sa-
menhangen – hogere likelihood-ratio’s van een positief testresultaat
gaan samen met minder extreme likelihood-ratio’s voor een negatief
resultaat – en met die samenhang moet rekening worden gehouden.
Verder kan een meta-analyse van likelihood-ratio’s ook onmogelijke
waarden opleveren. Als op de juiste wijze samengestelde schatters van
sensitiviteit en specificiteit verkregen zijn, kan men beter daarvan
alsnog likelihood-ratio’s afleiden.
172 Inleiding in evidence-based medicine

Met behulp van de juiste statistische methoden voor meta-analyse,


zoals de bivariate random effects methode, kan men aan de hand van
subgroepanalysen of metaregressieanalyse verder onderzoek doen
naar mogelijke bronnen van heterogeniteit. Dit betreft bijvoorbeeld
patiëntkarakteristieken (leeftijd, geslacht), setting (eerste lijn versus
specialistische setting), ziektekenmerken (spectrum, ernst, duur) en
verschillen in uitvoering van de indextest of referentietest. Ook kan
nagegaan worden of de heterogeniteit mogelijk het gevolg is van
vertekening door een gebrekkige onderzoeksopzet.

Interpretatie van de resultaten


Als de heterogeniteit beperkt is en het redelijk is een samenvattende
effectschatting te berekenen voor de sensitiviteit en specificiteit van de
indextest (inclusief een 95%-betrouwbaarheidsinterval), dan is de in-
terpretatie relatief eenvoudig. Is echter sprake van veel heterogeniteit,
dan moet daarmee bij de interpretatie rekening worden gehouden.
Men lette er dan bijvoorbeeld op in welk gebied de curve en/of de
punten die de onderzoeken voorstellen, liggen. Uit figuur 5.6 kan men
afleiden, dat MRI specifiek is: als met MRI lymfekliermetastasen ge-
vonden worden, dan kan men er vrij zeker van zijn, dat die er ook
werkelijk zijn. De sensitiviteit van MRI is echter zeer heterogeen en
men zal uit de review moeten destilleren welke schatter het meest
overeenkomt met de eigen situatie. Het kan zijn dat uit de cijfers en de
figuur blijkt dat een goede sensitiviteit gevonden wordt in studies die
overeenkomen met uw eigen setting of net andersom. Het kan ook
zijn dat de heterogeniteit tot het besluit leidt dat er (nog) onvoldoende
kennis ter beschikking is om tot een goed oordeel te komen.

Beoordeling van de toepasbaarheid van de systematische review


Als de diagnostische systematische review voldoende valide is, dan
dient uiteraard bekeken te worden of het gevonden wetenschappelijke
bewijs ook toepasbaar is op de onderhavige patiënt. Hiervoor gelden
dezelfde criteria en overwegingen als bij het toepassen van de resul-
taten van primair diagnostisch onderzoek, zoals beschreven in para-
graaf 4.2.

5.3.3 conclusie
Een diagnostische systematische review kan op een efficiënte, trans-
parante en reproduceerbare wijze inzicht verschaffen in de stand van
kennis over de eigenschappen van een diagnostische test. Ten op-
zichte van één primair onderzoek heeft een systematische review als
bijkomend voordeel dat het wetenschappelijke bewijs afkomstig is uit
5 Kritisch beoordelen van een artikel: secundair onderzoek 173

verschillende klinische situaties, waardoor de resultaten van een valide


systematische review beter toepasbaar zijn en daardoor waarschijnlijk
beter aansluiten bij een in de praktijk geboren klinische vraag.

Literatuur
Buntinx F, Aertgeerts B, Macaskill P. Guidelines for conducting systematic reviews of
studies evaluating the accuracy of diagnostic tests. In: Knottnerus A, Buntinx F
(eds). The evidence base of clinical diagnosis. Oxford: Blackwell Publishing Ltd
Wiley Publ: in press.
Deeks JJ. Systematic reviews of evaluations of diagnostic and screening tests. BMJ 2001;
323:157-62.
Gatsonis C, Paliwal P. Meta-analysis of diagnostic and screening test accuracy evalua-
tions: methodologic primer. AJR Am J Roentgenol 2006;187:271-81.
Harbord RM, Deeks JJ, Egger M, Whiting P, Sterne JA. A unification of models for
meta-analysis of diagnostic accuracy studies. Biostatistics 2007;8:239-51.
Irwig L, Macaskill P, Glasziou P, Fahey M. Meta-analytic methods for diagnostic test
accuracy. J Clin Epidemiol 1995;48:119-30.
Leeflang M, Reitsma J, Scholten R, Rutjes A, Di Nisio M, Deeks J, Bossuyt P. Impact of
adjustment for quality on results of metaanalyses of diagnostic accuracy. Clin Chem
2007;53:164-72.
Leeflang MM, Scholten RJ, Rutjes AW, Reitsma JB, Bossuyt PM. Use of methodological
search filters to identify diagnostic accuracy studies can lead to the omission of
relevant studies. J Clin Epidemiol 2006;59:234-40.
Lijmer JG, Mol BW, Heisterkamp S, Bonsel GJ, Prins MH, Meulen JHP van der, Bossuyt
JMM. Empirical evidence of design-related bias in studies of diagnostic tests. JAMA
1999;282:1061-6.
Reitsma JB, Glas AS, Rutjes AW, Scholten RJ, Bossuyt PM, Zwinderman AH. Bivariate
analysis of sensitivity and specificity produces informative summary measures in
diagnostic reviews. J Clin Epidemiology 2005;58:982-90.
Whiting P, Rutjes AWS, Reitsma JB, Bossuyt PM, Kleijnen J. The development of
QUADAS: a tool for the quality assessment of studies of diagnostic accuracy inclu-
ded in systematic reviews. BMC Medical Research Methodology 2003;3:25.
Whiting P, Rutjes AWS, Reitsma JB, Glas AS, Bossuyt PM, Kleijnen J. Sources of
variation and bias in studies of diagnostic accuracy: a systematic review. Ann Int
Med 2004;140:189-202.
Zwinderman AH, Bossuyt PM. We should not pool diagnostic likelihood ratios in
systematic reviews. Stat Med 2008 Feb 28;27:687-97.
174 Inleiding in evidence-based medicine

5.4 Systematische reviews van observationeel onderzoek3

D.A.W.M. van der Windt, M.P.A. Zeegers en R.J.P.M. Scholten

5.4.1 inleiding
In deze paragraaf wordt het beoordelen en interpreteren van syste-
matische reviews van observationeel onderzoek besproken.
Observationeel onderzoek kan gericht zijn op de beantwoording van
vele soorten onderzoeksvragen, maar is grofweg in te delen in drie
categorieën:
1 Etiologisch onderzoek, gericht op het vaststellen van oorzaken van
ziekten. Er zijn bijvoorbeeld systematische reviews verschenen over
werkgerelateerde risicofactoren voor schouderpijn, clustering van
prostaatkanker in families of de associatie tussen slaappositie van
baby’s en de kans op wiegendood.
2 Prognostisch onderzoek, gericht op de bestudering van het beloop van
ziekten en van factoren die invloed op het beloop uitoefenen. Sys-
tematische reviews van prognostisch onderzoek zijn in opkomst,
maar nog relatief schaars. Voorbeelden zijn reviews over het beloop
van elleboogklachten en over de prognose van depressie bij oude-
ren.
3 Onderzoek naar ernstige bijwerkingen van interventies. In deze laatste
categorie zijn relatief veel systematische reviews verschenen, bij-
voorbeeld over de kans op een myocardinfarct bij gebruik van
Cox-2-remmers (ontstekingsremmende medicatie) voor gewrichts-
klachten of de kans op trombose bij gebruik van derdegeneratie
orale anticonceptiva.

Diagnostisch onderzoek is strikt genomen ook observationeel onder-


zoek, maar wordt vanwege een aantal specifieke kenmerken apart
besproken (zie paragraaf 5.3).
De opbouw van een review van observationeel onderzoek is dezelfde
als die van een review van gerandomiseerd onderzoek (paragraaf 5.2).
Het uitgangspunt is een expliciete vraagstelling en een zorgvuldige
zoekstrategie. De beoordeling van de kwaliteit van de geselecteerde
onderzoeken en een transparante presentatie van de resultaten zijn
belangrijke onderdelen van iedere review. Een kwantitatieve samen-
vatting van de resultaten (statistische pooling of meta-analyse) is bij
een systematische review van observationeel onderzoek gecompli-

3 Voor een goed begrip van deze paragraaf dienen de paragrafen 4.3, 4.5 en 5.2
bestudeerd te zijn.
5 Kritisch beoordelen van een artikel: secundair onderzoek 175

ceerder dan bij een systematische review van gerandomiseerd onder-


zoek en vaak niet mogelijk, waardoor de analyse beperkt moet worden
tot een kwalitatieve analyse van de beschikbare gegevens.
Het uitvoeren van een systematische review van observationeel on-
derzoek is niet eenvoudig. In tegenstelling tot reviews van gerando-
miseerd onderzoek heeft de reviewer te maken met verschillende
soorten onderzoeksdesigns (zie paragraaf 4.5 voor een beschrijving
hiervan). Voor het beantwoorden van dezelfde vraagstelling is vaak
zowel patiëntcontroleonderzoek als prospectief cohortonderzoek
voorhanden. Hierdoor kunnen allerlei kenmerken in de opzet van de
geselecteerde onderzoeken sterk variëren, zoals de selectie van con-
troles of het niveau van blindering. Daarnaast kunnen observationele
onderzoeken sterk variëren ten aanzien van de te onderzoeken deter-
minant (risicofactor of prognostische factor), selectie van de onder-
zoekspopulatie en de definitie van de uitkomstmaat. De kans dat
onderzoeksresultaten beı̈nvloed zijn door allerlei verstorende factoren
(confounders) is relatief groot in observationeel onderzoek (zie ook
paragraaf 4.5). Bij het beoordelen van systematische reviews van ob-
servationeel onderzoek dient daarom goed gelet te worden op de wijze
waarop de kwaliteit van geselecteerde onderzoeken is beoordeeld, of
voldoende rekening is gehouden met de mogelijke invloed van ver-
storende factoren en of voldoende aandacht is besteed aan het explo-
reren van bronnen van heterogeniteit van onderzoeksresultaten. Net
als bij reviews van gerandomiseerd of diagnostisch onderzoek kan
hierbij onderscheid gemaakt worden tussen verschillende oorzaken
voor heterogeniteit:
– verschillen in kenmerken van de onderzoekspopulatie, risicofacto-
ren of prognostische factoren, uitkomstmaten (klinische heteroge-
niteit);
– methodologische verschillen door gebreken in de onderzoeksopzet
of rapportage (methodologische heterogeniteit);
– toevalsvariatie.

5.4.2 beoordeling van een systematische review


van observationeel onderzoek
De beoordeling van een systematische review van observationeel
onderzoek valt uiteen in de beoordeling van de validiteit ervan, het
belang van de uitkomsten en de toepasbaarheid van de resultaten.

Vraagstelling
De relevantie van het onderwerp van de review en de noodzaak van het
uitvoeren van een systematische review dienen in de inleiding helder
176 Inleiding in evidence-based medicine

Tabel 5.3 Checklist voor de beoordeling van systematische reviews van observationeel onderzoek
(Checklist beschikbaar op www.pico.nu)
item toelichting

vraagstelling vermelding van een expliciete vraagstelling.

zoekactie ten minste MEDLINE en controle van referenties van relevante reeds
verzamelde artikelen.

selectie – bij voorkeur door  2 reviewers onafhankelijk van elkaar aan de hand
van expliciete in- en exclusiecriteria;
– bij voorkeur geen taalrestrictie.

kwaliteitsbeoordeling – bij voorkeur door  2 reviewers onafhankelijk van elkaar;


– expliciet en daardoor reproduceerbaar voor anderen;
– geaccepteerde checklist, met items betreffende onder meer het de-
sign, selectie van deelnemers, beschrijving van risicofactoren of
prognostische factoren, controle voor confounding, volledigheid van
follow-up (bij cohortonderzoek).

data-extractie – bij voorkeur door  2 reviewers onafhankelijk van elkaar;


– heldere beschrijving data-extractieprocedure, vooral ten aanzien van
definitie en eenheid van de determinant (risicofactor of prognostische
factor) en de uitkomst.

presentatie van gegevens resultaten op eenduidige wijze gepresenteerd ten aanzien van:
– samenstelling onderzoekspopulatie;
– determinant: risicofactor of prognostische factor;
– uitkomst: bijwerking of ziekte;
– mogelijke verstorende factoren (confounders);
– resultaten: effect per eenheid van de determinant, gecorrigeerd voor
alle relevante confounders.

combineren van resultaten – pooling alleen van methodologisch en klinisch homogene (subgroe-
en analyse van heterogeni- pen van) onderzoeksresultaten;
teit – subgroepanalysen of metaregressieanalyse zijn gebaseerd op vooraf
opgesteld analyseplan en betreffen potentiële bronnen van klinische
of methodologische heterogeniteit;
– indien pooling niet mogelijk of verstandig: kwalitatieve analyse,
rekening houdend met methodologische kwaliteit, consistentie van
resultaten, sterkte van de associatie, invloed van confounding.

resultaten relevant voor de vraagstelling

conclusie ondersteund door de resultaten

beschreven te zijn. Ook een systematische review van observationeel


onderzoek dient uit te gaan van een expliciete vraagstelling, waarin
de onderzoekspopulatie, determinant en de uitkomsten zijn gedefini-
eerd. Bij etiologisch onderzoek gaat het om de invloed van de risico-
factor op het ontstaan van ziekte in een bepaalde populatie, bij prog-
nostisch onderzoek om de patiëntencategorie, de aard van de prog-
5 Kritisch beoordelen van een artikel: secundair onderzoek 177

nostische factoren en het beloop van de ziekte (kans op herstel,


persisterende klachten of overlijden), bij onderzoek naar bijwerkingen
om het type interventie bij een bepaalde patiëntencategorie en de aard
van de bijwerkingen. Een voorbeeld van een etiologische vraagstelling
is: hebben gezonde volwassenen (patiënten) die meer dan drie koppen
koffie per dag drinken (determinant) een grotere kans op overlijden
als gevolg van een myocardinfarct (uitkomst) dan mensen die geen of
weinig koffie drinken (vergelijking)? Een voorbeeld van een prognos-
tische vraagstelling is: welke psychosociale factoren (determinant)
voorspellen bij patiënten met een nieuwe episode van lage-rugpijn
(patiënten) de kans op persisterende klachten na zes maanden (uit-
komst)?

Zoekactie
Uitgaande van de vraagstelling dient op gestructureerde wijze uitge-
breid in de internationale literatuur te zijn gezocht. Een minimum-
vereiste hiervoor is een zoekactie in de elektronische database MED-
LINE en controle van de referenties van relevante, reeds verzamelde
artikelen. Een zoekactie in EMBASE of specialistische databases zoals
Cinahl, CancerLit of PsychInfo zal waarschijnlijk aanvullende rele-
vante publicaties opleveren en is een belangrijke toevoeging. Eventu-
ele restricties in de zoekactie moeten beschreven zijn. Hierbij kan
gedacht worden aan restrictie in jaartal van publicatie, publicatiestatus
(wel of niet gepubliceerd) of in taal. Voor observationeel onderzoek is
de kans op publicatiebias groot. Zowel auteurs als tijdschriftredacties
zijn wellicht terughoudend met het publiceren van kleinschalig on-
derzoek waarin slechts zwakke associaties zonder statistische signifi-
cantie worden gevonden. De kans op publicatie van observationeel
onderzoek waarin opvallende of sterke associaties worden gerappor-
teerd is aanzienlijk groter. Hierdoor moet wellicht de voorkeur worden
gegeven aan een systematische review waarin niet alleen gepubliceerd
materiaal is geselecteerd, maar ook gezocht is naar ongepubliceerde
gegevens, zoals congresverslagen en interne rapporten. Helaas is het
identificeren van ongepubliceerd observationeel onderzoek een vrijwel
onmogelijke opgave. Ook moet rekening worden gehouden met het
feit dat ongepubliceerd onderzoek meestal geen kwaliteitscontrole
heeft ondergaan, zoals de ‘peer review’ procedure van wetenschappe-
lijke tijdschriften.

Selectie
Een uitputtende zoekactie naar observationeel onderzoek zal een
groot aantal treffers opleveren, waarvan een aanzienlijk deel niet re-
178 Inleiding in evidence-based medicine

levant is voor de systematische review. De selectie van artikelen die


moeten worden geı̈ncludeerd dient bij voorkeur door twee reviewers
onafhankelijk van elkaar te geschieden aan de hand van expliciete in-
en exclusiecriteria. De in- en exclusiecriteria dienen aan te sluiten bij
de vraagstelling en dienen duidelijk beschreven te zijn, zodat voor de
lezer duidelijk is waarover de review precies gaat. In veel reviews wordt
de inclusie beperkt tot publicaties in de talen die de reviewers zelf
meester zijn (meestal het Engels). Hoewel ‘language bias’ voor syste-
matische reviews van observationeel onderzoek nog niet is aange-
toond, is niet uitgesloten dat reviews met taalrestricties minder valide
zijn.

Kwaliteitsbeoordeling
De validiteit van de conclusies of aanbevelingen van de systematische
review is deels afhankelijk van de methodologische kwaliteit van de
geselecteerde onderzoeken. Zoals eerder aangegeven is de kans op
vertekening van onderzoeksresultaten (confounding) in observatio-
neel onderzoek relatief groot, in het bijzonder doordat er geen sprake
kan zijn van randomisatie. Hierdoor zijn verstorende factoren, zoals
roken in onderzoek naar de associatie tussen alcoholconsumptie en
blaaskanker, waarschijnlijk niet gelijk verdeeld zijn over de blootstel-
lingsgroepen: mensen die veel alcohol gebruiken roken wellicht vaker
en hebben alleen daarom al een verhoogde kans op blaaskanker.
Hierdoor kan de rol van alcoholconsumptie als risicofactor van
blaaskanker worden overschat. In de kwaliteitsbeoordeling van een
systematische review van observationeel onderzoek moet dan ook
uitgebreid aandacht worden besteed aan de mogelijke invloed van
verstorende factoren. Er is een flink aantal criterialijsten beschreven
om de kwaliteit van observationeel onderzoek te beoordelen, hoewel
er nog geen internationale consensus is over de belangrijkste ele-
menten van een goede checklist. Onderzoek heeft wel laten zien dat
een associatie kan worden overschat, wanneer onvoldoende is gecor-
rigeerd voor verstorende factoren en wanneer (bij etiologisch onder-
zoek en onderzoek naar bijwerkingen) sprake is van een patiëntcon-
troleonderzoek. Patiëntcontroleonderzoek is gevoeliger voor selectie-
bias en voor informatiebias dan prospectief cohortonderzoek (para-
graaf 4.5). Bij systematische reviews van prognostisch onderzoek is
het belangrijk dat de volledigheid van follow-up is meegenomen in de
beoordeling van geselecteerde onderzoeken. Patiënten die snel her-
stellen van een klacht of ziekte zullen wellicht eerder uitvallen, terwijl
patiënten met persisterende klachten gedurende lange tijd bereid zijn
5 Kritisch beoordelen van een artikel: secundair onderzoek 179

om metingen te ondergaan of vragenlijsten in te vullen. Dit kan de


resultaten van prognostisch onderzoek beı̈nvloeden.
De reviewers dienen duidelijk te beschrijven op welke aspecten zij de
oorspronkelijke onderzoeken beoordeeld hebben. Het resultaat van
deze kwaliteitsbeoordeling dient per individueel onderzoek in de re-
view gerapporteerd te zijn.
Evenals de selectie van onderzoek dient de kwaliteitsbeoordeling in de
systematische review door ten minste twee reviewers onafhankelijk
van elkaar te zijn uitgevoerd.

Data-extractie
In geval van observationeel onderzoek betreft de data-extractie ken-
merken van de bestudeerde blootstelling of prognostische factor (bij-
voorbeeld welke eenheid van alcoholconsumptie is gebruikt, welke
typen ontstekingsremmende medicatie zijn vergeleken of welke psy-
chosociale factoren zijn bestudeerd). Tevens dient informatie te wor-
den verzameld over potentieel verstorende factoren die in de oor-
spronkelijke onderzoeken zijn gemeten. Voor elk onderzoek dient ten
slotte het voor deze factoren gecorrigeerde effect per eenheid van
blootstelling te worden geëxtraheerd. Soms zijn reviewers genood-
zaakt deze gegevens zelf te reconstrueren, wat gewoonlijk gepaard
gaat met een aanzienlijke hoeveelheid aannames. Het data-extractie-
proces dient duidelijk beschreven te zijn, vooral ten aanzien van de
definitie en eenheid van de determinant (risicofactor of prognostische
factor) en de uitkomst (gecorrigeerde effectschatting). Ook data-ex-
tractie dient bij voorkeur door twee reviewers onafhankelijk van elkaar
plaats te vinden. In paragraaf 5.4.3 wordt het extraheren van gegevens
over de uitkomst verder toegelicht.

Presentatie van gegevens


In een systematische review dienen de gegevens die direct bij de
vraagstelling aansluiten op overzichtelijke wijze te worden gepresen-
teerd. De belangrijkste methodologische en klinische kenmerken van
elk van de geselecteerde onderzoeken moeten beschreven zijn. Het
gaat om de volgende gegevens:
– onderzochte populatie: de wijze van selectie van de onderzoekspopu-
latie (bijvoorbeeld ‘aselecte steekproef uit het register van twintig
huisartspraktijken in de provincie Limburg’), tijdsperiode, leeftijds-
en geslachtsverdeling; in geval van prognostisch onderzoek en
onderzoek naar schadelijke bijwerkingen: gegevens over de ziekte
zoals aard, ernst en stadium;
180 Inleiding in evidence-based medicine

– blootstelling: definitie, eenheid en wijze van vaststelling van de


risicofactor of prognostische factor; in geval van onderzoek naar
schadelijke bijwerkingen: gegevens over de onderzochte interventie
(dosis, duur van medicatiegebruik, enz.);
– uitkomsten (ziekte / schadelijke bijwerking / beloop van ziekte):
definitie, wijze van vaststelling (diagnostische criteria voor vast-
stellen van de ziekte of bijwerking, of definitie van kenmerken
van het beloop van de ziekte);
– verstorende factoren (confounders): aard en eenheid van alle gemeten
confounders;
– resultaten: de effectschatting (sterkte van de gevonden associatie),
meestal in de vorm van een odds-ratio, relatief risico of hazard-
ratio; wanneer men op zoek is naar een (causaal) verband tussen
een specifieke determinant en de uitkomst moet hierbij zijn ge-
kozen voor de effectschatting die is gecorrigeerd voor alle relevante
confounders.

Meta-analyse
Indien de geselecteerde onderzoeken voldoende vergelijkbaar zijn,
kunnen de resultaten worden gecombineerd tot een algemene schat-
ting van de bestudeerde associatie. Bij observationeel onderzoek zal
echter vaak sprake zijn van grote verschillen in onderzoeksresultaten
(heterogeniteit). Deze variatie kan door toeval, maar ook door werke-
lijke verschillen tussen onderzoeken worden verklaard, zoals ver-
schillen in aard van de onderzoekspopulatie, de wijze waarop de
determinant is vastgesteld, of de definitie van de uitkomst. Een sys-
tematische review van observationeel onderzoek dient de invloed van
bronnen van methodologische of klinische heterogeniteit op de uit-
komst te onderzoeken. Indien statistische pooling niet mogelijk is of
verstandig is, kan worden volstaan met een kwalitatieve samenvatting
van de resultaten. De wijze waarop bronnen van heterogeniteit kunnen
worden bestudeerd wordt verder toegelicht in paragraaf 5.4.3.
Resultaten en conclusie. Evenals bij andere systematische reviews is het
belangrijk dat de resultaten van een review van observationeel onder-
zoek aansluiten bij de vraagstelling. Conclusies dienen te worden
ondersteund door de resultaten. Een goede presentatie van de resul-
taten, inclusief heldere en goed onderbouwde conclusies en aanbe-
velingen verhogen de bruikbaarheid van een review van observationeel
onderzoek.
5 Kritisch beoordelen van een artikel: secundair onderzoek 181

5.4.3 meta-analyse van observationeel


onderzoek
Data-extractie
Door middel van meta-analyse (statistische pooling) worden de re-
sultaten van de geselecteerde onderzoeken statistisch samengevoegd
om te komen tot een gecombineerde schatting van de sterkte van de
bestudeerde associatie. Om de resultaten van de onderzoeken te kun-
nen combineren is van ieder afzonderlijk onderzoek een schatting
van het effect (sterkte van de associatie) nodig met een maat voor de
precisie (variantie) van deze schatting. Een veelgebruikte effectmaat in
observationeel onderzoek is de odds-ratio (OR). In cohortonderzoek
kan naast de odds-ratio ook het relatieve risico gebruikt worden.
Indien de kans op ziekte of op een bijwerking klein is (zoals bijvoor-
beeld het geval is bij de associatie tussen alcoholconsumptie en
blaaskanker of de kans op myocardinfarct bij gebruik van Cox-2-
remmers), is de waarde van een odds-ratio ongeveer gelijk aan het
relatieve risico en zijn ze uitwisselbaar. De associatie wordt in origi-
nele publicaties meestal weergegeven in de vorm van een (gecorri-
geerde) odds-ratio met bijbehorend 95%-betrouwbaarheidsinterval.
In tabel 5.4 worden de (fictieve) resultaten gepresenteerd van zes
patiëntcontroleonderzoeken naar de associatie tussen alcoholcon-
sumptie en blaaskanker. De reviewer heeft op basis van het betrouw-
baarheidsinterval de standaardfout berekend, die samen met de ef-
fectschatting (OR) noodzakelijk is voor het berekenen van een ge-
poolde schatting van het effect. Bij het extraheren van gegevens dient
de reviewer in dit geval te kiezen voor een gecorrigeerde effectschat-
ting. Er zijn echter vaak verschillen in de wijze waarop in de geselec-
teerde onderzoeken gecorrigeerd is voor confounding. In een syste-
matische review kunnen deze verschillen normaliter niet verdiscon-
teerd worden.

Tabel 5.4 Fictieve gegevens van zes patiëntcontroleonderzoeken naar de associatie tussen
alcoholconsumptie en blaaskanker.
onderzoek geslacht odds-ratio ln(OR) standaardfout,
(95%-betrouwbaarheidsinterval) SE(ln(OR))

1 vrouw 1,04 (0,89-1,21) 0,039 0,077

2 man 1,10 (0,76-1,59) 0,095 0,187

3 man 1,94 (0,74-5,08) 0,663 0,492

4 vrouw 1,01 (0,55-1,87) 0,010 0,311

5 man 1,26 (0,98-1,63) 0,231 0,130

6 vrouw 1,18 (0,84-1,67) 0,166 0,176


182 Inleiding in evidence-based medicine

Tevens is er vaak sprake van verschillen tussen onderzoeken in de


wijze waarop blootstelling aan de determinant is gedefinieerd. Zo kan
bij het bestuderen van de relatie tussen alcoholconsumptie en blaas-
kanker in het ene onderzoek alcoholconsumptie (ongeacht de hoe-
veelheid) worden vergeleken met geheelonthouding, terwijl in een
ander onderzoek de absolute hoeveelheid alcohol wordt meegenomen
(aantal eenheden per dag). Indien men in een meta-analyse onder-
zoeken wil opnemen die blootstelling op verschillende manieren
hebben geoperationaliseerd, moeten de blootstellingscategorieën
eerst vergelijkbaar worden gemaakt. Deze procedure dient in een
systematische review van observationeel onderzoek duidelijk be-
schreven te zijn.

Exploreren van bronnen van heterogeniteit


Zoals eerder aangegeven is er bij observationeel onderzoek vaak
sprake van grote verschillen in onderzoeksresultaten (heterogeniteit).
Deze variatie kan door toeval verklaard worden, maar meestal zijn er
belangrijke klinische of methodologische verschillen tussen onder-
zoeken. De reviewers dienen in dit geval terughoudend te zijn bij het
uitvoeren van een meta-analyse. In het verleden is forse kritiek geuit
op meta-analysen van observationeel onderzoek. Hoewel in meta-
analysen soms een zeer precieze schatting van een effect werd ge-
rapporteerd, bleek het verband vaak zwak en was de kans op verteke-
ning groot. Dit heeft in sommige publicaties geleid tot onjuiste con-
clusies over risicofactoren van ziekten of bijwerkingen van bepaalde
interventies. Zo werd op basis van een meta-analyse van observatio-
neel onderzoek de associatie tussen chloor in drinkwater en de kans
op diverse vormen van kanker fors overschat, doordat verschillen in de
wijze waarop de effectschattingen waren gepresenteerd niet werden
herkend door de reviewers. Door middel van subgroepanalysen of
metaregressieanalyse kan de invloed van verschillen tussen onder-
zoeken op de effectschatting worden bestudeerd. Deze methoden
worden hierna kort beschreven.
Subgroepanalyse. De mogelijke invloed van bronnen van heterogeniteit
kan worden onderzocht met behulp van subgroepanalysen. Deze
analysen dienen in een systematische review bij voorkeur te zijn ge-
baseerd op een vooraf gedefinieerd analyseplan. In een systematische
review van 21 patiëntcontroleonderzoeken naar de associatie tussen
buikligging en wiegendood lieten subgroepanalysen bijvoorbeeld zien
dat de wijze waarop controles waren geselecteerd van invloed was op
de grootte van de gerapporteerde associatie. In vijf onderzoeken waren
de controles een goede afspiegeling van de bronpopulatie en werd
5 Kritisch beoordelen van een artikel: secundair onderzoek 183

selectiebias zoveel mogelijk voorkomen. De gecombineerde schatting


van het effect (de associatie tussen buikligging en wiegendood) was
op basis van deze vijf onderzoeken hoger dan op basis van onderzoe-
ken met een minder adequate selectie van controles (gepoolde odds-
ratio 4,50 versus 2,78). De resultaten van deze subgroepanalyse lijken
te bevestigen dat buikligging bij wiegendood een belangrijke risico-
factor is, doordat in het bijzonder methodologisch sterk onderzoek
een sterke associatie laat zien.
Metaregressieanalyse. In een metaregressieanalyse kan de invloed van
meerdere onderzoekskenmerken tegelijk op de gecombineerde ef-
fectschatting worden bestudeerd. De individuele onderzoeken zijn
de eenheid van onderzoek, zoals patiënten dat zijn in een gewone
regressieanalyse. De onderzoekskenmerken zijn de onafhankelijke
variabelen in het model en de effectschattingen van de individuele
onderzoeken de afhankelijke variabelen. Voor een voorbeeld kijken we
opnieuw naar de fictieve resultaten van het onderzoek naar de asso-
ciatie tussen alcoholconsumptie en het risico van blaaskanker (tabel
5.4). Door middel van metaregressieanalyse wordt de invloed van ge-
slacht op de effectschatting bestudeerd. De verschillende stappen bij
het interpreteren van een metaregressieanalyse staan beschreven in
het kader.

Metaregressieanalyse
De berekeningen voor een metaregressieanalyse moeten worden
uitgevoerd op afhankelijke variabelen die bij benadering normaal
verdeeld zijn. Daarom wordt voor elk onderzoek de logaritme van
de odds-ratio berekend: ln(OR). Een metaregressiemodel waarin
de invloed van geslacht op de associatie tussen alcoholcon-
sumptie en blaaskanker wordt bestudeerd ziet er als volgt uit:
Geschatte ln(OR) = a + b * (geslacht).
De codering van geslacht is: 0 = onderzoek met alleen mannen, 1
= onderzoek met alleen vrouwen.
De computer geeft: a = 0,22 en b = –0,14.
De gepoolde ln(OR) voor mannen (geslacht = 0) is:
0,22 + (–0,14 * 0) = 0,22.
De gepoolde odds-ratio voor mannen is dan: exp[0,22] = 1,25.
De gecombineerde ln(OR) voor vrouwen is:
0,22 + (–0,14 * 1) = 0,08.
De gepoolde OR voor vrouwen is dan: exp[0,08] = 1,08.
184 Inleiding in evidence-based medicine

De resultaten van de analyse laten zien dat de gepoolde odds-ratio


voor mannen hoger is dan voor vrouwen (1,25 versus 1,08 per eenheid
alcoholconsumptie). Geslacht blijkt de associatie tussen alcoholcon-
sumptie en blaaskanker te modificeren en is dus een bron van hete-
rogeniteit in deze fictieve systematische review. Een belangrijk voor-
deel van metaregressieanalyse is dat naast geslacht ook andere on-
derzoekskenmerken in hetzelfde model kunnen worden opgenomen,
bijvoorbeeld roken en leeftijd. Metaregressieanalyse kan meer inzicht
geven in de sterkte van een associatie in relevante subgroepen van
patiënten. Een knelpunt van metaregressie is echter dat slechts een
beperkt aantal kenmerken tegelijkertijd in een model kan worden
opgenomen, omdat dit afhangt van het aantal onderzoeken dat wordt
meegenomen in een meta-analyse.
Figuur 5.7 geeft een grafische weergave van de resultaten van een
metaregressieanalyse. Hierbij gaat het overigens niet om fictieve ge-
gevens. Bij onderzoek naar wiegendood blijkt dat de sterkte van de
gerapporteerde associatie, hier weergegeven als ln(OR), ofwel de na-
tuurlijke logaritme van de odds-ratio, beı̈nvloed wordt door het jaar
waarin het onderzoek is uitgevoerd. Voor dit fenomeen kunnen diverse
verklaringen worden geformuleerd. Wellicht nam in de loop van de
tijd de methodologische kwaliteit van de onderzoeken toe, met name
wat betreft het selecteren van controles of het meten van expositie.
Subgroepanalysen lieten tenslotte al zien dat kwalitatief goede onder-
zoeken een sterkere effectschatting rapporteerden. Er kan echter ook
sprake zijn van publicatiebias in de laatste tien tot vijftien jaar van
onderzoek. De aandacht voor een mogelijk verband tussen buikligging
en wiegendood nam in de jaren tachtig van de vorige eeuw sterk toe.
Het is mogelijk dat in latere jaren kleinere onderzoeken en onderzoe-
ken met een lage effectschatting minder snel werden gepubliceerd.

Kwalitatieve samenvatting van resultaten


In veel systematische reviews van observationeel onderzoek zal sta-
tistische pooling van onderzoeksresultaten niet mogelijk zijn, doordat
sprake is van aanzienlijke, onverklaarde heterogeniteit of doordat de
benodigde gegevens niet beschikbaar zijn. Vaak wordt in deze reviews
gekozen voor een kwalitatieve samenvatting van de resultaten. Het is
belangrijk dat een dergelijke kwalitatieve analyse op systematische,
transparante wijze wordt uitgevoerd. Diverse factoren kunnen in deze
synthese worden meegewogen, waaronder de methodologische kwa-
liteit van de primaire onderzoeken. Bij systematische reviews van
etiologisch onderzoek of onderzoek naar bijwerkingen is het belang-
rijk om de causale relatie tussen risicofactor en ziekte of tussen be-
5 Kritisch beoordelen van een artikel: secundair onderzoek 185

2,5

2
ln (OR)

1,5

0,5

0
1955 1960 1965 1970 1975 1980 1985 1990 1995
jaar van onderzoek

Figuur 5.7 Resultaten van 21 patiëntcontroleonderzoeken naar de associatie


tussen slaaphouding en wiegendood (buikligging versus rug- of zijligging). De
grootte van het symbool weerspiegelt de precisie van de effectschatting.

Bron: Dwyer et al. J Clin Epidemiol 2001;54:440-7.

handeling en bijwerking zo goed mogelijk te onderbouwen. De crite-


ria voor causaliteit van Hill (zie ook paragraaf 4.5), kunnen hierbij
behulpzaam zijn en worden in reviews van observationeel onderzoek
vaak gebruikt om de resultaten zo goed mogelijk samen te vatten.
In een systematische review van onderzoek naar arbeidsgerelateerde
risicofactoren voor schouderpijn werd bijvoorbeeld meer waarde
gehecht aan de resultaten van prospectief cohortonderzoek dan pa-
tiëntcontrole- of cross-sectioneel onderzoek. Cohortonderzoek geeft
immers informatie over het temporele verband tussen risicofactor en
uitkomst. Tevens werd de plausibiliteit van de gerapporteerde asso-
ciaties, de consistentie van resultaten, de sterkte van de associatie en
de aanwezigheid van een dosis-responsrelatie in de kwalitatieve ana-
lyse meegewogen.
In systematische reviews van prognostisch onderzoek kan het combi-
neren van onderzoeksresultaten heel lastig zijn, omdat slechts zelden
de prognostische waarde van één enkele factor wordt bestudeerd.
Meestal is prognostisch onderzoek gericht op de vraag welke combi-
natie van factoren het beste het beloop van een ziekte kan voorspellen
(zie ook paragraaf 4.3). Hiervoor is het niet noodzakelijk dat de
186 Inleiding in evidence-based medicine

prognostische factor een direct oorzakelijk verband heeft met de uit-


komst. Confounding is in dit type onderzoek een minder belangrijk
probleem, maar het is wel van belang dat alle mogelijke prognostische
factoren in de analyse zijn meegenomen. De resultaten worden
meestal gepresenteerd in de vorm van een prognostisch (multivariaat)
model. In een systematische review van prognostisch onderzoek is het
nog niet mogelijk om een meta-analyse uit te voeren van verschillende
prognostische modellen waarin de waarde van diverse prognostische
factoren tegelijk is bestudeerd. In een dergelijke review wordt er
meestal voor gekozen om voor alle mogelijke prognostische factoren
de univariate associatie met de uitkomst te presenteren en te volstaan
met een kwalitatieve samenvatting van de resultaten.

5.4.4 conclusie
Een systematische review van observationeel onderzoek verschaft op
een transparante en reproduceerbare manier inzicht in een grote
hoeveelheid informatie betreffende de etiologie of prognose van een
ziekte of de mogelijke bijwerkingen van een interventie.
Het is bij een klinische vraagstelling van belang om systematische
reviews te selecteren die bij de vraagstelling aansluiten en van een zo
hoog mogelijke methodologische kwaliteit zijn. Observationeel on-
derzoek is gevoelig voor vertekening en wordt gekenmerkt door aan-
zienlijke methodologische en klinische heterogeniteit. In systemati-
sche reviews van observationeel onderzoek moet hiermee rekening
zijn gehouden. Het is verstandig de resultaten van een meta-analyse
met voorzichtigheid te beschouwen.

Literatuur
Altman DG. Systematic reviews of evaluations of prognostic variables. BMJ 2001;323:
224-8.
Chou R, Helfand M. Challenges in systematic reviews that assess treatment harms.
Ann Intern Med 2005;142:1090-9.
Egger M, Schneider M, Davey Smith G. Spurious precision? Meta-analysis of observa-
tional studies. BMJ 1998;316:410-4.
Egger M, Davey Smith G, Schneider M. Systematic reviews of observational studies. In
Egger M, Davey Smith G, Altman DG (red). Systematic reviews in health care, meta-
analysis in context. Londen: BMJ Books, 2000:211-27.
Sanderson S, Tatt ID, Higgins JPT. Tools for assessing quality and susceptibility for
bias in observational studies in epidemiology: a systematic review and annotated
bibliography. Int J Epidemiol 2007;36:666-76.
Stroup DF, Berlin JA, Morton SC, Olkin I, Williamson GD, Rennie D, Moher D, Becker
BJ, Sipe TA, Thacker SB. Meta-analysis of observational studies in epidemiology: a
proposal for reporting. Meta-analysis Of Observational Studies in Epidemiology
(MOOSE) group. JAMA 2000;283:2008-12.
Windt DAWM van der, Zeegers MPA, Kemper HCG, Assendelft WJJ, Scholten RJPM. De
5 Kritisch beoordelen van een artikel: secundair onderzoek 187

praktijk van systematische reviews. VI. Zoeken, selecteren en methodologisch


beoordelen van etiologisch onderzoek. Ned Tijdschr Geneeskd 2000;144:1210-4.
Zeegers MPA, Heisterkamp SH, Kostense PJ, Windt DAWM van der, Scholten RJPM. De
praktijk van systematische reviews VII. Het combineren van resultaten uit observa-
tioneel onderzoek. Ned Tijdschr Geneeskd 2000;144:1393-7.
Evidence-based richtlijnen 6

J.S. Burgers, W.J.J. Assendelft en J.J.E. van Everdingen

6.1 Inleiding

Richtlijnen zijn hulpmiddelen in de vertaalslag van onderzoeksresul-


taten en nieuwe inzichten naar de klinische praktijk. Zij bevatten
aanbevelingen en adviezen ter ondersteuning van de besluitvorming in
de zorg die gebaseerd zijn op wetenschappelijke samenvattingen van
de literatuur. Daarnaast beogen richtlijnen de kwaliteit van zorg te
verbeteren. De laatste jaren heeft richtlijnontwikkeling een steeds
explicieter plaats gekregen in het totale kwaliteitsbeleid.
Vanaf het begin van de jaren tachtig van de vorige eeuw worden in
Nederland al richtlijnen ontwikkeld. In de loop van de jaren negentig
werd de literatuur in voor iedereen toegankelijke databases opgesla-
gen en kwamen er steeds meer systematische reviews. Er kon dan ook
veel meer dan vroeger met recht worden gesproken van ‘evidence-
based richtlijnen. Daarbij ging het oude principe om de richtlijn niet
alleen te baseren op het beste beschikbare wetenschappelijke bewijs,
maar ook op klinische expertise en patiëntvoorkeuren (zoals ook ge-
propageerd door de evidence-based medicine werkwijze) niet verlo-
ren. De methode van evidence-based richtlijnontwikkeling is de laatste
jaren de nationale en internationale standaard. Richtlijnen die niet
volgens deze methode tot stand zijn gekomen worden in het veld
steeds minder serieus genomen. Naast de wetenschappelijke onder-
bouwing is het bij deze methode van belang dat tijdens de ontwikke-
ling rekening wordt gehouden met de toekomstige implementatie
(figuur 6.1). De richtlijn is bedoeld om de kloof tussen theorie en
praktijk te overbruggen en moet dus ook goed uitvoerbaar zijn.
Richtlijnen zijn onafhankelijke informatiebronnen, ontwikkeld door
organisaties die geloofwaardig en betrouwbaar zijn en geen bindingen
6 Evidence-based richtlijnen 189

evidence-based richtlijnontwikkeling

literatuur search opstellen selectiecriteria


opstellen zoekcriteria
literatuur selectie
opstellen uitgangsvragen
kritisch
beoordelen
knelpuntenanalyse
geselecteerde
literatuur

samenvatten
literatuur in
evidence
implementatie tabellen

publicatie
en schrijven
disseminatie conceptteksten

vaststellen richtlijn
en autorisatie
discussie conceptteksten

aanscherpen richtlijntekst
aanpassen conceptteksten
commentaarronde
ontwikkeling indicatoren
vaststellen conceptrichtlijn

Figuur 6.1 Cyclus van evidence-based richtlijnontwikkeling.

hebben met partijen die mogelijk belang hebben bij de uitkomsten.


Richtlijnen1 moeten worden onderscheiden van (zorg)protocollen.
Een protocol kan worden beschouwd als een nadere specificatie van
een richtlijn, waarin precies wordt aangegeven hoe er gehandeld moet
worden en welke stappen moeten worden gevolgd bij een specifiek
klinisch probleem. Deze worden vaak afgeleid van landelijke richt-
lijnen en lokaal (in een ziekenhuis of regio) opgesteld. Terwijl een
richtlijn enige ruimte overlaat voor interpretatie en aanpassing aan de
specifieke omstandigheden, is een protocol meer dwingend en een
soort afspraak waaraan men zich moet houden.
Richtlijnen zijn niet meer weg te denken uit de dagelijkse praktijk.
Vrijwel elke beroepsgroep beschikt over richtlijnen, ontwikkeld bin-
nen de eigen kring (monodisciplinair) of samen met andere discipli-
nes (multidisciplinair). Ook worden behandelaars vaker geconfron-
teerd met richtlijnen die (internationaal of nationaal) door anderen
zijn gemaakt en gepubliceerd. Indien de beroepsgroep over een be-
paald onderwerp zelf geen richtlijn heeft, dan kan worden bezien
of een richtlijn van elders in de eigen situatie bruikbaar is (zie ook
hoofdstuk 3 Zoeken en selecteren van literatuur). Ook is het in overleg

1 Het Nederlands Huisartsen Genootschap noemt zijn richtlijnen ‘standaarden’.


190 Inleiding in evidence-based medicine

met andere disciplines belangrijk te kunnen beoordelen of de richt-


lijnen van de gesprekspartner valide en toepasbaar zijn. Dit kan het
maken van onderlinge afspraken sterk vereenvoudigen. Iedere arts zal
dus als gebruiker, en mogelijk ook als betrokkene bij een richtlijn-
commissie, met deze vorm van evidence synthese worden geconfron-
teerd.

6.2 Beoordelen van een richtlijn

Een richtlijn bestaat uit een set van aanbevelingen over een specifiek
klinisch probleem. Bij de beoordeling van een richtlijn moet onder-
scheid worden gemaakt tussen:
– de kwaliteit van de richtlijn als geheel, in het bijzonder de methode
en de verslaglegging daarvan; en
– de (klinische) validiteit van de aanbevelingen. Een goede richtlijn
wordt gekenmerkt door een zorgvuldig en adequaat doorlopen
ontwikkelproces en inhoudelijk goede aanbevelingen die bij toe-
passing in de praktijk leiden tot optimale zorg.

6.2.1 kwaliteit van de richtlijn


Voor het beoordelen van de kwaliteit van de richtlijn staat het AGREE-
(Appraisal Instrument for Guidelines, Research and Evaluation) in-
strument ter beschikking.
Het AGREE-instrument bevat 23 items onderverdeeld in zes domeinen
(zie kader). Elk domein beslaat een aparte dimensie van kwaliteit van
richtlijnen. Het is verleidelijk om steeds een item een waarde, bij-
voorbeeld 1 tot 4 te geven en alle scores per item dan op te tellen. Het
gebruik van een dergelijke geaggregeerde score voor de kwaliteit van
een richtlijn wordt echter ontraden. Een meer genuanceerd en bruik-
baar oordeel wordt verkregen door per domein na te gaan wat de
sterke en zwakke kanten van de richtlijn zijn.

AGREE-instrument
De items worden beoordeeld met behulp van een 4-puntschaal
(‘zeer eens’, ‘eens’, ‘oneens’, ‘zeer oneens’). Het is beschikbaar
op www.pico.nu.

Onderwerp en doel
1 Het doel van de richtlijn is specifiek beschreven.
2 De klinische vraag/vragen die in de richtlijn aan de orde komt/
komen, is/zijn specifiek beschreven.
3 De patiëntenpopulatie waarop de richtlijn van toepassing is, is
specifiek beschreven.
6 Evidence-based richtlijnen 191

Betrokkenheid van belanghebbenden


1 De leden van de werkgroep die de richtlijn heeft ontwikkeld
komen uit alle relevante beroepsgroepen.
2 Het perspectief en de voorkeuren van patiënten zijn nagegaan.
3 De beoogde gebruikers van de richtlijn zijn duidelijk benoemd.
4 De richtlijn is getest onder de beoogde gebruikers.

Methodologie
1 Er zijn systematische methoden gebruikt voor het zoeken naar
wetenschappelijk bewijsmateriaal.
2 De criteria voor het selecteren van het wetenschappelijk
bewijsmateriaal zijn duidelijk beschreven.
3 De gebruikte methoden om de aanbevelingen op te stellen, zijn
duidelijk beschreven.
4 Gezondheidswinst, bijwerkingen en risico’s zijn overwogen bij
het opstellen van de aanbevelingen.
5 Er bestaat een expliciet verband tussen de aanbevelingen en het
onderliggende wetenschappelijke bewijsmateriaal.
6 De richtlijn is vóór publicatie door externe experts beoordeeld.
7 Een procedure voor herziening van de richtlijn is vermeld.

Helderheid en presentatie
1 De aanbevelingen zijn specifiek en ondubbelzinnig.
2 De verschillende beleidsopties zijn duidelijk vermeld.
3 De kernaanbevelingen zijn gemakkelijk te herkennen.
4 De toepassing van de richtlijn wordt ondersteund met hulp-
middelen.

Toepassing
1 De mogelijk organisatorische belemmeringen bij het toepassen
van de aanbevelingen zijn besproken.
2 De mogelijke kostenimplicaties van het toepassen van de aan-
bevelingen zijn overwogen.
3 De richtlijn geeft de belangrijkste criteria om na te gaan en te
toetsen of de richtlijn wordt gevolgd.

Onafhankelijkheid van de opstellers


1 De richtlijn is niet beı̈nvloed door de opvattingen of belangen
van de financierende instantie.
2 Conflicterende belangen van leden van de werkgroep zijn
vastgelegd.
192 Inleiding in evidence-based medicine

Hierna wordt de inhoud per domein toegelicht en wordt vermeld aan


welke eisen die onderdelen moeten voldoen om tot een maximale
score te komen.

Onderwerp en doel
Het doel van de richtlijn en de mogelijke gevolgen van de richtlijn voor
patiëntenpopulaties en de samenleving zijn in detail beschreven. De
te verwachten gezondheidswinst van de richtlijn is specifiek voor het
klinische probleem. Idealiter gaat een richtlijn in op ervaren proble-
men en knelpunten in de praktijk. Deze worden vertaald naar uit-
gangsvragen, waarop de richtlijn een antwoord probeert te geven;
bijvoorbeeld wat is de beste behandeling voor recidiverende keel-
amandelontsteking? Deze vragen zijn specifiek beschreven in de
richtlijn en zijn vertaald in zoekvragen met behulp van het PICO-
systeem (zie hoofdstuk 2). Ook kan de richtlijn de kosten in de uit-
komst betrekken, bijvoorbeeld in de vorm van een kosteneffectivi-
teitsanalyse van de belangrijkste behandelopties. Een voorbeeld van
een specifieke uitgangsvraag is ‘Zijn selectieve serotonineheropna-
meremmers (SSRI’s) kosteneffectiever dan tricyclische antidepressiva
(TCA’s) bij de behandeling van volwassen patiënten met een depressie,
vastgesteld volgens de DSM-IV-criteria?’

Betrokkenheid van belanghebbenden


Dit domein richt zich op de mate waarin de richtlijn de opvattingen
van de beoogde gebruikers weerspiegelt. Bij de ontwikkeling van de
richtlijn zijn idealiter alle belanghebbenden betrokken. In de richtlijn
staat informatie over de samenstelling, discipline en relevante des-
kundigheid van de werkgroepleden. Ook zijn de ervaringen van
patiënten en hun verwachtingen van de zorg nagegaan. Hiervoor
kunnen diverse methoden worden gebruikt, bijvoorbeeld door verte-
genwoordigers van patiënten in de werkgroep op te nemen, door
interviews of focusgroepen met patiënten of door literatuuronderzoek
naar patiëntenervaringen. Ook de beoogde gebruikers van de richtlijn
– de doelgroep – zijn duidelijk in de richtlijn benoemd, zodat zij
kunnen vaststellen of de richtlijn voor hen relevant is. De beoogde
gebruikers van bijvoorbeeld een richtlijn over lage-rugpijn kunnen
huisartsen, neurologen, orthopedisch chirurgen, radiologen, oefen-
therapeuten, reumatologen en fysiotherapeuten zijn.
Idealiter wordt de richtlijn voordat hij definitief wordt vastgesteld, in
de praktijk getest onder de beoogde gebruikers. Dit wordt ook wel een
‘proefimplementatie’ genoemd. Een minder tijdrovend alternatief is
6 Evidence-based richtlijnen 193

een schriftelijke commentaarronde te houden waarin de acceptatie van


de richtlijn in het werkveld wordt bepaald.

Methodologie
Een betrouwbare evidence-based richtlijn staat of valt bij de methode
waarmee het bewijsmateriaal is verzameld en samengesteld en hoe dit
is vertaald naar aanbevelingen voor de praktijk. De zoekactie voor
richtlijnen is sensitief: er dient zo volledig mogelijk te worden ge-
zocht. De strategie waarmee de literatuur is verzameld, is in detail
beschreven, inclusief zoektermen, geraadpleegde bronnen en de pe-
riode waarover artikelen zijn verzameld. Mogelijke bronnen zijn elek-
tronische databases (bijv. MEDLINE, EMBASE, Cinahl), databases van
systematische reviews (bijv. Cochrane Library, DARE), handmatig ge-
screende tijdschriften, congresverslagen en andere richtlijnen (bijv. US
National Guideline Clearinghouse, Guidelines International Network)
(zie ook hoofdstuk 3). In het ideale geval bestaat de richtlijn uit een
serie (geactualiseerde) systematische reviews (zie hoofdstuk 5). Is
geen systematische review voorhanden, dan zijn de methoden van
samenvatten duidelijk beschreven. De methoden die zijn gebruikt bij
het opstellen van de aanbevelingen zijn beschreven, evenals de wijze
waarop men tot de uiteindelijke conclusies is gekomen. Voorbeelden
van dergelijke methoden zijn een stemmingssysteem of formele con-
sensustechnieken (bijv. Delphi-, Glaser-technieken). Punten waarover
men van mening verschilde en hoe deze opgelost werden, zijn duide-
lijk omschreven. Bij het opstellen van de aanbevelingen zijn de voor-
en nadelen van de diverse beleidsopties afgewogen, met bijvoorbeeld
ook aandacht voor eventuele bijwerkingen en de korte- en langeter-
mijnrisico’s van de aanbevelingen.
Essentieel is dat er in de tekst van de richtlijn een expliciete onder-
bouwing is van de individuele aanbevelingen. Deze kan bestaan uit
een bespreking van literatuur, maar ook uit argumentaties van de
werkgroep. Bij elke aanbeveling is een referentielijst vermeld of wordt
expliciet aangegeven dat er geen relevante literatuur is gevonden.
Voorts is de richtlijn ook extern beoordeeld voordat zij is gepubliceerd,
net als bij wetenschappelijke artikelen in ‘peer reviewed’ tijdschriften.
De referenten mogen niet betrokken zijn geweest bij de richtlijn-
werkgroep en onder hen zijn zowel klinische experts op het gebied
van de richtlijn als enkele methodologische experts. Ook vertegen-
woordigers van patiënten kunnen als referent optreden. Vanwege de
continue stroom aan nieuwe literatuur – potentieel nieuw bewijsma-
teriaal die invloed kan hebben op de aanbevelingen in de richtlijn –
194 Inleiding in evidence-based medicine

bevat de richtlijn ook informatie over de geldigheidsduur en een


procedure voor herziening van de richtlijn

Helderheid en presentatie
Aangezien richtlijnen vooral werkers in de gezondheidszorg en
patiënten helpen bij het nemen van beslissingen in de praktijk, is het
noodzakelijk dat zij eenvoudig te begrijpen, patiëntgericht en gebrui-
kersvriendelijk zijn. Een goede richtlijn bevat specifieke, eenduidige
aanbevelingen en geeft heldere informatie over de keuzemogelijkhe-
den en de mogelijke consequenties van de beleidsopties. Als er twijfel
bestaat over het beste beleid, dan is deze twijfel expliciet in de richtlijn
vermeld. Een aanbeveling voor het beleid bij depressie kan bijvoor-
beeld de volgende behandelingsalternatieven bevatten:
a medicamenteuze therapie;
b psychotherapie;
c combinatie van a en b.
Psychotherapie heeft als eerste therapie ongeveer gelijke effectiviteit
als antidepressiva. Antidepressiva hebben bijwerkingen. Sommige
patiënten hebben weerstand tegen psychotherapie, en vinden dit ook
te tijdrovend. Ook is er vaak een wachtlijst voor psychotherapie. In een
gesprek kunnen deze aspecten tegen elkaar worden afgewogen.
De richtlijn is in een aantrekkelijk format gepresenteerd, wat het ge-
bruik in de praktijk bevordert. De meest relevante aanbevelingen zijn
gemakkelijk te vinden, door ze bijvoorbeeld samen te vatten in een
kader of door ze te presenteren als stroomdiagrammen of algoritmen.
Naast een samenvatting kunnen andere hulpmiddelen worden ingezet
om de toepassing in de praktijk te bevorderen, zoals patiëntenfolders,
computerondersteuning en nascholingsmateriaal.

Toepassing
In dit domein gaat het om de effecten van de toepassing van de richt-
lijn in de praktijk en de mogelijk organisatorische en financiële bar-
rières die hierbij geslecht moeten worden. Richtlijnen die praktisch
niet uitvoerbaar of haalbaar zijn, zijn zinloos en verspilde moeite.
Daarom wordt reeds bij de ontwikkeling van de richtlijnen nagegaan
of de aanbevelingen passen binnen de huidige organisatie van de zorg
en in de routines van de praktijk en de tijdsdruk van het werk. Orga-
nisatorische veranderingen die nodig zijn om de aanbevelingen toe te
passen zijn in de richtlijn besproken. Een richtlijn over beroerte kan
bijvoorbeeld adviseren dat de zorg wordt gecoördineerd in speciale
‘stroke-units’. De toepassing van de aanbevelingen kan aanvullende
middelen vereisen, bijvoorbeeld meer gespecialiseerd personeel,
6 Evidence-based richtlijnen 195

nieuwe apparatuur of behandeling met een duur geneesmiddel, wat


consequenties kan hebben voor het gezondheidszorgbudget. In de
richtlijn dienen deze kostenimplicaties te zijn besproken.

Om het effect van de richtlijn in de praktijk nauwkeurig na te gaan,


bevat een richtlijn een lijst met toetscriteria of indicatoren. Deze zijn
afgeleid van de belangrijkste aanbevelingen uit de richtlijn en betref-
fen een meetbaar kenmerk met een signaalfunctie voor (een aspect
van) de kwaliteit van patiëntenzorg. Een procesindicator geeft weer in
hoeverre volgens de richtlijn is gewerkt. Een voorbeeld is het percen-
tage patiënten met diabetes mellitus, zonder risicofactoren voor reti-
nopathie, dat elke twee jaar een oogheelkundige controle ondergaat,
gerelateerd aan een tevoren gestelde norm (men zou kunnen streven
naar 100%: iedere patiënt). Een uitkomstindicator geeft weer of die
zorg ook tot daadwerkelijke resultaten heeft geleid, zoals een ver-
mindering van het percentage diabetespatiënten dat blind is door
retinopathie (de norm zou kunnen zijn: 30% minder dan in de voor-
afgaande periode). Zo maken indicatoren het de zorgverleners moge-
lijk om te controleren of zij de gewenste zorg leveren en om onder-
werpen voor verbeteringen te identificeren. In toenemende mate
worden indicatoren ook gebruikt voor het afleggen van verantwoor-
ding naar externe partijen en voor eventuele prestatiebeloning.

Onafhankelijkheid van de opstellers


Een toenemend aantal richtlijnen wordt gefinancierd, direct of indi-
rect, uit externe bronnen. De richtlijn meldt deze bronnen en geeft
expliciet aan dat de opvattingen en belangen van de financierende
instantie geen invloed hebben gehad op de uiteindelijke aanbevelin-
gen. Ook werkgroepleden kunnen bepaalde belangen hebben bij de
richtlijn, bijvoorbeeld als een werkgroeplid op het gebied van het
onderwerp van de richtlijn onderzoek doet dat wordt gesponsord door
een farmaceutisch bedrijf. De conflicterende belangen van de werk-
groepleden zijn bekend bij de richtlijnontwikkelaar en idealiter in de
richtlijn vermeld, net als bij publicaties in de meeste medisch-weten-
schappelijke tijdschriften.

6.2.2 validiteit van de aanbevelingen


Nadat de richtlijn als geheel is beoordeeld, wordt vervolgens naar de
klinische inhoud en betrouwbaarheid van de individuele aanbevelin-
gen gekeken. Ook al is een richtlijn in grote lijnen zorgvuldig ont-
wikkeld, toch kan het zijn dat sommige aanbevelingen aanvechtbaar
zijn, bijvoorbeeld omdat er belangrijke studies gemist zijn, de evi-
196 Inleiding in evidence-based medicine

dence eenzijdig of verkeerd wordt geı̈nterpreteerd of dat er bij de


vertaalslag naar de praktijk bepaalde aspecten zijn onderbelicht, zoals
veiligheid en patiëntvoorkeuren.
Een richtlijn bevat gemiddeld vijftig aanbevelingen, met uitschieters
naar boven van meer dan honderd. In feite is elke aanbeveling het
resultaat van een samenvattend (systematisch) literatuuronderzoek,
dat op dezelfde wijze zou kunnen worden beoordeeld als een syste-
matische review. Daarnaast moet van elke aanbeveling de toepas-
baarheid in de eigen klinische situatie worden nagegaan. Voor de
beoordeling is zowel methodologische als klinische expertise vereist.

Validiteit van het samenvatten van het beschikbare bewijs


Het samenvatten van het beschikbare bewijs vereist een zorgvuldige
en uitgebreide procedure en speciale expertise (figuur 6.2). Dit is ar-
beidintensief en duur. Bij het samenvatten wordt rekening gehouden
met de verschillende dimensies van bewijs: het onderzoekstype, de
consistentie van de resultaten (indien meer onderzoeken beschikbaar
zijn), de kwaliteit van de afzonderlijke onderzoeken, de precisie
waarmee een effect is vastgesteld, de grootte van het effect en de
klinische relevantie van de gehanteerde uitkomstmaten.
De validiteit van het onderzoekstype is hierbij het belangrijkste orde-
ningsprincipe. De wens om het bestaande materiaal samen te vatten
wordt bij het maken van een richtlijn minder gestuurd door de kwa-
liteit van het bewijs dan bij systematische reviews. Systematische re-
views worden vaak alleen geschreven als er voldoende primaire on-
derzoeken van hoge validiteit beschikbaar zijn; systematische reviews
van de Cochrane Collaboration bijvoorbeeld zijn in de regel beperkt
tot RCT’s (zie hoofdstuk 9). De synthese voor een richtlijn is echter
bedoeld om het beleid te onderbouwen met het best beschikbare
bewijs. Sommige aanbevelingen zullen moeten worden gebaseerd op
bewijs van een lagere zeggingskracht. Een vast systeem waarmee het
beschikbare bewijs naar validiteit van het gebezigde onderzoekstype
wordt geordend (levels of evidence), werd voor het eerst toegepast in
Canada in 1979. Momenteel wordt een dergelijk systeem overal in de
wereld toegepast binnen organisaties voor richtlijnontwikkeling; zo
ook in Nederland (zie tabel 6.1 en tabel 6.2).
6 Evidence-based richtlijnen 197

Onderwerp en uitgangsvragen
- Afbakenen van het onderwerp
- Knelpuntenanalyse
- Formuleren van uitgangsvragen
- Opstellen van beantwoordbare zoekvragen

Literatuursearch in databases:
1. Cochrane Library
2. Medline/Pubmed
3. Embase
4. Cinahl
5. PsychInfo
6. Richtlijndatabases (US Guideline Clearinghouse,
Guidelines International Network)

Volgorde van zoeken (voorbeeld therapie):


1. Evidence-based richtlijnen
2. Systematische reviews
3. Gerandomiseerde klinische trials
4. Gecontroleerde klinische trials
5. Cohortonderzoeken
6. Patiëntcontroleonderzoeken
7. Overig

Selecteren en beoordelen van literatuur:


- Selectie van literatuur met vooraf gedefineerde in- en
exclusiecriteria
- Beoordeling van geselecteerde literatuur, aan de hand
van een adequaat literatuurbeoordelingsformulier
- Graderen van literatuur naar mate van bewijs (tabel 6.1)

Samenvatten van literatuur:


- In vaste tekstopbouw:
1. Bespreking literatuur
2. Conclusie met niveau van bewijs (tabel 6.2)
3. Overige overwegingen
4. Aanbeveling
- Met verwijzing naar evidence-tabel (tabel 6.3)

Figuur 6.2 Zoeken, beoordelen, selecteren en samenvatten van literatuur ten


behoeve van een richtlijn.
198 Inleiding in evidence-based medicine

Tabel 6.1 Indeling van methodologische kwaliteit van individuele studies.


interventie diagnostisch accuratesse- schade of bijwerkingen,
onderzoek etiologie, prognose*

A1 systematische review van ten minste twee onafhankelijk van elkaar uitgevoerde onderzoeken
van A2-niveau

A2 gerandomiseerd dubbel- onderzoek ten opzichte van een prospectief cohortonder-


blind vergelijkend klinisch referentietest (een ‘gouden zoek van voldoende om-
onderzoek van goede standaard’) met tevoren gede- vang en follow-up, waarbij
kwaliteit van voldoende finieerde afkapwaarden en adequaat gecontroleerd is
omvang onafhankelijke beoordeling voor ‘confounding’ en
van de resultaten van test en selectieve follow-up vol-
gouden standaard, betreffende doende is uitgesloten
een voldoende grote serie van
opeenvolgende patiënten die
allen de index- en referentietest
hebben gehad

B vergelijkend onderzoek, onderzoek ten opzichte van een prospectief cohortonder-


maar niet met alle ken- referentietest, maar niet met zoek, maar niet met alle
merken als genoemd on- alle kenmerken die onder A2 kenmerken als genoemd
der A2 (hieronder valt ook zijn genoemd onder A2 of retrospectief
patiëntcontroleonderzoek, cohortonderzoek of
cohortonderzoek) patiëntcontroleonderzoek

C niet-vergelijkend onderzoek

D mening van deskundigen

* Deze classificatie is alleen van toepassing in situaties waarin om ethische of andere redenen gecontroleerde
trials niet mogelijk zijn. Zijn die wel mogelijk dan geldt de classificatie voor interventies.

Tabel 6.2 Niveau van conclusies.


niveau conclusie gebaseerd op

1 onderzoek van niveau A1 of ten minste twee onafhankelijk van elkaar uitgevoerde onderzoeken
van niveau A2

2 één onderzoek van niveau A2 of ten minste twee onafhankelijk van elkaar uitgevoerde onder-
zoeken van niveau B

3 één onderzoek van niveau B of C

4 mening van deskundigen


6 Evidence-based richtlijnen 199

De ordening is opgebouwd uit drie elementen:


1 onderzoekstype;
2 onderzoekskwaliteit ofwel kernelementen die binnen een bepaald
onderzoekstype de onderzoeken met de hoogste validiteit verte-
genwoordigen;
3 omvang van de onderzoeken.

Het is belangrijk inzicht te hebben in de onderzoekstypen en onder-


delen die voor de verschillende soorten vragen (diagnostisch, prog-
nostisch, therapeutisch en bijwerkingen) de hoogste zeggingskracht
hebben. Allereerst kan dan bij het zoeken en selecteren van literatuur
worden gezocht naar de onderzoeken met de hoogste validiteit. Er
hoeft bijvoorbeeld niet verder te worden gezocht indien over een
klinische vraag een actuele systematische review van goede kwaliteit
beschikbaar is (zie hoofdstuk 5). Daarnaast kan het zinvol zijn me-
thodologische kernelementen te onderscheiden die binnen een be-
paald onderzoekstype de onderzoeken met de hoogste validiteit ver-
tegenwoordigen. Bij een prognostisch onderzoek (zie ook paragraaf
4.3) is het bijvoorbeeld van belang dat alle patiënten op een gelijk
moment in het beloop van de ziekte zijn ingesloten. Dit heet een
inceptiecohort. Een belangrijk criterium is de duur van de follow-up
en de uitval van patiënten. Vaak wordt hiervoor de ondergrens van
20% genomen. Door op deze kernelementen te letten kan specifiek
naar de beste onderzoeken binnen een bepaald onderzoekstype wor-
den gezocht (zie hoofdstuk 3), of kunnen bij de beoordeling snel (dus
zonder alle beoordelingscriteria te hoeven doornemen) de betere van
de slechtere onderzoeken worden onderscheiden. Indien de klinische
vraag een prognostische is en er geen goede systematische review
beschikbaar is, zal verder moeten worden gezocht naar individuele
onderzoeken met een duidelijk inceptiecohort en een voldoende fol-
low-up. Dit is vaak al op basis van de samenvatting van onderzoeken te
beoordelen.

De validiteit van de gevolgde procedure is afhankelijk van de volgende


criteria.

Betrekken van alle belangrijke opties en uitkomsten


Een richtlijn geeft antwoord op verschillende uitgangsvragen. Bij de
uitwerking van elke uitgangsvraag is het belangrijk hierin zowel de
interventies waarover de richtlijn gaat te betrekken als de gangbare
alternatieven. Bij een richtlijn over operatieve ingrepen bij overmatig
200 Inleiding in evidence-based medicine

menstrueel bloedverlies zal dus ook het alternatief van medicamen-


teuze behandeling in beschouwing moeten worden genomen.
Vaak zijn er verschillende uitkomstmaten beschikbaar. Idealiter is een
richtlijn gebaseerd op evident klinisch relevante uitkomsten (zoals
overleving, fractuurincidentie, wondheling) of op subjectieve patiën-
tgeoriënteerde uitkomstmaten (zoals dagelijks functioneren of kwali-
teit van leven). Het is een probleem wanneer het merendeel van de
onderzoeken slechts surrogaatuitkomsten (cholesterolspiegel, botmi-
neraaldichtheid) en niet de ‘harde’ klinische uitkomst (myocardin-
farct, femurfractuur) rapporteert. Dit gebeurt vaak omdat de omvang
van het onderzoek te gering is of de duur te kort om klinische eind-
punten te kunnen rapporteren. De waarde van een surrogaatuitkomst
neemt toe wanneer aan meer van de volgende criteria wordt voldaan:
er is een aangetoond sterk en consistent verband met een klinische of
patiëntgeoriënteerde uitkomst en de rol van de surrogaatuitkomst is
biologisch en pathofysiologisch plausibel.

Adequate procedure om het beschikbare bewijs te identificeren, te


selecteren en te combineren
Zoeken. Na het vaststellen van de uitgangsvragen volgt het zoeken in de
wetenschappelijke literatuur naar het beste beschikbare bewijsmate-
riaal dat een antwoord geeft op de uitgangsvraag. Volgens de principes
van evidence-based medicine wordt in de literatuur op systematische
wijze gezocht naar een zo hoog mogelijk bewijs en wordt dit trans-
parant weergegeven. Bij richtlijnontwikkeling wordt de hiërarchie van
evidence gevolgd. Dus als er bij een therapeutische uitgangsvraag een
aantal RCT’s (randomised controlled trials) is gevonden die voldoen
aan de criteria, dan hoeft er niet verder gezocht te worden naar on-
derzoek met een lagere mate van bewijs (bijv. cohortonderzoek). Als
er onvoldoende bewijsmateriaal beschikbaar is, wordt er wel doorge-
zocht, en als er verder niets wordt gevonden (dat komt geregeld voor),
dan wordt expliciet aangegeven dat er onvoldoende bewijs is.
Voor een richtlijn moet dus zeer uitgebreid in verschillende databases
worden gezocht (zie hoofdstuk 3). De literatuur en eventuele evidence-
tabellen kunnen worden overgenomen, mits het literatuuronderzoek
goed is uitgevoerd en beschreven in de richtlijn. Meestal is nog wel
een up-date van de literatuur noodzakelijk (tabel 6.3).
Selecteren. Op basis van de titels en abstracts van de artikelen die als
resultaat uit de zoekactie zijn verkregen, wordt een selectie van po-
tentieel relevante literatuur gemaakt. Voorafgaand aan het bestuderen
van de resultaten van de zoekactie worden criteria opgesteld voor het
selecteren van artikelen voor de beoordelingsfase. Deze selectiecriteria
Tabel 6.3 Voorbeeld evidence-tabel (niet volledig) van interventieonderzoek: effectiviteit van (adeno)tonsillectomie bij volwassenen.
auteur, type mate populatiekenmerken interventie- controle- studie- uitkomstmaten resultaten
jaartal onder- van (indicatie, gemid- groep groep duur
zoek be- delde leeftijd, (aantal (aantal
wijs geslacht, aantal patiënten) patiënten)
patiënten, exclusie-
6 Evidence-based richtlijnen

criteria)

Stafford RCT B patiënten van 16 jaar TE (n=20) penicilline V 18-24 aantal patiënten TE-groep: 18 patiënten
1986 of ouder met ten bij tonsillitis mnd dat zelf zegt te zijn ‘genezen’, 2 patiënten
minste 4 tonsillitis- (n=20) genezen van hun tevreden over resultaat
episoden per jaar, klachten Niet-chirurgische groep:
gedurende ten 14 patiënten ‘genezen’,
minste 2 jaar 6 patiënten wilden alsnog
chirurgie

Lildholdt RCT B patiënten met 3 of behandeld behandeld 12 maan- als een patiënt een slechts 45% van de deel-
2003 meer tonsillitisepiso- met azithro- met placebo den tonsillitis kreeg nemers (40% vs 49%) ont-
den in elk van de af- mycine 500 (n=57) werd deze als fail- wikkelde een tonsillitis ge-
gelopen 2 jaar mg (n=53) ure beschouwd en durende de studie periode
stopte de studie
voor deze patiënt

Fox 2006 retro- C patiënten die 12 mnd n=278 geen aantal tonsillitiden 83% ten minste 1 tonsilitis
spectief op de wachtlijst in de afgelopen 6 episode in afgelopen 6
via vra- staan voor TE mnd mnd
genlijst

Bhattacha- retro- C patiënten met 3 of N=83 geen 12 mnd – aantal weken – 6,6 (SD 6,4) vs 0,6 we-
ryya 2001 spectief meer tonsillitiden in voor TE met antibiotica ken (SD 0,9)
en 2002 d.m.v. afgelopen jaar en 12 – aantal gemiste – 9,2 (SD 11,8) vs 0,6
mailing mnd na werkdagen werkdagen (SD 2,0)
TE
201

RCT = randomised controlled trial; TE = tonsillectomie; SD = standaarddeviatie


202 Inleiding in evidence-based medicine

kunnen sterk per onderwerp verschillen. Voorbeelden van criteria zijn


studieomvang, duur van de follow-up, uitkomstmaten en leeftijd van
de studiepopulatie. Het is van groot belang dat deze criteria goed
worden gedocumenteerd zodat het proces zo transparant mogelijk
wordt weergegeven.
Beoordelen en graderen. De geselecteerde artikelen worden vervolgens
beoordeeld op hun methodologische kwaliteit. Hierbij kan gebruik-
gemaakt worden van speciale beoordelingsformulieren of checklists
(zie www.pico.nu). Hiermee kunnen per studietype de belangrijkste
vormen van bias geëvalueerd worden. Naar aanleiding van deze be-
oordeling wordt elke studie ingedeeld naar bewijskracht (tabel 6.1).
Studies met een minder goede methodologische kwaliteit worden
geëxcludeerd en hoeven niet te worden gegradeerd, tenzij er niets
beters is.
Samenvatten. Vervolgens moet het beschikbare bewijs inzichtelijk wor-
den geordend. Dat kan bijvoorbeeld door het bewijs samen te vatten in
een conclusie waaraan een niveau van bewijs wordt gekoppeld (tabel
6.2). De lezer begrijpt dan in één oogopslag dat een aanbeveling die
gebaseerd is op bewijs van niveau 1, berust op de resultaten van meer
en betere onderzoeken dan een aanbeveling op basis van bewijs van
niveau 3.
De belangrijkste evidence kan ook nog worden samengevat in een
evidence-tabel (tabel 6.3). Zo is het voor de lezer van de richtlijn snel
duidelijk op basis van welk wetenschappelijk bewijs de aanbevelingen
zijn geformuleerd. In de evidence-tabel wordt opgenomen op welke
patiëntenpopulatie de studie betrekking had, welke interventie of
diagnostische test in het onderzoek werd toegepast, welke uitkomst-
maten werden gehanteerd en natuurlijk de resultaten van het onder-
zoek.

Adequate procedure om de waarde van het bewijs te vertalen naar


aanbevelingen voor de praktijk
Bij het opstellen van aanbevelingen spelen naast het bewijs uit de
literatuur andere factoren een rol, bijvoorbeeld kosten of beschik-
baarheid. Dit zijn ‘overige overwegingen’ die bij voorkeur apart van de
bespreking van de literatuur worden vermeld. Op deze manier wordt
duidelijk hoe de werkgroep tot een bepaalde aanbeveling is gekomen.
Het kan gaan om de volgende aspecten:
– klinische relevantie (bijv. sterkte van het effect, consistentie van het
bewijs, generaliseerbaarheid);
– veiligheid (bijv. bijwerkingen, risico’s of complicaties op korte en
lange termijn);
6 Evidence-based richtlijnen 203

– patiëntenperspectief (bijv. behoeften van de patiënt, te verwachten


compliance en tevredenheid);
– professioneel perspectief (bijv. tijdbesparing of -verlies bij invoeren
interventie, risico’s voor professional);
– beschikbaarheid van voorzieningen (bijv. van apparatuur, ervaring
en deskundigheid);
– kosten(effectiviteit);
– zorgorganisatie (bijv. verandering in zorgproces, infrastructuur,
vergoeding door verzekeraars);
– juridische consequenties (wetgeving);
– ethische overwegingen;
– industriële belangen (gesponsorde studies tonen vrijwel altijd po-
sitieve resultaten).

Het is belangrijk dat wordt aangegeven hoe deze aspecten in de aan-


beveling zijn betrokken.

6.2.3 toepasbaarheid in de eigen klinische


situatie
De toepasbaarheid van een aanbeveling kan slechts ten dele in een
nationale richtlijncommissie worden bepaald. Belangrijke determi-
nanten van de toepasbaarheid van aanbevelingen uit de richtlijn, zoals
beschikbaarheid en financiering, kunnen het best lokaal of regionaal
worden bepaald. Deze kunnen dan in overleg met de belangrijkste
lokaal betrokken instanties en personen worden geoperationaliseerd
in werkafspraken, formularia, stroomdiagrammen en (computeron-
dersteunde) protocollen. Om de haalbaarheid van implementatie van
een richtlijn te kunnen inschatten moet op een aantal zaken worden
gelet.
– De ziektelast in de soort gezondheidszorgvoorziening of de regio
waarin de arts werkzaam is. In de huisartspraktijk kan de vooraf-
kans op een aandoening zo laag zijn dat een test die in het zieken-
huis wel zinvol ((kosten)effectief) is, daar beter niet ingevoerd kan
worden (zie paragraaf 4.2). Sommige aandoeningen zijn zo zeld-
zaam zijn dat de voorzieningen hiervoor het best in een beperkt
aantal ziekenhuizen kunnen worden geconcentreerd. Ook kunnen
er aanmerkelijke regionale verschillen zijn in de behoefte aan be-
paalde zorg. De drugshulpverlening concentreert zich bijvoorbeeld
in het bijzonder rond de grote steden. Nieuwe behandelingsmoge-
lijkheden kunnen dan ook het best daar als eerste worden geı̈m-
plementeerd.
204 Inleiding in evidence-based medicine

– De waardering van patiënten en de gemeenschap voor bepaalde


interventies of uitkomsten. Hierin kunnen belangrijke lokale, re-
gionale of nationale en internationale verschillen bestaan. Dit is
een belangrijk criterium wanneer moet worden beoordeeld of een
niet in het eigen land en voor de eigen beroepsgroep ontwikkelde
richtlijn bruikbaar is. Op basis van hetzelfde wetenschappelijk be-
wijs wordt in veel Angelsaksische landen bijvoorbeeld veel eerder
antibiotica voor een middenoorontsteking gegeven dan in Neder-
land. In Nederland is een afwachtend beleid beter geaccepteerd en
worden de kosten en bijwerkingen anders gewaardeerd.
– De afweging van de kosten van implementatie tegen andere ge-
zondheidszorgprioriteiten. Het implementeren van een aanbeveling
voor medicamenteuze behandeling van gedragsstoornissen bij
kinderen zal misschien inhouden dat elders in het ziekenhuis of in
de regio minder geld beschikbaar is voor bedden voor patiënten
met een cerebrovasculair accident.
– Barrières voor implementatie bij de patiënt of in de gemeenschap.
Deze barrières kunnen geografisch zijn (de voorziening is te ver
weg of niet aanwezig), organisatorisch (het huisartsenlaboratorium
sluit om zes uur), traditioneel (‘we hebben het altijd zo gedaan’),
autoritair (‘onze manier van werken is de beste’), juridisch (‘wat
zijn de consequenties als we het ineens anders gaan doen?’, bij-
voorbeeld geen schedelfoto’s bij hoofdtrauma) of gedragsmatig
(niets is zo weerbarstig als gewoonten, zowel bij de arts als bij de
patiënt). Als er grote barrières worden geı̈dentificeerd, moet wor-
den nagegaan of het mogelijk is en de moeite loont deze weg te
nemen. De aanwezigheid van barrières heeft niets te maken met de
validiteit van de richtlijn. Aandacht hiervoor is wel de belangrijkste
voorwaarde voor implementatie. Het zijn juist de gezondheidswer-
kers die in hun dagelijkse praktijk de barrières het beste kunnen
aangeven en mogelijke oplossingen kunnen aandragen.

6.3 Zoeken naar richtlijnen, zelf maken of implementeren

Het kan soms zinvol zijn over de grens te kijken, indien er over een
bepaald onderwerp geen nationale of lokale richtlijn voor de be-
roepsgroep beschikbaar is. Op internet en in gedrukte vorm zijn dui-
zenden richtlijnen beschikbaar. De eerdergenoemde richtlijndataba-
ses van het US National Guidelines Clearinghouse en het Guidelines
International Network (GIN) bevatten vrijwel alle evidence-based
ontwikkelde richtlijnen (zie hoofdstuk 3). De kwaliteit en actualiteit
van de daarin gepresenteerde richtlijnen verschillen echter sterk. Eer-
6 Evidence-based richtlijnen 205

dergenoemde beoordelingscriteria kunnen worden gebruikt om bij


afwezigheid van een nationale of lokale richtlijn te beoordelen of een
richtlijn uit een ander land mogelijk bruikbaar is.

Ook kan besloten worden zelf een richtlijn te maken. Dit vereist een
grote inspanning en naast klinische expertise is methodologische
kennis noodzakelijk. Ook dient er ervaring te zijn met het werken met
taakgerichte groepen. Het ontwikkelen van een evidence-based richt-
lijn is een intensief proces en is op lokaal niveau niet aan te raden.
Gezondheidswerkers kunnen de beste bijdrage aan verbetering van de
gezondheidszorg leveren door op lokaal niveau mee te denken over de
implementatie op de werkvloer van bestaande richtlijnen. Natuurlijk
zijn er altijd commissieleden (generalisten en (super)specialisten)
voor de nationale richtlijnencommissies nodig. Deelnemen aan een
richtlijncommissie is een tijdrovende, maar zeer leerzame en dankbare
ervaring. Toch is te verwachten dat de meeste gezondheidswerkers
vooral consumenten van richtlijnen zullen zijn. Actieve en kritische
consumenten wel te verstaan, aangezien de implementatie op de
werkvloer door iedereen zal moeten worden voorbereid en onder-
steund. Evaluatie van het gebruik op de werkvloer kan weer leiden tot
een aanpassing van de richtlijn op landelijk niveau.

6.4 Conclusie

In het maken en beoordelen van richtlijnen komen veel facetten van


het evidence-based werken samen: stellen van de juiste vragen, uit-
gebreid zoeken van literatuur, transparant proces van selectie en
weging van het materiaal, afstemmen van de onderzoeksbevindingen
met de praktijk. Richtlijnen ondersteunen de behandelaar door in
een document een veelheid van praktijkvragen systematisch te beant-
woorden. De beoordeling van een richtlijn richt zich zowel op de
methodologische aspecten als op de toepasbaarheid van de aanbeve-
lingen. De richtlijn moet transparant en volledig zijn over de gemaakte
keuzes.

Literatuur

Burgers JS. Richtlijnen als hulpmiddel bij de verbetering van de zorg. In: Grol R,
Wensing M (red). Implementatie: effectieve verandering in de patiëntenzorg.
Maarssen: Elsevier gezondheidszorg, 2006: 124-150.
Everdingen JJE van, Burgers JS, Assendelft WJJ, Swinkels JA, Barneveld TA van,
Klundert JLM van de (red). Evidence-based richtlijnontwikkeling. Een leidraad voor
de praktijk. Houten: Bohn Stafleu van Loghum, 2004.
206 Inleiding in evidence-based medicine

Kwaliteitsinstituut voor de Gezondheidszorg CBO. EBRO-handleiding, 2007.


http://www.cbo.nl/product/richtlijnen/ handleiding_ebro
The AGREE Collaboration. Development and validation of an international appraisal
instrument for assessing the quality of clinical practice guidelines: the AGREE
project. Qual Safe Health Care 2003;12:18-23.
7 Bewijs toepassen op individuele
patiënten

M. Offringa, P.P.G. van Benthem en S. Middeldorp

7.1 Inleiding

In de definitie van evidence-based medicine (het zorgvuldig, expliciet en


oordeelkundig gebruik van het huidige beste bewijsmateriaal om be-
slissingen te nemen voor individuele patiënten) wordt gesproken over
individuele patiënten. Zoals in de eerdere hoofdstukken is besproken,
verwijst het zorgvuldig, expliciet en oordeelkundig gebruik naar de vertaal-
slag die men moet maken om ‘het beste bewijsmateriaal’ (de studie-
resultaten) succesvol toe te passen op de individuele patiënt, waarbij
recht wordt gedaan aan de individuele omstandigheden van de
patiënt.
Maar hoe moet de evidence-based practicus deze vertaalslag maken?
Bij velen bestaat de opvatting dat de resultaten van klinische trials en
systematische reviews per definitie niet toepasbaar zijn in de dage-
lijkse praktijk, omdat de patiënten in het onderzoek andere patiënten
zijn dan de gangbare eigen patiënt. Op basis van de gebruikte inclusie-
en exclusiecriteria en de vereiste dat de patiënt toestemming geeft om
mee te doen in het onderzoek, zal er hoogstwaarschijnlijk een selectie
zijn opgetreden, waarvan de gevolgen in het artikel vaak niet terug te
vinden zijn. Bekend is dat patiënten die deelname aan een weten-
schappelijk onderzoek weigeren, vaak een andere prognose en thera-
pietrouw hebben dan diegenen die wel hebben meegedaan. Men
meent verder dat de in een onderzoek gegeven behandeling meestal
bovengemiddeld goed is, waardoor patiënten het in een onderzoek
altijd beter zullen doen dan in de dagelijkse praktijk. De setting waarin
het onderzoek wordt uitgevoerd is ook vaak anders dan die waarin de
arts die de evidence wil toepassen zelf werkt. Ten slotte hangt de
bruikbaarheid van de informatie sterk af van de mate waarin de vaar-
digheid van de diagnosticus (echografist, interventieradioloog) of de
behandelaar (chirurg, fysiotherapeut, psychotherapeut) het succes van
208 Inleiding in evidence-based medicine

de behandeling bepaalt; de behandelaars in onderzoeken zijn vaak


geselecteerd op hun buitengewone vaardigheden.
Op deze manier kan er een kloof ontstaan tussen wetenschappelijke
feiten en de feiten zoals deze gelden in de dagelijkse praktijk. Evidence
uit klinisch onderzoek heeft echter wel degelijk betekenis voor de
praktijk, al is er een expliciete vertaalslag nodig.
De vraag die de evidence-based practicus zich stelt is: ‘Gelden de resul-
taten van dat gepubliceerde onderzoek ook voor de patiënt die nu bij
mij in de spreekkamer zit?’ De volgende vraag is in hoeverre voor de
individuele patiënt de voorspelde absolute verlaging van een risico
opweegt tegen de kans op bijwerkingen. Wanneer weegt de vermin-
dering van het risico op een herseninfarct op tegen het risico op een
bloeding tijdens antistollingsbehandeling, of wanneer weegt het te
verwachten voordeel van een operatie op tegen het operatierisico?
Voor de patiënt met zijn eigen voorkeuren is hier een belangrijke rol
weggelegd in de uiteindelijke beslissing over de behandeling. In de
praktijk kan dit verwarrende situaties opleveren, waarbij de behande-
laar wellicht de indruk krijgt dat het verstandig toepassen van evidence
bij individuele patiënten eigenlijk te moeilijk is.
In dit hoofdstuk wordt ingegaan op de verschillende aspecten van het
toepassen van evidence. Daarbij komen kwalitatieve en kwantitatieve
aspecten aan bod, samen met de voorkeuren van de patiënt in het licht
van de voor- en nadelen van interventies. Het meeste theoretische en
empirische werk op dit terrein heeft betrekking op het toepassen van
evidence rond medicamenteuze behandeling en therapeutische ingre-
pen. Met slechts een geringe aanpassing kan dit denkkader ook wor-
den gebruikt bij afwegingen rond diagnostische interventies, bij uit-
spraken over de (onbehandelde) prognose en bij het denken over de
kans op bijwerkingen.

7.2 Betekenis en bruikbaarheid van evidence

Medisch onderzoek vindt altijd bij geselecteerde personen plaats,


maar de betekenis van de resultaten ligt niet zozeer in de directe
informatie die uit het onderzoek is verworven als wel in de toepas-
baarheid van die informatie bij patiënten in de dagelijkse praktijk.
In een klinische trial worden patiënten niet bestudeerd om zelf een
betere behandeling te krijgen, maar vooral om te bepalen wat bij
toekomstige patiënten het optimale beleid is.
Centraal in de beoordeling van de toepasbaarheid van de resultaten is,
of de behandelaar gelooft dat de pathofysiologie bij de patiënt die voor
hem zit overeenkomt met de onderliggende pathofysiologie van de
7 Bewijs toepassen op individuele patiënten 209

patiënten die aan de trial meededen. Als steun kan hij nagaan of de
eigen patiënt aan de in- en exclusiecriteria van het onderzoek zou
hebben voldaan. Deze kwalitatieve afweging kan ook worden omge-
draaid: zijn er redenen om aan te nemen dat mijn patiënt anders op
de interventie zal reageren dan de patiënten in het onderzoek? Indien
de pathofysiologie bij de individuele patiënt zeker anders is omdat er
relevante comorbiditeit is, bijvoorbeeld een nierinsufficiëntie of dia-
betes mellitus, moet vervolgens worden beoordeeld of dit gevolgen
heeft voor met name de effectiviteit van de behandeling met betrek-
king tot de gewenste effecten, of juist meer voor de kans op bijwer-
kingen.
Alle trials naar het nut van endarteriëctomie van de arteria carotis
bij patiënten met een ernstige carotisstenose om herseninfarcten te
voorkómen zijn gedaan bij mannen. De vraag of dit toepasbaar is bij
vrouwen hangt af van inzichten in de pathofysiologie van bloedvat-
obstructie bij vrouwen en de inschatting van hun operatierisico. In-
dien de prognose ten aanzien van het krijgen van een herseninfarct bij
vrouwen met ernstige carotisstenose beter is dan bij mannen, en zij
een hoger operatierisico zouden hebben, lijkt een operatie minder
aantrekkelijk dan wanneer aannemelijk gemaakt kan worden dat de
prognose ten aanzien van het krijgen van een herseninfarct bij vrou-
wen juist slechter is dan bij mannen, en dat zij een lager operatierisico
hebben.
In klinische trials worden patiënten met comorbiditeit bijna altijd
uitgesloten. Een hogere leeftijd staat hier vaak voor relevante comor-
biditeit. Toch is bij enkele veelvoorkomende ziekten en behandelingen
wel bekend dat een behandeling meer of minder effectief is bij
patiënten met relevante comorbiditeit, al weet men niet precies waar-
om. Als bekend is dat groepen patiënten met diabetes mellitus een
lagere relatieve risicoreductie ten aanzien van het voorkomen van een
herseninfarct hebben, dan kan dat het gevolg zijn van een geringere
invloed van het effect van de interventie op het eindorgaan bij deze
patiëntengroep (de bloedvatverstopping neemt sterker toe), of van een
toename van de kans op een herseninfarct als gevolg van de operatie.
Voor de individuele patiënt is het netto-effect van de behandeling dus be-
langrijk: verbetering van de kans op de gunstige uitkomst, met aftrek
van de kans op een onaangename (of fatale) bijwerking. De afzon-
derlijke bijdrage van gunstige en ongunstige effecten is uit de pre-
sentatie van de resultaten van de trial echter vaak niet af te leiden.
Samengestelde uitkomstmaten zoals totaal aantal herseninfarcten of
totale sterfte zijn nuttig, maar geven geen inzicht in de relatieve bij-
210 Inleiding in evidence-based medicine

drage van enerzijds de gunstige en anderzijds de ongunstige conse-


quenties van de behandeling aan deze uitkomsten.

Bij het op deze wijze afwegen of evidence uit een onderzoek toegepast
kan worden bij een patiënt uit de dagelijkse praktijk, zijn drie begrip-
pen van belang: generaliseerbaarheid, extrapolatie en toepasbaarheid.

Generaliseerbaarheid
Met generaliseerbaarheid (of externe validiteit) wordt bedoeld de mate
waarin de resultaten van een onderzoek geldig zijn voor individuen
buiten het onderzoek met weliswaar dezelfde klinische kenmerken,
maar levend in andere geografische gebieden en in andere tijdsperio-
des. De centrale aanname is dat de onderliggende pathofysiologie
voor individuen buiten het onderzoek dezelfde is als voor de patiënten
in het onderzoek.

Extrapoleerbaarheid
Extrapoleerbaarheid is de mate waarin de resultaten van een onder-
zoek in een groep met andere demografische en klinische kenmerken
kunnen worden toegepast. Men doet aannamen en voorspellingen
buiten datgene wat in het onderzoek is waargenomen en gemeten, en
houdt hierbij rekening met een andere onderliggende pathofysiologie
en dus met een andere effectiviteit van de behandeling. Er wordt
extrapolatie naar andere patiënten, verwante behandelingen en andere
gezondheidsuitkomsten onderscheiden. Zo kan men zich bijvoorbeeld
per ziektebeeld en per behandeling afvragen, of de resultaten van een
klinische trial bij patiënten tussen de 40 en 55 jaar geëxtrapoleerd
kunnen worden naar patiënten tussen de 55 en 65 jaar of naar kinde-
ren. Een geval van extrapolatie betreft ook de effecten van chemothe-
rapie op overleving en welbevinden van oudere patiënten met kanker.
Over deze effecten bij verschillende vormen van kanker is weliswaar
veel evidence, maar die is vaak afkomstig uit trials bij patiënten die
jonger zijn dan 65 jaar. In de praktijk is de helft van de patiënten met
kanker ouder dan 65 jaar. Bij hen is niet alleen de prognose slechter,
maar chemotherapie wordt door hen ook minder goed verdragen. Bij
ouderen moet daarom een potentieel grotere winst in overleving wor-
den afgewogen tegen een grotere kans op bijwerkingen die mogelijk
zelfs de primair gewenste uitkomst, overleving, negatief kunnen
beı̈nvloeden.
Een goed voorbeeld van het probleem van extrapolatie betreft de
effectiviteit en veiligheid van behandeling met orale antistolling met
vitamine-K-antagonisten. Volgens een onderzoek uit 2008 zou 40%
7 Bewijs toepassen op individuele patiënten 211

van de patiënten die met een bloeding ten gevolge van antistollings-
behandeling werden opgenomen in het ziekenhuis geëxcludeerd zijn
van de trials die de effectiviteit en veiligheid van deze behandeling
hebben onderzocht. De auteurs vergeleken in dit onderzoek het aantal
aanwezige exclusiecriteria bij patiënten met een antistollingsgerela-
teerde bloeding met die van patiënten die eveneens antistolling ge-
bruikten maar voor een andere indicatie werden opgenomen. Hieruit
bleek dat het risico op een ernstige bloeding sterk toenam met het
aantal aanwezige exclusiecriteria bij een patiënt. Om de afweging van
beoogd voordeel versus de kans op nadeel (bloedingen in dit geval)
goed te kunnen maken, is het dus van belang dat de voorschrijvend
arts zich afvraagt of zijn of haar patiënt wat betreft een onderliggende
pathofysiologie voldoende lijkt op de trialpatiënten op wie de cijfers
die aan de afweging ten grondslag liggen zijn gebaseerd.

Toepasbaarheid
De term toepasbaarheid slaat op de dagelijkse klinische praktijk zoals
die zich lokaal voordoet. Men denkt zowel aan de generaliseerbaar-
heid en extrapolatie van de evidence naar de eigen patiënt, als aan de
aan- of afwezigheid van een diagnostische of therapeutische techniek
in het eigen ziekenhuis, de aan- of afwezigheid van de juiste infra-
structuur, enzovoort. Zo is het vanzelfsprekend dat een nieuwe ope-
ratietechniek pas kan worden ingevoerd nadat de lokale chirurg deze
heeft aangeleerd.

7.2.1 individualiseren: kwalitatieve aspecten


Hoe moet een behandelaar nu beslissen of hij een behandeling wel of
niet moet toepassen bij een individuele patiënt? In zo’n situatie stelt hij
zichzelf vier vragen:
1 Welke effecten heeft de behandeling, zowel gunstige als ongun-
stige?
2 Hoe goed is de kwaliteit van de onderzoeken waarin deze effecten
zijn vastgesteld?
3 Zijn deze effecten voor mijn patiënt klinisch belangrijk?
4 Wegen bij deze patiënt de voordelen van de behandeling op tegen
de nadelen?

Deugdelijke onderzoeken zoals systematische reviews en andere


hoogkwalitatieve evidence bronnen kunnen helpen bij de beantwoor-
ding van de eerste twee vragen. Deze onderzoeken geven een zo valide
en precies mogelijke schatting van de effecten van een behandeling op
de klinische uitkomst van de gemiddelde patiënt, zowel gunstige als
212 Inleiding in evidence-based medicine

ongunstige. De laatste twee vragen moeten worden gesteld en worden


beantwoord in de context van de individuele patiënt.
Indien een review aangeeft dat behandeling A 25% meer patiënten
geneest dan de standaardbehandeling B, betekent dit dat het gene-
zingspercentage gemiddeld 25% hoger ligt. Dat wil echter nog niet
zeggen dat voor een individuele patiënt de kans op genezing altijd
25% stijgt. Daarbij spelen andere factoren een belangrijke rol, name-
lijk de voor de individuele patiënt specifieke aspecten van de ziekte en
klinische risicofactoren. Het gaat er voor de individuele patiënt uit-
eindelijk om of er een gunstig netto-effect te verwachten is. Het op-
sporen en beschrijven van subgroepen die geen baat hebben of zelfs
schade ondervinden van de behandeling is hierbij een gebruikelijke
methode. Men spreekt dan van het zoeken naar ‘effectmodificatie’:
voor de ene groep is er een ander effect dan voor de andere groep. Zo
kan men zoeken naar evidence over positieve effecten bij mannen en
niet bij vrouwen, of bij vrouwen ouder dan vijftig jaar, maar niet bij
vrouwen jonger dan vijftig jaar. Op een enkel geval na zijn dergelijke
duidelijke verschillen echter zeldzaam. Vaker komt een zogenoemde
kwantitatieve effectmodificatie (of interactie) voor, waarbij de grootte
van het gunstige effect varieert tussen verschillende groepen patiën-
ten, of het gevolg zijn van bijvoorbeeld hogere doseringen of juist
onvoldoende therapietrouw.

Op basis van beschikbare evidence rond een interventie kan onder-


scheid worden gemaakt tussen drie situaties waarin op grond van de
resultaten van individuele onderzoeken en systematische reviews
conclusies kunnen worden getrokken:
1 Het is waarschijnlijk dat de interventie in een bepaalde setting, po-
pulatie of patiëntengroep meer goed dan kwaad doet (situatie a in
figuur 4.7).
2 Het is onwaarschijnlijk dat de interventie meer goed dan kwaad doet
(situatie b en d in figuur 4.7).
3 Het is onzeker of de interventie meer goed dan kwaad doet (situatie c
in figuur 4.7).

In het eerste geval moet men zich afvragen of er redenen zijn om aan
te nemen dat de interventie niet zou werken bij de eigen patiënt. Als
die redenen er niet zijn, kan de behandeling worden toegepast (uiter-
aard moeten de variatie in de individuele respons op de behandeling
en de kans op ongewenste bijwerkingen worden meegewogen). Als er
onzekerheid is over het netto-effect in de eigen patiëntenpopulatie,
moet men zich als behandelaar afvragen of het misschien toch mo-
7 Bewijs toepassen op individuele patiënten 213

gelijk is dat de interventie bij de eigen patiënten meer goed dan kwaad
doet. Dan is het namelijk de moeite waard bestaande gegevens verder
te analyseren, of zo mogelijk de patiënt aan een nieuwe klinische trial
te laten deelnemen (zie situatie c in figuur 4.7). Er is dan sprake van
‘geen bewijs van effect’ (no evidence of effect). Als effectiviteit onwaar-
schijnlijk is, moet de interventie worden ontraden en moet een alter-
natief worden gezocht. Men spreekt dan van evidence of no effect (situatie
b en d in figuur 4.7).

Vanaf hier gaan we ervan uit dat het op basis van onderzoek waar-
schijnlijk is dat de interventie in de eigen setting en patiëntengroep
meer goed dan kwaad doet.

7.2.2 kwantitatieve aspecten


Het mechanisme van reductie van het individuele risico op de ongun-
stige uitkomst door de interventie varieert per ziekte en behandeling.
Zoals in paragraaf 4.4 is besproken, is het meest gebruikte model
gebaseerd op de aanname dat het relatieve risico constant is voor alle
patiënten (multiplicatieve model: risico in de interventiegroep is de
vermenigvuldiging van relatief risico en achtergrondrisico). Voor dit
model vonden Furukawa en medewerkers onlangs ook bewijsmateri-
aal.

Dit heeft tot gevolg dat het absolute effect afhankelijk is van het
achtergrondrisico (percentage gebeurtenissen – ‘events’ – in de con-
trolegroep). Dit model staat in contrast met het additieve model, waarbij
ongeacht het achtergrondrisico de behandeling tot een vast percen-
tage verbetering leidt (risicoverschil van interventie- en controlegroep
is steeds constant en dus niet afhankelijk van het achtergrondrisico).
Een en ander wordt geı̈llustreerd in het hypothetische voorbeeld in
tabel 7.1.

Bij patiënt A met hypercholesterolemie zijn de risico’s op het krijgen


van een hartinfarct en het te verwachten effect van de behandeling met
cholesterolverlagers gelijk aan die in de trial. Bij patiënt B is de rela-
tieve risicoreductie weliswaar dezelfde als in de trial, maar het ach-
tergrondrisico (of de kans op een ongunstige afloop) is de helft van
dat van de patiënten in de trial, omdat patiënt niet rookt, geen over-
gewicht heeft, een weinig stressvol bestaan leidt en slechts een licht
verhoogd cholesterol heeft. Dit leidt tot een geringer absoluut effect
van de behandeling. Het number needed to treat (NNT) is in dit geval
dus hoger. Behandeling is dan bij deze patiënt minder efficiënt dan bij
214 Inleiding in evidence-based medicine

Tabel 7.1 Behandeleffecten in verschillende groepen in vergelijking tot het effect in de groep die in de
klinische trial werd onderzocht.
groep achtergrondrisico op de relatieve absolute number
ongunstige uitkomst risicoreductie risicoreductie needed to treat

trial 0,10 0,50 0,05 20

patiënt A 0,10 0,50 0,05 20

patiënt B 0,05 0,50 0,025 40

patiënt C 0,10 0,25 0,025 40

Hoe effectief is de behandeling bij deze patiënt? Het NNT hangt mede af van het absolute risico van een
patiënt op de ongunstige uitkomst. Een patiënt met een laag risico (en dus een gunstige prognose) heeft
relatief minder baat bij een behandeling, wat tot uitdrukking komt in een hoger NNT. De NNT wordt in de
behandelbeslissing afgewogen tegen met name de kosten en bijwerkingen.

patiënt A. Bij patiënt C is de relatieve risicoreductie gehalveerd ten


opzichte van die in de trial door bijvoorbeeld een versnelde metaboli-
sering van het geneesmiddel bij een jongere patiënt; bij hetzelfde
achtergrondrisico leidt dit tot een geringer absoluut effect, en daar-
door een groter NNT. Deze behandeling is zinvoller bij patiënten die
het medicament normaal metaboliseren.

7.2.3 waardeoordelen in beslissingen


Nadat informatie over de verwachte effectiviteit van de therapie en de
mogelijke bijwerkingen is uitgewisseld, kan worden besproken of
starten met de behandeling of juist afwachten de meest wenselijke
optie is. Hierbij kan de patiënt aangeven aan welke uitkomstmaat hij
de meeste waarde hecht. De mening van de patiënt kan op dit punt
natuurlijk verschillen van die van de arts. Klassiek is de situatie waarin
de arts de nadruk vooral op de overleving legt, terwijl de patiënt meer
geı̈nteresseerd blijkt te zijn in kwaliteit-van-leven aspecten, zoals het
kunnen blijven bezoeken van familie en vrienden. Ook kan de vrees
voor of waardering van bepaalde bijwerkingen per patiënt verschillen.
Sommige patiënten zullen op basis van informatie of eerdere ervarin-
gen (van henzelf of familieleden) besluiten bepaalde effectief bevon-
den behandelingen toch niet te willen ondergaan.
Een situatie waarin waardeoordelen een rol spelen, is bijvoorbeeld de
keuze voor behandeling met anticoagulantia om een herseninfarct te
voorkómen bij patiënten jonger dan 65 jaar met atriumfibrilleren. Aan
de ene kant is er het gunstige effect op het feit dat de kans op een
herseninfarct klein is, aan de andere kant moet men zich realiseren
dat het gebruik van medicijnen gepaard kan gaan met het risico van
7 Bewijs toepassen op individuele patiënten 215

een hersenbloeding of een andere ernstige bloeding. Uit een model


gebaseerd op een serie onderzoeken bleek dat men gemiddeld veertig
mensen drie jaar moet behandelen om één extra herseninfarct te
voorkómen. Als die risicoberekening aan patiënten werd voorgelegd,
gaven zij in meerderheid de voorkeur aan behandeling, ook al loopt
men het risico van een bloeding. Toch zijn er ook patiënten die kiezen
voor het nalaten van de interventie.
Bij het nemen van beslissingen is de kwantitatieve klinische uitkomst
alleen dus niet genoeg. Omgaan met onzekerheid, risicoperceptie,
risicovermijding (het gevoel dat het nodig is om tenminste iets te
doen) en vele andere factoren spelen mee bij het toepassen van evi-
dence in de dagelijkse praktijk. Naarmate er meer evidence is, wordt
de noodzaak van op waardeoordelen gebaseerde keuzes groter. Het
ontbreken van bewijsmateriaal roept echter ook het inzetten van
waardeoordelen op: lack of evidence zal sommigen aanzetten tot maxi-
maal handelen, terwijl anderen juist voor het afwachten bij gebrek aan
bewijs zullen kiezen (in dubio abstine). Over het algemeen neemt men
aan dat interventies met curatieve intentie hogere risico’s op bijwer-
kingen rechtvaardigen. Daarnaast geldt bij gebrek aan bewijs van
effectiviteit een grotere rol voor bijwerkingen in de afweging tot al of
niet toepassen van de interventie.
Bij de toepassing van evidence moet men dus altijd individualiseren.
Waardeoordelen spelen hierbij een onmiskenbare rol (zie figuur 1.1).
In feite bevat elke medische beslissing een waardeoordeel. Uit de
feiten alleen kan men namelijk niet afleiden hoe te handelen. De
interactie tussen de patiënt en de behandelaar is en blijft hierin be-
slissend: de keuzes die worden gemaakt berusten zowel op evidence
als op waardeoordelen. Het expliciet maken van de alternatieve opties
en het informeren van de patiënt behoren tot de taak van de arts.
Daarbij moet men zoeken naar een manier waarop de patiënt met
kwantitatieve informatie kan worden geı̈nformeerd, zonder hem
onzeker te maken.

7.3 Vijf stappen bij het toepassen van evidence bij complexe
beslissingen

In de jaren negentig van de vorige eeuw is door Glasziou en Irwig een


vijfstapsbenadering voorgesteld om in complexe beslissingssituaties
de hiervoor besproken principes vlot toe te passen. Deze aanpak komt
neer op een onderzoek naar de verhouding tussen voor- en nadelen
van een interventie, en wel in het licht van de risico’s bij een indivi-
216 Inleiding in evidence-based medicine

duele patiënt. Een juiste toepassing van deze methode steunt op het
identificeren van factoren die:
– het achtergrondrisico van de patiënt bepalen;
– het gunstige effect van de behandeling modificeren;
– de kans op gezondheidsrisico’s van de behandeling bepalen.

Stap 1 Maak een lijst van alle voordelen en alle nadelen van de
interventie
Deze lijst kan men baseren op allerlei gegevens uit leerboeken, com-
pendia, bijsluiters, en op de eigen praktijkervaring. In tabel 7.2 is zo’n
opsomming opgenomen voor twee preventieve behandelingen. Voor
het vaststellen van de kansen op nadelige effecten zal men soms apart
in de literatuur moeten zoeken. Daarbij komt men vaak op cohort-
onderzoek en patiëntcontroleonderzoek uit (zie paragraaf 4.5). Maar
ook klinische trials en systematische reviews beschouwen in toene-
mende mate meerdere relevante uitkomsten, waaronder de onge-
wenste bijwerkingen. Zo zijn antiarrhythmica ook onderzocht op hun
proaritmische effecten, en trombolyse en antistolling op de kans op
ernstige bloedingen. Vooral voor patiënten met een laag risico op de
primaire uitkomst (sterfte of ernstige cardiovasculaire complicaties)
kunnen deze bijwerkingen van groot belang zijn.

Tabel 7.2 Potentiële voor- en nadelen van twee preventieve behandelingen.


voordelen nadelen

hypertensiebehandeling bij ouderen

– verlagen van cardiovasculaire en niet-cardiovascu- – jicht


laire sterfte – huidafwijkingen
– verlagen van niet-fatale cerebrovasculaire acciden- – spierkrampen
ten – misselijkheid
– duizeligheid
– fenomeen van Raynaud
– kortademigheid
– hoofdpijn
– droge mond
– diarree

screening op colonkanker bij patiënten met een verhoogd risico

– verlagen van de kans op invasieve colorectale tumo- – fout-positief screeningsresultaat met uit-
ren (verbetering prognose) gebreide diagnostiek
– verlagen van sterfte aan colorectale tumoren – perforatie van het colon
– pijn
– angst
7 Bewijs toepassen op individuele patiënten 217

Stap 2 Onderzoek hoe het behandeleffect afhangt van het


achtergrondrisico
In de meeste gevallen is het relatieve effect redelijk constant bij ver-
schillende patiëntengroepen, zoals in het geval van cholesterolverla-
gers en antihypertensiva in relatie tot cardiovasculaire complicaties, en
bloedverdunners bij patiënten met atriumfibrilleren in relatie tot een
herseninfarct. Het absolute effect – bijvoorbeeld de absolute afname
van de kans op sterfte – is zoals hiervoor besproken dan vooral af-
hankelijk van het achtergrondrisico van de patiënt. Patiënten met een
hoog risico hebben een grotere kans om te profiteren van de voordelen
van de behandelingen, terwijl patiënten met een laag achtergrond-
risico over het algemeen weinig baat bij en des te meer last hebben van
behandelingen (zie tabel 7.1).

Stap 3 Onderzoek of er verschillende relatieve effecten zijn


beschreven in verschillende situaties (effectmodificatie)
Het is mogelijk dat er in klinisch onderzoek bij verschillende groepen
patiënten met verschillende risicofactoren andere relatieve effecten
zijn gevonden dan in de gehele groep. Ook bij een vroegtijdige be-
handeling, bij een betere compliance van de patiënt, bij een hogere
dosis, of bij een langduriger behandeling kan het relatieve effect van
een behandeling veranderen. Bekende voorbeelden zijn een hogere
tumorstadiëring en de hormoonreceptorstatus van bepaalde tumoren
die het relatieve effect van de chemotherapeutische behandeling dui-
delijk beı̈nvloeden. Al deze factoren staan gezamenlijk bekend als
effectmodificatoren.
Dit kan ook gelden voor de kans op (late) bijwerkingen: na chemo-
therapie plus radiotherapie voor de ziekte van Hodgkin was bij de
overlevers de kans op een tweede primaire tumor gedurende het leven
hoger dan bij patiënten die alleen chemotherapie of alleen radiothe-
rapie hadden gehad, en bovendien werd het relatieve risico hoger
naarmate de behandeling langer geleden was.

Stap 4 Bepaal de absolute risicoreducties voor de individuele


patiënt
In de klinische praktijk gaat het altijd om de absolute risico’s voor de
patiënt. De verbetering onder behandeling kan worden uitgedrukt in
de number needed to treat (NNT), zowel voor gunstige effecten als
voor bijwerkingen. Deze NNT varieert met het achtergrondrisico van
de patiënt: de NNT om een ongewenste uitkomst te voorkómen, wordt
hoger als dit achtergrondrisico lager wordt (zie tabel 7.1).
We hebben dus een inschatting nodig van het achtergrondrisico van
218 Inleiding in evidence-based medicine

de patiënt, zowel wat betreft de kans op de te vermijden gezond-


heidstoestand (mortaliteit, morbiditeit), als de kans op een ongewenst
effect – die onder behandeling hoger kan worden. Vaak moet dan
buiten het kader van de gevonden klinische trial of review naar in-
formatie uit andere prognostische onderzoeken worden gezocht. Nog
mooier is informatie uit een prospectieve registratie van patiënten en
de uitkomsten in de eigen setting. Een voorbeeld uit de stollingsziek-
ten: het risico op veneuze trombose of longembolie van mensen met
factor V Leiden die in de algemene populatie worden gevonden is lager
dan bij patiënten die zijn getest omdat ze een symptomatisch familie-
lid hebben.

Stap 5 Weeg de voordelen van behandelen af tegen de nadelen


De absolute risicoreductie, al dan niet uitgedrukt in termen van NNT,
moet nu worden afgewogen tegen de absolute risico’s van ernstige
bijwerkingen (NNH). Als er geen of relatief geringe bijwerkingen be-
staan, dan is deze afweging natuurlijk gemakkelijk. De algemene last
van de behandeling en de kosten geven dan de doorslag. Een voor-
beeld hiervan zijn de statinen bij patiënten met hypercholesterolemie.
In de regel bestaat er echter wel een kans op vervelende of soms zelfs
levensbedreigende bijwerkingen. Het absolute risico van deze bijwer-
kingen moet dan worden vergeleken met de kans op het hebben van
voordeel.
Deze laatste afweging – wegen de voordelen op tegen de nadelen? –
lijkt vaak wel duidelijk op basis van de informatie die bij stap 4 is
verzameld. Toch kiezen patiënten met kennelijk dezelfde kansen vaak
voor verschillende behandelingen. De waardering van de patiënt voor
de uitkomsten speelt daarin een hoofdrol. Hoe waardeert de patiënt
het mogelijke scenario van een behandeling die de kans op een hart-
aanval nauwelijks reduceert, maar wel een gevaarlijke beenmergde-
pressie veroorzaakt? Het optimale scenario is in dit geval natuurlijk
het niet-optreden van het hartinfarct én het niet-optreden van been-
mergdepressie. De vraag is dan hoe groot de kans op dit scenario is als
niet wordt behandeld. Daartussenin zijn nog andere scenario’s denk-
baar, met een variabele waarschijnlijkheid en elk met hun waardering.
Met formele besliskundige technieken kan een inschatting worden
gemaakt van de optimale strategie in het licht van kansen op de ge-
beurtenissen en waarderingen door de patiënt.
Vaak zijn er echter te weinig gegevens om deze werkwijze volledig te
kunnen ondersteunen met getallen uit patiëntgebonden onderzoek.
Toch lijkt het nuttig deze stappen van 1 tot 5 te doorlopen en waar
7 Bewijs toepassen op individuele patiënten 219

nodig zelf een kans in te schatten die op de patiënt het meest van
toepassing lijkt.
Hopelijk zullen de klinische informatiesystemen de behandelaars en
de patiënten in de toekomst in staat stellen moeilijke afwegingen zo
veel mogelijk met kwantitatieve gegevens te ondersteunen. Ook is te
hopen dat in de toekomst bij het ontwerpen van klinische trials meer
rekening wordt gehouden met de eindgebruikers van de informatie,
de behandelaar en zijn patiënt, en dat alle relevante uitkomsten wor-
den bestudeerd en gerapporteerd, waarbij de inbreng van de patiënt
een belangrijke rol moet spelen. Voorts moeten bij het ontwerpen van
klinische trials de in- en exclusiecriteria kritisch worden bekeken met
het oog op latere implementatie van de resultaten, waarbij er waar-
schijnlijk grotere, pragmatische trials moeten komen, met heterogene
patiëntengroepen, aan de hand waarvan via subgroepanalyse effect-
modificatie kan worden bestudeerd. In systematische reviews moet de
aanwezigheid van relevante subgroepen als bron van heterogeniteit
tussen onderzoeken steeds worden onderzocht, en moeten hypothe-
sen kunnen worden gevormd.

Beslissingsfactoren
Factoren in de beslissing om de resultaten van een klinische trial
of een systematische review wel of niet te gebruiken, en de
behandeling bij een individuele patiënt toe te passen:
– Is de behandeling mogelijk in mijn setting?
– Wat zijn de voor- en nadelen van de behandeling?
– Is op grond van verschillen in relevante biologische factoren
of pathofysiologische verschillen de aan de interventie toege-
schreven relatieve risicoreductie bij mijn patiënt mogelijk
anders? Is er sprake van comorbiditeit of contra-indicaties
voor de behandeling die de succeskans kunnen verminderen?
Is de manier waarop de behandeling zal worden toegepast zo
anders dat de kans op gunstige en ongunstige effecten anders
zullen uitvallen? Zijn er sociale factoren die de kans op suc-
cesvolle toepassing van de interventie verkleinen? Zijn er
redenen om aan te nemen dat in dit geval de compliance met
de behandeling lager zal zijn, met een bijbehorende kleinere
kans op succes?
– Hoe groot is het absolute risico van de ongewenste uitkomst
bij deze patiënt, en is in dit licht de behandeling efficiënt?
– Wat wil de patiënt zelf?
220 Inleiding in evidence-based medicine

7.4 Conclusie

Bij het toepassen van evidence moet men allereerst rekening houden
met de verschillende dimensies van bewijs: het onderzoekstype, de
consistentie van de resultaten (indien meer onderzoeken beschikbaar
zijn), de kwaliteit van de afzonderlijke onderzoeken, de precisie
waarmee een effect is vastgesteld, de grootte van het effect en de
klinische relevantie van de gehanteerde uitkomstmaten. Een vertaal-
slag van hoogkwalitatieve groepsevidence naar het individuele geval is
hierna mogelijk: de behandelaar gebruikt hierbij zijn pathofysiologi-
sche kennis en alle informatie die kan aangeven of de behandeling bij
zijn patiënt wel effectief zal zijn. Er is altijd de vraag of de voordelen
van de interventie opwegen tegen de eventuele nadelen. Voorkeuren
van de patiënt dienen aan te sluiten bij de afweging van deze voor- en
nadelen; een waardeoordeel van de personen die de behandeling
zullen ontvangen hoort daarom altijd bij de beslissing betrokken te
worden.
In een ideale wereld is de behandeling altijd zeer effectief en wordt
elke iatrogene schade voorkomen. In onze huidige wereld zijn echter
veel dagelijkse klinische vragen nog niet te beantwoorden op basis van
evidence. En, zoals hiervoor geschetst, evidence is op zichzelf nooit
dwingend, zij geeft slechts informatie over de te nemen de beslissin-
gen. Het doel van een klinische beslissing is uiteindelijk de keuze voor
een behandeling die het klinisch beloop verbetert in de door de patiënt
gewenste zin. Een van de belangrijkste taken van de moderne arts is
het informeren van de patiënt over de kansen op ongewenste uit-
komsten en de effecten van behandeling.

Literatuur

Furukawa TA, Guyatt GH, Griffith LE. Can we individualize the ’number needed to
treat’? An empirical study of summary effect measures in meta-analyses. Int J
Epidemiol 2002 Feb;31(1):72-6.
Glasziou PP, Irwig LM. An evidence based approach to individualizing treatment. BMJ
1995;311:135-69.
Levi M, Hovingh GK, Cannegieter SC, Vermeulen MR, Buller HR, Rosendaal FR.
Bleeding in patients receiving vitamin K-antagonists that would have been excluded
from trials on which the indication for anticoagulation was based. Blood 2008 May;
111(9):4471-6.
Locadia M, Bossuyt PM, Stalmeier PF, Sprangers MA, Dongen CJ van, Middeldorp S,
Bank I, Meer J van der, Hamulyák K, Prins MH. Treatment of venous thromboem-
bolism with vitamin K antagonists: patients’ health state valuations and treatment
preferences. Thromb Haemost 2004 Dec;92(6):1336-41.
7 Bewijs toepassen op individuele patiënten 221

Lubsen J, Tijssen JG. Large trials with simple protocols: Indications and contraindica-
tions. Control Clin Trials 1989;10:151S-60S.
Sont JK, Stiphout WA van, Noordijk EM, Molenaar J, Zwetsloot-Schonk JH, Willemze
R, Vandenbroucke JP. Increased risk of second cancers in managing Hodgkins
disease: the 20-year Leiden experience. Ann Hematol 1992 Nov;65(5):213-8.
Evidence-based medicine in de 8
praktijk

M. Offringa, P.P.G. van Benthem en W.J.J. Assendelft

8.1 Inleiding

Het doel van evidence-based medicine (EBM) is behandelaars in staat


te stellen het actuele en beste bewijsmateriaal efficiënt te traceren en
te beoordelen op methodologische kwaliteit en bruikbaarheid in de
context van de individuele patiënt. Een van de uitdagingen hierbij is
om het nieuwe relevante bewijsmateriaal zo snel mogelijk toe te pas-
sen bij patiënten die daar baat bij zouden kunnen hebben. Ook is het
zaak interventies waarvan het duidelijk is dat ze niet effectief zijn, niet
verder te gebruiken.
In dit hoofdstuk komt de vraag aan de orde hoe men in de eigen
praktijk alle stappen van de EBM-methode kan implementeren, en
welke randvoorwaarden daarvoor nodig zijn. We beginnen met het
bespreken van een aantal hindernissen die men hierbij kan tegen-
komen, en behandelen vervolgens de voorwaarden voor een ge-
slaagde, systematische implementatie op de werkplek.

8.2 Hindernissen en oplossingen

Bij het toepassen van de EBM-methode in de dagelijkse praktijk kan


men worden geconfronteerd met een aantal mogelijke obstakels.
Wanneer de enthousiaste behandelaar – al dan niet na een cursus of
het doorlezen van een leerboek – met EBM aan de slag wil, stuit hij
namelijk op een aantal hindernissen:
– De methode van EBM staat soms op gespannen voet met de gang-
bare praktijkvoering (bijv. ‘tien minuten per patiënt’).
– Voor de practicus zijn specifieke evidence-based uitgaven vaak te
duur, wat minder praktijkgericht en daarom lastiger te lezen. De
Engelse taal maakt de bronnen vaak minder toegankelijk.
8 Evidence-based medicine in de praktijk 223

– Er zijn diverse Nederlandstalige bronnen die evidence adviezen


geven: protocollen van de specialistische wetenschappelijke ver-
enigingen, de standaarden van het Nederlands Huisartsen Ge-
nootschap, de CBO-richtlijnen, het Farmacotherapeutisch Kompas,
regionale en lokale protocollenklappers. De manier waarop de evi-
dence wordt samengevat verschilt echter sterk. En op basis van
hetzelfde materiaal worden soms tegenstrijdige adviezen gegeven
(zie ook hoofdstuk 6).
– De toepasbaarheid van zelf gevonden evidence bij individuele
patiënten roept veel vragen op. Zo is het methodologisch meest
valide onderzoek vaak uitgevoerd met zeer selecte patiëntenpopu-
laties. De beslissing over toepasbaarheid bij de eigen patiënt kan
dan moeilijk zijn (zie ook hoofdstuk 7).
– Men staat er alleen voor, want niet alle collega’s voldoen aan de
noodzakelijke randvoorwaarden: kennis van en toegang tot de re-
levante bronnen van evidence (elektronische literatuurbestanden en
goede websites), ervaring met de bijbehorende onderling verschil-
lende zoekstrategieën, de mogelijkheid om eenvoudig artikelen aan
te vragen, voldoende kennis van onderzoeksmethodologie om de
verschillende soorten artikelen op waarde te kunnen schatten.

Voor een aantal van deze hindernissen zijn in de afgelopen jaren


oplossingen gevonden die blijken te werken (tabel 8.1). In het vervolg
van dit hoofdstuk geven we aanknopingspunten voor een succesvolle
toepassing van EBM in de dagelijkse praktijk.

Tabel 8.1 Implementatie hindernissen en oplossingen.


hindernis oplossing

omvang en complexiteit van het medisch- gebruik bronnen waarin informatie is samengevoegd en van
wetenschappelijk onderzoek commentaar voorzien

ontwikkelen van klinisch beleid op basis – gebruik bestaande richtlijnen of maak ze met collega’s
van de evidence – start een journal-club met een ‘richtlijnenoogmerk’

toepassen van de evidence door: – zorg voor een snelle en betrouwbare toegang tot de
– slechte toegang tot evidence bronnen
– slechte toegang tot richtlijnen – zoek prikkels en mogelijkheden om betere integratie van
– organisatorische barrières evidence in de praktijk te bewerkstelligen
– minder effectieve nascholing – ontwikkel uw vaardigheden door gerichte nascholing, en
stimuleer collega’s dit ook te doen
224 Inleiding in evidence-based medicine

8.3 Wat heeft men nodig?

Toegang tot evidence


Het belangrijkste middel om frustraties te voorkómen is een snelle
toegang tot de evidence. De volgende functie (geı̈ntroduceerd in
hoofdstuk 2) kan in de praktijk worden gehanteerd:

waarde van de informatie = relevantie (voor de patiënt) georiënteerde


validiteit (van het onderzoek) / benodigde hoeveelheid werk om in-
formatie te vinden.

Het zoeken naar informatie heeft een hoge ‘waarde’, tenzij het een
enorme hoeveelheid tijd en werk kost om aan de evidence te komen.
Deze tijd kan worden opgesplitst in zoektijd in de (elektronische)
media en in de tijd die het kost om de gevonden informatie op uw
bureau te krijgen. Zowel een snelle internetverbinding als een goede
routine om interessante referenties in gedrukte vorm te verkrijgen zijn
dus belangrijk. Dit is een van de redenen waarom het in de meeste
gevallen legitiem is om zoekstrategieën te beperken tot tijdschriften of
andere bronnen die ter beschikking zijn. Uit de functie blijkt verder
dat het meest valide bewijsmateriaal, waarbij de uitkomsten relevant
zijn voor de patiënt, de voorkeur heeft.

Indien u op internet een paar goede sites hebt gevonden (zie hoofd-
stuk 3) is het zaak deze sites gemakkelijk te kunnen terugvinden. De
methode die hiervoor ter beschikking staat is om zogenoemde favo-
rieten (bookmarks) te maken, en om de goede sites op een gestruc-
tureerde manier onder diverse relevante kopjes in verschillende map-
pen op te slaan. U kunt uw collega’s per e-mail interessante artikelen
en weblinks toesturen. Verder is een databaseprogramma om refe-
renties en zoekacties op te slaan (zoals Procite, Refman, Access) aan te
raden.

Scholing
Het op elke werkplek installeren van toegang tot de evidence impli-
ceert ook het geven van onderwijs in het gebruik van de techniek en
de bronnen. Voor het scholen van uzelf en uw collega’s, en voor het
opslaan en het presenteren van uw activiteiten zijn een overhead-
projector, een LCD display of een beamer, en een diaprogramma als
Microsoft PowerPoint erg handig. Veel EBM-websites stellen namelijk
goed onderwijsmateriaal in de vorm van PowerPoint-presentaties ter
beschikking. Door kleine aanpassingen van deze bestaande presenta-
8 Evidence-based medicine in de praktijk 225

ties kan eenvoudig ‘eigen’ onderwijsmateriaal worden ontwikkeld. Op


verscheidene plaatsen in Nederland en België worden momenteel
cursussen georganiseerd om de vaardigheden aan te leren en aan te
scherpen. U kunt besluiten of u behoefte hebt aan een zoekcursus, een
‘critical appraisal’ cursus, of een (vaak meerdaagse) EBM-cursus
waarin alle facetten aan de orde komen.

Onderwerpen voor onderwijs en training


– bekendheid met EBM-bronnen
– wat is er in de lokale bibliotheek: databases, tijdschriften,
andere bronnen
– gebruik van internet
– oefenen met de belangrijkste EBM-bronnen
– principes van zoeken in een bibliografische database
– begrip en gebruik van methodologische zoekfilters
– beperkingen van MEDLINE
– opslaan zoekstrategie en zoekresultaat
– leren identificeren en formuleren van zoekbare vragen
– veelgebruikte EBM-terminologie
– kritisch beoordelen individuele artikelen (etiologie, diagnose,
therapie, prognose), systematische previews en richtlijnen aan
de hand van de checklists
– presenteren van een EBM-topic
– toepassen in de praktijk, patiëntenvoorlichting

8.4 Evidence-based medicine in de dagelijkse praktijk

Klassiek is dat enthousiaste behandelaars in het begin moeite hebben


om de evidence te vinden, kritisch te beoordelen en toe te passen. Met
een geringe investering zijn deze vaardigheden echter goed te ont-
wikkelen, zeker als men het evidence-based werken inbouwt in de
dagelijkse of wekelijkse routine van de praktijkvoering. Dit inbouwen
van evidence-based werken behoeft organisatie op verschillende ni-
veaus.

Er zijn inmiddels verschillende modellen bekend die laten zien dat dit
goed mogelijk is, zowel op een ziekenhuisafdeling en op de polikli-
niek, als in de huisarts- of fysiotherapiepraktijk. Wij bespreken deze
drie settingen nu kort.
226 Inleiding in evidence-based medicine

Niveaus waarop evidence-based werken georganiseerd moet


worden
– bij uzelf (blijf ermee bezig na de ‘cursus’ en houd uw vaar-
digheden op niveau)
– bij vakgenoten met wie u dagelijks samenwerkt (stuur ze op
cursus, start EBM-besprekingen)
– bij de instelling waar u werkt (onderzoek de mogelijkheden
van de lokale bibliotheek, zoek EBM-collega’s in uw zieken-
huis, organiseer vakoverstijgende besprekingen met hen)
– bij vakgenoten en andere werkers in de nationale gezond-
heidszorg (bijvoorbeeld via evidence-based richtlijnontwikke-
ling)

8.4.1 op een ziekenhuisafdeling


Geschat wordt dat op een klinische afdeling dagelijks per drie
patiënten twee beslismomenten ontstaan, en dat er gemiddeld vijftien
beslissingen per dag worden genomen waarvoor men betrouwbare
informatie nodig heeft (zie hoofdstuk 2). Trisha Greenhalgh, senior
lecturer aan het University College in Londen, heeft de basis voor deze
beslissingen treffend samengevat:
– traditie... (‘dat doen we hier altijd zo’);
– een anekdote... (‘tien jaar geleden hadden we precies zo’n geval...’);
– één artikel... (‘volgens deze auteurs moet je in zo’n geval absoluut
altijd...’);
– het advies van een expert... (‘... in mijn ervaring is bij deze patiën-
ten...’);
– financiële overwegingen... (‘... die dure nieuwe middelen zijn toch
niet echt beter’);
– op basis van een grondige zoektocht naar, het kritisch beoordelen
van, en ten slotte het gebruik van bewijsmateriaal (evidence-based)!

De valkuilen van de eerste vijf benaderingen behoeven inmiddels geen


betoog meer.

Aanknopingspunten voor een EBM-aanpak


Het ochtendrapport geeft belangrijke aanknopingspunten voor im-
plementatie van EBM. Het ochtendrapport is een centrale en traditio-
nele bijeenkomst in opleidingsziekenhuizen, met als functie de
dienstoverdracht en de bespreking van nieuwe opnamen. Het is ook
een sociaal moment. Het is heel goed mogelijk onopgeloste proble-
8 Evidence-based medicine in de praktijk 227

men zodanig voor te bereiden dat ze aanleiding geven tot een korte
discussie met de groep, wat kan worden gevolgd door het formuleren
van een ‘PICO-vraag’ en een zoekstrategie voor het vinden van relevant
en valide materiaal.

Het formuleren van een klinische vraag met zoekstrategie en het


terugkoppelen van het gevondene kan ook onderdeel zijn van het
visitelopen, de bespreking van opgenomen patiënten, de internchi-
rurgische overdracht, de röntgenbespreking of de patiëntenbespre-
king door coassistenten. Maar ook op de ‘grand rounds’ en de refe-
reeravond kunnen onderwerpen zeer goed op de EBM-manier worden
besproken. In elke specifieke leersituatie kan ervoor worden gekozen
het accent per bespreking op een van de vijf EBM-stappen te leggen.

Als voorbeeld van de uitwerking van EBM-werken kan de aanpak op de


afdeling Neonatologie in het Emma Kinderziekenhuis AMC worden
genomen. Hier wordt met succes elke week de evidence-based neo-
natologiebespreking gehouden. Coassistenten, arts-assistenten en
stafleden spelen hierin allen een rol. Het doel is de gevonden evidence
ook daadwerkelijk te implementeren, althans als deze kwalitatief goed
genoeg blijkt en relevant is. De wekelijkse exercitie wordt vastgelegd
in een ‘critically appraised topic’ (CAT): een kort verslag van het hele
proces op één A4.

De evidence-based neonatologieweek, in acht stappen


1 maandag 8.00-8.30 uur: een van de dienstdoende specialisten en een assis-
tent vormen het EBM-team van de week
2 maandag 8.30-9.15 uur: tijdens de weekendoverdracht komen onopgeloste
klinische problemen ter sprake. Er wordt vervolgens een keuze gemaakt welk
probleem ter hand wordt genomen
3 maandag 9.15-12.00 uur: het EBM-team herformuleert het probleem en
bereidt de zoekstrategie voor
4 maandag 12.00 uur tot dinsdag 12.00 uur: de zoekactie wordt verricht,
relevante artikelen en hoofdstukken worden geselecteerd
5 dinsdag 12.00 uur tot donderdag 9.00 uur: de relevante artikelen en hoofd-
stukken worden kritisch gelezen
6 donderdag 9.00-13.00 uur: het EBM-team bereidt een presentatie voor
7 donderdag 13.00-14.00 uur: presentatie, discussie, voorstellen voor imple-
mentatie en planning van de verdere implementatiestappen
8 vóór vrijdag 16.30 uur: afronden van de CAT (critically appraised topic: een
kort verslag van het hele proces op één A4)
228 Inleiding in evidence-based medicine

8.4.2 op een polikliniek


Op een polikliniek kunnen verschillende mogelijkheden worden
overwogen. Bij de voorbespreking van categorieën nieuwe problemen
op de polikliniek kan het accent liggen op de aanpak van algemene en
veelvoorkomende problemen. Naast de bespreking van achtergrond-
vragen (zie hoofdstuk 2) kan aandacht worden besteed aan de evi-
dence voor diagnostisch onderzoek en de waarde van therapeutische
strategieën. Hiervoor is het ontwikkelen en actualiseren van CAT’s een
goede vorm.
Bij de nabespreking van een nieuwe patiënt ligt het accent op de
werkdiagnose en de behandelstrategie. Hierbij kan aandacht worden
besteed aan het formuleren van de PICO, de evidence voor diagnos-
tisch onderzoek bij die patiënt en de waarde van verschillende thera-
peutische strategieën. Tevens kan aandacht worden besteed aan het
trainen van zoekstrategieën.
Bij de nabespreking van een vervolgconsult van een chronische patiënt
ligt het accent op optimaliseren van het beleid. Hierbij kan aandacht
worden besteed aan de waarde van therapeutische strategieën en het
betrekken van de verwachtingen en voorkeuren van de patiënt in het
behandelbeleid.
Sommige ziekenhuizen in het buitenland zijn ertoe overgegaan een
speciaal ‘evidence centre’ op te richten, waar clinici met hun vragen
op een snelle manier worden geholpen. Men kan daar een literatuur-
search, een search gecombineerd met een kritische beoordeling, of
een compleet ‘evidence report’ over een bepaald probleem vragen.
Een voorbeeld van een dergelijke succesvolle formule vindt men in
Centre for Clinical Effectiveness aan de Monash Universiteit in Australië
(www.med.monash.edu.au/healthservices/cce/).

8.4.3 in de huisartspraktijk
Vanzelfsprekend spelen de standaarden van het Nederlands Huisart-
sen Genootschap een grote rol in het evidence-based werken van de
Nederlandse huisarts. Daarnaast zijn er echter veel situaties waarin
een standaard geen uitkomst brengt. In de huisartspraktijk doen zich
namelijk veel situaties voor waar bij het ontbreken van of als aanvul-
ling op een standaard een uitgebreidere evidence-based aanpak kan
worden geı̈ntroduceerd.
Allereerst kan de voorgaande ziekenhuisaanpak ook worden gebruikt
bij het opleiden van coassistenten en bij huisartsen in opleiding. Een
dergelijke manier van werken kan ook worden toegepast om het eigen
handelen van een huisarts te optimaliseren. Natuurlijk is dit laatste
veel leuker indien het in de vorm van een toetsgroep of journal-club
8 Evidence-based medicine in de praktijk 229

gebeurt. Er zijn veel overlegsituaties waarin kan worden besloten het


evidence-based werken een plaats te geven, zoals de klinische avond
in het ziekenhuis, de patiëntenbespreking in het hometeam of de
huisartsengroep, of het farmacotherapeutisch overleg. Daarbij kan
volgens het model van een journal-club of een ‘critically appraised
topic’ (CAT) worden gewerkt. Ten slotte kan de EBM-aanpak zelfs het
bezoek van een artsenbezoeker meer diepgang geven. U kunt vragen
om de productinformatie van tevoren op te sturen. Aan de hand van de
kritische beoordeling kan dan over de plaats van het betreffende ge-
neesmiddel in de huisartspraktijk worden gediscussieerd. Er zijn vrij
veel boeken en websites die zich specifiek op de huisarts richten. Zie
de website die bij dit boek hoort: www.pico.nu.

Wees eerlijk: hoe evidence-based werkt u in de dagelijkse praktijk?


Heeft u:
– een lichamelijk onderzoek verricht met als doel de waar-
schijnlijkheid van verschillende mogelijke diagnosen vast te
stellen dan wel uit te sluiten?
– gedacht aan de specifieke risicofactoren bij uw patiënt en bij-
komende problemen zoals comorbiditeit?
– waar nodig gezocht naar direct relevante informatie in syste-
matische reviews, richtlijnen, klinische trials en andere bron-
nen?
– de kwaliteit van het bewijsmateriaal beoordeeld of laten
beoordelen, en de toepasbaarheid van de informatie bij uw
patiënt bepaald?
– de klinische, psychologische, sociale, en andere problemen
van uw patiënt geı̈nventariseerd en samen met de patiënt pri-
oriteiten gesteld?
– de voors en tegens van de openstaande beleidsopties met uw
patiënt besproken en zijn voorkeuren laten mee wegen in de
uiteindelijk ingeslagen weg?

8.4.4 journal-clubs nieuwe stijl


Journal-clubs bestaan in ziekenhuizen en huisartsengroepen. Bij
toerbeurt refereert een van de leden van de club een artikel uit een
tevoren toegewezen belangrijk tijdschrift. Ze zijn echter in de klas-
sieke opzet niet overal even populair meer. Omdat de voorbereiding
slechts door één groepslid wordt uitgevoerd, worden de anderen in
een meer passieve rol geduwd. Steeds vaker worden daarom journal-
230 Inleiding in evidence-based medicine

clubs omgevormd volgens de EBM-principes. Klinische problemen


worden vertaald in een zoekopdracht, en één à twee artikelen worden
kritisch beoordeeld met het oog op implementatie in de praktijk. Het
mooiste is het onderwerp van een journal-club te laten aansluiten bij
een recent patiëntenprobleem.

Bij de voorbereiding van een EBM-presentatie in een journal-club


houdt men het volgende voor ogen. Het kader van de vraag moet
worden geschetst, alsmede de herkomst van het artikel. In plaats van
een uitputtende opsomming van methode, resultaten (tabellen en
figuren) en overwegingen van de auteurs wordt de presentatie gericht
op het belang van het onderzoek binnen het probleemgebied, de
exacte vraagstelling, de belangrijkste resultaten en het belang van deze
resultaten voor het beleid in de eigen praktijk. Over het algemeen zijn
voor een dergelijke presentatie vijf sheets of dia’s nodig:
1 achtergrond van het probleem: ziektebeeld, stand van zaken van de
behandeling, actuele problemen, situeren van het te refereren on-
derzoek;
2 zoekstrategie en gebruikte elektronische bronnen;
3 titel onderzoek, de vraagstelling, gebruikte methode om antwoord
op deze vraag te geven, primaire uitkomst, gebruikte meetinstru-
menten;
4 belangrijkste resultaat met betrekking tot de vraagstelling, kwanti-
tatieve bespreking van het effect met een confidence interval, se-
cundaire resultaten, interpretatie en conclusie van de auteurs zelf;
5 commentaar van de presentator: plaats resultaten in de context van
alle andere informatie, bias of andere methodologische valkuilen,
relevantie voor de eigen praktijk, conclusie en (eventueel) imple-
mentatie.

Deze gestructureerde inleiding wordt in circa twintig, maximaal dertig


minuten gehouden. Het is nuttig het resultaat van een dergelijke
presentatie en van de discussie met collega’s vast te leggen. Dat kan op
verschillende manieren, bijvoorbeeld in de vorm van een CAT.

8.5 Beschouwing

De moderne arts wordt steeds vaker geconfronteerd met de vraag wat


de onderbouwende evidence is voor de te nemen behandelingsbeslis-
sing. Het is dan ook zaak vanaf de werkplek toegang te hebben tot
deze evidence. In de meeste gevallen is het nodig de organisatie van de
praktijkvoering te evalueren en na te gaan waar er mogelijkheden zijn
8 Evidence-based medicine in de praktijk 231

Anatomie van een CAT


Name: van degene die de CAT heeft gemaakt, en de datum waarop

Question: een relevante klinische vraag waarin de onderdelen van de PICO-structuur aan bod
komen (Patient, Intervention, Comparison, Outcome)

Background: Waarom deze vraag? Hoe is deze vraag ontstaan?

Search strategy Waar is gezocht (PubMed e.d.) en met welke zoektermen? Welke limits zijn gebruikt?
and outcome: Hoeveel artikelen zijn gevonden, hoeveel waren relevant voor beantwoording van de
vraag en hoe is dat bepaald? Wat waren de inclusie- en exclusiecriteria van de
artikelen?

Relevant pa- in een tabel weergeven welke literatuur is gebruikt


per(s):

Author & date Patient Study Intervention Compa- Results Study Level
group type rison Outcomes weaknesses

Conclusion: het antwoord op de gestelde vraag en het niveau van aanbeveling

Comment(s): beperkingen van de beschouwde onderzoeken en van de CAT zelf

Clinical bottom met een focus op de toepasbaarheid in de praktijk


line:

om barrières voor implementatie van de EBM-werkwijze uit de weg te


ruimen.
Factoren die soms als belemmerend worden ervaren kunnen juist ook
stimulerend werken, bijvoorbeeld als patiënten de behandelaar vragen
alleen behandelingen voor te schrijven waarvoor goed bewijsmateriaal
bestaat. Velen verwachten dat deze vraag naar onderbouwing van de
zijde van de patiënt in de nabije toekomst de belangrijkste stimulans
voor het gebruik van evidence in de klinische praktijk zal zijn. Evi-
dence-based medicine is in essentie antiautoritaire geneeskunde. Toch
vindt men op bepaalde afdelingen in Nederland nog sporen van de
oude praktijken, de ‘alternatieven voor evidence-based medicine’, te
weten eminence based medicine, vehemence based medicine, eloquence based
medicine, providence based medicine, diffidence based medicine, nervousness
based medicine en confidence based medicine. Deze soorten praktijkvoering
uit het verleden zijn ooit treffend besproken in een artikel door Isaacs
en Fitzgerald.
Werken volgens de EBM-methode is uitdagend, relevant en nuttig. Het
232 Inleiding in evidence-based medicine

is de standaard in de Nederlandse zorg aan het worden. Om echter te


voorkomen dat EBM een holle of weerzinwekkende kreet wordt, of dat
enthousiaste clinici bij hun eerste pogingen gefrustreerd raken, moet
er een planmatige introductie, begeleiding en afstemming komen.
Investeringen moeten worden gedaan en worden gestimuleerd en ge-
faciliteerd door directies, leidinggevenden en zorgverzekeraars.
Eerst moet er worden gezorgd voor een kritische massa behandelaars
en opleiders die de principes en praktijk van EBM beheersen en kun-
nen overdragen aan collega’s (in opleiding). Het ontwikkelen van
systematische reviews van relevant bestaand onderzoeksmateriaal
moet verder worden gestimuleerd, waarna op basis van het beste
beschikbare bewijsmateriaal door de verschillende wetenschappelijke
beroepsverenigingen hoogkwalitatieve richtlijnen kunnen worden
ontwikkeld en gebruikt. Op basis van geı̈dentificeerde kennislacunes
kan onderzoek naar relevante problemen worden gestimuleerd. Ten
slotte moet ook het EBM-proces zelf tot onderwerp van theoretisch en
empirisch onderzoek worden gemaakt, waarbij de verbetering die de
op evidence gebaseerde geneeskunde in zorguitkomsten brengt
meetbaar moet worden gemaakt, en waarbij moet worden nagedacht
over de plaats van evidence in de optimale dagelijkse geneeskundige
zorg.

Tips om te beginnen
– Bedenk drie situaties in uw praktijkvoering waar u het werken
volgens de EBM-methode zou kunnen introduceren.
– Zoek collega’s met wie u een EBM journal-club kunt beginnen.
– Inventariseer welke computer hardware en software u al heeft
en welke investeringen nog nodig zijn.
– Onderzoek de beschikbaarheid van diverse databases op uw
werkplek en vul deze eventueel aan.
– Vraag uzelf af hoe goed u bent in de verschillende EBM-stap-
pen en maak een (na)scholingsprogramma voor uzelf.
– Overleg met de financieel verantwoordelijke in uw instelling of
met de lokale zorgverzekeraar hoe gelden kunnen worden
vrijgemaakt voor investeringen in materialen (abonnementen,
hard- en software) en training.

Er liggen veel kansen voor EBM in de praktijk. Essentieel is een plan-


matige, doordachte introductie.
8 Evidence-based medicine in de praktijk 233

Literatuur

Isaacs D, Fitzgerald D. Seven alternatives to evidenced based medicine. BMJ 1999;319:


18-25.
De Cochrane Collaboration 9

L. Hooft en R.J.P.M. Scholten

9.1 Missie

De Cochrane Collaboration is een internationale non-profitorganisatie


die tot doel heeft mensen te ondersteunen bij het nemen van beslis-
singen over interventies in de gezondheidszorg. De Cochrane Colla-
boration is genoemd naar de internist Archie Cochrane. Al in de jaren
zeventig van de vorige eeuw stelde hij voor om groepen van specia-
listen te vormen. Deze groepen zouden zich moeten richten op het
samenvatten en actueel houden van alle bestaande evidence over de
werkzaamheid van medische interventies op hun interessegebied. Zijn
voorstel leidde in de jaren tachtig tot het oprichten van een interna-
tionaal samenwerkingsverband dat de Oxford Database of Perinatal
Trials tot stand bracht, de voorloper van de Cochrane Library. Zijn
aanbevelingen leidden tot de opening van het eerste Cochrane Centre
in Oxford in 1992 en tot de oprichting van de Cochrane Collaboration
in 1993.
De Cochrane Collaboration beoogt al het beschikbare bewijs over het
effect van medische behandelingen samen te vatten in de vorm van
systematische reviews. In 2008 is een begin gemaakt met het uitvoeren
van systematische reviews van onderzoek over de accuratesse van
diagnostische tests, waardoor dit belangrijke domein van de evidence-
based medicine nu ook gedekt wordt.
Het merendeel van het reviewwerk wordt gedaan op vrijwillige (on-
betaalde) basis. Het gaat hier bijvoorbeeld om clinici die in eigen tijd
een bepaald onderwerp systematisch bijhouden, onderzoekers die ter
voorbereiding van een onderzoeksproject de stand van zaken betref-
fende hun onderzoeksonderwerp systematisch in kaart brengen, of
richtlijnontwikkelaars die verschillende onderwerpen systematisch
samenvatten ter onderbouwing van hun richtlijn. Door internationale
samenwerking en afstemming beoogt de Cochrane Collaboration
9 De Cochrane Collaboration 235

dubbel werk te voorkómen ten einde de schaars beschikbare mensen


en middelen optimaal te kunnen inzetten. Ook wordt gepropageerd
materialen en producten met elkaar te delen. Zo kan men kosteloos
beschikken over de Cochrane Handbooks voor het uitvoeren van sys-
tematische reviews (zie www.cochrane.org) en over RevMan, de door
de Collaboration ontwikkelde software voor het maken van systema-
tische reviews en het uitvoeren van meta-analyse (zie www.cc-ims.net/
RevMan).
Het belangrijkste product van de Cochrane Collaboration is de
Cochrane Database of Systematic Reviews (in de Cochrane Library, zie
paragraaf 9.4). Deze elektronische database bevat systematische re-
views die actueel worden gehouden. De motivatie voor het uitvoeren
van dit monnikenwerk is duidelijk: gezien de enorme stroom weten-
schappelijke publicaties en de beperkte tijd die beroepsbeoefenaren
in de gezondheidszorg hebben om deze te lezen, kan het soms jaren
duren voordat de resultaten van patiëntgebonden onderzoek in de
dagelijkse praktijk zijn ingevoerd. Er is dus behoefte aan goede,
actuele samenvattingen over de stand van zaken van de medische
wetenschap.
Een belangrijk kenmerk van de samenvattingen die onder auspiciën
van de Cochrane Collaboration tot stand gekomen zijn, is onafhan-
kelijkheid. De productie van Cochrane reviews wordt niet gestuurd
door partijen die mogelijk belang hebben bij de resultaten van reviews,
zoals de farmaceutische industrie of financiers van de gezondheids-
zorg.

THE COCHRANE
COLLABORATION®

Figuur 9.1 Logo van de Cochrane Collaboration.

Het logo van de Cochrane Collaboration (zie figuur 9.1) bevat een
voorbeeld van een deel van de resultaten van een van de eerste syste-
matische reviews. Tussen de twee C’s staat een grafische weergave van
een systematische review van zeven gerandomiseerde onderzoeken.
236 Inleiding in evidence-based medicine

Elk horizontaal lijntje geeft de uitkomst van een onderzoek weer,


waarbij de lengte van het lijntje het 95%-betrouwbaarheidsinterval
aangeeft. Het derde lijntje betreft overigens een Nederlands onderzoek
uit 1980. De ruit is het gecombineerde (statistisch gepoolde) resultaat
van de zeven onderzoeken. Resultaten die links van de verticale lijn
(relatieve risico is 1) liggen, wijzen in dit geval op een gunstig effect
van de onderzochte therapie ten opzichte van de controlegroep. Het
diagram toont wat aan het eind van de jaren zeventig van de vorige
eeuw uit gerandomiseerd onderzoek bekend was over het effect van
het toedienen van corticosteroı̈den aan vrouwen met een dreigende
vroeggeboorte op de overlevingskansen van hun kind. De conclusie
van deze systematische review was dat de kans dat een te vroeg ge-
borene aan de gevolgen van de vroeggeboorte overlijdt met ongeveer
30% wordt verminderd indien vóór de geboorte corticosteroı̈den aan
de moeder worden toegediend ter bevordering van de foetale long-
rijpheid. Vóór het verschijnen van deze systematische review in 1989
hadden veel obstetrici en kinderartsen zich niet gerealiseerd dat deze
behandeling zo effectief was. Als gevolg hiervan zijn in de tussentijd
vele baby’s onnodig overleden. Dit is een van de vele voorbeelden die
aangeven dat het achterwege blijven van actuele systematische over-
zichten grote gevolgen kan hebben.

9.2 Organisatie van de Cochrane Collaboration

De Cochrane Collaboration bestaat uit verschillende groeperingen (in


Cochrane jargon ‘entities’ genoemd) met specifieke kerntaken, die
hierna beschreven worden.

9.2.1 cochrane review groups


De Cochrane Review Groups (CRG’s) zijn ongetwijfeld de belang-
rijkste groepering van de Cochrane Collaboration. Er zijn momenteel
meer dan vijftig van deze reviewgroepen. CRG’s bestrijken een speci-
alisme, ziektegebied of een bepaalde aandoening, bijvoorbeeld nier-
ziekten (Renal Group), kinderkanker (Childhood Cancer Group) of
beroerte (Stroke Group). Een actueel overzicht van de CRG’s kan
gevonden worden op www.cochrane.org.
De thuisbases van de CRG’s zijn verspreid over de hele wereld.
Nederland huisvest twee CRG’s (zie tabel 9.1): de Fertility Regulation
Group in Leiden en de Childhood Cancer Group in Amsterdam. De
Back Group in Amsterdam deelt haar thuisbasis met Toronto, Canada
(zie tabel 9.1).
Iedere reviewgroep wordt gecoördineerd door een redactie (editorial
9 De Cochrane Collaboration 237

team) die verantwoordelijk is voor de samenstelling van een verza-


meling van systematische reviews (door de reviewers te maken) die
uiteindelijk wordt gepubliceerd in de Cochrane Database of Systematic
Reviews. Het belangrijkste verschil tussen Cochrane reviewgroepen en
redacties van ‘papieren’ tijdschriften is dat experts van CRG’s hun
auteurs ook bijstaan bij het maken van de review en veel input leveren.
Ondersteund door de reviewgroep schrijven de auteurs eerst een pro-
tocol waarin wordt uiteengezet hoe zij de review zullen gaan uitvoe-
ren. Dit protocol wordt voorgelegd aan peer reviewers en na goed-
keuring gepubliceerd in de Cochrane Database of Systematic Reviews.
Op deze wijze wordt bekendgemaakt dat aan dit onderwerp gewerkt
wordt, zodat dubbel werk kan worden voorkomen. Daarna verzamelen
en beoordelen de reviewers gerandomiseerde onderzoeken (of andere
soorten onderzoek: het motto is de ‘best available evidence’ te ge-
bruiken) en schrijven zij de uiteindelijke systematische review. Ook dit
wordt eerst voorgelegd aan peer reviewers en na goedkeuring gepu-
bliceerd in de Cochrane Database of Systematic Reviews. Als dank
voor de bewezen diensten ontvangt de eerste auteur van de review een
gratis abonnement op de Cochrane Library. Na afronding van de
review is men echter niet klaar. Het elektronisch gepubliceerde over-
zicht moet periodiek worden aangepast naar aanleiding van eventueel
nieuw verschenen informatie. Het overzicht wordt dus voortdurend
actueel gehouden.
Een andere belangrijke taak van CRG’s is het onderhouden van een
zogenoemd specialised register, een database met verwijzingen naar
voor de onderwerpen van de CRG relevante randomised controlled
trials (RCT’s). Deze specialised registers bevatten naast downloads
van MEDLINE en EMBASE ook referenties naar artikelen uit niet-
geı̈ndexeerde tijdschriften (tijdschriften die niet in deze twee belang-
rijke databases opgenomen zijn) en referenties die door handmatig
doorzoeken van specialistische tijdschriften boven tafel gekomen zijn.
Hieronder vallen ook verwijzingen naar bijvoorbeeld conferentie-
verslagen. Alle RCT’s en CCT’s in het specialised register worden
vervolgens tevens opgenomen in The Cochrane Central Register of
Controlled Trials (CENTRAL, zie paragraaf 9.4). CENTRAL en de
specialised registers van de CRG’s zijn zeer belangrijke bronnen van
evidence voor systematische reviews en waardevolle producten van de
Cochrane Collaboration.

9.2.2 fields
De Cochrane Review Groups hebben, met een enkele uitzondering,
doorgaans een ziekte(categorie) als uitgangspunt. Bij de activiteiten
238 Inleiding in evidence-based medicine

van Cochrane Fields (ook wel Networks genoemd) kan het gaan om
een categorie patiënten (bijvoorbeeld kinderen), een setting in de ge-
zondheidszorg (eerste lijn) of een groep therapieën (paramedische
zorg). Een actueel overzicht van Cochrane Fields kan gevonden wor-
den op www.cochrane.org. Nederland herbergt twee Fields: het Re-
habilitation and Related Therapies Field in Maastricht en het Primary
Health Care Field in Nijmegen (zie tabel 9.1).
Fields behartigen de belangen van hun aandachtsgebied in de rele-
vante CRG’s. Bovendien zorgt een Field ervoor dat alle gerandomi-
seerde onderzoeken van hun aandachtsgebied worden opgespoord en
in een specialised register worden opgenomen teneinde reviewers te
ondersteunen bij het zoeken naar studies tijdens het uitvoeren van de
review. Ook brengen zij de activiteiten van de Cochrane Collaboration
onder de aandacht van hun vakgenoten op (inter)nationale congres-
sen.
Een speciaal Field is het Consumer Network. Dit is opgericht binnen
de Cochrane Collaboration om de belangen van de consumers
(patiënten) te kunnen laten behartigen door ervaringsdeskundigen.
Patiënten leveren een belangrijke bijdrage aan verschillende Cochrane
groeperingen. Zo biedt het Consumer Network gelegenheid tot het
houden van overleg tussen en het informeren van consumers en on-
dersteunt het de deelname van consumers bij Cochrane-werkzaam-
heden. Patiënten worden bijvoorbeeld actief betrokken bij het bepalen
van relevante uitkomstmaten voor (nieuwe) systematische reviews.
Ook verzorgt het Consumer Network de productie van zogenoemde
plain language summaries, samenvattingen van Cochrane reviews zonder
medisch-technische terminologie (zie www.cochrane.org).

9.2.3 methods groups


Voor het ontwikkelen van de methodologie en statistiek betreffende
het verrichten van een systematische review zijn verschillende Me-
thods Groups gevormd. Het doel is nieuwe of betere methoden te
ontwikkelen. Technische en methodologische problemen die zich in
ieder stadium van het maken en verspreiden van een systematische
review kunnen voordoen, vormen het onderwerp voor deze Methods
Groups. Op de jaarlijkse bijeenkomsten van de Cochrane Collabora-
tion, de Cochrane Colloquia, organiseren deze Methods Groups
drukbezochte workshops. Een actueel overzicht van Cochrane Me-
thods Groups kan gevonden worden op www.cochrane.org. Een van
de coördinatoren van de Prognosis Methods Group komt uit Amster-
dam (zie tabel 9.1).
9 De Cochrane Collaboration 239

Tabel 9.1 Cochrane groepen met een Nederlandse thuisbasis.


Fertility Regulation Group

Opgericht 1997

Doelstelling Het maken en actueel houden van systematische reviews over de effectiviteit van
processen waarmee mensen hun vruchtbaarheid, familiegrootte en geboorte-interval
regelen

Thuisbasis Leids Universitair Medische Centrum, Leiden

Website www.lumc.nl/1060/cochrane

Childhood Cancer Group

Opgericht 2006

Doelstelling Het maken en actueel houden van systematische reviews over interventies en diagnos-
tische tests voor kinderen en jongvolwassenen met kanker met betrekking tot preventie,
behandeling, ondersteunende zorg, psychosociale zorg, palliatieve zorg en de late
effecten van behandeling

Thuisbasis Emma Kinderziekenhuis / Academisch Medisch Centrum, Amsterdam

Website www.ccg.cochrane.org

Back Group

Opgericht 1996

Doelstelling Het maken en actueel houden van systematische reviews over interventies en diagnos-
tische tests voor aandoeningen van de rug en nek

Thuisbasis Vrije Universiteit medisch centrum, Amsterdam (gedeeld met Toronto, Canada)

Website www.cochrane.iwh.on.ca

Rehabilitation and Related Therapies Field

Opgericht 1995

Doelstelling Het identificeren van onderwerpen binnen het aandachtsgebied van het Field, mensen
enthousiasmeren voor het maken van een systematische review die aansluit bij de
behoeften van het Field, en het onderhouden van een specialised register voor het Field

Thuisbasis Universiteit Maastricht, Maastricht

Website www.cebp.nl

Primary Health Care Field

Opgericht 2007 (wijziging thuisbasis)

Doelstelling Het bevorderen van de kwaliteit, de hoeveelheid, de verspreiding, de toegankelijkheid


en de toepasselijkheid van Cochrane systematische reviews die relevant zijn voor de
eerstelijnszorg

Thuisbasis Universitair Medisch Centrum St Radboud, Nijmegen (gedeeld met collega’s uit Nieuw-
Zeeland en Ierland)

Website www.cochraneprimarycare.org
240 Inleiding in evidence-based medicine

Prognosis Methods Group

Opgericht 2008

Doelstelling Ontwikkelen en evalueren van methoden voor systematische reviews en meta-analysen


betreffende prognose

Thuisbasis Vrije Universiteit medisch centrum, Amsterdam

Website Zie vooralsnog www.cochrane.org

Belgian Branch of the Dutch Cochrane Centre

Opgericht 2002

Doelstelling Bevorderen van het maken, onderhouden en verspreiden van systematische reviews.
Belgische auteurs werven, ondersteunen en trainen. Een bijdrage leveren aan Review
Groups, Fields, Methods Groups en andere entities van de Cochrane Collaboration

Thuisbasis Katholieke Universiteit Leuven, Leuven, België

Website www.cebam.be

Dutch Cochrane Centre

Opgericht 1994

Doelstelling Bevorderen van het maken, onderhouden en verspreiden van systematische reviews en
bevorderen van de toepassing van evidence-based medicine in Nederland, werven,
opleiden en ondersteunen van Nederlandse auteurs en bijdragen aan het internationale
Cochrane netwerk

Thuisbasis Academisch Medisch Centrum, Amsterdam

Website www.cochrane.nl

9.2.4 cochrane centres


Cochrane Centres vertegenwoordigen de Cochrane Collaboration in
een bepaalde regio of taalgebied. Het Dutch Cochrane Centre verte-
genwoordigt de Cochrane Collaboration in Nederland en de Belgian
Branch of the Dutch Cochrane Centre in België (zie tabel 9.1). Coch-
rane Centres proberen mensen enthousiast te maken voor het maken
van een Cochrane review, hen te trainen en zo nodig te assisteren bij
het uitvoeren van de review. Zij doen dit door het (kosteloos) aanbie-
den van cursussen en workshops aan personen die een Cochrane
review gaan schrijven. Medewerkers van Cochrane Centres vervullen
de rol van ambassadeur van de Cochrane Collaboration, participeren
in en initiëren onderzoek gericht op het verder ontwikkelen en ver-
beteren van de kwaliteit van systematische reviews en coördineren de
activiteiten van de Cochrane Collaboration in hun regio.
9 De Cochrane Collaboration 241

9.3 Participeren in de Cochrane Collaboration

Een van de motto’s van de Cochrane Collaboration is ‘Enabling wide


participation’: deelname aan de Cochrane Collaboration staat open
voor iedereen. De meest voor de hand liggende manier om een bij-
drage aan de Collaboration te leveren is het schrijven van een review
(zie kader voor de procedure). Ook kan men zich opwerpen als peer
reviewer voor protocollen en reviews. Wil men het eigen aandachts-
gebied profileren, dan kan dat door deelname aan het desbetreffende
Field. Heeft men ervaringsdeskundigheid op een bepaald ziektege-
bied, dan ligt participatie aan het Consumer Network voor de hand en
heeft men bijzondere methodologische of statistische expertise, dan
sluit men zich aan bij een Methods Group.

Schrijven van een systematische review voor de Cochrane


Collaboration
1 Kijk in de Cochrane Library of iemand wellicht al met dit
onderwerp bezig is en een protocol of review gepubliceerd
heeft. Is dat niet het geval:
2 Stel uw review team samen, dat bij voorkeur bestaat uit een
mix van personen met inhoudelijke en methodologische des-
kundigheid.
3 Meld de titel van uw review aan bij de desbetreffende Cochrane
Review Group. Indien akkoord:
4 Volg de workshop ‘Ontwikkelen van een Systematische
Review’ bij (de Belgian Branch van) het Dutch Cochrane Cen-
tre.
5 Schrijf het protocol en later de review in samenwerking met en
ondersteund door de reviewgroep. Maak hierbij gebruik van
het programma Review Manager (RevMan).
6 Houd uw review up-to-date.

Voor gedetailleerde instructies: zie de website van de betreffende


Cochrane Collaborative Review Group en het Reviewers’ Handbook.
Ook kunt u altijd contact opnemen met de Review Group Coordinator
(RGC).
Nederland levert een aanzienlijke bijdrage aan de Cochrane Collabo-
ration: wij nemen op dit moment de vijfde plaats in wat betreft het
aantal deelnemers aan de Cochrane Collaboration en zijn daarmee na
242 Inleiding in evidence-based medicine

het Verenigd Koninkrijk, Australië, de Verenigde Staten en Canada het


eerste niet-Engelstalige land op de lijst van deelnemers.

Informatie over hoe met bepaalde Reviewgroepen, Centres of Fields


contact kan worden opgenomen is te vinden in de Cochrane Collabo-
ration sectie van de Cochrane Library (www.thecochranelibrary.com /
‘‘About Cochrane’’) of op de website van de Cochrane Collaboration
(www.cochrane.org). Voor meer informatie kan men tevens terecht bij
het regionale Cochrane Centre: het Dutch Cochrane Centre (www.
cochrane.nl) of de Belgian Branch (www.cebam.be).

9.4 De Cochrane Library

De Cochrane Library (www.thecochranelibrary.com) is het belang-


rijkste product van de Cochrane Collaboration. De Cochrane Library
bestaat uit verschillende elektronische databases en wordt uitgegeven
via internet, waar de abstracts en de plain language summaries van de
reviews overigens ook kosteloos geraadpleegd kunnen worden. De
Cochrane Library bevat simpele zoekopties en ook zoeksystemen voor
gevorderden, gebaseerd op MeSH-termen (zie hoofdstuk 3).
De Cochrane Library bevat onder meer de volgende databases:
– De Cochrane Database of Systematic Reviews: een database met
complete reviews en protocollen voor reviews. De protocollen wor-
den gepubliceerd om bekend te maken dat aan deze onderwerpen
gewerkt wordt, zodat duplicatie wordt voorkomen. Deze database
bevat ook systematische reviews van empirisch methodologisch
onderzoek.
– Het Cochrane Central Register of Controlled Trials: de meest com-
plete database met verwijzingen naar (quasi) gerandomiseerde on-
derzoeken. Het bevat ook referenties naar onderzoeken die gepu-
bliceerd zijn in tijdschriften die niet in MEDLINE of EMBASE
voorkomen en referenties die door handmatig zoeken van specia-
listische tijdschriften geı̈dentificeerd zijn.
– Het Cochrane Methodology Register: een database met verwijzin-
gen naar artikelen over de methodologie en statistiek voor het
maken van systematische reviews.

9.5 De impact van Cochrane Reviews

In deze paragraaf worden enkele voorbeelden gegeven van situaties


waarin Cochrane reviews een belangrijke rol gespeeld hebben in het
9 De Cochrane Collaboration 243

besluitvormingsproces van beroepsbeoefenaars in de gezondheids-


zorg, beleidsmakers en consumers.

Het effect van antibiotica bij otitis media bij kinderen


In 1997 verscheen een Cochrane review over het effect van antibiotica
bij otitis media bij kinderen. Uit de review bleek dat antibiotica een
bescheiden effect sorteerden op de pijnklachten in de eerste paar
dagen, maar geen effect hadden op de gehoorklachten. Na antibio-
ticagebruik werden echter meer bijwerkingen waargenomen. Naar
aanleiding van deze review werd in een huisartspraktijk in het Ver-
enigd Koninkrijk een onderzoek opgezet waarin de ouders van kin-
deren met een middenoorontsteking door middel van een korte
schriftelijke uitleg op de hoogte gebracht werden van de resultaten van
de review. Er werd een recept uitgeschreven voor antibiotica en het
werd aan de ouders overgelaten of zij hiervan gebruik wilden maken.
Vergeleken met een controlepraktijk trad 20% meer reductie op in
antibioticagebruik voor otitis media ten opzichte van de voorgaande
periode.

Het effect van albuminesuppletie op de sterfte


In 1998 zorgde een Cochrane review over het effect van albumine-
suppletie bij patiënten in kritieke toestand op de sterfte van patiënten
met hypovolemie, brandwonden of hypalbuminemie voor nogal wat
opschudding en publiciteit. In de review waren aanwijzingen gevon-
den voor een mogelijke oversterfte na albuminesuppletie waarna het
toepassen ervan drastisch terugliep, ondanks een sterke lobby van de
fabrikanten van albumineoplossingen. Naar aanleiding hiervan werd
een groot gerandomiseerd klinisch experiment uitgevoerd waarin
suppletie met albumine vergeleken werd met fysiologische zoutop-
lossing. Uit deze grote trial bleek dat albuminesuppletie geen reductie
in sterfte gaf en ook niet tot oversterfte leidde. Er werden geen ver-
schillen in andere uitkomsten waargenomen. De conclusie is nog
steeds terughoudend te zijn met albuminesuppletie.

Het effect en de bijwerkingen van kinkhoestvaccinaties


In 2004 verscheen een systematische review over kinkhoestvaccins
waarin cellulaire vaccins werden vergeleken met acellulaire vaccins.
De acellulaire vaccins bleken effectiever te zijn dan de cellulaire vac-
cins en aanzienlijk minder ernstige bijwerkingen te hebben. Op basis
van deze review adviseerde de Gezondheidsraad de minister zo snel
mogelijk over te gaan op het gebruik van een acellulair combinatie-
vaccin.
244 Inleiding in evidence-based medicine

Hulpverlening tijdens Aziatische Tsunami


Op 26 december 2004 verwoestte de tsunami vele kusten van landen
grenzend aan de Indische Oceaan. Bij rampen behoort een eenmalige
debriefing tot de standaardzorg. Slachtoffers of hulpverleners bij
rampen krijgen de gelegenheid om hun emoties (individueel of in een
groep) te uiten. Het doel van deze eenmalige debriefing is om directe
psychologische nood te verminderen evenals de ontwikkeling van
psychologische nood te voorkomen, met in het bijzonder een post-
traumatische stressstoornis (PTSS). De coördinator van het South
Asian Cochrane Network maakte deel uit van één van de teams die
werden gevormd door de overheid om psychosociale steun te verle-
nen. Zijn team controleerde eerst het bewijsmateriaal en vond een
relevant Cochrane Review over de effecten van eenmalige debriefing.
De review gaf aan dat de posttraumatische stresssymptomen en de
andere psychiatrische symptomen niet significant verminderden.
Sterker nog, in één studie werd een significant verhoogd risico op
PTSS gevonden een jaar na de eenmalige debriefing. Naar aanleiding
van deze resultaten is geadviseerd om terughoudend te zijn met het
verlenen van eenmalige debriefing aan slachtoffers van de tsunami.

9.6 Conclusie

De Cochrane Collaboration neemt in de medisch-wetenschappelijke


literatuur en de medische praktijk een belangrijke plaats in, zoals
duidelijk wordt geı̈llustreerd door de vier beschreven voorbeelden. Het
feit dat de productie van Cochrane reviews niet wordt gestuurd door
partijen die mogelijk belang hebben bij de resultaten van reviews is
een belangrijke reden voor deze verworven positie. Bovendien heeft de
Cochrane Collaboration als doel voortdurend nieuwe of betere me-
thoden te ontwikkelen voor het verrichten van een systematische re-
view. Dit is een goede zaak, aangezien systematische reviews kunnen
helpen bij het nemen van geı̈nformeerde beslissingen en dus kunnen
leiden tot een belangrijke verandering in de gezondheidszorg.
9 De Cochrane Collaboration 245

Tabel 9.2 Overzicht van handige websites.


The Cochrane Collaboration www.cochrane.org

The Dutch Cochrane Centre www.cochrane.nl

The Belgian Branch of The Dutch Cochrane www.cebam.be


Centre

Cochrane Review Groups www.cochrane.org/contact/entities.htm#crglist

Cochrane Fields www.cochrane.org/contact/entities.htm#fieldlist

Cochrane Methods Groups www.cochrane.org/contact/entities.htm#mglist

Plain Language Summaries www.cochrane.org/reviews/clibintro.htm#abstracts

Cochrane Reviewer’s Handbook www.cochrane.org/resources/handbook

The Cochrane Collaboration Open Learning www.cochrane-net.org/openlearning


Material For Reviewers

Cochrane Style Guide www.cochrane.org/style/csg.htm

RevMan homepage www.cc-ims.net/revman

The Cochrane Library www.thecochranelibrary.com

The CONSORT Group www.consort-statement.org

STAndards for the Reporting of Diagnostic www.stard-statement.org


Accuracy studies (STARD)

The GRADE Working Group www.gradeworkinggroup.org

Nederlands Trial Register (NTR) www.trialregister.nl

You might also like