Professional Documents
Culture Documents
Inleiding in evidence-based
medicine
Klinisch handelen gebaseerd op bewijsmateriaal
Samensteller(s) en uitgever zijn zich volledig bewust van hun taak een betrouw-
bare uitgave te verzorgen. Niettemin kunnen zij geen aansprakelijkheid aanvaar-
den voor drukfouten en andere onjuistheden die eventueel in deze uitgave voor-
komen.
www.bsl.nl
Inhoud
1 Inleiding 20
M. Offringa, W.J.J. Assendelft en R.J.P.M. Scholten
1.1 Evidence-based medicine 22
1.1.1 Evidence? 23
1.1.2 Evidence-based medicine in de klinische
praktijk 25
1.1.3 Uitdagend of bedreigend? kritiek op evidence-
based medicine 26
1.1.4 Gevaren en misbruik van evidence-based
medicine 28
1.1.5 De toekomst is hier! 29
1.2 Conclusie 30
1.3 Dit boek 31
6 Evidence-based richtlijnen 1 88
J.S. Burgers, W.J.J. Assendelft en J.J.E. van
Everdingen
6.1 Inleiding 1 88
6.2 Beoordelen van een richtlijn 1 90
6.2.1 Kwaliteit van de richtlijn 1 90
6.2.2 Validiteit van de aanbevelingen 1 96
6.2.3 Toepasbaarheid in de eigen klinische situatie 203
6.3 Zoeken naar richtlijnen, zelf maken of imple-
menteren 205
6.4 Conclusie 205
Literatuur 206
Literatuur 233
Register 279
Lijst van auteurs
ruimste zin van het woord, alsmede op degenen die hiervoor in op-
leiding zijn. Om reden van leesbaarheid worden in dit boek echter
steeds ‘arts’ en ‘patiënt’ gebruikt. Om taalkundige redenen gebruiken
wij voor artsen en patiënten de hij-vorm, maar wij stellen uitdrukkelijk
dat overal waar ‘hij’ staat ook ‘zij’ gelezen kan worden.
Het was daarom tijd voor een geheel herziene druk van dit boek. Een
aantal nieuwe auteurs is toegetreden tot het auteurscorps en de lite-
ratuurverwijzingen zijn geactualiseerd. Helemaal nieuw bij deze derde
Ten geleide bij de eerste druk 19
voorkeuren van
patiënt en arts
bewijsmateriaal keuze;
(evidence) beslissing
toestand van
patiënt; prognose
1.1.1 evidence?
In de Engelstalige literatuur wordt met opzet gesproken van evidence en
niet van proof. Evidence is strikt genomen niet hetzelfde als bewijs; het
is een aanwijzing die zo sterk kan zijn dat nauwelijks twijfel hoeft te
bestaan over de juistheid, of zo zwak dat zij nauwelijks overtuigt. In
het eerste geval komt evidence dicht bij bewijs. In de Nederlandse
24 Inleiding in evidence-based medicine
vertaling gaat veel van deze nuancering verloren. Vanwege dit verlies
aan nuance, en ook omdat evidence-based medicine een internatio-
naal begrip is geworden, wordt evidence hier onvertaald gelaten.
Wat kan als evidence worden beschouwd? Beslissingen in de genees-
kunde kunnen worden gestuurd door resultaten van wetenschappelijk
onderzoek en door anekdotische informatie. Anekdotische informatie
is informatie afkomstig van persoonlijke of klinische ervaringen, van
de beslisser zelf of van een goede collega, zonder dat er een formele
onderzoeksmethode is gebruikt. Beslissingen zijn doorgaans geba-
seerd op een samenspel van gegevens uit beide bronnen. Hierbij
spelen ook de normen en waarden van de beslissers, hun voorkeuren
en de omstandigheden waaronder de beslissingen moeten worden
genomen een rol.
Voor het succesvol toepassen van deze methode zijn speciale vaardig-
heden bij de clinicus vereist en zijn technische hulpmiddelen nodig.
Natuurlijk is een gedegen pathofysiologische kennis onontbeerlijk.
Ook is enige kennis van de principes van de klinische epidemiologie
nodig. Het praktiseren van evidence-based medicine houdt een inte-
gratie in van kennis uit onderzoek met de praktische ervaring van de
clinicus om zo tot de beste zorg of de beste preventie te komen. Alléén
deze kennis of alléén klinische ervaring is niet genoeg; een integratie
leidt tot de beste resultaten. De patiënt of zijn vertegenwoordiger
26 Inleiding in evidence-based medicine
1.2 Conclusie
2.1 Inleiding
‘Eén dwaas kan meer vragen dan tien wijzen kunnen antwoorden’,
luidt het spreekwoord. Vragen stellen is blijkbaar gemakkelijker dan
vragen beantwoorden. Dit geldt ook in de dagelijkse geneeskundige
praktijk. De zorgverlener die handelt in de geest van evidence-based
medicine (EBM) zal meestal zijn eigen vragen moeten beantwoorden
en het is van belang dat hij zichzelf hierbij niet onnodig in de pro-
blemen brengt. Het is dus belangrijk relevante, goed geformuleerde
vragen te leren stellen.
De wijze waarop de vraag wordt gesteld heeft directe consequenties
voor het elektronisch zoeken van literatuur; de vraagstelling kan te
veel of te weinig opleveren (hoofdstuk 3). Dit probleem kan worden
verkleind door een goed geformuleerde vraag. Zo’n goed geformu-
leerde vraag is ook van belang voor het controleren van de geselec-
teerde literatuur. Geeft deze eigenlijk wel antwoord op de gestelde
vraag?
Tips
– Formuleer een vraag zodanig dat zij beantwoordbaar is (bij-
voorbeeld met de PICO-methode, zie par. 2.4).
– Breng een rangorde aan in de door u bedachte vragen (bij-
voorbeeld op grond van waarde voor de praktijk).
– Probeer via vragen uit uw eigen praktijk uw vakkennis op peil
te houden.
– ‘Bewaar’ uw vragen, zodat u na enige tijd nog eens kunt
zoeken naar nieuw verschenen literatuur.
2 De juiste vragen stellen 33
Het is niet aangetoond dat meer opzoeken leidt tot een betere prak-
tijkvoering of tot betere uitkomsten van de behandeling. Dit is echter
wel aannemelijk. Daar staat tegenover dat met de huidige opzoek-
mogelijkheden het zelf beantwoorden van meerdere vragen per dag
meestal onmogelijk is. Er moet dus worden gekozen. Een aantal
strategieën is dan mogelijk. De meest voor de hand liggende moge-
lijkheid is een rangorde in de vragen aan te brengen. Criteria daarbij
kunnen zijn:
– Hoe vaak komt deze vraag terug in mijn praktijk?
– Hoe belangrijk is het antwoord voor de patiënt van vandaag?
– Is het antwoord gemakkelijk te vinden?
– Vind ik het probleem boeiend?
– Bestaan er wellicht recente richtlijnen voor mijn beroepsgroep op
dit gebied?
deze vragen is groot, maar zij zijn niet specifiek voor de patiënt die
aanleiding gaf voor de vraag. Naarmate een behandelaar meer erva-
ring heeft, zal hij meer ‘foreground questions’ stellen: vragen die vrij
sterk in detail op de behandeling van de huidige patiënt zijn toege-
sneden. Dus: ‘Is de mortaliteit van patiënten met een community ac-
quired longontsteking lager wanneer vanaf het begin een antibioticum
wordt gekozen met activiteit tegen Legionella?’ Dit is al een echte
‘PICO-’vraag (zie hierna). Deze laatste categorie vragen heeft een
grotere impact op de zorg, onder andere omdat er expliciet een afwe-
ging van alternatieven plaatsvindt (in dit geval wel of geen antibioti-
cum met Legionelladekking).
besteed. Het gevolg kan zijn dat men het antwoord niet vindt, dat men
te veel antwoorden vindt en dus alsnog de vraag moet herformuleren
om een overzichtelijk aantal artikelen over te houden, of dat men bij
nader inzien de verkeerde vraag heeft gesteld.
De EBM-groep uit Oxford (Verenigd Koninkrijk) heeft als hulpmiddel
het PICO-systeem voorgesteld. Dit staat voor: patient – intervention –
comparison – outcome. Het PICO-systeem helpt bij het structureren
van de vraag en alle genoemde elementen moeten in de vraag worden
vermeld.
Een aldus opgestelde vraag laat zich betrekkelijk gemakkelijk vertalen
naar een zoekstrategie in een database (zie hoofdstuk 3). Men zoekt
‘breed’ op één of meer van de vier componenten afzonderlijk en
verbindt de resultaten van verschillende componenten met het woord
‘AND’. Voor wiskundig onderlegde lezers: men neemt de doorsnede
van de deelverzamelingen. Meestal begint men met één component
(bijvoorbeeld P of I) en als de oogst dan te groot is, voegt men een
andere component toe (zie hoofdstuk 3). Het hanteren van PICO heeft
ook het voordeel dat men gedwongen wordt tevoren goed na te den-
ken over wat men precies wil weten. Desondanks komt het voor dat
men op deze wijze te veel of te weinig informatie vindt. In dat geval is
herbezinning op de gestelde vraag noodzakelijk.
Het PICO-systeem laat in principe toe dat men het probleem uniek
omschrijft. Als men hierin te restrictief is (‘Wat is de mortaliteit na
dertig dagen als men een 56-jarige man met een pneumokokkenp-
neumonie en tevens diabetes mellitus type 2 behandelt met amoxicil-
line 3 keer daags 750 mg per os versus doxycycline 100 mg per os
gedurende tien dagen?’), leidt dit tot weinig of geen treffers. In dit
geval is bijvoorbeeld de patiëntengroep te nauw gedefinieerd of de
uitkomst te precies.
Als er (in het omgekeerde geval) te veel informatie uit de zoektocht
naar evidence komt, moet men restrictiever worden. Een bekende
valkuil is in dat geval dat men eerst de informatie eens een beetje
doorbladert en vervolgens alles ‘eigenlijk wel interessant’ vindt. Beter
is het eerst de eigen vraag in te perken, opnieuw te zoeken en pas in
tweede instantie de literatuur in te zien. In het volgende hoofdstuk
gaan we hier uitgebreid op in.
Het PICO-systeem leent zich uitstekend voor het opstellen van vragen
in de domeinen etiologie/schade, prognose en therapie/interventie.
Voor diagnostiek dienen tevens andere componenten benoemd te
worden (zie hierna). Vaak is het niet op het eerste gezicht duidelijk wat
wordt bedoeld met ‘intervention’, in het bijzonder als het om etiologie
of prognose gaat. Bij etiologie en prognose is de ‘intervention’ de
2 De juiste vragen stellen 37
Met behulp van PICO kan men sensitief (ruim) of specifiek (nauw)
zoeken. Het eerste levert meer literatuur op dan het tweede. Met enige
oefening heeft men dit snel onder de knie. Beide manieren van zoeken
zijn van belang. Wil men voor een probleem dat in de eigen praktijk
vaak voorkomt een richtlijn opstellen, dan zal men sensitief moeten
zoeken: een zeer algemene patiënt, wel een nauw omschreven inter-
vention en comparison (daar gaat het immers om) en wellicht ook een
reeks van uitkomsten. Gaat het echter om het voorschrijven van een
geneesmiddel aan een patiënt die morgen terugkomt, dan is een
specifieke zoektocht de enige mogelijkheid.
2.6 Conclusie
Literatuur
Coumou HC, Meijman FJ. How do primary care physicians seek answers to clinical
questions? A literature review. J Med Libr Assoc 2006 Jan;94(1):55-60.
Ely JW, Osheroff JA, Chambliss ML, Ebell MH, Rosenbaum ME. Answering physicians’
clinical questions: obstacles and potential solutions. Am Med Inform Assoc 2005
Mar-Apr;12(2):217-24.
Ely JW, Osheroff JA, Ebell MH, Bergus GR, Levy BT, Chambliss ML, Evans ER. Analysis
of questions asked by family doctors regarding patient care. BMJ 1999 Aug 7;
319(7206):358-61.
Ely JW, Osheroff JA, Ebell MH, Chambliss ML, Vinson DC, Stevermer JJ, Pifer EA.
Obstacles to answering doctors’ questions about patient care with evidence: quali-
tative study. BMJ 2002 Mar 23;324(7339):710.
Ely JW, Osheroff JA, Maviglia SM, Rosenbaum ME. Patient-care questions that physi-
cians are unable to answer. J Am Med Inform Assoc 2007 Jul-Aug;14(4):407-14.
González-González AI, Dawes M, Sánchez-Mateos J, Riesgo-Fuertes R, Escortell-
Mayor E, Sanz-Cuesta T, Hernández-Fernández T. Information needs and informa-
tion-seeking behavior of primary care physicians. Ann Fam Med 2007 Jul-Aug;5(4):
345-52.
Graber MA, Randles BD, Ely JW, Monnahan J. Answering clinical questions in the ED.
Am J Emerg Med 2008 Feb;26(2):144-7.
Green ML, Ruff TR. Why do residents fail to answer their clinical questions? A
qualitative study of barriers to practicing evidence-based medicine. Acad Med 2005
Feb;80(2):176-82.
2 De juiste vragen stellen 41
Straus SE, Richardson WS, Glasziou P, Haynes RB. Evidence-based medicine: How to
practice and teach EBM. 3. Diagnosis and screening. Third Edition. Edinburgh:
Churchill Livingstone, 2005.
Zoeken en selecteren van 3
literatuur
3.1 Inleiding
3.2.1 inleiding
De afgelopen jaren is het zoeken van evidence-based materiaal bij een
individueel patiëntenprobleem veel efficiënter geworden. Het is vaak
niet meer nodig om uitgebreid naar losse artikelen te zoeken, omdat
de informatie al is samengevat en van een deskundig oordeel is voor-
zien.
Klinische informatie kan worden onderverdeeld in verschillende
soorten: de ‘kennispiramide’ (figuur 3.1). Tekstboeken staan onder
aan de piramide. Voor de aanpak van een klinisch probleem is altijd
een zekere mate van achtergrondkennis nodig; concepten en samen-
hang laten zich het best in een goed leerboek uitleggen. De manier
waarop voor een tekstboek de synthese van kennis tot stand komt is
echter meestal niet transparant, waardoor leerboeken soms eerder
meningen dan een samenvatting van kennis bevatten (authority-based
in plaats van evidence-based). Door de productietijd van soms jaren
44 Inleiding in evidence-based medicine
gericht zoeken:
de kennispiramide
gecomputeriseerde beslissings-
systemen
ondersteuning
evidence-based tijdschrift-
synopses
samenvattingen; richtlijnen
studieboeken tekstboeken
3.3.1 achtergrond
Als er geen kant-en-klare evidence-based bron beschikbaar is, dan
moet er naar individuele onderzoeksartikelen worden gezocht. Dit
zijn systematische reviews of individuele onderzoeksartikelen. Om te
begrijpen hoe u in databases kunt zoeken, is enige kennis over de
achtergrond nodig.
In een bibliografische database worden vaak duizenden tijdschriften
geı̈ndexeerd. Dit geeft de mogelijkheid op trefwoorden, op tekst-
woorden in de titel of de samenvatting, op auteursnaam en bijvoor-
beeld op jaartal van publicatie te zoeken. MEDLINE is de bekendste
database. Via verschillende zoekmachines kan naar publicaties vanaf
1966 in meer dan 5000 tijdschriften worden gezocht. Hiervan is
PubMed, gratis via internet te raadplegen, een van de meest gebrui-
kersvriendelijke. Andere bibliografische databases zijn bijvoorbeeld
EMBASE en PsychLit.
Een zoekactie in een bibliografische database komt rechtstreeks voort
uit de klinische vraag (zie hoofdstuk 2) en bevat voor therapeutische
vragen zoektermen die verwijzen naar de aandoening en de interven-
tie, eventueel aangevuld met zoektermen die gerelateerd zijn aan de
setting (bijvoorbeeld bedrijfsgezondheidszorg) en gewenste uit-
komstmaten (bijvoorbeeld ‘pijn’ of ‘kwaliteit van leven’). Een voor-
beeld van een zoekactie is opgenomen in tabel 3.1. Zoeken in een
bibliografische database vereist instructie en vaardigheden. Veel uni-
versiteiten en ziekenhuizen verzorgen instructies. Daarnaast zijn er op
het internet veel handleidingen voor zoeken in PubMed te vinden,
waaronder ook een prima Engelstalige instructie op de website van
PubMed zelf. In bijlage 2 is een korte instructie opgenomen voor het
zoeken in MEDLINE met behulp van de zoekmachine PubMed.
3 Zoeken en selecteren van literatuur 47
Tabel 3.1 Zoekactie in PubMed op 12 maart 2008. Botulinetoxine voor tenniselleboog. Sensitief
zoekfilter voor RCT’s.
opdracht in PubMed aantal opmerking
treffers
#9 (#4 AND #8) AND ((clinical[Title/ 16 combinatie voor het zoeken naar botuline-
Abstract] AND trial[Title/Ab- toxine bij tenniselleboog met gebruik van
stract]) OR clinical trials[MeSH sensitief methodologisch filter voor RCT’s
Terms] OR clinical trial[Publica-
tion Type] OR random*[Title/
Abstract] OR random allocation
[MeSH Terms] OR therapeutic
use[MeSH Subheading])
#7 tennis elbow[Text Word] 1037 zoeken met vrije tekstwoorden (‘free text
words’) in de titel en de samenvatting; dit
maakt de zoekactie sensitiever maar min-
der specifiek
#3 Botulinum 10640
#1 Botox 3102
Tabel 3.2 Tips bij een te kleine en bij een te grote oogst na het zoeken in een bibliografische database.
te kleine oogst
– als een specifiek methodologisch filter is gebruikt: schakel over op een sensitief filter
– raadpleeg de thesaurus
te grote oogst
– beperkingen: taal (English), artikelen met een samenvatting (abstract), onderzoek met mensen (hu-
man)
– specifieke MeSH headings (voor diagnostiek van tenniselleboog alleen tennis elbow/di)
Bij een te kleine oogst kunnen allereerst meer vrije tekstwoorden aan
de zoekactie worden toegevoegd. Ook kan worden overwogen daar-
naast jokertekens in vrije tekstwoorden te gebruiken. Het gevaar is dan
dat er niet meer gemapt wordt (zie hiervoor). De optie ‘see related
articles’ in PubMed kan behulpzaam zijn om na te gaan of er mogelijk
meer gelijksoortige artikelen in MEDLINE geı̈ndexeerd zijn. Ook is het
50 Inleiding in evidence-based medicine
mogelijk dat niet de goede MeSH-termen zijn gebruikt. Het kan dan
nuttig zijn van een aantal bekende, geschikte artikelen na te gaan
welke MeSH-termen waren toegevoegd. Vaak kan dit goede ideeën
voor verbetering van de zoekactie opleveren. Als er bij het zoeken is
gebruikgemaakt van een specifiek methodologisch filter, dan is het bij
een te kleine oogst raadzaam om over te gaan op een sensitief filter.
Ten slotte kan de thesaurus (de ordening van MeSH-termen) worden
geraadpleegd. Een medisch bibliothecaris kan u adviseren als u er met
deze aanwijzingen niet uitkomt. Een bibliothecaris kan onder andere
ook inschatten of het gezien het onderwerp zinvol is nog andere
databases dan MEDLINE te raadplegen. De meest gangbare aanvul-
lende bibliografische database is EMBASE, die voor een substantieel
deel complementair is aan MEDLINE, onder andere doordat EMBASE
meer op farmacotherapie is gericht en ook meer Europees georiën-
teerd is. Afhankelijk van het onderwerp is de mate van overlap in
gevonden artikelen 10-75%. Ook kan er in nog andere onderwerp- of
professiespecifieke elektronische databases worden gezocht. In Ci-
nahl bijvoorbeeld ligt de nadruk meer op tijdschriften die van belang
zijn voor verpleegkunde en andere paramedische beroepen, terwijl de
focus van het eveneens veelvuldig geraadpleegde PsychLit meer op
psychologie en psychiatrie is gericht.
3.4 Metazoekmachines
Evidence-based tijdschriften
Door middel van bladen als Evidence-Based Medicine, waarin onderzoe-
ken kort worden samengevat en van commentaar worden voorzien. Er
zijn steeds meer van dergelijke evidence-based tijdschriften: Evidence-
Based Cardiovascular Medicine, Evidence-Based Health Policy and Management,
Evidence-Based Mental Health en Evidence-Based Nursing. In het Nederlands
zijn er het Nederlands Tijdschrift voor Evidence-based practice voor ver-
52 Inleiding in evidence-based medicine
Internetrubrieken
Ook is er een aantal websites op internet die iedere maand of iedere
twee maanden met nieuw materiaal komen en een bezoek de moeite
waard maken. De artikelen met commentaar (CATs (critically apprai-
sed topics), poems, ACP Journal Club) hebben dezelfde opzet als de
eerdergenoemde evidence-based tijdschriften: een korte samenvatting
met deskundig commentaar op validiteit en relevantie van het artikel.
Overige aanraders
In Bandolier worden artikelen kort besproken, de gegevens zeer over-
zichtelijk gepresenteerd en er wordt vaak een duidelijk advies gegeven.
Ook kan als manier van bijblijven per aflevering van de Cochrane Data-
base of Systematic Reviews (verschijnt viermaal per jaar) of in Clinical
Evidence worden gekeken welke nieuwe reviews op het eigen vakgebied
verschenen zijn.
Helemaal zonder tijdschriften kunt u overigens niet. Goede ideeën
ontstaan immers meestal niet door gericht zoeken, maar door toeval-
lig iets te horen of te lezen
3.6 Conclusie
Literatuur
4.1 Inleiding
Validiteit
De validiteit ofwel de geldigheid van de informatie wordt het eerst
beoordeeld, omdat het weinig zin heeft met de resultaten van een
onderzoek te gaan werken als men niet voldoende zeker is dat de
resultaten bruikbaar zijn. Vrijwel alle soorten klinisch-wetenschappe-
lijk onderzoek kunnen door tekortkomingen in de opzet of uitvoering
geplaagd worden door verstorende factoren. Als niet scherp wordt
opgelet, kunnen deze verstorende factoren de resultaten soms flink
vertekenen. Indien er aanzienlijke systematische vertekening is opge-
treden, zijn de resultaten niet bruikbaar.
Informatie die inzicht geeft in de methodologische betrouwbaarheid
van een onderzoek is te vinden in de methodenparagraaf van een
artikel. Hierin wordt beschreven hoe de onderzoekers systematische
vertekening van het onderzoek hebben geprobeerd uit te bannen.
Hieruit kan dan – soms met enige fantasie – worden afgeleid hoe
groot de kans is dat de resultaten bewust of onbewust zijn beı̈nvloed
door de onderzoekers of door de patiënten. Deze beoordeling is vaak
een complexe zaak. Al te vaak zijn de antwoorden op de ‘klassieke’
vragen over de gebruikte methodologie niet te beantwoorden op
grond van de informatie in het gepubliceerde artikel. Men moet dan
4 Kritisch beoordelen van een artikel 55
Belang
Indien is vastgesteld dat het zojuist beoordeelde onderzoek in opzet en
uitvoering valide is, kan worden overgegaan op de beoordeling van het
belang van de resultaten. De gepresenteerde uitkomsten moeten ui-
teraard relevant zijn voor de patiënt. ‘Resultaat’ bestaat uit de schat-
ting van het effect en de precisie van deze schatting (uitgedrukt met
behulp van een 95% betrouwbaarheidsinterval). Het effect wordt be-
schreven met behulp van een effectmaat (associatiemaat). Voor de
verschillende typen onderzoek bestaan verschillende effectmaten.
De interpretatie daarvan komt in de navolgende paragrafen van dit
hoofdstuk uitvoerig aan de orde.
Toepasbaarheid
Na beoordeling van de validiteit en het belang van de resultaten van
een onderzoek is er altijd de discussie in hoeverre de resultaten toe-
pasbaar zijn op andere dan de in het onderzoek betrokken patiënten.
Het betreft hier niet de interne validiteit van het onderzoek, maar de
externe validiteit, ofwel de toepasbaarheid van de resultaten. In de
volgende paragrafen van dit hoofdstuk wordt hierop uitgebreid inge-
gaan. Een algemene bespreking van de toepasbaarheid is daarnaast
ook nog opgenomen in hoofdstuk 7.
Dit hoofdstuk
In de volgende paragrafen worden criteria aangereikt voor het beoor-
delen van de validiteit en het interpreteren van de resultaten van
primair onderzoek. De beoordeling van secundair onderzoek (syste-
matische reviews) wordt in hoofdstuk 5 behandeld en de beoordeling
van richtlijnen in hoofdstuk 6.
In dit hoofdstuk komen achtereenvolgens de verschillende domeinen
die in de evidence-based medicine onderscheiden worden, aan de
orde: diagnose, prognose, therapie, bijwerkingen en etiologie. Ook
wordt aandacht besteed aan screening. Het hoofdstuk wordt afgeslo-
ten met een paragraaf over het beoordelen en interpreteren van on-
derzoek over de ontwikkeling van meetinstrumenten (klinimetrie).
56 Inleiding in evidence-based medicine
4.2 Diagnose
4.2.1 inleiding
Nadat een patiënt zich met een klacht bij de arts heeft aangemeld, is
een van de eerste doelen het stellen van een diagnose. Aan de hand van
een diagnose kan een uitspraak worden gedaan over de prognose,
zodat een patiënt weet wat hij kan verwachten, en kan het beleid
worden bepaald (verdere diagnostiek, verwijzen, afwachten, behan-
delen).
Voor het stellen van een juiste diagnose is uiteraard een valide diag-
nostische test nodig. ‘Diagnostische test’ kan van alles betekenen:
patiëntkenmerken (leeftijd, geslacht), anamnesevragen (hemoptoë,
doorzakgevoel van de knie), bevindingen bij lichamelijk onderzoek
(cachexie, positieve voorstekruisladetest), laboratoriumonderzoek
(verhoogde bezinking) en beeldvormende diagnostiek (onregelmatige
schaduw op de thoraxfoto). Een test die de aanwezigheid van een
ziekte of aandoening met maximale zekerheid kan aantonen, wordt
‘gouden standaard’ genoemd. Voorbeelden hiervan zijn het aantonen
van een longcarcinoom bij obductie of in een biopt en het vaststellen
van een voorstekruisbandruptuur van de knie door middel van artro-
scopie. In werkelijkheid is geen enkele test perfect: ook bij biopten
kan een diagnose worden gemist. Daarom spreekt men liever van
‘referentiestandaard’ of ‘referentietest’. Dit geeft aan dat deze test op
dit moment de meest aanvaardbare standaardtest is voor een bepaald
ziektebeeld of aandoening. Het toepassen van de referentietest is
echter niet altijd mogelijk of wenselijk: de referentietest kan te ge-
vaarlijk zijn, te moeilijk of te duur, de uitslag ervan kan te lang op zich
laten wachten of de referentietest is beperkt beschikbaar. In plaats van
deze referentietest of gouden standaard worden daarom vaak andere
diagnostische tests uitgevoerd die de waarheid zo goed mogelijk pro-
beren te achterhalen. Deze tests zijn meestal minder invasief, minder
duur of minder belastend voor de patiënt.
Diagnostische tests dienen de gouden standaard zo goed mogelijk te
benaderen om de diagnostische onzekerheid te reduceren. De waarde
van een diagnostische test voor het aantonen van een bepaalde aan-
doening wordt meestal onderzocht in een groep van opeenvolgende
patiënten waarin een bepaalde diagnose wordt vermoed. Alle patiën-
4 Kritisch beoordelen van een artikel 57
Validiteit
1 Valide referentietest
De referentietest dient zo goed mogelijk aan te tonen of iemand in
werkelijkheid de aandoening heeft of niet. De keuze van de referen-
tietest is soms echter problematisch. Soms zal men genoegen moeten
nemen met een minder valide referentietest. Bij afwezigheid van een
gouden standaard wordt een indextest vaak vergeleken met de test die
op dat moment het meest aanvaard wordt als beste voorhanden zijnde
test of wordt het langetermijnbeloop van de aandoening als referentietest
gebruikt. Uitkomsten van verschillende onderzoeken naar de waarde
van dezelfde diagnostische test kunnen onderling verschillen, omdat
verschillende referentietests zijn gebruikt. Indien geen valide referen-
tietest voorhanden is, kan dit leiden tot zowel een overschatting als
onderschatting van de eigenschappen van de indextest. Ook moeten in
het onderzoeksverslag duidelijke criteria vermeld zijn waarvoor men
het resultaat van de referentietest positief of negatief duidt.
58 Inleiding in evidence-based medicine
ernst, het stadium en de duur van de klachten bij de patiënten bij wie
men de indextest wil gaan toepassen. De groep niet-zieken in het
onderzoek moet bij voorkeur bestaan uit personen met aandoeningen
die in de praktijk gemakkelijk tot verwarring met de onderzochte
aandoening leiden. Is in een bepaalde setting normaliter sprake van
een breed ziektespectrum en wordt de indextest louter onderzocht bij
personen met een relatief ernstige vorm van de ziekte, dan zullen de
eigenschappen van de indextest doorgaans te gunstig zijn (overschat
worden) voor de onderzochte setting.
Aspecten waarop bij de beoordeling kan worden gelet zijn het spec-
trum van ziekte (bijv. tumorstadium zoals vastgesteld met de referen-
tietest), het spectrum van de niet-zieken, de setting (eerste lijn, tweede
lijn, polikliniek, opgenomen patiënten), de duur van de klachten
voorafgaand aan de tests, de aard en resultaten van voorafgaande tests
en demografische gegevens, zoals leeftijd en geslacht.
7 Niet-interpreteerbare testresultaten
In sommige situaties levert de indextest niet altijd duidelijke resultaten
op. Als dergelijke slecht te duiden resultaten uit het onderzoek worden
weggelaten en de diagnostische parameters worden berekend aan de
hand van de overgebleven patiënten met een goed te duiden testre-
sultaat, dan worden de noemers te klein waardoor de sensitiviteit en
specificiteit van de indextest overschat worden. Het is dan ook van
belang dat de slecht interpreteerbare resultaten in ieder geval gerap-
porteerd zijn, zodat men een inschatting kan maken van het effect
ervan op de resultaten van het onderzoek.
8 Selectieve uitval
Soms volgen niet alle patiënten het volledige protocol van het onder-
zoek en vallen zij uit de studie voordat de resultaten van de indextest,
de referentietest of beide bekend zijn. Hierdoor kan het ziektespec-
trum van de onderzochte patiënten beı̈nvloed worden (zie item 6) en
kunnen de resultaten vertekenen. Inzicht in de patiëntenstroom en
een beschrijving van de uitvallers is nodig om de kans op vertekening
te kunnen inschatten. Vaak echter wordt uitval slecht of helemaal niet
gerapporteerd.
Overige kwaliteitsaspecten
De hiervoor opgesomde kwaliteitsitems zijn belangrijke bronnen van
heterogeniteit of vertekening. Zij zijn afkomstig uit QUADAS, een ge-
valideerd instrument voor het bepalen van de methodologische kwa-
liteit van een diagnostisch accuratesseonderzoek. Het instrument be-
4 Kritisch beoordelen van een artikel 61
vat ook andere items die mogelijk tot vertekening kunnen leiden en
waarmee eventueel rekening gehouden moet worden. Hieronder val-
len een adequate beschrijving van de indextest (aanwijzingen voor de
uitvoering van de indextest, de interpretatie van de testuitslag (defi-
nitie van het afkappunt), de voorbereiding van de patiënt, benodigde
ervaring van de uitvoerders van de test, reproduceerbaarheid van de
test, etc.), tijd tussen het uitvoeren van de indextest en de referentie-
test (mogelijk is de ziektestatus van de patiënt ondertussen gewijzigd)
en ‘incorporatiebias’ (de indextest maakt deel uit van de referentie-
test). Voor een volledige beschrijving van het QUADAS-instrument
wordt naar de desbetreffende literatuur verwezen.
Beoordelingscriteria
(checklist beschikbaar op www.pico.nu)
Validiteit
1 Valide referentietest (gouden standaard)
2 Onafhankelijke (blinde) vergelijking van de indextest met de
referentietest
3 Beoordeling van de indextest onafhankelijk van andere infor-
matie die sterk samenhangt met de werkelijke ziektestatus van
de patiënt
4 Uitvoering van de referentietest onafhankelijk van de uitslag
van de indextest
5 Valide selectie van patiënten voor het onderzoek
6 Ziektekenmerken van de onderzochte personen (spectrum)
7 Niet-interpreteerbare testresultaten
8 Selectieve uitval
Belang
1 Diagnostische waarde van de indextest
2 Precisie van de geschatte diagnostische parameters
Toepasbaarheid
1 Geschiktheid van de diagnostische test voor uw patiënt
2 Inschatting van de voorafkans op ziekte voor uw patiënt
3 Doel van de test
4 Beı̈nvloeding van uw handelwijze door de verkregen achteraf-
kans
5 Belasting door de test
62 Inleiding in evidence-based medicine
Belang
1 Diagnostische waarde van de indextest
Indien we te maken hebben met een valide onderzoek naar de waarde
van een diagnostische indextest, moet worden vastgesteld hoe goed de
indextest de aan- of afwezigheid van de onderzochte aandoening kan
voorspellen. Wordt de onderzochte indextest gemeten op een dicho-
tome schaal (het testresultaat is positief of negatief), dan kunnen de
resultaten worden samengevat in een 2 6 2 tabel (tabel 4.1). Wordt de
onderzochte indextest gemeten op een continue schaal (bijv. het se-
rumglucosegehalte), dan dient eerst een afkappunt gekozen te zijn
voor het positief duiden van de indextest (zie hierna).
Voor de kwantificering van het diagnostische onderscheidingsvermo-
gen van de indextest zijn verschillende parameters beschikbaar (zie
tabel 4.1) die hierna worden besproken. Als voorbeeld nemen we een
onderzoek waarin de waarde van de voorsteschuifladetest wordt on-
derzocht voor het vaststellen van een voorstekruisbandruptuur van de
knie, vastgesteld met de referentietest artroscopie (tabel 4.2).
De sensitiviteit van de test is de proportie positieve indextestresultaten
onder de zieken (in ons voorbeeld de proportie personen met een
positieve voorsteschuifladetest onder de patiënten met een voorste-
kruisbandruptuur). De sensitiviteit van een test geeft dus aan welke
proportie (of welk percentage) van de zieken inderdaad een positieve
indextestuitslag heeft en dus door de indextest terecht als ziek ge-
classificeerd wordt. In ons voorbeeld bedraagt de sensitiviteit van de
voorsteschuifladetest voor het aantonen van een voorstekruisband-
ruptuur 39/58 = 0,67 (ofwel 67%): 67% van de personen met een
voorstekruisbandruptuur heeft inderdaad een positieve voorsteschui-
fladetest (terecht-positieven) en 33% van de voorstekruisbandrupturen
wordt dus door de voorsteschuifladetest gemist (fout-negatieven).
De specificiteit van een test is de proportie negatieve indextestresultaten
onder de niet-zieken (in ons voorbeeld de proportie personen met een
negatieve voorsteschuifladetest onder de personen zonder voorste-
kruisbandruptuur). De specificiteit van een test geeft dus aan welke
proportie (of welk percentage) van de niet-zieken inderdaad een ne-
gatieve indextestuitslag heeft en dus door de indextest terecht als niet-
ziek geclassificeerd wordt. In ons voorbeeld is de specificiteit van de
voorsteschuifladetest voor het aantonen van de afwezigheid van een
voorstekruisbandruptuur 14/16 = 0,88 (ofwel 88%): 88% van de per-
sonen zonder voorstekruisbandruptuur heeft inderdaad een negatieve
voorsteschuifladetest (terecht-negatieven) en 12% van de personen
zonder voorstekruisbandruptuur wordt dus door de voorsteschuif-
ladetest onterecht als ziek geduid (fout-positieven).
4 Kritisch beoordelen van een artikel 63
Tabel 4.1 Berekening van de parameters voor het kwantificeren van de waarde van een diagnostische
test (EXP[x] betekent: het natuurlijke getal e verheffen tot de macht x).
notatie ziekte (vastgesteld m.b.v. de
referentiestandaard)
Tabel 4.2 Bevindingen van een onderzoek naar de waarde van de voorsteschuifladetest voor het
vaststellen van een voorstekruisbandruptuur (prevalentie voorstekruisbandruptuur 78%).
voorstekruisbandruptuur
(vastgesteld d.m.v. artroscopie)
voorsteschuifladetest + 39 2 41
voorsteschuifladetest – 19 14 33
totaal 58 16 74
Tabel 4.3 Bevindingen van een onderzoek naar de waarde van de voorsteschuifladetest voor het
vaststellen van een voorstekruisbandruptuur (prevalentie voorstekruisbandruptuur 7%).
voorstekruisbandruptuur
(vastgesteld d.m.v. artroscopie)
1,0
achterafkans op voorstekruisbandruptuur
0,9 s t
ete
ad
0,8 u ifl
h
sc
te
s
0,7
or
vo
ve
0,6
n
ie
lij
st
sit
le
te
ra
po
de
0,5
ut
fla
ne
ui
0,4
ch
es
st
0,3 or
vo
ve
ie
0,2 gat
ne
0,1
0,0
0
0
0,
0,
0,
0,
1,
0,
0,
0,
0,
0,
0,
voorafkans op voorstekruisbandruptuur
(prevalentie)
indextest met een kleine LR– is het veel minder ‘aannemelijk’ dat we
met een zieke te maken hebben dan met een niet-zieke. Een negatieve
uitslag van een test met een LR–-waarde van 0 sluit de ziekte volledig
uit.
Met behulp van een likelihood-ratio kunnen voorafkansen (prevalen-
ties) worden omgezet in achterafkansen. De berekeningen hiervoor
lopen via odds (zie kader). Voor het berekenen van een achterafkans op
Likelihood-ratio / odds
Met behulp van een likelihood-ratio kunnen voorafkansen (prevalenties) worden
omgezet in achterafkansen. De berekeningen hiervoor lopen via odds. De odds
is de verhouding tussen de kans op het optreden van een gebeurtenis en het niet-
optreden ervan. De volgende vergelijkingen zijn van toepassing:
Deze laatste formule is voor het eerst beschreven door de Engelse dominee
Bayes in de zeventiende eeuw. Men noemt de formule dan ook het theorema van
Bayes. Van de posttest odds komt men weer als volgt op de achterafkans:
Het berekenen van een achterafkans op grond van een bepaalde LR-waarde en
voorafkans kan ook via het nomogram van figuur 4.2.
68 Inleiding in evidence-based medicine
0,1 99
0,2
0,5 95
1 1000 90
500
2 200 80
100
50 70
5
20 60
10 10 50
5 40
20 2 30
1
30 0,5 20
40 0,2
50 0,1 10
60 0,05
5
70 0,02
0,01
80 0,005 2
0,002
90 0,001 1
95 0,5
0,2
99 0,1
pre-test likelihood- post-test
probability ratio probability
Figuur 4.2 Nomogram voor het berekenen van een achterafkans op ziekte aan de
hand van een likelihood-ratio en een voorafkans. Trek een lijn vanaf de vooraf-
kans (pretest probability) op de linkeras naar het punt op de middelste as dat de
waarde van de likelihood-ratio aangeeft. Het snijpunt van deze lijn met de
rechteras geeft de achterafkans (posttest probability) weer.
Tabel 4.4 Serumglucosegehalte bij 300 personen met en 700 personen zonder diabetes mellitus, en
sensiviteit en specificiteit van het bepalen van het serumglucosegehalte voor het stellen
van de diagnose diabetes mellitus voor verschillende afkappunten.
Voorbeeld (zie kaders): afkappunt 9,0 mmol/l: aantal personen met diabetes mellitus en
serumglucose 9,0 mmol/l = 66 + 31 + 29 + 25 + 16 = 167. Sensitiviteit = 167/300 = 0,56.
Aantal personen zonder diabetes mellitus en serumglucose < 9,0 mmol/l = 4 + 5 + 20 + 30 +
52 + 111 + 166 +155 + 152 = 695. Specificiteit = 695 / 700 = 0,99.
serumglucose diabetes geen diabetes sensitiviteit specificiteit
(in mmol/l)
1,0
0,9
0,8
0,7
sensitiviteit
0,6
0,5
0,4
0,3
0,2
0,1
0,0
0
0
0,
0,
0,
0,
1,
0,
0,
0,
0,
0,
0,
1 − specificiteit
Toepasbaarheid
1 Geschiktheid van de diagnostische test voor uw patiënt
De kenmerken van de patiënt bij wie u de test wilt toepassen, moeten
voldoende overeenkomen met die van de in het onderzoek betrokken
patiënten. Indien de kenmerken van de onderzochte groep aanzienlijk
afwijken van de kenmerken van uw patiënt, wordt inschatting van de
waarde van de test bij die patiënt lastig. Bedenk hierbij dat het diag-
nostische onderscheidingsvermogen van de test in de regel samen-
hangt met de ernst van de aandoening (spectrum).
4.2.3 conclusie
In deze paragraaf is de beoordeling van een onderzoek naar de waarde
van een diagnostische test aan de orde geweest. Het gebruik van een
valide referentietest, onafhankelijke beoordeling van de indextest en
referentietest, en toepassing van de referentietest ongeacht het resul-
taat van de indextest bij de juiste patiënten kunnen mogelijke verte-
kening voorkómen. Daarnaast zal de arts zich een indruk moeten
vormen van de diagnostische waarde van de onderzochte indextest en
de mogelijkheden om deze test in zijn eigen setting toe te passen. De
consequenties van het uitvoeren van de test bij de eigen patiënt,
moeten ten slotte zodanig zijn dat het verdere beleid erdoor veranderd
kan worden.
Literatuur
Bossuyt PM, Reitsma JB, Bruns DE, Gatsonis CA, Glasziou PP, Irwig LM, et al.
Standards for Reporting of Diagnostic Accuracy Group. Standards for reporting of
diagnostic accuracy. Towards complete and accurate reporting of studies of
diagnostic accuracy: the STARD initiative. Ann Intern Med 2003;138:40-4.
Bossuyt PM, Reitsma JB, Bruns DE, Gatsonis CA, Glasziou PP, Irwig LM, Moher D,
Rennie D, de Vet HC, Lijmer JG. The STARD statement for reporting studies of
diagnostic accuracy: explanation and elaboration. Clin Chem 2003;49:7-18. Koste-
loos beschikbaar op website www.clinchem.org/cgi/content/full/49/1/7
Bossuyt PM, Irwig L, Craig J, Glasziou P. Comparative accuracy: assessing new tests
against existing diagnostic pathways. BMJ 2006;332:1089-92.
Bruel A van den, Cleemput I, Aertgeerts B, Ramaekers D, Buntinx F. The evaluation of
diagnostic tests: evidence on technical and diagnostic accuracy, impact on patient
outcome and cost-effectiveness is needed. J Clin Epidemiol 2007;60:1116-22.
Knottnerus JA, ed. The evidence base of clinical diagnosis. Londen: BMJ Publishing
Group, 2002.
Straus SE, Richardson WS, Glasziou P, Haynes RB. Evidence-based Medicine: How to
practice and teach EBM. 3. Diagnosis and screening. Third edition. Edinburgh:
Churchill Livingstone, 2005.
Users’ Guides to EBP. Centre for Health Evidence [geraadpleegd op 29 februari 2008].
Beschikbaar op website www.cche.net/usersguides/main.asp
Whiting P, Rutjes AW, Reitsma JB, Bossuyt PM, Kleijnen J. The development of
QUADAS: a tool for the quality assessment of studies of diagnostic accuracy
included in systematic reviews. BMC Med Res Methodol 2003; 3:25. Kosteloos
beschikbaar op website www.biomedcentral.com/1471-2288/3/25
4 Kritisch beoordelen van een artikel 75
4.3 Prognose
4.3.1 inleiding
Een van de eerste dingen die een patiënt na het vaststellen van een
diagnose wil weten is: ‘Wat kan ik nu verwachten?’ en ‘Wat stelt u voor
om te gaan doen?’. Om deze vragen te kunnen beantwoorden is er
kennis nodig van wat kan er gebeuren, hoe vaak deze uitkomsten
voorkomen en wanneer de betreffende uitkomst(en) te verwachten
zijn. Voor een goed advies en behandelkeuze is het dus belangrijk om
voldoende te weten van het klinisch beloop van deze ziekte, zowel met
als zonder behandeling, en ook wat de mogelijke invloed van prog-
nostische factoren is op de uitkomst(en). In de regel is bij patiënten
met een slechtere prognose (een relatief grotere kans op een ongun-
stige uitkomst) de winst van een interventie groter. Dit wordt in
hoofdstuk 7 verder uitgelegd.
Beoordelingscriteria
Validiteit
1 duidelijk omschreven representatieve groep patiënten die is
samengesteld op een gelijk moment in het ziektebeloop
2 duidelijke omschrijving van het verwijspatroon
3 volledige en voldoende lange follow-up
4 objectief en onafhankelijk (geblindeerd) vastgestelde uitkom-
sten
5 heldere definitie van prognostische factoren
6 onderscheiden van subgroepen met een verschillende prog-
nose
Belang
1 belang van de resultaten voor de patiënt
2 precisie van de resultaten
Toepasbaarheid
1 overeenkomst met eigen patiënt(en) (externe validiteit)
2 invloed van de informatie op de behandeling van de patiënt
Validiteit
1 Duidelijk omschreven representatieve groep patiënten die is
samengesteld op een gelijk moment in het ziektebeloop
De term voor een dergelijk samengestelde groep is ‘inceptiecohort’.
Het startpunt van het cohort is vaak het moment waarop de eerste
ondubbelzinnige symptomen merkbaar zijn of zodra de therapie
wordt gestart. Op deze manier worden zowel patiënten ingesloten die
volledig herstellen, die overlijden, als degenen bij wie de ziekte blijft
bestaan. Toch kan de behandelaar ook geı̈nteresseerd zijn in een
inceptiecohort dat later in het beloop is samengesteld. Aangezien veel
rugpijn binnen een aantal weken overgaat, is het vooral belangrijk te
weten welke proportie van de patiënten met klachten langer dan zes
weken na één jaar nog steeds klachten heeft. Het inceptiecohort wordt
voor die vraag dan pas gevormd bij zes weken lage-rugpijn.
Tabel 4.5 Voorbeeld van een voorspellend model: kans op overlijden ten gevolge
van meningokokkenziekte. Voor iedere eigenschap uit tabel A krijgen
patiënten een score (wegingsfactor). De totaalscore (som van de
wegingsfactoren) bepaalt de kans op overlijden (tabel B). Een man van 72
jaar met een parese van de linker arm (focale neurologische stoornis) die
geen antibiotica vooraf ontving en die geen stollingsafwijkingen heeft,
heeft dus een prognostische score van 1 + 1 = 2. Zijn kans op overlijden is
dan dus groter dan 70%.
A
eigenschap wegingsfactor
stollingsafwijking 2
–1 0,0
0 2,3
1 27,3
2 73,3
3 100,0
Belang
1 Belang van de resultaten voor de patiënt
Het is van belang de prognose in één of meer samenvattende getallen
uit te drukken. Voorbeelden hiervan zijn de vijfjaarsoverleving of de
mediane overlevingsduur (tijdstip waarop 50% van de patiënten nog
in leven is). Vaak ook wordt het beloop in de tijd in de vorm van een
grafiek weergegeven (figuur 4.4, patronen A t/m D). Op de verticale as
staat het percentage patiënten dat de bestudeerde uitkomst nog niet
heeft (bijv. nog in leven is), en op de horizontale as is de tijd uitgezet.
Uit dergelijke grafieken kan bijvoorbeeld ook de eerdergenoemde
mediane overlevingsduur worden afgeleid. De vorm van een dergelijke
grafiek geeft inzicht in wat op korte en lange termijn kan worden
verwacht. In deze figuur zijn vier patronen weergegeven.
Patroon A laat een relatief gunstig beloop zien. De overleving op zowel
de korte als lange termijn is gunstig.
Patroon B is karakteristiek voor een aandoening waarbij de uitkomst
relatief lang op zich laat wachten (een lange ‘incubatietijd’ heeft). Een
voorbeeld hiervan zijn vasculaire complicaties bij diabetes type 1 die de
eerste jaren na het ontstaan van diabetes niet optreden.
Patroon C is karakteristiek voor aandoeningen met een slechte prog-
nose: het optreden van de uitkomst is vrijwel onontkoombaar, blijk-
baar zijn er nauwelijks therapeutische mogelijkheden.
Patroon D ziet men bij aandoeningen waarbij de uitkomst vooral in de
periode kort na het ontdekken wordt vastgesteld, maar waarbij de
prognose gunstiger wordt naarmate de tijd verstrijkt. Dit patroon geldt
bijvoorbeeld voor veel vormen van kanker.
Om te beoordelen of de sterftekans van een bepaalde patiëntenpopu-
latie hoog is kan het informatief zijn om deze sterftekans te vergelij-
ken met die van een andere populatie of met een standaardpopulatie
(bijvoorbeeld de gehele Nederlandse populatie). Om sterftekansen
met elkaar te mogen vergelijken moet men rekening houden met
populatieverschillen, zoals een verschillende leeftijdsopbouw. Het
omrekenen van een waargenomen sterfte naar een andere referentie-
populatie heet standaardisatie. De Standardized Mortality Ratio geeft
de verhouding aan tussen het waargenomen sterftecijfer en het sterf-
tecijfer in de standaardpopulatie. Een SMR van bijvoorbeeld 1,1 geeft
een oversterfte van 10% van de patiëntenpopulatie weer ten opzichte
van de standaardpopulatie. Op vergelijkbare wijze kan men ook ge-
standaardiseerde verhoudingen berekenen voor uitkomsten anders
dan sterfte (Standardized Morbidity Ratio).
Prognostische modellen kunnen in verschillende vormen gepresen-
teerd worden, in zowel tabellen als figuren. Een voorbeeld van het
82 Inleiding in evidence-based medicine
100
60
40 C
20 D
0
0 1 2 3 4 5 6 7 8 9 10 11 12
tijd in jaren
T1 T2 T3 T4
T stadium
0 8 11 19 punten
nee ja
LNI
0 4 punten
totaal aantal
punten 0 5 10 15 20 25 30 35 40 45 50
1-jaars
overleving (%) 98 97 94 91 86 77 65 50 32 15 4,4
5-jaars
overleving (%) 90 83 74 61 44 26 11 2,5 0,2 0,0 0,0
Toepasbaarheid
1 Overeenkomst met eigen patiënt(en) (externe validiteit)
De samenstelling van de groep patiënten in het onderzoek bepaalt
voor een belangrijk deel de gerapporteerde prognose. Hiervoor is punt
2 van de validiteit: ‘duidelijke omschrijving van het verwijspatroon’
belangrijk. Indien de groep patiënten in het onderzoek afwijkt van
de patiënten in de eigen praktijk, dan zal ook de prognose mogelijk
(sterk) afwijken.
Vertekening door verwijspatronen. Vaak wordt een patiënt enige malen van
behandelaar naar behandelaar verwezen. De verwijzer maakt dan ie-
dere keer op basis van de aard en ernst van de aandoening een keuze
uit verschillende verwijsmogelijkheden. Dikwijls worden minder ern-
stige gevallen helemaal niet verwezen. In de regel worden patiënten
met een ernstiger ziektebeeld (en dus een slechtere prognose) naar
een (super)specialistisch centrum verwezen. Ook het tegenoverge-
stelde kan echter van toepassing zijn: patiënten met een slechte
prognose worden juist niet verwezen omdat verdere (super)specialis-
tische behandeling geen zin meer heeft.
Vertekening door vroegopsporing (‘lead time bias’). Indien door screening
een aandoening waarvoor geen afdoende behandeling bestaat eerder
wordt gediagnosticeerd, dan zal het lijken of de prognose beter wordt.
Dit is slechts schijn: de ziekte wordt gewoon eerder ontdekt (zie
paragraaf 4.6).
Vertekening door type behandelcentrum. Hieraan gerelateerd is de verteke-
ning die optreedt indien er in een bepaald centrum veel belangstelling
voor de aandoening bestaat. De resultaten zijn dan soms moeilijk te
extrapoleren, omdat in dergelijke centra vaak sneller vervolgdiagnos-
tiek wordt verricht, meer aandacht aan de patiënten wordt gegeven,
meer ervaring aanwezig is en vaker geavanceerde behandelingen
worden toegepast.
De toepasbaarheid op de eigen patiënt(en) kan worden nagegaan met
de volgende deelvragen:
1 Zijn de klinische karakteristieken van de in het onderzoek betrok-
ken patiënten gelijk aan die van mijn patiënt(en)?
2 Zijn de onderzochte patiënten op dezelfde manier gediagnosti-
ceerd?
3 Is het onderzoek in hetzelfde echelon uitgevoerd als waarin ik
werkzaam ben?
4 Waren dezelfde faciliteiten voorhanden als voor de eigen patiënten
ter beschikking zijn?
5 Is de ernst van de aandoening van de onderzochte patiënten gelijk
aan die van de eigen patiënten?
4 Kritisch beoordelen van een artikel 85
Een te strikte toepassing van deze vragen heeft tot gevolg dat er vrijwel
geen enkel geschikt onderzoek zal worden gevonden. Het is daarom
goed om bij een of meer negatieve antwoorden op voorgaande deel-
vragen de vraag om te draaien: is de groep patiënten uit het onderzoek
zo verschillend van de eigen patiënt dat de resultaten helemaal niet
kunnen worden gebruikt bij het geven van een prognose?
4.3.3 conclusie
Kennis over de prognose is van belang om de patiënt te informeren en
om een weloverwogen keuze te kunnen maken voor een bepaalde
behandeling of om juist af te zien van behandelen. Idealiter wordt het
beloop van de ziekte uitgedrukt in een grafiek, omdat dit meer zegt
dan een enkel cijfer. Bij het beoordelen van onderzoeken moet vooral
worden opgelet of de onderzoekspopulatie voldoende is omschreven
en of deze voldoende overeenkomsten heeft met het werkterrein van
de behandelaar, en de ernst en duur van de ziekte van de patiënt. Bij de
beoordeling moet daarnaast worden gelet op volledigheid en duur van
de follow-up, objectieve vaststelling van de uitkomsten, duidelijke
rapportage van de prognostische factoren en de rapportage van rele-
vante subgroepen met een verschillende prognose. Idealiter wordt de
te verwachten prognose gevalideerd in een groep onafhankelijke
patiënten.
86 Inleiding in evidence-based medicine
Literatuur
Elm E von, Altman DG, Egger M, Pocock SJ, Gotzsche PC, Vandenbroucke JP for the
STROBE initiative. The Strengthening the Reporting of Observational Studies in
Epidemiology (STROBE) statement: guidelines for reporting observational studies.
Lancet 2007;370:1453-7.
Hemingway H. Prognosis research: Why is Dr. Lydgate still waiting? J Clin Epidemiol
2006;59:1229-38.
Levine MN, Browman GP, Gent M, Roberts R, Goodyear M. When is a prognostic factor
useful?: a guide for the perplexed. J Clin Oncol 1991;9:348-56.
McShane LM, Altman DG, Sauerbrei W, Taube SE, Gion M, Clark GM for the statistics
subcommittee of the NCI-EORTC working group on cancer diagnostics. REporting
recommendations for tumour MARKer prognostic studies (REMARK). Br J Can
2005;93:387-91.
Moher D, Schulz KF, Altman DG. The CONSORT statement: revised recommendations
for improving the quality of reports of parallel-group randomised trials. Lancet
2001;357(9263):1191-4.
4.4 Therapie
4.4.1 inleiding
Vrijwel ieder patiëntencontact gaat gepaard met een behandelbeslis-
sing. Ook de beslissing om even niets te doen is een impliciete be-
handelbeslissing: de prognose is zo gunstig of de behandelopties zijn
zo weinig effectief dat behandeling niet nodig is of geen zin heeft.
Juist ook bij therapie is het belangrijk de klinische vraag scherp te
krijgen. De vraagstelling van een therapeutisch onderzoek kent drie
kernelementen, te weten de ziekte (bijv. angina pectoris), de inter-
venties (bijv. het effect van een aceremmer ten opzichte van een pla-
cebo) en het ziektebeloop (bijv. het verdwijnen van de klachten).
In een therapeutisch onderzoek richt de belangstelling zich in de regel
op één specifieke behandeling. Meestal betreft het een behandeling
met een medicament, maar ook andere interventies, zoals een chirur-
gische behandeling of een therapeutische aanpak in bredere zin (bijv.
uitvoerige diagnostiek in combinatie met intensieve behandeling),
kunnen worden bestudeerd. De behandeling waar het om draait, heet
de indexbehandeling. Deze wordt vergeleken met een andere behan-
deling: de controlebehandeling. De ziekte wordt gedefinieerd in de
insluitcriteria voor deelname aan het onderzoek. De uitsluitcriteria
geven aan welke patiënten die aan de diagnostische criteria voldoen,
om een andere reden niet aan het onderzoek kunnen deelnemen,
bijvoorbeeld een contra-indicatie voor de onderzochte behandelingen.
4 Kritisch beoordelen van een artikel 87
Validiteit
Interne validiteit van een onderzoek impliceert dat het therapeutisch
effect zuiver (= niet vertekend) wordt gemeten binnen de context van
het onderzoek. Interne validiteit berust op een drietal kenmerken:
1 Weerspiegelt de vergelijking tussen de behandelingen dat aspect
van de behandeling waarin men werkelijk geı̈nteresseerd is (of
spelen externe effecten een rol)?
2 Zijn de behandelingsgroepen wat betreft prognose identiek sa-
mengesteld?
3 Is de wijze van waarneming (of bepaling) van de uitkomst identiek
bij de behandelingsgroepen?
1 Randomisatie
De gegevens van het onderzoek weerspiegelen het effect van de in-
dexbehandeling (ten opzichte van de controlebehandeling) slechts
dan wanneer de behandelingsgroepen wat betreft prognose vergelijk-
baar zijn. Met andere woorden, men moet gelijke uitkomsten voor de
groepen verwachten wanneer dezelfde behandeling gegeven zou
4 Kritisch beoordelen van een artikel 89
lijk is. Door sommigen wordt dit als nadeel gezien. Daar staat tegen-
over dat afwijkingen van de voorgeschreven behandeling ook in de
dagelijkse klinische praktijk voorkomen, zodat aangenomen mag
worden dat de ‘intention to treat’-analyse een realistisch beeld geeft
van de te verwachten uitkomsten.
Belang
1 Grootte van het effect
De ruwe gegevens van een onderzoek bevatten alle informatie over het
onderzochte behandelingseffect. In deze vorm is de informatie echter
niet toegankelijk, noch voor de onderzoeker zelf, noch voor anderen.
In de paragraaf ‘resultaten’ van een artikel worden in de eerste plaats
de onderzoeksbevindingen beschrijvend in beknopte vorm weergege-
ven. Naast deze beschrijvende gegevens worden ook statistische
96 Inleiding in evidence-based medicine
RR = 5,1%/11,6% = 0,44
Dit houdt in dat vijftien tot zestien patiënten met abciximab behandeld
moeten worden om één eindpunt te voorkomen.
Tabel 4.6 Berekening van effectmaten (associatiematen) in een randomised controlled trial (RCT) of
cohortonderzoek met dichotome uitkomsten (EXP[x]betekent: het natuurlijke getal e
verheffen tot de macht x)
notatie uitkomst totaal
aanwezig afwezig
klinisch relevant
verschil
geen verschil
a b c d
statistisch significant statistisch niet significant
Toepasbaarheid
De toepasbaarheid van trialresultaten op de individuele patiënt wordt
uitgebreider beschreven in hoofdstuk 7. We beperken ons hier tot de
hoofdzaken.
bepalen aan welke uitkomstmaat hij de meeste waarde hecht. Dit kan
soms duidelijk verschillen van wat de arts meent dat belangrijk is.
De arts kan zich bijvoorbeeld vooral op de kans op overleven richten,
terwijl de patiënt de kwaliteit van leven (bijv. het nog kunnen deel-
nemen aan verenigingsactiviteiten) het belangrijkst blijkt te vinden.
Ook de waardering van bijwerkingen kan per patiënt verschillend zijn.
Voor de ene patiënt is een verminderd libido onaanvaardbaar, terwijl
het de andere patiënt niets uitmaakt. Sommige patiënten besluiten op
basis van informatie of eerdere ervaringen (van henzelf of van fami-
lieleden) om bepaalde effectief bevonden behandelingen toch niet te
willen ondergaan of behandelingen met minimale voordelen juist wel
te willen ondergaan.
4.4.3 conclusie
In deze paragraaf is in het bijzonder de beoordeling van de RCT aan
de orde geweest. Door randomisatie, en indien mogelijk blindering,
kunnen veel potentiële bronnen van vertekening van het therapiere-
sultaat worden uitgeschakeld. Indien een RCT beschikbaar is, of een
systematische review van RCT’s, dan kan de arts zich hier in eerste
instantie op richten. Het kritisch lezen van een RCT dient systematisch
te gebeuren, omdat elk beoordelingsaspect een belangrijke versto-
rende invloed kan hebben. Ten slotte zal de arts zich een indruk
moeten vormen van de effectiviteit van de interventie in zijn eigen
setting en voor de individuele patiënt voor wie op dat moment een
keuze moet worden gemaakt. De inschatting van de NNT speelt hierin
een grote rol. De afwegingen die hierbij moeten worden gemaakt,
worden uitgebreid besproken in hoofdstuk 7.
Literatuur
Altman DG, Schulz KF, Moher D, Egger M, Davidoff F, Elbourne D, Gøtzsche PC, Lang
T; CONSORT GROUP (Consolidated Standards of Reporting Trials). The revised
CONSORT statement for reporting randomized trials: explanation and elaboration.
Ann Intern Med 2001;134:663-94.
Elbourne DR, Campbell MK. Extending the CONSORT statement to cluster random-
ized trials: for discussion. Stat Med 2001;20:489-96.
Moher D, Schulz KF, Altman DG. The CONSORT statement: revised recommendations
for improving the quality of reports of parallel-group randomised trials. Lancet
2001;357:1191-4.
Schuling J, Toenders WGM. Evidence-based medicine: betekenis voor de farmaco-
therapie. Geneesmiddelen Bull 1999;33:71-7.
Straus SE, Richardson WS, Glasziou P, Haynes RB. Evidence-based Medicine: How to
practice and teach EBM. 5 Therapy. 3rd ed. Edinburgh: Churchill Livingstone, 2005.
Users’ Guides to EBP. Centre for Health Evidence [geraadpleegd op 29 februari 2008].
Beschikbaar op website www.cche.net/usersguides/main.asp
104 Inleiding in evidence-based medicine
4.5.1 inleiding
Als we een patiënt een behandeling aanbieden, dient deze behande-
ling uiteraard veilig te zijn en vrij van ernstige bijwerkingen. Het
inschatten van het optreden van (ernstige) bijwerkingen in relatie tot
de behandeling is dan ook een belangrijke stap in het behandelings-
proces. Zo wil men bijvoorbeeld vaststellen of een derdegeneratie
anticonceptiepil vergeleken met een pil van de tweede generatie al dan
niet een verhoogd risico geeft op diepe veneuze trombose of op kanker
bij een individuele patiënt. Onderzoek naar ernstige bijwerkingen
heeft veel overeenkomsten met etiologisch onderzoek – het onderzoek
naar oorzaken van ziekten. In dit hoofdstuk komen dan ook zowel
onderzoek naar ernstige bijwerkingen als etiologisch onderzoek aan
de orde. In etiologisch onderzoek is de determinant dan geen medi-
sche interventie maar een potentieel schadelijke factor.
Bijwerkingen in de praktijk
– Gerandomiseerde gecontroleerde onderzoeken naar de oor-
zaken van ziekte of oorzaken van zeldzame maar ernstige
bijwerkingen zijn zeer moeilijk of onmogelijk – want
onethisch – uit te voeren.
– We maken daarom gebruik van de resultaten van patiëntcon-
troleonderzoek of cohortonderzoek. Hierbij treden speciale
methodologische problemen op.
– Belangrijke begrippen bij de interpretatie van dit type onder-
zoek zijn bias, toeval en causaliteit. De resultaten worden vaak
uitgedrukt in de moeilijk interpreteerbare odds-ratio.
– De behandelaar zal zich bij het interpreteren van de toepas-
baarheid van een onderzoek over bijwerkingen moeten afvra-
gen of het effect groot en gevaarlijk genoeg is, of de klinische
karakteristieken van de bestudeerde patiënten niet te veel
afwijken van die van de actuele patiënt, of dat deze laatste juist
een verhoogde kans op de bijwerking heeft, en dat de behan-
deling om die reden niet gestart moet worden.
Beoordelingscriteria
Validiteit
1 Definiëring van de te vergelijken groepen
2 Afwezigheid van selectiebias
3 Onafhankelijke (blinde) meting van blootstelling en uitkom-
sten
4 In cohortonderzoek: duur en volledigheid van follow-up
5 In patiëntcontroleonderzoek: nieuwe (incidente) ziektegevallen
6 In patiëntcontroleonderzoek: afwezigheid misclassificatie
7 Adequate correctie (in de analyse) voor belangrijke prognos-
tische factoren (confounders)
Belang
1 Grootte van het effect
2 Precisie van de effectschatting
Toepasbaarheid en implicatie
1 Overeenkomst met de eigen patiënt(en)
2 Kans op de bijwerking
3 De verwachtingen, voorkeuren en waarderingen
4 Beschikbaarheid van alternatieve behandelingen
Validiteit
1 Definiëring van de te vergelijken groepen
De belangrijkste kenmerken van de onderzochte groepen moeten
duidelijk beschreven zijn. Het gaat hier om demografische gegevens,
de setting waarin het onderzoek plaatsvond, de criteria voor selectie in
de cohorten (cohortonderzoek) of voor selectie van patiënten en con-
troles (patiëntcontroleonderzoek), de definitie van blootstelling (aard,
dosis, duur), de definitie van de uitkomst (de ongewenste bijwerking)
en het moment van optreden ervan. Als het duidelijk is dat er factoren
bestaan die de uitkomst sterk beı̈nvloed kunnen hebben, en dat deze
factoren niet gelijk over de onderzochte groepen verdeeld waren,
wordt het belangrijk om erop te letten dat voor deze ‘verstorende’
factoren (confounders) in de analyse gecorrigeerd is (zie item 7).
Hierna wordt een algemene inschatting van de validiteit van het be-
schouwde onderzoek gemaakt. Het gaat hier om een samenvattend
oordeel van de beoordelaar, in het licht van alle andere informatie die
over de schadelijkheid van de behandeling beschikbaar is. Er zijn geen
regels te geven voor welke items positief gescoord moeten worden of
welk aantal items ten minste positief gescoord moet worden. Dit is
deels afhankelijk van de ‘state-of-the-art’ met betrekking tot het be-
treffende onderwerp. De belangrijkste items zijn de nummers 2, 3
en 7; hierover dient de beoordelaar in ieder geval een duidelijk beeld
te hebben verkregen. Als er ‘fatale fouten’ blijken te bestaan, is het
waarschijnlijk beter niet te lang bij de resultaten en het belang van het
onderhavige onderzoek stil te staan.
112 Inleiding in evidence-based medicine
Belang
1 Grootte van het effect
De uitkomsten van onderzoek naar bijwerkingen zijn in de regel
dichotoom (wel/geen bijwerking of ziekte). Het effect van één eenheid
blootstelling kan dan uitgedrukt worden in een relatief risico (RR),
een odds-ratio (OR) of in een risicoverschil (RV). In patiëntcontrole-
onderzoek kan alleen de OR gebruikt worden.
Tabel 4.7a Numbers needed to harm (NNH) naar achtergrondrisico (= kans op de uitkomst in de
controlegroep) en relatieve risico (RR) (RR > 1,0).
Formule: NNH = 1 / [achtergrondrisico * (RR – 1)]
achtergrond- relatieve risico (RR)
risico
1,1 1,25 1,5 1,75 2,0 2,25 2,5 3,0 4,0
0,001 10000 4000 2000 1334 1000 800 667 500 334
0,05 200 80 40 27 20 16 14 10 7
0,10 100 40 20 14 10 8 7 5 4
0,15 67 27 14 9 7 6 5 4 3
0,20 50 20 10 7 5 4 4 3 2
Tabel 4.7b Numbers needed to harm (NNH) naar achtergrondrisico (= kans op de uitkomst in de
controlegroep) en odds-ratio (OR) (OR > 1,0). Formule: NNH = 1 / [ |achtergrondrisico
– 1 / (1+ (1 – achtergrondrisico) / (OR 6 achtergrondrisico))| ]
achtergrond- oddsratio (OR)
risico
1,1 1,25 1,5 1,75 2,0 2,25 2,5 3,0 4,0
0,001 10012 4006 2004 1336 1003 802 669 502 335
0,05 212 86 44 30 23 18 16 12 9
0,10 113 46 24 16 13 10 9 7 5
0,15 80 33 17 12 10 8 7 6 4
0,20 64 27 14 10 8 7 6 5 4
114 Inleiding in evidence-based medicine
Tabel 4.7c Numbers needed to harm (NNH) naar achtergrondrisico (= kans op de uitkomst in de
controlegroep) en relatieve risico (RR) (RR < 1,0).
Formule: NNH = 1 / [achtergrondrisico 6 (1 – RR)]
achter- relatieve risico (RR)
grondrisico
0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9
0,1 12 13 15 17 20 25 34 50 100
0,2 6 7 8 9 10 13 17 25 50
0,3 4 5 5 6 7 9 12 17 34
0,4 3 4 4 5 5 7 9 13 25
0,5 3 3 3 4 4 5 7 10 20
0,6 2 3 3 3 4 5 6 9 17
0,7 2 2 3 3 3 4 5 8 15
0,8 2 2 2 3 3 4 5 7 13
0,9 2 2 2 2 3 3 4 6 12
Tabel 4.7d Numbers needed to harm (NNH) naar achtergrondrisico (= kans op de uitkomst in de
controlegroep) en oddsratio (OR) (OR < 1,0). Formule:
NNH = 1 / [achtergrondrisico – 1 / (1 + (1 – achtergrondrisico) / (OR 6 achtergrondrisico))]
achter- oddsratio (OR)
grondrisico
0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9
0,1 12 13 15 18 22 27 36 55 110
0,2 6 7 8 10 12 15 20 30 62
0,3 4 5 6 7 9 11 15 23 47
0,4 3 4 5 6 7 9 13 20 40
0,5 3 3 4 5 6 8 12 18 38
0,6 3 3 4 5 6 8 12 19 40
0,7 2 3 4 5 7 9 13 21 45
0,8 2 3 4 6 8 11 16 27 58
0,9 3 4 6 9 13 18 28 46 102
Toepasbaarheid en implicatie
Bij het toepassen van de informatie op de eigen patiënten speelt de
externe validiteit (generaliseerbaarheid van de resultaten) van het
voorliggende onderzoek een grote rol. Niet alle resultaten zijn direct
4 Kritisch beoordelen van een artikel 115
Tabel 4.8 Criteria voor de beoordeling van de causaliteit van het verband tussen een determinant
(blootstelling) en een uitkomst (bijwerking, ziekte).
1 tijdsrelatie de blootstelling aan de risicofactor ging vooraf aan het optreden van de ziekte
5 grootte van het grote effecten kunnen moeilijker door andere factoren worden verklaard
effect
6 interventie de ziekte wordt minder vaak gezien als de blootstelling aan de risicofactor wordt
gestaakt
7 specificiteit de relatie is specifiek voor één ziekte – de blootstelling aan de risicofactor wordt
gezien bij mensen met botkanker, niet bij andere vormen van kanker
8 coherentie van de relatie tussen de risicofactor en de ziekte is coherent met andere kennis over de
informatie omgevingsfactoren en de biologie
De volgende items dient men zich af te vragen als het gaat om het
toepassen van de evidence over bijwerkingen bij een individuele patiënt
(zie ook hoofdstuk 7).
2 Kans op de bijwerking
De behandelaar dient zich af te vragen of de kans op de ongewenste
bijwerking in relatie tot het beoogde gunstige effect van de behande-
ling bij deze patiënt zodanig hoog is dat de behandeling om die reden
niet gestart moet worden. Daartoe dient eerst een schatting gemaakt
te worden van het absolute risico van de patiënt op de ziekte bij
afwezigheid van de interventie (of blootstelling). Als die kans nul is,
worden alle gevallen van de ongewenste uitkomst door de medicatie
veroorzaakt. Als die kans groter is dan nul, kan voor deze patiënt het
NNH worden berekend (zie tabel 4.7) en impliciet het risico op de
bijwerking (ziekte) na interventie (blootstelling). Hierna kan aan de
hand van het NNT een afweging gemaakt worden van de baten (gun-
stig effect) en lasten (bijwerkingen) van behandeling.
4.5.3 conclusie
Primum non nocere is het aloude adagium in de geneeskunde. In deze
paragraaf hebben we gezien dat vragen over etiologie en bijwerkingen,
alhoewel relatief minder vaak gesteld in de geneeskunde dan diag-
nostische en therapeutische vragen, belangrijk zijn. Om te besluiten of
een interventie de patiënt soms ook schade kan doen is niet eenvoudig
en de zorgverlener wordt vaak geconfronteerd met onderling tegen-
strijdige evidence.
118 Inleiding in evidence-based medicine
Literatuur
Bijl D, Grobbee DE. Het patiënt-controleonderzoek. Geneesmiddelenbulletin 1999:33:
127-34.
Hill AB. The environment and disease: association or causation? Proc R Soc Med 1965;
58:295-300.
Kelly WN, et al. Guidelines for submitting adverse event reports for publication. Drug
Safety 2007;30 (5):367-73.
Stehouwer CDA. Rapportage van observationeel onderzoek: nuttige en welkome aan-
bevelingen ter verbetering. Ned Tijdschr Geneeskd 2008;152:182-4.
Straus SE, Richardson WS, Glasziou P, Haynes RB. Evidence-based medicine: How to
practice and teach EBM. 6 Harm. 3rd ed. Edinburgh: Churchill Livingstone, 2005.
Talbot JCC, Stephens MDB. Clinical trials; Collection of safety data and establishing
the adverse reaction profile. In: Talbot JCC, Waller P (eds). Stephens’ detection of
new adverse drug reactions. Chichester: Wiley, 2004:167-233.
Users’ Guides to EBP. Centre for Health Evidence [geraadpleegd op 29 februari 2008].
Beschikbaar op website www.cche.net/usersguides/main.asp
Vandenbroucke JP. Het belang van medische casuı̈stiek te midden van ‘evidence-based’
geneeskunde en moleculaire verklaringen. Ned Tijdschr Geneeskd 2002;146:1699-
703.
4 Kritisch beoordelen van een artikel 119
4.6 Screening1
4.6.1 inleiding
Screening of vroege opsporing houdt in dat men personen die geen
medische hulp zoeken gaat testen op de aanwezigheid van een afwij-
king. De meest bekende voorbeelden van screening zijn de bevol-
kingsonderzoeken naar baarmoederhals- en borstkanker. Op deze
manier kan men in een vroeg stadium een tumor opsporen die bij
afwezigheid van screening pas jaren later tot klachten zou hebben
geleid. Soms wordt onder screening ook het opsporen van risicofac-
toren zoals hoge bloeddruk of verhoogd cholesterol verstaan. Door
gevonden risicofactoren te behandelen denkt men een latere compli-
catie (zoals hartinfarct of beroerte) te voorkomen. Ook bij het scree-
nen van familieleden van mensen met een erfelijke afwijking screent
men in principe op een verhoogde kans op bepaalde afwijkingen.
Voorbeelden hiervan zijn de screening van familieleden van patiënten
met een familiaire hypercholesterolemie of hartritmestoornissen. In
principe verschillen deze screeningsprogramma’s niet van die waarbij
men aantoonbare afwijkingen opspoort. De verschillen zitten vooral in
het beleid dat naar aanleiding van de screeningsuitslag wordt gevoerd.
Bij de screening op risicofactoren zal het beleid gericht zijn op de
reductie van risicofactoren, terwijl bij de screening op aantoonbare
afwijkingen meestal chirurgische verwijdering (borstkanker, dikke-
darmpoliepen, aneurysma van de aorta) of gerichte behandeling (zoals
bloedsuikerverlagende medicijnen bij diabetes of ijzersuppletie bij
anemie) volgt.
Screening lijkt op het eerste gezicht aantrekkelijk, omdat men de
ziekte in een vroeg stadium opspoort en behandelt, wat de prognose
gunstig zou moeten beı̈nvloeden. In het geval van kanker betekent
vroegere detectie mogelijk een geringere kans op uitzaaiing en bij
diabetes mogelijk minder kans op vasculaire complicaties. Een be-
langrijk nadeel van screening is echter dat men in het algemeen zeer
veel mensen moet screenen om slechts enkele afwijkingen op te spo-
ren. Zo vertonen bijvoorbeeld ongeveer drie van de duizend uitstrijkjes
premaligne afwijkingen en lang niet alle verdachte uitstrijken zijn ook
werkelijk een voorstadium van kanker (fout-positieven).
Daarnaast kan screening veel ongerustheid teweegbrengen. Het is ook
1 Voor een goed begrip van deze paragraaf dienen de paragrafen 4.2 tot en met
4.5 bestudeerd te zijn.
120 Inleiding in evidence-based medicine
niet altijd zo dat afwijkingen die via screening worden ontdekt, ver-
volgens ook succesvol kunnen worden behandeld of dat de gescreende
altijd met de behandeling instemt. Een voorbeeld van het eerste is
screening op prostaatcarcinoom met het prostaatspecifiek antigeen
(PSA), waarvan de waarde nog niet vaststaat. Een voorbeeld van het
laatste is screening van zwangere vrouwen op downsyndroom met de
bloedtripletest, waarbij de ouders besluiten om geen abortus te laten
uitvoeren. In deze gevallen kan men zich afvragen wat de vroegere
diagnose de patiënt of ouder heeft opgeleverd. Soms leidt de behan-
deling van de opgespoorde afwijking al direct tot schade, bijvoorbeeld
als iemand overlijdt aan de behandeling van een aneurysma van de
buikslagader dat bij screening is opgespoord. Voordat men kan gaan
screenen, moet dus aan veel voorwaarden zijn voldaan. Behalve dat er
een goede screeningstest voorhanden moet zijn, die acceptabel en
niet-invasief is, moet er een goede behandeling van de opgespoorde
afwijking beschikbaar zijn en screening moet uiteindelijk overtuigend
aantoonbaar tot minder klinisch manifeste ziekte en sterfte leiden. In
1968 formuleerden Wilson en Jungner in een door de Wereldgezond-
heidsorganisatie uitgegeven publicatie de tien criteria waaraan een
verantwoord bevolkingsonderzoek zou moeten voldoen. Hoewel deze
criteria bijna een halve eeuw geleden werden geformuleerd, zijn ze
nog steeds algemeen aanvaard. Er zijn nadien wel nieuwere lijstjes
gemaakt, maar deze zijn een variatie op de door Wilson en Jungner
aangedragen thema’s.
Beoordelingscriteria
Voor de beoordeling van A) de waarde van een screeningstest en B) de effecti-
viteit van screening gelden dezelfde criteria als voor het beoordelen van een
diagnostische test (paragraaf 4.2) en interventieonderzoek (paragraaf 4.4). De
volgende punten vragen extra aandacht.
A Screeningstest
Validiteit
1 Valide referentietest: follow-up lang genoeg om fout-negatieven te schatten?
2 Ziektekenmerken van de onderzochte personen (spectrum)
3 Adequate beschrijving screeningstest
Belang
1 Diagnostische waarde van de screeningstest
2 Precisie van de geschatte diagnostische parameters
Toepasbaarheid
1 Geschiktheid van de diagnostische test voor de te screenen populatie
2 Beschikbaarheid en kosten van de diagnostische test
3 Inschatting van de voorafkans
4 Beı̈nvloeding van de handelwijze door de verkregen achterafkans
Validiteit
1 Valide referentietest
Bij de evaluatie van een diagnostische test moet de referentietest de
werkelijkheid zo goed mogelijk benaderen en patiënten zullen meestal
de indextest en de referentietest ondergaan. Indien men in de kliniek
voor het aantonen van een vaatvernauwing het invasieve contraston-
derzoek wil vervangen door niet-invasief echografisch onderzoek, laat
men bij de evaluatie van de nieuwe test alle patiënten ook nog het
invasieve onderzoek ondergaan. Er is immers geen alternatief. In de
screeningssituatie kan dit niet, omdat de personen die aan screening
deelnemen geen klachten hebben en het daarom niet ethisch is een
invasieve referentietest uit te voeren wanneer de screeningstest nega-
tief is. Bij de evaluatie van het mammogram als screeningstest kan
men alleen maar de vrouwen met een positief mammogram onder-
werpen aan een volgend onderzoek (een naaldbiopt of chirurgische
excisie) om de uitkomst van het mammogram te bevestigen. De diag-
nostische waarde van een dergelijke screeningstest kan in feite pas
berekend worden door de test-negatieven jaren te volgen en systema-
tisch na te gaan of in deze groep de aandoening waarop gescreend
werd niet alsnog is opgetreden. Op deze manier wordt inzicht ver-
worven in de proportie fout-negatieven. Hierbij moet men zich goed
realiseren dat men dan in feite gebruikmaakt van een tweede (minder
betrouwbare) referentietest (differentiële verificatie). Van groot belang
hierbij is de lengte van de follow-up waarin de gemiste afwijkingen
aan het licht kunnen komen. Deze moet in overeenstemming zijn met
de latentietijd van de aandoening. Bij baarmoederhalskanker kunnen
bijvoorbeeld na tien jaar nog afwijkingen gesignaleerd worden die bij
screening al aanwezig geweest moeten zijn. Bij borstkanker kan deze
follow-up korter zijn, maar toch minstens enkele jaren bedragen.
Door kort na een eerste screeningstest een tweede uit te voeren kan
het aantal fout-negatieven in een aantal screeningssituaties worden
beperkt, waardoor de sensitiviteit hoger wordt. Bij de screening op
baarmoederhalskanker ontstaat een deel van de fout-negatieve uitsla-
gen doordat de afwijking niet in het uitstrijkje is terechtgekomen, een
tweede uitstrijkje maakt dan de kans op het vangen van de afwijking
groter. Indien een test fout-negatief is omdat de afwijking weliswaar
aanwezig is maar te klein is om zichtbaar te zijn (bijvoorbeeld mam-
ma- of longtumor), leidt een tweede test niet tot een verhoging van de
sensitiviteit.
124 Inleiding in evidence-based medicine
Belang
1 Diagnostische waarde van de screeningstest
Net als bij de beoordeling van een artikel over een diagnostische test
moet worden vastgesteld hoe goed de screeningstest de aan- of afwe-
zigheid van de aandoening kan voorspellen en worden de resultaten in
een 262 tabel uitgezet (zie tabel 4.1). In de praktijk heeft men zelden
met dichotome testuitslagen te maken en afkappunten worden op
grond van expertmeningen gekozen. Zelden echter zullen al deze
afkappunten op empirisch onderzoek berusten, omdat doorgaans
onvoldoende informatie voorhanden is over het natuurlijk beloop.
Indien bij de screening een carcinoma in situ van de baarmoederhals
wordt gevonden, zal de vrouw voor een biopsie (en histologisch on-
derzoek) naar een gynaecoloog worden verwezen. Indien echter een
geringe dysplasie wordt gevonden, wordt er in de regel geen biopsie
en histologisch onderzoek naar de verdachte afwijking gedaan. Dit
126 Inleiding in evidence-based medicine
Toepasbaarheid
1 Geschiktheid van de screeningstest voor de te screenen populatie
De personen bij wie u de test wilt toepassen moeten overeenkomen
met de personen die in het onderzoek beschreven zijn. In de regel is
het ziektestadium in de screeningssituatie anders dan in de curatieve
geneeskunde. Dit heeft grote consequenties voor het onderschei-
dingsvermogen van een test. In de screeningssituatie wil men juist
preklinische afwijkingen opsporen, waardoor tests die goed voldoen
in de huisarts- of specialistische praktijk minder presteren in scree-
ningssituaties. Omdat personen die aan screening deelnemen geen
klachten hebben, weegt de belasting (straling, kans op complicaties)
van de screeningstest zwaar. Meestal is de belasting van de gebruikte
screeningstests laag, maar komt de belasting pas bij vervolgonderzoek
om de hoek kijken. Bij de evaluatie van een screeningstest hoort ook
een evaluatie van de belasting van de tests die worden uitgevoerd
nadat de screeningstest positief is gebleken. Denk hierbij bijvoorbeeld
aan het mammabiopt na een positief mammogram. Bij 50% van de
doorverwezen vrouwen zal uit dit mammabiopt blijken dat er geen
sprake is van borstkanker, terwijl intussen wel een chirurgische in-
greep is uitgevoerd. Zo moet ook rekening worden gehouden met de
4 Kritisch beoordelen van een artikel 127
Alleen nieuwe vormen van screening kunnen dus eigenlijk goed wor-
den geëvalueerd in een gerandomiseerd experiment. Zo gauw de test
(bijvoorbeeld de echo van de aortadiameter) gemakkelijk verkrijgbaar
is, wordt de vraag naar de test in de controlegroep zo groot dat het
effect van screening wordt verdund. Om het effect van screening aan
te tonen zijn honderdduizenden mensen nodig, omdat het meestal
gaat om aandoeningen die weinig voorkomen. In een lopend onder-
zoek naar de effecten van screening op prostaatkanker worden
200.000 personen gerandomiseerd over de interventie (bepaling van
het serumprostaatspecifieke antigeen (PSA)) en de controlegroep.
Bij de beoordeling van een gerandomiseerd screeningsonderzoek
moeten exact dezelfde overwegingen gehanteerd worden als die bij de
evaluatie van een therapeutisch onderzoek. Hoe de interne validiteit
van het onderzoek, het belang ervan en de toepasbaarheid van de
interventie moeten worden beoordeeld is te vinden in paragraaf 4.4.
Hierna staat een aantal punten die met name bij de uitvoering van een
screeningsonderzoek van belang zijn.
Validiteit
1 Randomisatie
Hoewel individuele randomisatie de voorkeur verdient, is dit om lo-
gistieke en methodologische redenen niet altijd mogelijk en wordt
zogenoemde clusterrandomisatie toegepast. Bij clusterrandomisatie
worden geen individuen gerandomiseerd maar groepen van indivi-
4 Kritisch beoordelen van een artikel 129
4 Follow-up
Indien men randomiseert, kunnen de interventie- en controlearm op
ieder moment in de tijd ten aanzien van het optreden van het gekozen
eindpunt worden vergeleken. Grote problemen ontstaan wanneer niet
is gerandomiseerd. Het vergelijken van overlevingscijfers in de ge-
screende en niet-gescreende groep leidt dan tot een kunstmatig gun-
stiger overlevingscijfer in de gescreende groep, doordat de ziekte door
screening eerder onderkend wordt. De overleving is immers de pe-
riode tussen onderkenning van de ziekte en het tijdstip van overlijden
aan de ziekte. Dit wordt ook wel ‘lead time’ bias genoemd en ontstaat
omdat de diagnose wordt vervroegd terwijl het tijdstip van overlijden
hetzelfde is (figuur 4.8).
A heeft een
knobbeltje
van 10 mm dat B heeft een
na 1,5 jaar knobbel van
wordt ontdekt 7 cm die na A en B
begin bij een 4,5 jaar wordt overlijden
kanker screenings- ontdekt bij beiden na
bij A en B mammografie palpatie 8 jaar
6 Het screeningsinterval
Het optimale screeningsinterval wordt vaak gebaseerd op kennis om-
trent het natuurlijk beloop van een ziekte. Door gebruikmaking van
allerlei mathematische modellen kan voor verschillende screenings-
intervallen de kans op ziekte worden gesimuleerd. Het screenings-
interval is vrijwel nooit onderwerp van gerandomiseerde onderzoeken
waarin verschillende screeningsintervallen met elkaar worden verge-
leken. Deze onderzoeken zijn vanwege hun grote omvang niet reali-
seerbaar.
Analoog aan het ‘number needed to treat’ (zie paragraaf 4.4) kan het
‘number needed to screen’ worden berekend. Hiervoor moet men
weten wat de prevalentie van de aandoening is en welke sterftereductie
bij ontdekking bereikt kan worden. Het ‘number needed to screen’ is
dan het aantal mensen dat gedurende een bepaalde periode gescreend
moet worden om één dode te voorkomen.
Naast het primaire eindpunt moet in screeningsonderzoeken aandacht
worden besteed aan kwaliteit-van-leven-aspecten. Hierbij moet men
vooral waarderen hoe kwaliteit van leven gemeten is bij fout-positieve
en fout-negatieve testuitslagen. Daarnaast moet ook worden nagegaan
wat de invloed van de vroeg-herkenning en de daarna volgende be-
handeling op de kwaliteit van leven is. Sommige behandelingen zijn
relatief kortdurend, zoals de operatieve verwijdering van een prema-
ligne afwijking, en hebben daardoor een beperkt effect op de kwaliteit
4 Kritisch beoordelen van een artikel 133
van leven, maar behandelingen kunnen ook zeer langdurig zijn, bij-
voorbeeld na vroege opsporing van diabetes, nierfalen of cystische
fibrose. Ook moet het aantal interventies nauwkeurig worden bijge-
houden in de experimentele en interventiegroep. Screening leidt vrij-
wel altijd tot overbehandeling, omdat afwijkingen worden opgespoord
waaraan men nooit zou overlijden en die soms zelfs helemaal geen
klinische betekenis hebben. Dit fenomeen moet worden meegenomen
in de afweging om wel of niet op een aandoening te screenen.
4.6.3 conclusie
In deze paragraaf is de beoordeling van onderzoek naar de waarde van
screening aan de orde gekomen. Bij de beoordeling van dergelijk
onderzoek dienen zowel aspecten ten aanzien van de diagnostische
waarde van de screeningstest te worden beschouwd als het effect van
de screening zelf. In geval van screeningsonderzoek geldt voor beide
componenten, dat nuanceringen aangebracht dienen te worden in de
oorspronkelijke beoordelingscriteria voor diagnostisch onderzoek
(paragraaf 4.2) en interventieonderzoek (paragraaf 4.4). De conse-
quenties met betrekking tot fout-negatieven, fout-positieven en kwa-
liteit van leven dienen voldoende aandacht te krijgen, omdat in be-
ginsel gezonde personen worden onderzocht. Omdat screeningspro-
gramma’s zeer kostbaar zijn en leiden tot politieke keuzen moet de
kosteneffectiviteitsanalyse aan zeer hoge eisen voldoen.
Literatuur
Barratt A, Irwig L, Glasziou P, et al. Users’ guides to the medical literature. XVII. How
to use guidelines and recommendations about screening. JAMA 1999;281:2029-34.
Day NE. The theoretical basis for cancer screening. Cancer Treat Res 1996;86:9-24.
Klaveren RJ van, Oudkerk M, Mali WThM, Koning HJ de. Screenen op longkanker met
de multidetector-CT: voorlopig nog af te raden. Ned Tijdschr Geneeskd 2008;152:
125-8.
Rosser WW, Shaffir MS. Evidence-based family practice. Hamilton: Decker, 1998.
Straus SE, Richardson WS, Glasziou P, Haynes RB. Evidence-based medicine: How to
practice and teach EBM. 3 Diagnosis and screening. 3rd ed. Edinburgh: Churchill
Livingstone, 2005.
The UK National Screening Committee. Criteria for appraising the viability, effective-
ness and appropriateness of a screening programme. [geraadpleegd op 29 februari
2008]. Beschikbaar op http://www.nsc.nhs.uk/uk_nsc/uk_nsc_ind.htm
Users’ Guides to EBP. Centre for Health Evidence [geraadpleegd op 29 februari 2008].
Beschikbaar op www.cche.net/usersguides/main.asp
Wilson JMG, Jungner G. Principles and practice of screening for disease. Public Health
Paper no 34. Genève: WHO, 1968.
134 Inleiding in evidence-based medicine
4.7 Klinimetrie
4.7.1 inleiding
In de jaren tachtig van de vorige eeuw introduceerde Alvan Feinstein
de term klinimetrie in de medische literatuur als een methodologische
discipline die zich richt op het meten van klinische verschijnselen.
Klinimetrie houdt zich bezig met de kwaliteit van klinische metingen.
Daarbij gaat het zowel om de kwaliteit van de meetinstrumenten als
om de kwaliteit van de metingen zelf. Bij klinische meetinstrumenten
kan men denken aan bepalingen in het bloed en de urine, beoorde-
lingen van röntgenfoto’s, bevindingen van het lichamelijk onderzoek,
vragenlijsten, interviews, observatiemethoden, dagboeken, etc. De
kwaliteit van de meetinstrumenten hangt af van de meeteigenschap-
pen van het instrument, de zogenoemde klinimetrische eigenschap-
pen. De kwaliteit van de metingen zelf hangt af van de persoon die
de metingen verricht (bijv. de mate van expertise), de persoon die ge-
meten wordt (bijv. cognitieve vermogens van de patiënt) en van om-
gevingsfactoren (bijv. tijdstip van de dag).
Voor het stellen van de juiste diagnose, voor het inschatten van de
prognose en voor het bepalen van de effectiviteit van een interventie
zijn meetinstrumenten nodig. Deze dienen uiteraard van de hoogst
mogelijke kwaliteit te zijn en het is dan ook van groot belang de
kwaliteit van deze meetinstrumenten te bepalen. Vaak zijn er meerdere
meetinstrumenten beschikbaar voor een bepaalde situatie en moet er
een keuze worden gemaakt. Naast praktische overwegingen als kosten
en belasting voor de patiënt, spelen de klinimetrische eigenschappen
van het meetinstrument een belangrijke rol bij de keuze.
Meetinstrumenten kunnen verschillende doelen hebben:
1 het meten van de gezondheidstoestand van patiënten op één mo-
ment in de tijd om onderscheid te kunnen maken tussen patiënten
met een betere of slechtere gezondheidstoestand (discriminatie,
bijv. diagnostiek);
2 het meten van veranderingen in de gezondheidstoestand van
patiënten in de tijd (evaluatie, bijv. effectonderzoek); en
3 het voorspellen van de gezondheidstoestand van patiënten in de
toekomst (predictie, bijv. prognostisch onderzoek).
Binnen elk van deze drie doelen kan men geı̈nteresseerd zijn in de
meting van één patiënt (gebruik op individueel niveau), zoals in de
dagelijkse klinische praktijk, of in de metingen van een groep patiën-
ten (gebruik op groepsniveau), zoals in onderzoek. Het doel waarvoor
4 Kritisch beoordelen van een artikel 135
men het meetinstrument wil gebruiken en het niveau waarop men wilt
meten, bepalen welke klinimetrische eigenschappen van belang zijn
en hoe ‘goed’ de klinimetrische eigenschappen moeten zijn.
Validiteit en belang
De beoordeling van de klinimetrische eigenschappen van een meet-
instrument is een complexe zaak. De verschillende klinimetrische
eigenschappen, hun definities en criteria voor beoordeling staan
vermeld in tabel 4.9. Ze worden hierna kort behandeld.
Het is niet altijd noodzakelijk dat alle klinimetrische eigenschappen
van een meetinstrument aan de gestelde eisen voldoen. Sommige
klinimetrische eigenschappen zijn voor bepaalde toepassingen heel
belangrijk, maar voor andere toepassingen niet. Wanneer dit het geval
is, wordt hierna aangegeven voor welke doelen of voor welk soort
meetinstrumenten deze klinimetrische eigenschap wel of niet van
belang is.
1 Inhoudsvaliditeit
Inhoudsvaliditeit is de mate waarin de inhoud van het meetinstrument
een adequate afspiegeling is van het construct (datgene wat het
meetinstrumentbeoogt te meten). Het construct moet daarom duide-
lijk omschreven zijn. Vervolgens moeten alle relevante aspecten van
het construct worden gemeten. Bijvoorbeeld: bij een vragenlijst om
functionele beperkingen te meten van patiënten met schouderklach-
ten, moet aannemelijk zijn dat alle relevante (potentiële) beperkingen
van patiënten met schouderklachten aan bod komen in de vragen en
136 Inleiding in evidence-based medicine
Tabel 4.9 Beoordelingscriteria voor onderzoek naar de ontwikkeling en/of validering van een
meetinstrument (Terwee et al. J Clin Epidemiol 2007;60:34-42).
klinimetrische definitie kwaliteitscriteria1,2
eigenschap
1 inhoudsvaliditeit De mate waarin de in- + een duidelijke beschrijving van het doel, de
houd van het meetin- doelpopulatie, de constructen die het meetinstru-
strument een adequate ment beoogt te meten, en de itemselectie en
afspiegeling is van het -reductie EN doelpopulatie en (onderzoekers OF
construct dat het meet- experts OF literatuur) waren betrokken bij item-
instrument beoogt te selectie;
meten ? een duidelijke beschrijving van voorgaande
aspecten ontbreekt OF alleen de doelpopulatie
was betrokken bij de itemselectie OF (potentiële)
methodologische tekortkomingen;
– doelpopulatie niet betrokken bij itemselectie;
0 geen informatie over inhoudsvaliditeit.
6 responsiviteit Het vermogen van het + SDCindividual of SDCgroup < MIC OF MIC buiten de
meetinstrument om ver- LOA OF responsiviteitsratio > 1.96 OF AUC 0.70;
anderingen in de tijd te ? (potentiële) methodologische tekortkomingen;
kunnen meten in het – SDCindividual of SDCgroup MIC OF MIC gelijk aan
construct dat het meet- of binnen de LOA OF responsiviteitsratio 1.96 OF
instrument beoogt te AUC < 0.70, ondanks adequaat design en methode;
meten 0 geen informatie over responsiviteit.
7 bodem- en pla- Het aantal responden- + < 15% van de respondenten heeft de laagst of
fondeffecten ten dat de laagst of hoogst mogelijk score;
hoogst mogelijke score ? (potentiële) methodologische tekortkomingen;
heeft – >15% van de respondenten heeft de laagst of
hoogst mogelijk score, ondanks adequaat design
en methode;
0 geen informatie over bodem- en plafondeffecten.
1
+ = positieve beoordeling; ? = onbepaalde beoordeling; – = negatieve beoordeling; 0 = geen informatie
beschikbaar.
2
(Potentiële) methodologische tekortkomingen = onduidelijke beschrijving van het design of de onderzoeks-
methoden van de studie, groepsgrootte kleiner dan 50 personen (moet ten minste 50 zijn in iedere (sub-
groep)analyse), of andere belangrijke methodologische tekortkomingen of potentiële vormen van bias in het
design of de uitvoering van de studie.
ICC = intraclass correlation coefficient; MIC = minimal important change; SDC = smallest detectable change;
LOA = limits of agreement; SD = standaarddeviatie.
138 Inleiding in evidence-based medicine
dat alle vragen relevant zijn voor patiënten met schouderklachten. Het
is hiervoor essentieel dat de doelpopulatie (patiënten met schouder-
klachten) bij het ontwikkelen van het meetinstrument betrokken is
geweest. De methode van itemselectie en itemreductie moet duidelijk
beschreven zijn. Ten slotte moet het meetinstrument begrijpelijk zijn.
Bijvoorbeeld: een vragenlijst moet in gemakkelijke taal geschreven zijn
en de vragen mogen niet op verschillende manieren interpreteerbaar
zijn. Ook moeten de instructies bij een fysisch-diagnostische test
duidelijk zijn, zodat de test altijd op dezelfde manier wordt uitgevoerd.
Het is dan ook van belang dat een pilotstudie is uitgevoerd om het
meetinstrument te testen.
2 Interne consistentie
Interne consistentie is de mate waarin de items van het meetinstru-
ment met elkaar samenhangen. In een unidimensionale (sub)schaal
(bijvoorbeeld een subschaal over beperkingen met lopen) geeft interne
consistentie de mate weer waarin de items hetzelfde construct meten.
Interne consistentie is van belang voor vragenlijsten die uit meerdere
items bestaan, waarvan verwacht wordt dat deze items hoog met
elkaar correleren. Een voorbeeld is een vragenlijst voor het meten van
beperkingen bij het uitvoeren van dagelijkse activiteiten voor patiënten
met artrose. In de vragenlijst wordt gevraagd hoeveel moeite de pa-
tiënt heeft met het uitvoeren van verschillende activiteiten. Verwacht
wordt dat patiënten die moeite hebben met bijvoorbeeld honderd
meter lopen en lopen op een ongelijke ondergrond, ook moeite zullen
hebben met traplopen. Deze vragen zullen naar verwachting hoog met
elkaar correleren. In een vragenlijst die lichamelijke activiteit meet,
wordt echter gevraagd welke activiteiten iemand op een dag allemaal
doet. Deze activiteiten hoeven helemaal niet met elkaar te correleren:
als iemand voetbalt, hoeft hij helemaal niet ook te zwemmen of te
basketballen. In zo’n geval is interne consistentie niet relevant.
Cronbach’s alfa is een algemeen geaccepteerde maat voor interne
consistentie van een (sub)schaal. De Cronbach’s alfa geeft een soort
gemiddelde correlatie weer tussen alle items in een schaal. Een
Cronbach’s alfa tussen de 0.70 en 0.95 wordt over het algemeen als
goed beschouwd. Als de Cronbach’s alfa te hoog is (> 0.95), wijst dit
op redundantie: er zitten dan te veel vragen in de (sub)schaal die zo
goed als hetzelfde meten. Dit levert niets op, maar verhoogt wel de
belasting voor de patiënt.
Voordat de Cronbach’s alfa berekend kan worden, moet echter altijd
eerst een factoranalyse zijn uitgevoerd om te kijken welke dimensies,
of subschalen, er in een vragenlijst te onderscheiden zijn. In een
4 Kritisch beoordelen van een artikel 139
factoranalyse zullen items die hoog met elkaar correleren één factor
(of subschaal) vormen; items die laag met elkaar correleren worden
aan verschillende factoren toegekend. De Cronbach’s alfa moet ver-
volgens per subschaal zijn bepaald.
3 Criteriumvaliditeit
Criteriumvaliditeit is de mate waarin de scores op het meetinstrument
een adequate afspiegeling zijn van een gouden standaard, bijvoorbeeld
de correlatie tussen het totale energieverbruik berekend uit een vra-
genlijst naar de mate van lichamelijke activiteit, en het totale energie-
verbruik berekend met de methode van dubbel gelabeld water. Voor
deze correlatie wordt meestal de gangbare pearson-correlatiecoëffici-
ënt gebruikt. Een correlatie van ten minste 0.70 wordt als acceptabel
beschouwd.
Diagnostische tests kunnen soms worden vergeleken met een gouden
standaard, waarbij de sensitiviteit en specificiteit kunnen worden be-
paald (zie paragraaf 4.2).
4 Constructvaliditeit
Voor veel metingen bestaat geen gouden standaard, bijvoorbeeld voor
het meten van kwaliteit van leven. In dat geval kan criteriumvaliditeit
niet worden bepaald en is men aangewezen op zogenoemde con-
structvaliditeit. Constructvaliditeit is de mate waarin de uitslagen van
scores op het meetinstrument consistent zijn met resultaten van an-
dere meetinstrumenten. Het te valideren meetinstrument moet dan
hoog correleren met andere meetinstrumenten die hetzelfde construct
beogen te meten (convergente validiteit) en laag correleren met meet-
instrumenten die een ander construct beogen te meten (divergente
validiteit). Een vragenlijst voor het meten van lichamelijke activiteit,
bijvoorbeeld, zou hoger moeten correleren met accelerometer counts
dan met body mass index of uithoudingsvermogen, omdat deze laatste
door veel meer andere factoren dan alleen lichamelijke activiteit wor-
den bepaald. Voor het op deze wijze meten van constructvaliditeit
dienen vooraf hypothesen opgesteld te worden, bijvoorbeeld met be-
trekking tot onderlinge correlaties tussen de items, relaties met scores
op andere meetinstrumenten, of verschillen tussen relevante groepen.
Ook moeten verschillen in scores op het meetinstrument worden
aangetoond tussen groepen waarvan men op grond van theoretische
kennis verwacht dat de groepen verschillen in het construct dat het
meetinstrument beoogt te meten (‘known-groups’ validiteit). Wanneer
men significante verschillen in kwaliteit van leven verwacht tussen
140 Inleiding in evidence-based medicine
40
30
20
10
0 d
-10
-20
-30
-40
-40 -20 0 20 40 60 80 100 120
Figuur 4.9 Voorbeeld van een Bland en Altman plot met bijbehorende limits of
agreemeent. De limits of agreement lopen van –23.4 tot 14.2 punten.
5 Reproduceerbaarheid
Reproduceerbaarheid is de mate waarin een meting vrij is van meet-
fouten. Binnen reproduceerbaarheid kan onderscheid gemaakt wor-
den tussen de meetfout en de betrouwbaarheid. Beide zijn belangrijke
klinimetrische eigenschappen, dus zowel de meetfout als de be-
trouwbaarheid moet zijn bepaald.
5.1 Meetfout
De meetfout is de systematische en toevallige (‘random’) fout van een
score die niet kan worden toegeschreven aan echte veranderingen in
het construct dat het meetinstrument beoogt te meten. De meetfout
geeft aan welke fout men kan verwachten bij herhaalde metingen,
uitgedrukt in de eenheid van het meetinstrument. De meetfout van een
personenweegschaal kan bijvoorbeeld wel 500 gram zijn. Dat betekent
dat bij een herhaalde weging een persoon 500 gram zwaarder of
lichter kan lijken zijn als gevolg van meetfouten. De meetfout moet
zijn bepaald door middel van een test-hertestonderzoek, waarbij het
meetinstrument twee keer is afgenomen bij een groep stabiele perso-
nen. De tijd tussen de metingen moet zo kort mogelijk zijn geweest
om te zorgen dat de personen stabiel bleven, maar niet zo kort dat
142 Inleiding in evidence-based medicine
meting. De SDC wordt in een groep kleiner met een factor Hn (men
spreekt dan van groeps SDC), waarbij n de grootte van de groep
weergeeft. Zo kan men zelf de groepsgrootte bepalen die nodig is om
met het betreffende meetinstrument klinisch relevante verschillen op
groepsniveau te kunnen onderscheiden van meetfouten. Op basis
hiervan kan men beoordelen of het meetinstrument geschikt is om in
de eigen situatie te gebruiken.
5.2 Betrouwbaarheid
Betrouwbaarheid is de mate waarin personen van elkaar kunnen
worden onderscheiden, ondanks de meetfout. Een hoge betrouw-
baarheid is noodzakelijk voor discriminatieve doeleinden, wanneer
men personen met bijvoorbeeld een minder of meer ernstige vorm van
ziekte van elkaar wil kunnen onderscheiden. De betrouwbaarheid en
de meetfout kunnen beide zijn bepaald in hetzelfde test-herteston-
derzoek. De intraclass correlatiecoëfficiënt (ICC) is een algemeen ge-
accepteerde maat voor het kwantificeren van de betrouwbaarheid van
meetinstrumenten met continue uitkomsten, zoals bloeddruk of ge-
wicht. In de ICC wordt de variatie tussen personen gedeeld door de
totale variatie (= de variatie tussen personen plus de meetfout). De ICC
is dus dat deel van de variatie in scores dat kan worden toegeschreven
aan ‘echte’ verschillen tussen personen. Er kunnen verschillende
soorten ICC’s zijn berekend. Voor test-hertestbetrouwbaarheid is de
ICC voor absolute overeenstemming het meest geschikt.
Voor ordinale maten, dat wil zeggen schalen met een beperkt aantal
opeenvolgende categorieën, bijvoorbeeld een 7-puntsschaal, moet een
gewogen Cohen’s Kappa zijn bepaald. Kappa drukt de mate van over-
eenstemming uit tussen twee metingen of twee beoordelaars die boven
de toevalsvariatie uitstijgt. Zou men louter het percentage overeenstem-
ming berekenen dan geeft dat een iets te optimistisch resultaat, omdat
hierbij geen rekening wordt gehouden met toevalsovereenkomst.
Een ICC of gewogen Kappa van ten minste 0.70 wordt over het alge-
meen acceptabel gevonden voor metingen op groepsniveau. Voor me-
tingen op individueel niveau moet de betrouwbaarheid hoger zijn (net
zoals de meetfout kleiner moet zijn). Vaak wordt een waarde van 0.90
als minimum genoemd.
6 Responsiviteit
Responsiviteit is het vermogen van een meetinstrument om verande-
ringen in de tijd te meten in het construct dat het meetinstrument
beoogt te meten. Dit is van belang wanneer men het meetinstrument
voor evaluatieve doeleinden wil gebruiken. Responsiviteit is een vorm
144 Inleiding in evidence-based medicine
7 Bodem- en plafondeffecten
Bodem- en plafondeffecten zijn aanwezig wanneer meer dan 15% van
de gemeten patiënten de laagst (bodem) of hoogst (plafond) mogelijke
score heeft. Als dat zo is, is het denkbaar dat er items ontbreken aan
de uiteinden van de schaal. Deze patiënten zouden slechter of beter
kunnen zijn dan de slechtst of best mogelijke score. Dit betekent dat
het instrument een gebrekkige inhoudsvaliditeit (item 1) heeft. Meer
items aan het uiteinde van de schaal zouden deze mensen verder uit
elkaar kunnen trekken. Als gevolg van bodem- of plafondeffecten
kunnen patiënten aan de uiteinden van de schaal niet goed van elkaar
worden onderscheiden, wat de betrouwbaarheid beperkt (item 5.2).
Tevens kan de responsiviteit van het meetinstrument beperkt zijn,
omdat patiënten aan het uiteinde van de schaal niet nog slechter of
nog beter kunnen worden (item 6).
4 Kritisch beoordelen van een artikel 145
8 Interpreteerbaarheid
Interpreteerbaarheid van scores is van groot belang voor elke toepas-
sing van het meetinstrument. Van sommige meetinstrumenten zijn de
scores direct interpreteerbaar, bijvoorbeeld in geval van een vragenlijst
over lichamelijke activiteit die het aantal minuten in kaart brengt dat
iemand bepaalde activiteiten per dag uitvoert. De score wordt uitge-
drukt in het totaal aantal minuten activiteit per dag. Deze score is
direct interpreteerbaar. Veel meetinstrumenten produceren echter
scores die niet direct interpreteerbaar zijn. Wat betekent bijvoorbeeld
een score van 40 punten op een kwaliteit-van-leven schaal van 0-100?
Gaat het dan slecht met een patiënt, is dat een indicatie voor behan-
deling? Hoe scoort de gemiddelde patiënt of de gemiddelde persoon
uit de algemene bevolking op deze schaal? Als iemand na verloop van
tijd vijf punten hoger scoort, is dat dan een belangrijke verbetering?
Welk verschil in score is een minimaal klinisch relevant verschil? Dit
soort vragen moet beantwoord zijn, wil men het instrument kunnen
gebruiken in de praktijk en voor onderzoek.
Verschillende typen informatie kunnen bijdragen aan inzicht in de
interpreteerbaarheid van scores, bijvoorbeeld gemiddelde scores (met
standaarddeviatie) van een referentiepopulatie (bijv. de algemene be-
volking, bij voorkeur zowel totaalscores als scores uitgesplitst naar
leeftijd en geslacht), gemiddelde scores van ‘herkenbare’ subgroepen
van patiënten (bijv. verschillende diagnosecategorieën), gemiddelde
scores van patiënten voor en na een standaardbehandeling, of ge-
middelde verschilscores van patiënten per categorie van een globale
maat (bijv. een 7-puntsschaal) voor de mate van ervaren herstel. Hoe
meer van dit soort gegevens beschikbaar is, hoe beter men in staat is
absolute scores en verschilscores te interpreteren.
Ook moet altijd een minimaal klinisch relevant verschil (minimal
important change, MIC) in de score op het meetinstrument zijn be-
paald om verschilscores interpreteerbaar te maken en om power be-
rekeningen voor nieuwe studies te kunnen doen. Dit kan het beste met
een zogenoemde ‘anchor-based’ methode. Bij ‘anchor-based’ metho-
den wordt een externe maat (anker) gebruikt waaraan verschilscores
op het meetinstrument worden gerelateerd. Voor evaluatiedoeleinden
is dit anker vaak een globale maat (bijv. een 7-puntsschaal) voor de
mate van ervaren herstel die door de patiënt zelf wordt ingevuld. Voor
het bepalen van het minimaal klinisch relevante verschil tussen groe-
pen (voor discriminatie) worden vaak klinische maten als anker ge-
bruikt. Op basis van dit anker worden patiënten ingedeeld in personen
die wel en personen die niet verbeterd zijn. In figuur 4.10 is een
voorbeeld te zien van een pijnschaal die loopt van –6 tot 12 punten. In
146 Inleiding in evidence-based medicine
anker
− verandering in score op het meetinstrument +
4
ROC-afkappunt
2
-2
-4
-6
Overige aspecten
Naast de hiervoor in de checklist opgenomen aspecten is het voor een
juiste beoordeling van de klinimetrische eigenschappen van een
meetinstrument van belang dat de klinimetrische studie valide is uit-
gevoerd en dat er geen potentiële vertekening kan worden geconsta-
teerd. Om dat te kunnen beoordelen is een duidelijke omschrijving
nodig van de selectie van patiënten, de wijze waarop de data zijn
verzameld en de data-analyses. Ook moet de onderzoekspopulatie
voldoende groot zijn om een betrouwbare uitspraak te kunnen doen
over de klinimetrische eigenschappen. Een groepsgrootte van vijftig
patiënten wordt over het algemeen als acceptabel beschouwd. Wan-
neer bepaalde aspecten van de klinimetrische studie niet goed be-
schreven zijn, wanneer de onderzoekspopulatie te klein is, of wanneer
er sprake is van potentiële vormen van bias (bijv. selectiebias) of
andere methodologische tekortkomingen, kunnen de betreffende
klinimetrische eigenschappen niet goed worden beoordeeld.
Toepasbaarheid
De klinimetrische eigenschappen van een meetinstrument zijn niet
zonder meer generaliseerbaar van de ene naar de andere populatie.
Een vragenlijst voor het meten van functionele beperkingen van vol-
wassenen is bijvoorbeeld niet zonder meer valide voor het meten van
functionele beperkingen van kinderen. Sommige vragen zijn irrelevant
voor kinderen (bijvoorbeeld vragen over werk), terwijl belangrijke
vragen voor kinderen kunnen ontbreken (bijvoorbeeld vragen over
buitenspelen). Evenzo is een meetinstrument met een goede be-
trouwbaarheid in een algemene populatie niet per definitie ook een
betrouwbaar meetinstrument in een populatie ernstig zieke patiënten.
Ernstig zieke patiënten zijn misschien moeilijker van elkaar te onder-
scheiden dan personen uit de algemene bevolking, waar heel gezonde
en heel zieke mensen bij zitten. Ook is een meetinstrument dat ont-
wikkeld is voor discriminatieve doeleinden niet per definitie bruikbaar
voor evaluatiedoeleinden. Voor evaluatiedoeleinden moeten de vragen
of testuitslagen veranderbaar zijn en moet het meetinstrument res-
ponsief zijn, voor discriminatie hoeft dat niet.
Om de generaliseerbaarheid van de klinimetrische studie naar een
andere patiëntenpopulatie te kunnen beoordelen, is een goede be-
schrijving nodig van de inhoud en het doel van het meetinstrument en
de populatie waarvoor het meetinstrument is ontwikkeld. Ook is een
goede beschrijving nodig van de populatie waarin de klinimetrische
studie is uitgevoerd (diagnosen, demografische en klinische kenmer-
ken). Dit kan een andere populatie zijn dan de populatie waarvoor het
148 Inleiding in evidence-based medicine
4.7.3 conclusie
Het kritisch beoordelen van een klinimetrisch artikel vereist enige
kennis van zaken en praktische oefening. Men name het beoordelen
van de inhoudsvaliditeit van een meetinstrument is een lastige zaak,
omdat men afhankelijk is van de vaak beperkte informatie die in het
artikel is gepresenteerd. Met name informatie over de constructen die
het meetinstrument beoogt te meten, het doel waarvoor het meetin-
strument is ontwikkeld en de itemselectie, is vaak gebrekkig. Bij het
beoordelen van een klinimetrisch artikel moet ook goed worden gelet
op een voldoende duidelijke beschrijving van de populatie waarin de
klinimetrische eigenschappen zijn bepaald en de wijze waarop de data
zijn verzameld en geanalyseerd.
Voor sommige klinimetrische eigenschappen bestaat algemene con-
sensus over de optimale methode, bijvoorbeeld Cronbach’s alfa voor
het bepalen van interne consistentie, maar voor andere klinimetrische
eigenschappen, bijvoorbeeld voor validiteit en responsiviteit, bestaat
geen consensus. Ook worden er in de literatuur nauwelijks afkap-
punten beschreven voor wat ‘goede’ klinimetrische eigenschappen
zijn en worden er nauwelijks uitspraken gedaan over de benodigde
groepsgrootte voor klinimetrisch onderzoek. De hier gepresenteerde
criteria en afkappunten zijn gebaseerd op de beschikbare literatuur en
op jarenlange ervaring in het ontwikkelen en valideren van meetin-
strumenten.
Kennis over de klinimetrische eigenschappen van meetinstrumenten
is van groot belang, omdat er belangrijke beslissingen worden ge-
nomen op basis van de scores of testuitslagen van deze meetinstru-
menten. Daarom is het onontbeerlijk dat we erop kunnen vertrouwen
dat de scores betrouwbaar en valide zijn. In de praktijk valt hierop vaak
nog heel wat aan te merken, wanneer men een meetinstrument eens
kritisch beoordeelt. Juist deze kritische beoordeling moet echter bij-
dragen tot het signaleren van tekortkomingen, tot het opzetten van
meer en beter klinimetrisch onderzoek en tot het verbeteren van de
meetinstrumenten zelf.
4 Kritisch beoordelen van een artikel 149
Literatuur
Feinstein AR. Clinimetrics. New Haven, CT: Yale University Press, 1987.
Kirshner B, Guyatt G. A methodological framework for assessing health indices. J
Chronic Dis 1985;38:27-36.
Scientific Advisory Committee of the Medical Outcomes Trust. Assessing health status
and quality-of-life instruments: Attributes and review criteria. Quality of Life
Research 2002;11:193-205.
Streiner DL, Norman GR. Health measurement scales. A practical guide to their
development and use. Oxford: Oxford University Press, 2003.
Terwee CB, Bot SDM, Boer MR de, Windt DAWM van der, Knol DL, Dekker J, Bouter
LM, Vet HCW de. Quality criteria for clinimetric studies of health status question-
naires. J Clin Epidemiol 2007;60:34-42.
Vet HCW de, Terwee CB, Bouter LM. Current challenges in clinimetrics. J Clin Epide-
miol 2003;56:1137-41.
Vet HCW de, Terwee CB, Knol DL, Bouter LM. When to use agreement versus reliability
measures. J Clin Epidemiol 2006;59:1033-9.
Kritisch beoordelen van een 5
artikel: secundair onderzoek
5.1 Inleiding
Validiteit
Een systematische review is weliswaar systematisch, maar er kunnen
nog steeds subjectieve elementen in de review geslopen zijn. Daarom
dient men kritisch te kijken naar de wijze waarop de review is uitge-
voerd. Over het algemeen wordt beoordeeld of de methoden van
samenvatten (zoals die ook beschreven zijn in de hoofdstukken 2 t/m
4 van dit boek) goed zijn toegepast. De beoordeling betreft derhalve de
formulering van de vraagstelling, de uitgebreidheid en diepgang van
de zoekstrategie, de wijze waarop selectie van onderzoeken heeft
plaatsgevonden, de wijze waarop de kwaliteit van de in de review
opgenomen onderzoeken beoordeeld en verdisconteerd is, en de uit-
voering en geldigheid van een eventueel uitgevoerde meta-analyse.
Mogelijke bronnen van vertekening die specifiek zijn voor systemati-
sche reviews, zijn zogenoemde taalbias (alleen selectie van artikelen
die in een beperkt taalgebied gepubliceerd zijn, bijvoorbeeld alleen
Engelstalige onderzoeken) en publicatie- of uitkomstbias (selectieve
publicatie van onderzoeken of uitkomsten). Ook wordt vaak aandacht
besteed aan mogelijke belangenverstrengeling door partijen die be-
lang hebben bij de uitkomsten.
Belang
Indien is vastgesteld dat de zojuist beoordeelde review in opzet en
uitvoering valide is en indien een meta-analyse is uitgevoerd, kan
worden overgegaan tot de beoordeling van het belang van de resulta-
ten. Net als bij de afzonderlijke onderzoeken (zie hoofdstuk 4) wordt
in een meta-analyse het resultaat uitgedrukt met behulp van een
puntschatter en een 95%-betrouwbaarheidsinterval. De interpretatie
van de verschillende effectmaten (associatiematen) is uitvoerig be-
schreven in de verschillende paragrafen van hoofdstuk 4. Meta-ana-
152 Inleiding in evidence-based medicine
Toepasbaarheid
Het beoordelen van de toepasbaarheid van de resultaten van systema-
tische reviews verloopt in principe op precies dezelfde wijze als bij
primair onderzoek, zoals beschreven in hoofdstuk 4. Indien geen
meta-analyse uitgevoerd kon worden en alleen een kwalitatieve sa-
menvatting van de resultaten gepresenteerd is, vergt het beoordelen
van de toepasbaarheid enige improvisatie. Soms kan men uit de review
zelf die onderzoeken selecteren die het best aansluiten bij de eigen
vraagstelling, hetgeen de beoordeling van de toepasbaarheid verge-
makkelijkt.
Dit hoofdstuk
In de volgende paragrafen worden criteria aangereikt voor het beoor-
delen van de validiteit en het interpreteren van de resultaten van
systematische reviews. Achtereenvolgens komen systematische re-
views van onderzoeken naar de effectiviteit van interventies (therapie
en preventie), systematische reviews van onderzoeken naar de waarde
van een diagnostische test en systematische reviews van observatio-
neel onderzoek aan de orde. Hoewel de principes van het uitvoeren
van systematische reviews gelden voor alle EBM-domeinen, heeft ieder
domein zo zijn eigen eigenaardigheden en vergt de beoordeling
daarvan meer aandacht.
De beoordeling van richtlijnen wordt in hoofdstuk 6 besproken.
Literatuur
Assendelft WJJ, Scholten RJPM, Hoving JL, Offringa M, Bouter LM. De praktijk van
systematische reviews. VIII. Zoeken en beoordelen van systematische reviews. Ned
Tijdschr Geneeskd 2001;145:1625-31.
5 Kritisch beoordelen van een artikel: secundair onderzoek 153
Egger M, Davey Smith G, Altman DG. Systematic reviews in health care: meta-analysis
in context. Londen: BMJ Publishing Group, 2001.
Higgins JPT, Green S (red.). Cochrane Handbook for Systematic Reviews of Interven-
tions Version 5.0.0 [updated February 2008]. The Cochrane Collaboration, 2008
[geraadpleegd op 29 februari 2008]. Beschikbaar op www.cochrane-handbook.org.
Kahn KS, Kunz R, Kleijnen J, Antes G. Systematic reviews to support evidence-based
medicine. How to review and apply findings of healthcare research. Londen: Royal
Society of Medicine Press Ltd, 2003.
5.2.1 inleiding
Zoals in paragraaf 5.1 is uiteengezet, gaat een systematische review uit
van een expliciete vraagstelling, een zorgvuldige, uitputtende zoek-
strategie, een objectieve selectie van onderzoeken, beoordeling van de
kwaliteit van de geselecteerde onderzoeken en een transparante pre-
sentatie van de resultaten. Deze opbouw geldt ook voor een systema-
tische review van interventieonderzoek.
Idealiter is een systematische review van interventieonderzoek geba-
seerd op randomised controlled trials (RCT’s), omdat RCT’s de minste
kans op vertekening geven. Systematische reviews van niet-gerando-
miseerde onderzoeken bevinden zich dan ook op een lager niveau van
bewijs. Men moet zich echter realiseren dat voor veel onderwerpen en
interventies RCT’s simpelweg ontbreken of onmogelijk zijn. Het zou
bijvoorbeeld onethisch zijn nog een gerandomiseerd onderzoek naar
postexpositieprofylaxe bij hiv uit te voeren, terwijl aan de hand van
retrospectief onderzoek reeds bekend is dat de relatieve risicoreductie
van direct toegediend zidovudine 79% is. In dat geval kan ook een
systematische review gebaseerd op observationeel onderzoek uitge-
voerd worden (zie paragraaf 5.4).
Naast een kwalitatieve samenvatting van de resultaten kan een syste-
matische review van interventieonderzoek tevens een kwantitatieve
samenvatting (statistische pooling of meta-analyse) bevatten. Dit ge-
talsmatig combineren van gegevens uit verschillende onderzoeken
vergroot de precisie van de effectschattingen en maakt analyse van
subgroepen mogelijk die wellicht gevoeliger zijn voor een interventie.
In deze paragraaf wordt eerst aandacht besteed aan de opbouw van
een systematische review van interventieonderzoek en de beoordeling
1 Voor een goed begrip van deze paragraaf dient paragraaf 4.4 bestudeerd te zijn.
154 Inleiding in evidence-based medicine
Vraagstelling
Een systematische review moet uitgaan van een expliciete klinische
vraagstelling (zie hoofdstuk 2). De noodzakelijke ingrediënten van een
dergelijke vraag zijn: de patiëntencategorie, de interventie, de contro-
le-interventie, de uitkomst en eventueel ook de gewenste follow-up
duur. Hiervoor wordt het Engelse acroniem PICO gebruikt: Patients,
Intervention, Control, Outcome. Een voorbeeld van een vraagstelling
is: wat is bij patiënten met een acute, subacute of chronische tennis-
elleboog (patients) de effectiviteit, uitgedrukt in mate van ervaren
herstel (outcome), van corticosteroı̈dinjecties (intervention) ten op-
zichte van een placebo of afwachtend beleid (control)? Bij deze vraag
is gekozen voor ervaren herstel als uitkomst en bijvoorbeeld niet voor
pijn, hoewel deze uitkomst ook in een systematische review had kun-
nen worden opgenomen. Vaak wordt echter voor een review een min-
der scherp geformuleerde vraagstelling genomen. Dan worden een of
meer onderdelen van de PICO niet of minder uitgebreid uitgewerkt.
De lezer moet zich in die situatie steeds afvragen welke van de con-
clusies van de review zijn gebaseerd op de onderdelen van de P, de I,
de C en de O die de lezer bij het klinische probleem voor ogen heeft.
Vraag u dus steeds af of de review niet gaat over een bredere of andere
vraagstelling dan de PICO van u.
Zoekactie
Uitgaande van de vraagstelling dient op gestructureerde wijze uitge-
breid (sensitief) in de internationale literatuur te zijn gezocht. Er
mogen immers geen studies worden gemist. Een minimumvereiste
hiervoor is een zoekactie in de elektronische databases MEDLINE,
EMBASE (zie hoofdstuk 3), het Cochrane Central Register of Con-
trolled Trials (hoofdstuk 9) en controle van de referenties van de
verzamelde artikelen. Optionele aanvullende zoekacties zijn: zoeken in
(gespecialiseerde) trialregisters, gedrukte indexen, het aanschrijven
van experts en fabrikanten en het handmatig doorzoeken van tijd-
schriften.
5 Kritisch beoordelen van een artikel: secundair onderzoek 155
Selectie
De selectie van de in de systematische review te includeren artikelen
moet bij voorkeur door ten minste twee reviewers aan de hand van
expliciete in- en exclusiecriteria onafhankelijk van elkaar zijn uitge-
voerd.
In veel reviews wordt de inclusie beperkt tot publicaties in de talen die
de reviewers zelf machtig zijn (meestal het Engels). Het is niet duide-
lijk of dit in de regel tot afwijkende conclusies (bias) leidt. De impact
van een taalrestrictie kan per review verschillend zijn (over- of onder-
schatting van het effect van de interventie).
Kwaliteitsbeoordeling
De validiteit van de aanbevelingen in een systematische review hangt
sterk af van de kwaliteit van de oorspronkelijke RCT’s.
Er is een veelheid aan kwaliteitsbeoordelingslijsten beschikbaar.
Slechts van een klein aantal interne validiteitsitems staat vast dat deze
tot vertekening kunnen leiden: geblindeerde toewijzing van de inter-
ventie (‘concealment of allocation’), blindering van de effectbeoorde-
laars en compleetheid van de follow-up (geen selectieve uitval) (zie
ook paragraaf 4.4). Een in de systematische review gebruikte kwali-
teitsbeoordelingslijst dient dus ten minste deze items te bevatten.
Net als de selectie dient de kwaliteitsbeoordeling in de systematische
review door ten minste twee reviewers onafhankelijk van elkaar te zijn
uitgevoerd.
Pooling is het meest in het oog springende, maar tegelijkertijd ook een
veelvuldig verkeerd begrepen en misbruikt onderdeel van een syste-
matische review. Net als bij de analyse van gegevens binnen een RCT
doen statistische softwarepakketten braaf hun werk indien de gege-
vens per onderzoek worden ingevoerd. Voorwaarde voor pooling is
echter dat de onderzoeken zowel klinisch als statistisch voldoende
5 Kritisch beoordelen van een artikel: secundair onderzoek 157
study treatment control relative risk (fixed) weight relative risk (fixed)
n/N n/N 95% CI (%) 95% CI
Figuur 5.1 Voorbeeld uit de Cochrane Database of Systematic Reviews van een
meta-analyse. Corticosteroı̈den versus placebo bij acute bacteriële meningitis, met
als uitkomst mortaliteit.
Ieder horizontaal lijntje geeft de uitkomst weer van een onderzoek, waarbij het
lijntje het 95%-betrouwbaarheidsinterval (95%-BI) aangeeft. Het vierkantje in
het midden van de lijn geeft de puntschatter van het relatieve risico (RR). Aan elk
onderzoek is een gewicht gegeven. Hoe groter het onderzoek, des te groter het
gewicht. Het relatieve gewicht van het onderzoek staat onder ‘weight’ en is ook
af te lezen aan de grootte van het bij het onderzoek behorende blokje en aan de
breedte van het betrouwbaarheidsinterval. De ruit is het gecombineerde (statis-
tisch gepoolde) resultaat van de zeventien onderzoeken. De verticale lijn geeft een
RR van 1 aan. Resultaten die links van de verticale lijn liggen wijzen hier op een
gunstig effect van de onderzochte therapie ten opzichte van de controlegroep. De
p-waarde van de test voor heterogeniteit is 0,39 en de I2 5,7%. Er lijken dus geen
aanwijzingen te bestaan voor heterogeniteit. Corticosteroı̈den blijken volgens deze
meta-analyse bij bacteriële meningitis effectiever dan een placebo: het RR is 0,83
en 95%-BI (0,71-0,99) sluit de neutrale waarde 1 uit. De kans op een slechte
uitkomst neemt dus af met 17% (relatieve risicoreductie).
Bron: Van de Beek et al. Cochrane Database of Systematic Reviews 2007, Issue 1. Art. No.:
CD004405.
158 Inleiding in evidence-based medicine
nee
ja
nee ja
Publicatie- en uitkomstbias
Publicatiebias is selectieve publicatie van onderzoeken. Onderzoeken
waar niets uitkomt of waarin de controle-interventie het beter doet dan
de experimentele interventie, worden nogal eens niet gepubliceerd. Op
die manier kunnen ‘positieve’ onderzoeken (onderzoeken met een
duidelijk gunstig effect in het voordeel van de interventie) de overhand
krijgen in de review. Het resultaat is dan een overschatting van het
effect van de interventie.
5 Kritisch beoordelen van een artikel: secundair onderzoek 161
Tabel 5.1 Checklist voor de beoordeling van systematische reviews (checklist beschikbaar op
www.pico.nu)
item toelichting
vraagstelling systematische review dient uit te gaan van een expliciete vraagstelling (PICO)
zoekactie – ten minste MEDLINE, EMBASE, Cochrane Central Register of Controlled Trials en
controle van referenties van verzamelde artikelen
– gezien actualiteit onderwerp voldoende recent
1 1 1
2 2 2
3 3 3
0,1 0,33 0,6 1 3 0,1 0,33 0,6 1 3 0,1 0,33 0,6 1 3
relative risk
Tegenstrijdige reviews
Steeds vaker vindt de clinicus meerdere reviews over hetzelfde onder-
werp. De conclusies van verschillende reviews over (schijnbaar) het-
zelfde onderwerp zijn soms tegenstrijdig. De oorzaak van de ver-
schillen kan met behulp van een algoritme worden geanalyseerd (fi-
guur 5.4). In de regel lukt het aan de hand van dit algoritme om een of
meer eenduidige systematische reviews te selecteren en tot een be-
slissing te komen.
Het is bij tegenstrijdige systematische reviews over hetzelfde onder-
werp allereerst belangrijk om te kijken welke systematische review een
vraagstelling heeft die het dichtst bij de eigen klinische vraag staat.
Indien dezelfde RCT’s in de verschillende systematische reviews zijn
ingesloten, kan men zich richten op de methodologisch beste syste-
matische review. Indien er geen verschil in kwaliteit is, zal de lezer een
nauwkeurige analyse moeten maken van de manier waarop de gege-
vens zijn geëxtraheerd (bijv. door twee reviewers onafhankelijk van
elkaar), hoe met heterogeniteit is omgegaan en of de uitkomsten op de
5 Kritisch beoordelen van een artikel: secundair onderzoek 163
ja nee
dezelfde RCT’s in SRs ingesloten? selecteer SR met vraagstelling
dichtst bij eigen klinische vraag
ja nee
dezelfde kwaliteit SRs? dezelfde selectiecriteria RCT’s?
ja, let dan op: nee: ja, let dan op: nee, let dan op:
methode data-extractie in SRs selecteer SR uitvoering zoekstrategie voor RCT’s inclusie van ongepubliceerde RCT’s
heterogeniteit RCT’s met de hoogste toepassing selectiecriteria voor RCT’s kwaliteit RCT’s als inclusiecriterium
methode van datasynthese in SRs kwaliteit taalrestrictie voor opname RCT’s
Figuur 5.4 Algoritme voor het kiezen van de best passende systematische
review(s) (SR(s)) wanneer er over hetzelfde onderwerp systematische reviews met
tegenstrijdige conclusies beschikbaar zijn.
juiste manier zijn gepoold. Indien niet dezelfde RCT’s zijn ingesloten,
dan moet allereerst worden beoordeeld of bij dezelfde vraagstelling
wel dezelfde selectiecriteria voor onderzoeken zijn gehanteerd en of
de reviews in actualiteit verschillen. Indien deze factoren het verschil
niet verklaren, dan kan het wel of niet opnemen van ongepubliceerde
onderzoeken het verschil verklaren. Daarnaast kunnen de systemati-
sche reviews onderling verschillen in een eventuele beperking op
grond van taal of methodologische kwaliteit van de RCT’s. Indien er
met betrekking tot al deze criteria geen verschil bestaat, dan kunnen
de verschillen in conclusie mogelijk worden verklaard door de ver-
schillen in de praktische uitvoering van het zoeken en selecteren,
waarbij vooral de uitvoering hiervan door twee personen onafhankelijk
van elkaar menselijke fouten helpt te beperken.
5.2.4 conclusie
De systematische review verschaft op een transparante en reprodu-
ceerbare manier snel inzicht in een grote hoeveelheid informatie.
Systematische reviews dienen vaak als basis voor klinische richtlijnen.
Indien dergelijke richtlijnen ontbreken, is de systematische review een
efficiënte en valide manier om inzicht te krijgen in een bepaald on-
derwerp. Het is bij een klinische vraagstelling van belang systemati-
sche reviews te selecteren die bij de vraagstelling aansluiten en van een
zo hoog mogelijke methodologische kwaliteit zijn.
164 Inleiding in evidence-based medicine
Literatuur
Egger M, Davey Smith G, Altman DG. Systematic reviews in health care: meta-analysis
in context. Londen: BMJ Publishing Group, 2001.
Higgins JPT, Green S (red.). Cochrane Handbook for Systematic Reviews of Interven-
tions Version 5.0.0 [updated February 2008]. The Cochrane Collaboration, 2008
[geraadpleegd op 29 februari 2008]. Beschikbaar op www.cochrane-handbook.org..
Jadad AR, Cook DJ, Browman GP. A guide to interpreting discordant systematic
reviews. Can Med Assoc J 1997;156:1411-6..
Kahn KS, Kunz R, Kleijnen J, Antes G. Systematic reviews to support evidence-based
medicine. How to review and apply findings of healthcare research. Londen: Royal
Society of Medicine Press Ltd, 2003..
Montori VM, Wilczynski NL, Morgan D, Haynes RB; Hedges Team. Optimal search
strategies for retrieving systematic reviews from Medline: analytical survey. BMJ
2005;330:68. Epub 2004 Dec 24..
Shea BJ, Bouter LM, Peterson J, Boers M, Andersson N, Ortiz Z, Ramsay T, Bai A,
Shukla VK, Grimshaw JM. External Validation of a Measurement Tool to Assess
Systematic Reviews (AMSTAR). PLoS ONE, 2007;2:e1350..
Shea BJ, Grimshaw JM, Wells GA, Boers M, Andersson N, Hamel C, Porter AC, Tugwell
P, Moher D, Bouter LM. Development of AMSTAR: a measurement tool to assess the
methodological quality of systematic reviews. BMC Med Res Methodol 2007;7:10..
Sterne JA, Egger M, Smith GD. Systematic reviews in health care: Investigating and
dealing with publication and other biases in meta-analysis. BMJ 2001;323:101-5..
Tulder M van, Furlan A, Bombardier C, Bouter L; Editorial Board of the Cochrane
Collaboration Back Review Group. Updated method guidelines for systematic
reviews in the Cochrane Collaboration Back Review Group. Spine 2003;28:1290-9.
5.3.1 inleiding
De ingrediënten van een systematische review van onderzoek naar de
waarde van een diagnostische test zijn dezelfde als die van een sys-
tematische review van randomised controlled trials (RCT’s) (zie para-
graaf 5.2): een duidelijke vraagstelling, een uitgebreide zoekactie,
duidelijk omschreven selectieprocedure en data-extractie, een kriti-
sche beoordeling van de methodologische kwaliteit (validiteit) van de
oorspronkelijke onderzoeken, een adequate analyse en een duidelijke
presentatie van de resultaten.
Een diagnostische systematische review kent echter enkele speciale
problemen, vooral op het gebied van het zoeken, het beoordelen en
het analyseren van de resultaten (meta-analyse). Onderzoeken naar
2 Voor een goed begrip van dit hoofdstuk dienen de paragrafen 4.2 en 5.2
bestudeerd te zijn.
5 Kritisch beoordelen van een artikel: secundair onderzoek 165
Vraagstelling
Net als bij een systematische review van interventieonderzoek dient
een diagnostische review een duidelijke vraagstelling te bevatten met
een adequate beschrijving van de volgende elementen: de onderzochte
patiëntengroep (met welke klachten komen de patiënten, om welke
setting gaat het en welke diagnostische tests zijn reeds uitgevoerd
voordat de indextest toegepast wordt), de indextest(s) (om welke test
gaat het, eventueel andere tests waarmee de indextest vergeleken
wordt) en de ziekte of aandoening waarvoor de test gebruikt wordt
(bijvoorbeeld een aandoening die moet worden aangetoond, of, in een
andere toepassing, uitgesloten). Deze elementen dienen duidelijk be-
schreven te zijn in de review.
166 Inleiding in evidence-based medicine
Tabel 5.2 Checklist voor het beoordelen van systematische reviews van onderzoek naar de waarde
van een diagnostische test. (Checklist beschikbaar op www.pico.nu.)
item toelichting
zoekactie ten minste MEDLINE en EMBASE, controle van referenties van verzamelde artikelen
en overleg met één of meerdere inhoudelijke experts
combineren van re- – schatten van summary ROC-curve (sROC-curve) of samenvattende schatters
sultaten en analyse van sensitiviteit en specificteit aan de hand van bivariate of HSROC-methode
van heterogeniteit – subgroepanalyse of metaregressieanalyse indien aangewezen
Zoekactie
Uitgaande van de vraagstelling dient uitgebreid en op gestructureerde
wijze in de internationale literatuur te zijn gezocht. Minimumvereisten
hiervoor zijn een zoekactie in de elektronische databases MEDLINE en
EMBASE, controle van de referenties van de verzamelde artikelen (zie
hoofdstuk 3) en overleg met één of meerdere inhoudelijke experts.
Artikelen over diagnostische tests zijn moeilijk terug te vinden. Het is
belangrijk dat de auteurs daarom de zoekactie voldoende ‘breed’
hebben opgezet.
5 Kritisch beoordelen van een artikel: secundair onderzoek 167
Kwaliteitsbeoordeling
Uiteraard dient ook aandacht besteed te zijn aan bepaling van de
methodologische kwaliteit van de in de review opgenomen onderzoe-
ken. Kwaliteit dient ook hier te worden opgevat als de vatbaarheid
voor vertekening in de resultaten door tekortkomingen in de opzet. De
beoordeling dient door ten minste twee reviewers onafhankelijk van
elkaar te zijn uitgevoerd.
Er bestaat een gevalideerde checklist voor de beoordeling van diag-
nostisch onderzoek in een systematische review: QUADAS. Deze lijst
is samengesteld op basis van de kennis die bestaat over vatbaarheid
voor vertekening. Dit betreft onder meer de representativiteit van de
patiënten, keuze en gebruik van de referentietest, selectief of gedeel-
telijk verifiëren van de resultaten van de indextest en blindering van de
beoordelaars. De belangrijkste items van deze lijst zijn in paragraaf
4.2 besproken. Deze kenmerken mogen in geen geval worden sa-
mengevat in een QUADAS ‘score’. Beter is het om te rapporteren
hoeveel van de artikelen in het review aan de items in QUADAS vol-
doen, en hoeveel niet.
Data-extractie
Ook de data-extractie dient bij voorkeur door ten minste twee revie-
wers onafhankelijk van elkaar te zijn geschied. Gezien de gebrekkige
kwaliteit en rapportage van veel artikelen over onderzoek naar de
waarde van diagnostische tests wordt vaak een slechts matige inter-
beoordelaarsovereenstemming gerapporteerd.
Meta-analyse
Omdat verschillen in resultaten eerder regel dan uitzondering vormen,
is het niet altijd eenvoudig om bij diagnostische reviews tot samen-
vattende schatters te komen. Een review zal dan ook in de eerste plaats
de bronnen van de variabiliteit moeten onderzoeken. In een aantal
gevallen is het wel mogelijk om, bij voldoende homogeniteit, tot
samenvattende schatters te komen. Een methode daartoe staat hierna
beschreven.
5 Kritisch beoordelen van een artikel: secundair onderzoek 169
Figuur 5.5 Resultaten van tien onderzoeken naar de accuratesse van MRI voor
het aantonen van lymfekliermetastasen bij vrouwen met cervixcarcinoom. TP =
true positive; FP = false positive; FN = false negative; TN = true negative.
Resultaten en conclusie
De gebruikswaarde van een diagnostische systematische review wordt
vergroot door een adequate bespreking van de resultaten en bijpas-
sende conclusies, in relatie tot de eigen klinische vraagstelling.
1,0
0,9
0,8
0,7
sensitiviteit
0,6
0,5
0,4
0,3
0,2
0,1
0,0
0
0
0,
0,
1,
0,
0,
0,
0,
0,
0,
0,
0,
specificiteit
Figuur 5.6 Relatie tussen sensitiviteit (Y-as) en specificiteit (X-as) van MRI voor
het aantonen van lymfekliermetastasen bij vrouwen met cervixcarcinoom en de
geschatte summary Receiver Operating Characteristic curve (sROC-curve) van tien
onderzoeken. De hoogte van de blokjes is evenredig met het aantal vrouwen met
metastasen (zieken) en de breedte met het aantal zonder metastasen (niet-zieken)
in de afzonderlijke onderzoeken. De sROC-curve bestrijkt louter het gebied waar-
voor gegevens voorhanden zijn. De zwarte stip geeft de gemiddelde sensitiviteit en
specificiteit weer en de ellips het 95%-betrouwbaarheidsinterval rond deze
gemiddelden.
5.3.3 conclusie
Een diagnostische systematische review kan op een efficiënte, trans-
parante en reproduceerbare wijze inzicht verschaffen in de stand van
kennis over de eigenschappen van een diagnostische test. Ten op-
zichte van één primair onderzoek heeft een systematische review als
bijkomend voordeel dat het wetenschappelijke bewijs afkomstig is uit
5 Kritisch beoordelen van een artikel: secundair onderzoek 173
Literatuur
Buntinx F, Aertgeerts B, Macaskill P. Guidelines for conducting systematic reviews of
studies evaluating the accuracy of diagnostic tests. In: Knottnerus A, Buntinx F
(eds). The evidence base of clinical diagnosis. Oxford: Blackwell Publishing Ltd
Wiley Publ: in press.
Deeks JJ. Systematic reviews of evaluations of diagnostic and screening tests. BMJ 2001;
323:157-62.
Gatsonis C, Paliwal P. Meta-analysis of diagnostic and screening test accuracy evalua-
tions: methodologic primer. AJR Am J Roentgenol 2006;187:271-81.
Harbord RM, Deeks JJ, Egger M, Whiting P, Sterne JA. A unification of models for
meta-analysis of diagnostic accuracy studies. Biostatistics 2007;8:239-51.
Irwig L, Macaskill P, Glasziou P, Fahey M. Meta-analytic methods for diagnostic test
accuracy. J Clin Epidemiol 1995;48:119-30.
Leeflang M, Reitsma J, Scholten R, Rutjes A, Di Nisio M, Deeks J, Bossuyt P. Impact of
adjustment for quality on results of metaanalyses of diagnostic accuracy. Clin Chem
2007;53:164-72.
Leeflang MM, Scholten RJ, Rutjes AW, Reitsma JB, Bossuyt PM. Use of methodological
search filters to identify diagnostic accuracy studies can lead to the omission of
relevant studies. J Clin Epidemiol 2006;59:234-40.
Lijmer JG, Mol BW, Heisterkamp S, Bonsel GJ, Prins MH, Meulen JHP van der, Bossuyt
JMM. Empirical evidence of design-related bias in studies of diagnostic tests. JAMA
1999;282:1061-6.
Reitsma JB, Glas AS, Rutjes AW, Scholten RJ, Bossuyt PM, Zwinderman AH. Bivariate
analysis of sensitivity and specificity produces informative summary measures in
diagnostic reviews. J Clin Epidemiology 2005;58:982-90.
Whiting P, Rutjes AWS, Reitsma JB, Bossuyt PM, Kleijnen J. The development of
QUADAS: a tool for the quality assessment of studies of diagnostic accuracy inclu-
ded in systematic reviews. BMC Medical Research Methodology 2003;3:25.
Whiting P, Rutjes AWS, Reitsma JB, Glas AS, Bossuyt PM, Kleijnen J. Sources of
variation and bias in studies of diagnostic accuracy: a systematic review. Ann Int
Med 2004;140:189-202.
Zwinderman AH, Bossuyt PM. We should not pool diagnostic likelihood ratios in
systematic reviews. Stat Med 2008 Feb 28;27:687-97.
174 Inleiding in evidence-based medicine
5.4.1 inleiding
In deze paragraaf wordt het beoordelen en interpreteren van syste-
matische reviews van observationeel onderzoek besproken.
Observationeel onderzoek kan gericht zijn op de beantwoording van
vele soorten onderzoeksvragen, maar is grofweg in te delen in drie
categorieën:
1 Etiologisch onderzoek, gericht op het vaststellen van oorzaken van
ziekten. Er zijn bijvoorbeeld systematische reviews verschenen over
werkgerelateerde risicofactoren voor schouderpijn, clustering van
prostaatkanker in families of de associatie tussen slaappositie van
baby’s en de kans op wiegendood.
2 Prognostisch onderzoek, gericht op de bestudering van het beloop van
ziekten en van factoren die invloed op het beloop uitoefenen. Sys-
tematische reviews van prognostisch onderzoek zijn in opkomst,
maar nog relatief schaars. Voorbeelden zijn reviews over het beloop
van elleboogklachten en over de prognose van depressie bij oude-
ren.
3 Onderzoek naar ernstige bijwerkingen van interventies. In deze laatste
categorie zijn relatief veel systematische reviews verschenen, bij-
voorbeeld over de kans op een myocardinfarct bij gebruik van
Cox-2-remmers (ontstekingsremmende medicatie) voor gewrichts-
klachten of de kans op trombose bij gebruik van derdegeneratie
orale anticonceptiva.
3 Voor een goed begrip van deze paragraaf dienen de paragrafen 4.3, 4.5 en 5.2
bestudeerd te zijn.
5 Kritisch beoordelen van een artikel: secundair onderzoek 175
Vraagstelling
De relevantie van het onderwerp van de review en de noodzaak van het
uitvoeren van een systematische review dienen in de inleiding helder
176 Inleiding in evidence-based medicine
Tabel 5.3 Checklist voor de beoordeling van systematische reviews van observationeel onderzoek
(Checklist beschikbaar op www.pico.nu)
item toelichting
zoekactie ten minste MEDLINE en controle van referenties van relevante reeds
verzamelde artikelen.
selectie – bij voorkeur door 2 reviewers onafhankelijk van elkaar aan de hand
van expliciete in- en exclusiecriteria;
– bij voorkeur geen taalrestrictie.
presentatie van gegevens resultaten op eenduidige wijze gepresenteerd ten aanzien van:
– samenstelling onderzoekspopulatie;
– determinant: risicofactor of prognostische factor;
– uitkomst: bijwerking of ziekte;
– mogelijke verstorende factoren (confounders);
– resultaten: effect per eenheid van de determinant, gecorrigeerd voor
alle relevante confounders.
combineren van resultaten – pooling alleen van methodologisch en klinisch homogene (subgroe-
en analyse van heterogeni- pen van) onderzoeksresultaten;
teit – subgroepanalysen of metaregressieanalyse zijn gebaseerd op vooraf
opgesteld analyseplan en betreffen potentiële bronnen van klinische
of methodologische heterogeniteit;
– indien pooling niet mogelijk of verstandig: kwalitatieve analyse,
rekening houdend met methodologische kwaliteit, consistentie van
resultaten, sterkte van de associatie, invloed van confounding.
Zoekactie
Uitgaande van de vraagstelling dient op gestructureerde wijze uitge-
breid in de internationale literatuur te zijn gezocht. Een minimum-
vereiste hiervoor is een zoekactie in de elektronische database MED-
LINE en controle van de referenties van relevante, reeds verzamelde
artikelen. Een zoekactie in EMBASE of specialistische databases zoals
Cinahl, CancerLit of PsychInfo zal waarschijnlijk aanvullende rele-
vante publicaties opleveren en is een belangrijke toevoeging. Eventu-
ele restricties in de zoekactie moeten beschreven zijn. Hierbij kan
gedacht worden aan restrictie in jaartal van publicatie, publicatiestatus
(wel of niet gepubliceerd) of in taal. Voor observationeel onderzoek is
de kans op publicatiebias groot. Zowel auteurs als tijdschriftredacties
zijn wellicht terughoudend met het publiceren van kleinschalig on-
derzoek waarin slechts zwakke associaties zonder statistische signifi-
cantie worden gevonden. De kans op publicatie van observationeel
onderzoek waarin opvallende of sterke associaties worden gerappor-
teerd is aanzienlijk groter. Hierdoor moet wellicht de voorkeur worden
gegeven aan een systematische review waarin niet alleen gepubliceerd
materiaal is geselecteerd, maar ook gezocht is naar ongepubliceerde
gegevens, zoals congresverslagen en interne rapporten. Helaas is het
identificeren van ongepubliceerd observationeel onderzoek een vrijwel
onmogelijke opgave. Ook moet rekening worden gehouden met het
feit dat ongepubliceerd onderzoek meestal geen kwaliteitscontrole
heeft ondergaan, zoals de ‘peer review’ procedure van wetenschappe-
lijke tijdschriften.
Selectie
Een uitputtende zoekactie naar observationeel onderzoek zal een
groot aantal treffers opleveren, waarvan een aanzienlijk deel niet re-
178 Inleiding in evidence-based medicine
Kwaliteitsbeoordeling
De validiteit van de conclusies of aanbevelingen van de systematische
review is deels afhankelijk van de methodologische kwaliteit van de
geselecteerde onderzoeken. Zoals eerder aangegeven is de kans op
vertekening van onderzoeksresultaten (confounding) in observatio-
neel onderzoek relatief groot, in het bijzonder doordat er geen sprake
kan zijn van randomisatie. Hierdoor zijn verstorende factoren, zoals
roken in onderzoek naar de associatie tussen alcoholconsumptie en
blaaskanker, waarschijnlijk niet gelijk verdeeld zijn over de blootstel-
lingsgroepen: mensen die veel alcohol gebruiken roken wellicht vaker
en hebben alleen daarom al een verhoogde kans op blaaskanker.
Hierdoor kan de rol van alcoholconsumptie als risicofactor van
blaaskanker worden overschat. In de kwaliteitsbeoordeling van een
systematische review van observationeel onderzoek moet dan ook
uitgebreid aandacht worden besteed aan de mogelijke invloed van
verstorende factoren. Er is een flink aantal criterialijsten beschreven
om de kwaliteit van observationeel onderzoek te beoordelen, hoewel
er nog geen internationale consensus is over de belangrijkste ele-
menten van een goede checklist. Onderzoek heeft wel laten zien dat
een associatie kan worden overschat, wanneer onvoldoende is gecor-
rigeerd voor verstorende factoren en wanneer (bij etiologisch onder-
zoek en onderzoek naar bijwerkingen) sprake is van een patiëntcon-
troleonderzoek. Patiëntcontroleonderzoek is gevoeliger voor selectie-
bias en voor informatiebias dan prospectief cohortonderzoek (para-
graaf 4.5). Bij systematische reviews van prognostisch onderzoek is
het belangrijk dat de volledigheid van follow-up is meegenomen in de
beoordeling van geselecteerde onderzoeken. Patiënten die snel her-
stellen van een klacht of ziekte zullen wellicht eerder uitvallen, terwijl
patiënten met persisterende klachten gedurende lange tijd bereid zijn
5 Kritisch beoordelen van een artikel: secundair onderzoek 179
Data-extractie
In geval van observationeel onderzoek betreft de data-extractie ken-
merken van de bestudeerde blootstelling of prognostische factor (bij-
voorbeeld welke eenheid van alcoholconsumptie is gebruikt, welke
typen ontstekingsremmende medicatie zijn vergeleken of welke psy-
chosociale factoren zijn bestudeerd). Tevens dient informatie te wor-
den verzameld over potentieel verstorende factoren die in de oor-
spronkelijke onderzoeken zijn gemeten. Voor elk onderzoek dient ten
slotte het voor deze factoren gecorrigeerde effect per eenheid van
blootstelling te worden geëxtraheerd. Soms zijn reviewers genood-
zaakt deze gegevens zelf te reconstrueren, wat gewoonlijk gepaard
gaat met een aanzienlijke hoeveelheid aannames. Het data-extractie-
proces dient duidelijk beschreven te zijn, vooral ten aanzien van de
definitie en eenheid van de determinant (risicofactor of prognostische
factor) en de uitkomst (gecorrigeerde effectschatting). Ook data-ex-
tractie dient bij voorkeur door twee reviewers onafhankelijk van elkaar
plaats te vinden. In paragraaf 5.4.3 wordt het extraheren van gegevens
over de uitkomst verder toegelicht.
Meta-analyse
Indien de geselecteerde onderzoeken voldoende vergelijkbaar zijn,
kunnen de resultaten worden gecombineerd tot een algemene schat-
ting van de bestudeerde associatie. Bij observationeel onderzoek zal
echter vaak sprake zijn van grote verschillen in onderzoeksresultaten
(heterogeniteit). Deze variatie kan door toeval, maar ook door werke-
lijke verschillen tussen onderzoeken worden verklaard, zoals ver-
schillen in aard van de onderzoekspopulatie, de wijze waarop de
determinant is vastgesteld, of de definitie van de uitkomst. Een sys-
tematische review van observationeel onderzoek dient de invloed van
bronnen van methodologische of klinische heterogeniteit op de uit-
komst te onderzoeken. Indien statistische pooling niet mogelijk is of
verstandig is, kan worden volstaan met een kwalitatieve samenvatting
van de resultaten. De wijze waarop bronnen van heterogeniteit kunnen
worden bestudeerd wordt verder toegelicht in paragraaf 5.4.3.
Resultaten en conclusie. Evenals bij andere systematische reviews is het
belangrijk dat de resultaten van een review van observationeel onder-
zoek aansluiten bij de vraagstelling. Conclusies dienen te worden
ondersteund door de resultaten. Een goede presentatie van de resul-
taten, inclusief heldere en goed onderbouwde conclusies en aanbe-
velingen verhogen de bruikbaarheid van een review van observationeel
onderzoek.
5 Kritisch beoordelen van een artikel: secundair onderzoek 181
Tabel 5.4 Fictieve gegevens van zes patiëntcontroleonderzoeken naar de associatie tussen
alcoholconsumptie en blaaskanker.
onderzoek geslacht odds-ratio ln(OR) standaardfout,
(95%-betrouwbaarheidsinterval) SE(ln(OR))
Metaregressieanalyse
De berekeningen voor een metaregressieanalyse moeten worden
uitgevoerd op afhankelijke variabelen die bij benadering normaal
verdeeld zijn. Daarom wordt voor elk onderzoek de logaritme van
de odds-ratio berekend: ln(OR). Een metaregressiemodel waarin
de invloed van geslacht op de associatie tussen alcoholcon-
sumptie en blaaskanker wordt bestudeerd ziet er als volgt uit:
Geschatte ln(OR) = a + b * (geslacht).
De codering van geslacht is: 0 = onderzoek met alleen mannen, 1
= onderzoek met alleen vrouwen.
De computer geeft: a = 0,22 en b = –0,14.
De gepoolde ln(OR) voor mannen (geslacht = 0) is:
0,22 + (–0,14 * 0) = 0,22.
De gepoolde odds-ratio voor mannen is dan: exp[0,22] = 1,25.
De gecombineerde ln(OR) voor vrouwen is:
0,22 + (–0,14 * 1) = 0,08.
De gepoolde OR voor vrouwen is dan: exp[0,08] = 1,08.
184 Inleiding in evidence-based medicine
2,5
2
ln (OR)
1,5
0,5
0
1955 1960 1965 1970 1975 1980 1985 1990 1995
jaar van onderzoek
5.4.4 conclusie
Een systematische review van observationeel onderzoek verschaft op
een transparante en reproduceerbare manier inzicht in een grote
hoeveelheid informatie betreffende de etiologie of prognose van een
ziekte of de mogelijke bijwerkingen van een interventie.
Het is bij een klinische vraagstelling van belang om systematische
reviews te selecteren die bij de vraagstelling aansluiten en van een zo
hoog mogelijke methodologische kwaliteit zijn. Observationeel on-
derzoek is gevoelig voor vertekening en wordt gekenmerkt door aan-
zienlijke methodologische en klinische heterogeniteit. In systemati-
sche reviews van observationeel onderzoek moet hiermee rekening
zijn gehouden. Het is verstandig de resultaten van een meta-analyse
met voorzichtigheid te beschouwen.
Literatuur
Altman DG. Systematic reviews of evaluations of prognostic variables. BMJ 2001;323:
224-8.
Chou R, Helfand M. Challenges in systematic reviews that assess treatment harms.
Ann Intern Med 2005;142:1090-9.
Egger M, Schneider M, Davey Smith G. Spurious precision? Meta-analysis of observa-
tional studies. BMJ 1998;316:410-4.
Egger M, Davey Smith G, Schneider M. Systematic reviews of observational studies. In
Egger M, Davey Smith G, Altman DG (red). Systematic reviews in health care, meta-
analysis in context. Londen: BMJ Books, 2000:211-27.
Sanderson S, Tatt ID, Higgins JPT. Tools for assessing quality and susceptibility for
bias in observational studies in epidemiology: a systematic review and annotated
bibliography. Int J Epidemiol 2007;36:666-76.
Stroup DF, Berlin JA, Morton SC, Olkin I, Williamson GD, Rennie D, Moher D, Becker
BJ, Sipe TA, Thacker SB. Meta-analysis of observational studies in epidemiology: a
proposal for reporting. Meta-analysis Of Observational Studies in Epidemiology
(MOOSE) group. JAMA 2000;283:2008-12.
Windt DAWM van der, Zeegers MPA, Kemper HCG, Assendelft WJJ, Scholten RJPM. De
5 Kritisch beoordelen van een artikel: secundair onderzoek 187
6.1 Inleiding
evidence-based richtlijnontwikkeling
samenvatten
literatuur in
evidence
implementatie tabellen
publicatie
en schrijven
disseminatie conceptteksten
vaststellen richtlijn
en autorisatie
discussie conceptteksten
aanscherpen richtlijntekst
aanpassen conceptteksten
commentaarronde
ontwikkeling indicatoren
vaststellen conceptrichtlijn
Een richtlijn bestaat uit een set van aanbevelingen over een specifiek
klinisch probleem. Bij de beoordeling van een richtlijn moet onder-
scheid worden gemaakt tussen:
– de kwaliteit van de richtlijn als geheel, in het bijzonder de methode
en de verslaglegging daarvan; en
– de (klinische) validiteit van de aanbevelingen. Een goede richtlijn
wordt gekenmerkt door een zorgvuldig en adequaat doorlopen
ontwikkelproces en inhoudelijk goede aanbevelingen die bij toe-
passing in de praktijk leiden tot optimale zorg.
AGREE-instrument
De items worden beoordeeld met behulp van een 4-puntschaal
(‘zeer eens’, ‘eens’, ‘oneens’, ‘zeer oneens’). Het is beschikbaar
op www.pico.nu.
Onderwerp en doel
1 Het doel van de richtlijn is specifiek beschreven.
2 De klinische vraag/vragen die in de richtlijn aan de orde komt/
komen, is/zijn specifiek beschreven.
3 De patiëntenpopulatie waarop de richtlijn van toepassing is, is
specifiek beschreven.
6 Evidence-based richtlijnen 191
Methodologie
1 Er zijn systematische methoden gebruikt voor het zoeken naar
wetenschappelijk bewijsmateriaal.
2 De criteria voor het selecteren van het wetenschappelijk
bewijsmateriaal zijn duidelijk beschreven.
3 De gebruikte methoden om de aanbevelingen op te stellen, zijn
duidelijk beschreven.
4 Gezondheidswinst, bijwerkingen en risico’s zijn overwogen bij
het opstellen van de aanbevelingen.
5 Er bestaat een expliciet verband tussen de aanbevelingen en het
onderliggende wetenschappelijke bewijsmateriaal.
6 De richtlijn is vóór publicatie door externe experts beoordeeld.
7 Een procedure voor herziening van de richtlijn is vermeld.
Helderheid en presentatie
1 De aanbevelingen zijn specifiek en ondubbelzinnig.
2 De verschillende beleidsopties zijn duidelijk vermeld.
3 De kernaanbevelingen zijn gemakkelijk te herkennen.
4 De toepassing van de richtlijn wordt ondersteund met hulp-
middelen.
Toepassing
1 De mogelijk organisatorische belemmeringen bij het toepassen
van de aanbevelingen zijn besproken.
2 De mogelijke kostenimplicaties van het toepassen van de aan-
bevelingen zijn overwogen.
3 De richtlijn geeft de belangrijkste criteria om na te gaan en te
toetsen of de richtlijn wordt gevolgd.
Onderwerp en doel
Het doel van de richtlijn en de mogelijke gevolgen van de richtlijn voor
patiëntenpopulaties en de samenleving zijn in detail beschreven. De
te verwachten gezondheidswinst van de richtlijn is specifiek voor het
klinische probleem. Idealiter gaat een richtlijn in op ervaren proble-
men en knelpunten in de praktijk. Deze worden vertaald naar uit-
gangsvragen, waarop de richtlijn een antwoord probeert te geven;
bijvoorbeeld wat is de beste behandeling voor recidiverende keel-
amandelontsteking? Deze vragen zijn specifiek beschreven in de
richtlijn en zijn vertaald in zoekvragen met behulp van het PICO-
systeem (zie hoofdstuk 2). Ook kan de richtlijn de kosten in de uit-
komst betrekken, bijvoorbeeld in de vorm van een kosteneffectivi-
teitsanalyse van de belangrijkste behandelopties. Een voorbeeld van
een specifieke uitgangsvraag is ‘Zijn selectieve serotonineheropna-
meremmers (SSRI’s) kosteneffectiever dan tricyclische antidepressiva
(TCA’s) bij de behandeling van volwassen patiënten met een depressie,
vastgesteld volgens de DSM-IV-criteria?’
Methodologie
Een betrouwbare evidence-based richtlijn staat of valt bij de methode
waarmee het bewijsmateriaal is verzameld en samengesteld en hoe dit
is vertaald naar aanbevelingen voor de praktijk. De zoekactie voor
richtlijnen is sensitief: er dient zo volledig mogelijk te worden ge-
zocht. De strategie waarmee de literatuur is verzameld, is in detail
beschreven, inclusief zoektermen, geraadpleegde bronnen en de pe-
riode waarover artikelen zijn verzameld. Mogelijke bronnen zijn elek-
tronische databases (bijv. MEDLINE, EMBASE, Cinahl), databases van
systematische reviews (bijv. Cochrane Library, DARE), handmatig ge-
screende tijdschriften, congresverslagen en andere richtlijnen (bijv. US
National Guideline Clearinghouse, Guidelines International Network)
(zie ook hoofdstuk 3). In het ideale geval bestaat de richtlijn uit een
serie (geactualiseerde) systematische reviews (zie hoofdstuk 5). Is
geen systematische review voorhanden, dan zijn de methoden van
samenvatten duidelijk beschreven. De methoden die zijn gebruikt bij
het opstellen van de aanbevelingen zijn beschreven, evenals de wijze
waarop men tot de uiteindelijke conclusies is gekomen. Voorbeelden
van dergelijke methoden zijn een stemmingssysteem of formele con-
sensustechnieken (bijv. Delphi-, Glaser-technieken). Punten waarover
men van mening verschilde en hoe deze opgelost werden, zijn duide-
lijk omschreven. Bij het opstellen van de aanbevelingen zijn de voor-
en nadelen van de diverse beleidsopties afgewogen, met bijvoorbeeld
ook aandacht voor eventuele bijwerkingen en de korte- en langeter-
mijnrisico’s van de aanbevelingen.
Essentieel is dat er in de tekst van de richtlijn een expliciete onder-
bouwing is van de individuele aanbevelingen. Deze kan bestaan uit
een bespreking van literatuur, maar ook uit argumentaties van de
werkgroep. Bij elke aanbeveling is een referentielijst vermeld of wordt
expliciet aangegeven dat er geen relevante literatuur is gevonden.
Voorts is de richtlijn ook extern beoordeeld voordat zij is gepubliceerd,
net als bij wetenschappelijke artikelen in ‘peer reviewed’ tijdschriften.
De referenten mogen niet betrokken zijn geweest bij de richtlijn-
werkgroep en onder hen zijn zowel klinische experts op het gebied
van de richtlijn als enkele methodologische experts. Ook vertegen-
woordigers van patiënten kunnen als referent optreden. Vanwege de
continue stroom aan nieuwe literatuur – potentieel nieuw bewijsma-
teriaal die invloed kan hebben op de aanbevelingen in de richtlijn –
194 Inleiding in evidence-based medicine
Helderheid en presentatie
Aangezien richtlijnen vooral werkers in de gezondheidszorg en
patiënten helpen bij het nemen van beslissingen in de praktijk, is het
noodzakelijk dat zij eenvoudig te begrijpen, patiëntgericht en gebrui-
kersvriendelijk zijn. Een goede richtlijn bevat specifieke, eenduidige
aanbevelingen en geeft heldere informatie over de keuzemogelijkhe-
den en de mogelijke consequenties van de beleidsopties. Als er twijfel
bestaat over het beste beleid, dan is deze twijfel expliciet in de richtlijn
vermeld. Een aanbeveling voor het beleid bij depressie kan bijvoor-
beeld de volgende behandelingsalternatieven bevatten:
a medicamenteuze therapie;
b psychotherapie;
c combinatie van a en b.
Psychotherapie heeft als eerste therapie ongeveer gelijke effectiviteit
als antidepressiva. Antidepressiva hebben bijwerkingen. Sommige
patiënten hebben weerstand tegen psychotherapie, en vinden dit ook
te tijdrovend. Ook is er vaak een wachtlijst voor psychotherapie. In een
gesprek kunnen deze aspecten tegen elkaar worden afgewogen.
De richtlijn is in een aantrekkelijk format gepresenteerd, wat het ge-
bruik in de praktijk bevordert. De meest relevante aanbevelingen zijn
gemakkelijk te vinden, door ze bijvoorbeeld samen te vatten in een
kader of door ze te presenteren als stroomdiagrammen of algoritmen.
Naast een samenvatting kunnen andere hulpmiddelen worden ingezet
om de toepassing in de praktijk te bevorderen, zoals patiëntenfolders,
computerondersteuning en nascholingsmateriaal.
Toepassing
In dit domein gaat het om de effecten van de toepassing van de richt-
lijn in de praktijk en de mogelijk organisatorische en financiële bar-
rières die hierbij geslecht moeten worden. Richtlijnen die praktisch
niet uitvoerbaar of haalbaar zijn, zijn zinloos en verspilde moeite.
Daarom wordt reeds bij de ontwikkeling van de richtlijnen nagegaan
of de aanbevelingen passen binnen de huidige organisatie van de zorg
en in de routines van de praktijk en de tijdsdruk van het werk. Orga-
nisatorische veranderingen die nodig zijn om de aanbevelingen toe te
passen zijn in de richtlijn besproken. Een richtlijn over beroerte kan
bijvoorbeeld adviseren dat de zorg wordt gecoördineerd in speciale
‘stroke-units’. De toepassing van de aanbevelingen kan aanvullende
middelen vereisen, bijvoorbeeld meer gespecialiseerd personeel,
6 Evidence-based richtlijnen 195
Onderwerp en uitgangsvragen
- Afbakenen van het onderwerp
- Knelpuntenanalyse
- Formuleren van uitgangsvragen
- Opstellen van beantwoordbare zoekvragen
Literatuursearch in databases:
1. Cochrane Library
2. Medline/Pubmed
3. Embase
4. Cinahl
5. PsychInfo
6. Richtlijndatabases (US Guideline Clearinghouse,
Guidelines International Network)
A1 systematische review van ten minste twee onafhankelijk van elkaar uitgevoerde onderzoeken
van A2-niveau
C niet-vergelijkend onderzoek
* Deze classificatie is alleen van toepassing in situaties waarin om ethische of andere redenen gecontroleerde
trials niet mogelijk zijn. Zijn die wel mogelijk dan geldt de classificatie voor interventies.
1 onderzoek van niveau A1 of ten minste twee onafhankelijk van elkaar uitgevoerde onderzoeken
van niveau A2
2 één onderzoek van niveau A2 of ten minste twee onafhankelijk van elkaar uitgevoerde onder-
zoeken van niveau B
criteria)
Stafford RCT B patiënten van 16 jaar TE (n=20) penicilline V 18-24 aantal patiënten TE-groep: 18 patiënten
1986 of ouder met ten bij tonsillitis mnd dat zelf zegt te zijn ‘genezen’, 2 patiënten
minste 4 tonsillitis- (n=20) genezen van hun tevreden over resultaat
episoden per jaar, klachten Niet-chirurgische groep:
gedurende ten 14 patiënten ‘genezen’,
minste 2 jaar 6 patiënten wilden alsnog
chirurgie
Lildholdt RCT B patiënten met 3 of behandeld behandeld 12 maan- als een patiënt een slechts 45% van de deel-
2003 meer tonsillitisepiso- met azithro- met placebo den tonsillitis kreeg nemers (40% vs 49%) ont-
den in elk van de af- mycine 500 (n=57) werd deze als fail- wikkelde een tonsillitis ge-
gelopen 2 jaar mg (n=53) ure beschouwd en durende de studie periode
stopte de studie
voor deze patiënt
Fox 2006 retro- C patiënten die 12 mnd n=278 geen aantal tonsillitiden 83% ten minste 1 tonsilitis
spectief op de wachtlijst in de afgelopen 6 episode in afgelopen 6
via vra- staan voor TE mnd mnd
genlijst
Bhattacha- retro- C patiënten met 3 of N=83 geen 12 mnd – aantal weken – 6,6 (SD 6,4) vs 0,6 we-
ryya 2001 spectief meer tonsillitiden in voor TE met antibiotica ken (SD 0,9)
en 2002 d.m.v. afgelopen jaar en 12 – aantal gemiste – 9,2 (SD 11,8) vs 0,6
mailing mnd na werkdagen werkdagen (SD 2,0)
TE
201
Het kan soms zinvol zijn over de grens te kijken, indien er over een
bepaald onderwerp geen nationale of lokale richtlijn voor de be-
roepsgroep beschikbaar is. Op internet en in gedrukte vorm zijn dui-
zenden richtlijnen beschikbaar. De eerdergenoemde richtlijndataba-
ses van het US National Guidelines Clearinghouse en het Guidelines
International Network (GIN) bevatten vrijwel alle evidence-based
ontwikkelde richtlijnen (zie hoofdstuk 3). De kwaliteit en actualiteit
van de daarin gepresenteerde richtlijnen verschillen echter sterk. Eer-
6 Evidence-based richtlijnen 205
Ook kan besloten worden zelf een richtlijn te maken. Dit vereist een
grote inspanning en naast klinische expertise is methodologische
kennis noodzakelijk. Ook dient er ervaring te zijn met het werken met
taakgerichte groepen. Het ontwikkelen van een evidence-based richt-
lijn is een intensief proces en is op lokaal niveau niet aan te raden.
Gezondheidswerkers kunnen de beste bijdrage aan verbetering van de
gezondheidszorg leveren door op lokaal niveau mee te denken over de
implementatie op de werkvloer van bestaande richtlijnen. Natuurlijk
zijn er altijd commissieleden (generalisten en (super)specialisten)
voor de nationale richtlijnencommissies nodig. Deelnemen aan een
richtlijncommissie is een tijdrovende, maar zeer leerzame en dankbare
ervaring. Toch is te verwachten dat de meeste gezondheidswerkers
vooral consumenten van richtlijnen zullen zijn. Actieve en kritische
consumenten wel te verstaan, aangezien de implementatie op de
werkvloer door iedereen zal moeten worden voorbereid en onder-
steund. Evaluatie van het gebruik op de werkvloer kan weer leiden tot
een aanpassing van de richtlijn op landelijk niveau.
6.4 Conclusie
Literatuur
Burgers JS. Richtlijnen als hulpmiddel bij de verbetering van de zorg. In: Grol R,
Wensing M (red). Implementatie: effectieve verandering in de patiëntenzorg.
Maarssen: Elsevier gezondheidszorg, 2006: 124-150.
Everdingen JJE van, Burgers JS, Assendelft WJJ, Swinkels JA, Barneveld TA van,
Klundert JLM van de (red). Evidence-based richtlijnontwikkeling. Een leidraad voor
de praktijk. Houten: Bohn Stafleu van Loghum, 2004.
206 Inleiding in evidence-based medicine
7.1 Inleiding
patiënten die aan de trial meededen. Als steun kan hij nagaan of de
eigen patiënt aan de in- en exclusiecriteria van het onderzoek zou
hebben voldaan. Deze kwalitatieve afweging kan ook worden omge-
draaid: zijn er redenen om aan te nemen dat mijn patiënt anders op
de interventie zal reageren dan de patiënten in het onderzoek? Indien
de pathofysiologie bij de individuele patiënt zeker anders is omdat er
relevante comorbiditeit is, bijvoorbeeld een nierinsufficiëntie of dia-
betes mellitus, moet vervolgens worden beoordeeld of dit gevolgen
heeft voor met name de effectiviteit van de behandeling met betrek-
king tot de gewenste effecten, of juist meer voor de kans op bijwer-
kingen.
Alle trials naar het nut van endarteriëctomie van de arteria carotis
bij patiënten met een ernstige carotisstenose om herseninfarcten te
voorkómen zijn gedaan bij mannen. De vraag of dit toepasbaar is bij
vrouwen hangt af van inzichten in de pathofysiologie van bloedvat-
obstructie bij vrouwen en de inschatting van hun operatierisico. In-
dien de prognose ten aanzien van het krijgen van een herseninfarct bij
vrouwen met ernstige carotisstenose beter is dan bij mannen, en zij
een hoger operatierisico zouden hebben, lijkt een operatie minder
aantrekkelijk dan wanneer aannemelijk gemaakt kan worden dat de
prognose ten aanzien van het krijgen van een herseninfarct bij vrou-
wen juist slechter is dan bij mannen, en dat zij een lager operatierisico
hebben.
In klinische trials worden patiënten met comorbiditeit bijna altijd
uitgesloten. Een hogere leeftijd staat hier vaak voor relevante comor-
biditeit. Toch is bij enkele veelvoorkomende ziekten en behandelingen
wel bekend dat een behandeling meer of minder effectief is bij
patiënten met relevante comorbiditeit, al weet men niet precies waar-
om. Als bekend is dat groepen patiënten met diabetes mellitus een
lagere relatieve risicoreductie ten aanzien van het voorkomen van een
herseninfarct hebben, dan kan dat het gevolg zijn van een geringere
invloed van het effect van de interventie op het eindorgaan bij deze
patiëntengroep (de bloedvatverstopping neemt sterker toe), of van een
toename van de kans op een herseninfarct als gevolg van de operatie.
Voor de individuele patiënt is het netto-effect van de behandeling dus be-
langrijk: verbetering van de kans op de gunstige uitkomst, met aftrek
van de kans op een onaangename (of fatale) bijwerking. De afzon-
derlijke bijdrage van gunstige en ongunstige effecten is uit de pre-
sentatie van de resultaten van de trial echter vaak niet af te leiden.
Samengestelde uitkomstmaten zoals totaal aantal herseninfarcten of
totale sterfte zijn nuttig, maar geven geen inzicht in de relatieve bij-
210 Inleiding in evidence-based medicine
Bij het op deze wijze afwegen of evidence uit een onderzoek toegepast
kan worden bij een patiënt uit de dagelijkse praktijk, zijn drie begrip-
pen van belang: generaliseerbaarheid, extrapolatie en toepasbaarheid.
Generaliseerbaarheid
Met generaliseerbaarheid (of externe validiteit) wordt bedoeld de mate
waarin de resultaten van een onderzoek geldig zijn voor individuen
buiten het onderzoek met weliswaar dezelfde klinische kenmerken,
maar levend in andere geografische gebieden en in andere tijdsperio-
des. De centrale aanname is dat de onderliggende pathofysiologie
voor individuen buiten het onderzoek dezelfde is als voor de patiënten
in het onderzoek.
Extrapoleerbaarheid
Extrapoleerbaarheid is de mate waarin de resultaten van een onder-
zoek in een groep met andere demografische en klinische kenmerken
kunnen worden toegepast. Men doet aannamen en voorspellingen
buiten datgene wat in het onderzoek is waargenomen en gemeten, en
houdt hierbij rekening met een andere onderliggende pathofysiologie
en dus met een andere effectiviteit van de behandeling. Er wordt
extrapolatie naar andere patiënten, verwante behandelingen en andere
gezondheidsuitkomsten onderscheiden. Zo kan men zich bijvoorbeeld
per ziektebeeld en per behandeling afvragen, of de resultaten van een
klinische trial bij patiënten tussen de 40 en 55 jaar geëxtrapoleerd
kunnen worden naar patiënten tussen de 55 en 65 jaar of naar kinde-
ren. Een geval van extrapolatie betreft ook de effecten van chemothe-
rapie op overleving en welbevinden van oudere patiënten met kanker.
Over deze effecten bij verschillende vormen van kanker is weliswaar
veel evidence, maar die is vaak afkomstig uit trials bij patiënten die
jonger zijn dan 65 jaar. In de praktijk is de helft van de patiënten met
kanker ouder dan 65 jaar. Bij hen is niet alleen de prognose slechter,
maar chemotherapie wordt door hen ook minder goed verdragen. Bij
ouderen moet daarom een potentieel grotere winst in overleving wor-
den afgewogen tegen een grotere kans op bijwerkingen die mogelijk
zelfs de primair gewenste uitkomst, overleving, negatief kunnen
beı̈nvloeden.
Een goed voorbeeld van het probleem van extrapolatie betreft de
effectiviteit en veiligheid van behandeling met orale antistolling met
vitamine-K-antagonisten. Volgens een onderzoek uit 2008 zou 40%
7 Bewijs toepassen op individuele patiënten 211
van de patiënten die met een bloeding ten gevolge van antistollings-
behandeling werden opgenomen in het ziekenhuis geëxcludeerd zijn
van de trials die de effectiviteit en veiligheid van deze behandeling
hebben onderzocht. De auteurs vergeleken in dit onderzoek het aantal
aanwezige exclusiecriteria bij patiënten met een antistollingsgerela-
teerde bloeding met die van patiënten die eveneens antistolling ge-
bruikten maar voor een andere indicatie werden opgenomen. Hieruit
bleek dat het risico op een ernstige bloeding sterk toenam met het
aantal aanwezige exclusiecriteria bij een patiënt. Om de afweging van
beoogd voordeel versus de kans op nadeel (bloedingen in dit geval)
goed te kunnen maken, is het dus van belang dat de voorschrijvend
arts zich afvraagt of zijn of haar patiënt wat betreft een onderliggende
pathofysiologie voldoende lijkt op de trialpatiënten op wie de cijfers
die aan de afweging ten grondslag liggen zijn gebaseerd.
Toepasbaarheid
De term toepasbaarheid slaat op de dagelijkse klinische praktijk zoals
die zich lokaal voordoet. Men denkt zowel aan de generaliseerbaar-
heid en extrapolatie van de evidence naar de eigen patiënt, als aan de
aan- of afwezigheid van een diagnostische of therapeutische techniek
in het eigen ziekenhuis, de aan- of afwezigheid van de juiste infra-
structuur, enzovoort. Zo is het vanzelfsprekend dat een nieuwe ope-
ratietechniek pas kan worden ingevoerd nadat de lokale chirurg deze
heeft aangeleerd.
In het eerste geval moet men zich afvragen of er redenen zijn om aan
te nemen dat de interventie niet zou werken bij de eigen patiënt. Als
die redenen er niet zijn, kan de behandeling worden toegepast (uiter-
aard moeten de variatie in de individuele respons op de behandeling
en de kans op ongewenste bijwerkingen worden meegewogen). Als er
onzekerheid is over het netto-effect in de eigen patiëntenpopulatie,
moet men zich als behandelaar afvragen of het misschien toch mo-
7 Bewijs toepassen op individuele patiënten 213
gelijk is dat de interventie bij de eigen patiënten meer goed dan kwaad
doet. Dan is het namelijk de moeite waard bestaande gegevens verder
te analyseren, of zo mogelijk de patiënt aan een nieuwe klinische trial
te laten deelnemen (zie situatie c in figuur 4.7). Er is dan sprake van
‘geen bewijs van effect’ (no evidence of effect). Als effectiviteit onwaar-
schijnlijk is, moet de interventie worden ontraden en moet een alter-
natief worden gezocht. Men spreekt dan van evidence of no effect (situatie
b en d in figuur 4.7).
Vanaf hier gaan we ervan uit dat het op basis van onderzoek waar-
schijnlijk is dat de interventie in de eigen setting en patiëntengroep
meer goed dan kwaad doet.
Dit heeft tot gevolg dat het absolute effect afhankelijk is van het
achtergrondrisico (percentage gebeurtenissen – ‘events’ – in de con-
trolegroep). Dit model staat in contrast met het additieve model, waarbij
ongeacht het achtergrondrisico de behandeling tot een vast percen-
tage verbetering leidt (risicoverschil van interventie- en controlegroep
is steeds constant en dus niet afhankelijk van het achtergrondrisico).
Een en ander wordt geı̈llustreerd in het hypothetische voorbeeld in
tabel 7.1.
Tabel 7.1 Behandeleffecten in verschillende groepen in vergelijking tot het effect in de groep die in de
klinische trial werd onderzocht.
groep achtergrondrisico op de relatieve absolute number
ongunstige uitkomst risicoreductie risicoreductie needed to treat
Hoe effectief is de behandeling bij deze patiënt? Het NNT hangt mede af van het absolute risico van een
patiënt op de ongunstige uitkomst. Een patiënt met een laag risico (en dus een gunstige prognose) heeft
relatief minder baat bij een behandeling, wat tot uitdrukking komt in een hoger NNT. De NNT wordt in de
behandelbeslissing afgewogen tegen met name de kosten en bijwerkingen.
7.3 Vijf stappen bij het toepassen van evidence bij complexe
beslissingen
duele patiënt. Een juiste toepassing van deze methode steunt op het
identificeren van factoren die:
– het achtergrondrisico van de patiënt bepalen;
– het gunstige effect van de behandeling modificeren;
– de kans op gezondheidsrisico’s van de behandeling bepalen.
Stap 1 Maak een lijst van alle voordelen en alle nadelen van de
interventie
Deze lijst kan men baseren op allerlei gegevens uit leerboeken, com-
pendia, bijsluiters, en op de eigen praktijkervaring. In tabel 7.2 is zo’n
opsomming opgenomen voor twee preventieve behandelingen. Voor
het vaststellen van de kansen op nadelige effecten zal men soms apart
in de literatuur moeten zoeken. Daarbij komt men vaak op cohort-
onderzoek en patiëntcontroleonderzoek uit (zie paragraaf 4.5). Maar
ook klinische trials en systematische reviews beschouwen in toene-
mende mate meerdere relevante uitkomsten, waaronder de onge-
wenste bijwerkingen. Zo zijn antiarrhythmica ook onderzocht op hun
proaritmische effecten, en trombolyse en antistolling op de kans op
ernstige bloedingen. Vooral voor patiënten met een laag risico op de
primaire uitkomst (sterfte of ernstige cardiovasculaire complicaties)
kunnen deze bijwerkingen van groot belang zijn.
– verlagen van de kans op invasieve colorectale tumo- – fout-positief screeningsresultaat met uit-
ren (verbetering prognose) gebreide diagnostiek
– verlagen van sterfte aan colorectale tumoren – perforatie van het colon
– pijn
– angst
7 Bewijs toepassen op individuele patiënten 217
nodig zelf een kans in te schatten die op de patiënt het meest van
toepassing lijkt.
Hopelijk zullen de klinische informatiesystemen de behandelaars en
de patiënten in de toekomst in staat stellen moeilijke afwegingen zo
veel mogelijk met kwantitatieve gegevens te ondersteunen. Ook is te
hopen dat in de toekomst bij het ontwerpen van klinische trials meer
rekening wordt gehouden met de eindgebruikers van de informatie,
de behandelaar en zijn patiënt, en dat alle relevante uitkomsten wor-
den bestudeerd en gerapporteerd, waarbij de inbreng van de patiënt
een belangrijke rol moet spelen. Voorts moeten bij het ontwerpen van
klinische trials de in- en exclusiecriteria kritisch worden bekeken met
het oog op latere implementatie van de resultaten, waarbij er waar-
schijnlijk grotere, pragmatische trials moeten komen, met heterogene
patiëntengroepen, aan de hand waarvan via subgroepanalyse effect-
modificatie kan worden bestudeerd. In systematische reviews moet de
aanwezigheid van relevante subgroepen als bron van heterogeniteit
tussen onderzoeken steeds worden onderzocht, en moeten hypothe-
sen kunnen worden gevormd.
Beslissingsfactoren
Factoren in de beslissing om de resultaten van een klinische trial
of een systematische review wel of niet te gebruiken, en de
behandeling bij een individuele patiënt toe te passen:
– Is de behandeling mogelijk in mijn setting?
– Wat zijn de voor- en nadelen van de behandeling?
– Is op grond van verschillen in relevante biologische factoren
of pathofysiologische verschillen de aan de interventie toege-
schreven relatieve risicoreductie bij mijn patiënt mogelijk
anders? Is er sprake van comorbiditeit of contra-indicaties
voor de behandeling die de succeskans kunnen verminderen?
Is de manier waarop de behandeling zal worden toegepast zo
anders dat de kans op gunstige en ongunstige effecten anders
zullen uitvallen? Zijn er sociale factoren die de kans op suc-
cesvolle toepassing van de interventie verkleinen? Zijn er
redenen om aan te nemen dat in dit geval de compliance met
de behandeling lager zal zijn, met een bijbehorende kleinere
kans op succes?
– Hoe groot is het absolute risico van de ongewenste uitkomst
bij deze patiënt, en is in dit licht de behandeling efficiënt?
– Wat wil de patiënt zelf?
220 Inleiding in evidence-based medicine
7.4 Conclusie
Bij het toepassen van evidence moet men allereerst rekening houden
met de verschillende dimensies van bewijs: het onderzoekstype, de
consistentie van de resultaten (indien meer onderzoeken beschikbaar
zijn), de kwaliteit van de afzonderlijke onderzoeken, de precisie
waarmee een effect is vastgesteld, de grootte van het effect en de
klinische relevantie van de gehanteerde uitkomstmaten. Een vertaal-
slag van hoogkwalitatieve groepsevidence naar het individuele geval is
hierna mogelijk: de behandelaar gebruikt hierbij zijn pathofysiologi-
sche kennis en alle informatie die kan aangeven of de behandeling bij
zijn patiënt wel effectief zal zijn. Er is altijd de vraag of de voordelen
van de interventie opwegen tegen de eventuele nadelen. Voorkeuren
van de patiënt dienen aan te sluiten bij de afweging van deze voor- en
nadelen; een waardeoordeel van de personen die de behandeling
zullen ontvangen hoort daarom altijd bij de beslissing betrokken te
worden.
In een ideale wereld is de behandeling altijd zeer effectief en wordt
elke iatrogene schade voorkomen. In onze huidige wereld zijn echter
veel dagelijkse klinische vragen nog niet te beantwoorden op basis van
evidence. En, zoals hiervoor geschetst, evidence is op zichzelf nooit
dwingend, zij geeft slechts informatie over de te nemen de beslissin-
gen. Het doel van een klinische beslissing is uiteindelijk de keuze voor
een behandeling die het klinisch beloop verbetert in de door de patiënt
gewenste zin. Een van de belangrijkste taken van de moderne arts is
het informeren van de patiënt over de kansen op ongewenste uit-
komsten en de effecten van behandeling.
Literatuur
Furukawa TA, Guyatt GH, Griffith LE. Can we individualize the ’number needed to
treat’? An empirical study of summary effect measures in meta-analyses. Int J
Epidemiol 2002 Feb;31(1):72-6.
Glasziou PP, Irwig LM. An evidence based approach to individualizing treatment. BMJ
1995;311:135-69.
Levi M, Hovingh GK, Cannegieter SC, Vermeulen MR, Buller HR, Rosendaal FR.
Bleeding in patients receiving vitamin K-antagonists that would have been excluded
from trials on which the indication for anticoagulation was based. Blood 2008 May;
111(9):4471-6.
Locadia M, Bossuyt PM, Stalmeier PF, Sprangers MA, Dongen CJ van, Middeldorp S,
Bank I, Meer J van der, Hamulyák K, Prins MH. Treatment of venous thromboem-
bolism with vitamin K antagonists: patients’ health state valuations and treatment
preferences. Thromb Haemost 2004 Dec;92(6):1336-41.
7 Bewijs toepassen op individuele patiënten 221
Lubsen J, Tijssen JG. Large trials with simple protocols: Indications and contraindica-
tions. Control Clin Trials 1989;10:151S-60S.
Sont JK, Stiphout WA van, Noordijk EM, Molenaar J, Zwetsloot-Schonk JH, Willemze
R, Vandenbroucke JP. Increased risk of second cancers in managing Hodgkins
disease: the 20-year Leiden experience. Ann Hematol 1992 Nov;65(5):213-8.
Evidence-based medicine in de 8
praktijk
8.1 Inleiding
omvang en complexiteit van het medisch- gebruik bronnen waarin informatie is samengevoegd en van
wetenschappelijk onderzoek commentaar voorzien
ontwikkelen van klinisch beleid op basis – gebruik bestaande richtlijnen of maak ze met collega’s
van de evidence – start een journal-club met een ‘richtlijnenoogmerk’
toepassen van de evidence door: – zorg voor een snelle en betrouwbare toegang tot de
– slechte toegang tot evidence bronnen
– slechte toegang tot richtlijnen – zoek prikkels en mogelijkheden om betere integratie van
– organisatorische barrières evidence in de praktijk te bewerkstelligen
– minder effectieve nascholing – ontwikkel uw vaardigheden door gerichte nascholing, en
stimuleer collega’s dit ook te doen
224 Inleiding in evidence-based medicine
Het zoeken naar informatie heeft een hoge ‘waarde’, tenzij het een
enorme hoeveelheid tijd en werk kost om aan de evidence te komen.
Deze tijd kan worden opgesplitst in zoektijd in de (elektronische)
media en in de tijd die het kost om de gevonden informatie op uw
bureau te krijgen. Zowel een snelle internetverbinding als een goede
routine om interessante referenties in gedrukte vorm te verkrijgen zijn
dus belangrijk. Dit is een van de redenen waarom het in de meeste
gevallen legitiem is om zoekstrategieën te beperken tot tijdschriften of
andere bronnen die ter beschikking zijn. Uit de functie blijkt verder
dat het meest valide bewijsmateriaal, waarbij de uitkomsten relevant
zijn voor de patiënt, de voorkeur heeft.
Indien u op internet een paar goede sites hebt gevonden (zie hoofd-
stuk 3) is het zaak deze sites gemakkelijk te kunnen terugvinden. De
methode die hiervoor ter beschikking staat is om zogenoemde favo-
rieten (bookmarks) te maken, en om de goede sites op een gestruc-
tureerde manier onder diverse relevante kopjes in verschillende map-
pen op te slaan. U kunt uw collega’s per e-mail interessante artikelen
en weblinks toesturen. Verder is een databaseprogramma om refe-
renties en zoekacties op te slaan (zoals Procite, Refman, Access) aan te
raden.
Scholing
Het op elke werkplek installeren van toegang tot de evidence impli-
ceert ook het geven van onderwijs in het gebruik van de techniek en
de bronnen. Voor het scholen van uzelf en uw collega’s, en voor het
opslaan en het presenteren van uw activiteiten zijn een overhead-
projector, een LCD display of een beamer, en een diaprogramma als
Microsoft PowerPoint erg handig. Veel EBM-websites stellen namelijk
goed onderwijsmateriaal in de vorm van PowerPoint-presentaties ter
beschikking. Door kleine aanpassingen van deze bestaande presenta-
8 Evidence-based medicine in de praktijk 225
Er zijn inmiddels verschillende modellen bekend die laten zien dat dit
goed mogelijk is, zowel op een ziekenhuisafdeling en op de polikli-
niek, als in de huisarts- of fysiotherapiepraktijk. Wij bespreken deze
drie settingen nu kort.
226 Inleiding in evidence-based medicine
men zodanig voor te bereiden dat ze aanleiding geven tot een korte
discussie met de groep, wat kan worden gevolgd door het formuleren
van een ‘PICO-vraag’ en een zoekstrategie voor het vinden van relevant
en valide materiaal.
8.4.3 in de huisartspraktijk
Vanzelfsprekend spelen de standaarden van het Nederlands Huisart-
sen Genootschap een grote rol in het evidence-based werken van de
Nederlandse huisarts. Daarnaast zijn er echter veel situaties waarin
een standaard geen uitkomst brengt. In de huisartspraktijk doen zich
namelijk veel situaties voor waar bij het ontbreken van of als aanvul-
ling op een standaard een uitgebreidere evidence-based aanpak kan
worden geı̈ntroduceerd.
Allereerst kan de voorgaande ziekenhuisaanpak ook worden gebruikt
bij het opleiden van coassistenten en bij huisartsen in opleiding. Een
dergelijke manier van werken kan ook worden toegepast om het eigen
handelen van een huisarts te optimaliseren. Natuurlijk is dit laatste
veel leuker indien het in de vorm van een toetsgroep of journal-club
8 Evidence-based medicine in de praktijk 229
8.5 Beschouwing
Question: een relevante klinische vraag waarin de onderdelen van de PICO-structuur aan bod
komen (Patient, Intervention, Comparison, Outcome)
Search strategy Waar is gezocht (PubMed e.d.) en met welke zoektermen? Welke limits zijn gebruikt?
and outcome: Hoeveel artikelen zijn gevonden, hoeveel waren relevant voor beantwoording van de
vraag en hoe is dat bepaald? Wat waren de inclusie- en exclusiecriteria van de
artikelen?
Author & date Patient Study Intervention Compa- Results Study Level
group type rison Outcomes weaknesses
Tips om te beginnen
– Bedenk drie situaties in uw praktijkvoering waar u het werken
volgens de EBM-methode zou kunnen introduceren.
– Zoek collega’s met wie u een EBM journal-club kunt beginnen.
– Inventariseer welke computer hardware en software u al heeft
en welke investeringen nog nodig zijn.
– Onderzoek de beschikbaarheid van diverse databases op uw
werkplek en vul deze eventueel aan.
– Vraag uzelf af hoe goed u bent in de verschillende EBM-stap-
pen en maak een (na)scholingsprogramma voor uzelf.
– Overleg met de financieel verantwoordelijke in uw instelling of
met de lokale zorgverzekeraar hoe gelden kunnen worden
vrijgemaakt voor investeringen in materialen (abonnementen,
hard- en software) en training.
Literatuur
9.1 Missie
THE COCHRANE
COLLABORATION®
Het logo van de Cochrane Collaboration (zie figuur 9.1) bevat een
voorbeeld van een deel van de resultaten van een van de eerste syste-
matische reviews. Tussen de twee C’s staat een grafische weergave van
een systematische review van zeven gerandomiseerde onderzoeken.
236 Inleiding in evidence-based medicine
9.2.2 fields
De Cochrane Review Groups hebben, met een enkele uitzondering,
doorgaans een ziekte(categorie) als uitgangspunt. Bij de activiteiten
238 Inleiding in evidence-based medicine
van Cochrane Fields (ook wel Networks genoemd) kan het gaan om
een categorie patiënten (bijvoorbeeld kinderen), een setting in de ge-
zondheidszorg (eerste lijn) of een groep therapieën (paramedische
zorg). Een actueel overzicht van Cochrane Fields kan gevonden wor-
den op www.cochrane.org. Nederland herbergt twee Fields: het Re-
habilitation and Related Therapies Field in Maastricht en het Primary
Health Care Field in Nijmegen (zie tabel 9.1).
Fields behartigen de belangen van hun aandachtsgebied in de rele-
vante CRG’s. Bovendien zorgt een Field ervoor dat alle gerandomi-
seerde onderzoeken van hun aandachtsgebied worden opgespoord en
in een specialised register worden opgenomen teneinde reviewers te
ondersteunen bij het zoeken naar studies tijdens het uitvoeren van de
review. Ook brengen zij de activiteiten van de Cochrane Collaboration
onder de aandacht van hun vakgenoten op (inter)nationale congres-
sen.
Een speciaal Field is het Consumer Network. Dit is opgericht binnen
de Cochrane Collaboration om de belangen van de consumers
(patiënten) te kunnen laten behartigen door ervaringsdeskundigen.
Patiënten leveren een belangrijke bijdrage aan verschillende Cochrane
groeperingen. Zo biedt het Consumer Network gelegenheid tot het
houden van overleg tussen en het informeren van consumers en on-
dersteunt het de deelname van consumers bij Cochrane-werkzaam-
heden. Patiënten worden bijvoorbeeld actief betrokken bij het bepalen
van relevante uitkomstmaten voor (nieuwe) systematische reviews.
Ook verzorgt het Consumer Network de productie van zogenoemde
plain language summaries, samenvattingen van Cochrane reviews zonder
medisch-technische terminologie (zie www.cochrane.org).
Opgericht 1997
Doelstelling Het maken en actueel houden van systematische reviews over de effectiviteit van
processen waarmee mensen hun vruchtbaarheid, familiegrootte en geboorte-interval
regelen
Website www.lumc.nl/1060/cochrane
Opgericht 2006
Doelstelling Het maken en actueel houden van systematische reviews over interventies en diagnos-
tische tests voor kinderen en jongvolwassenen met kanker met betrekking tot preventie,
behandeling, ondersteunende zorg, psychosociale zorg, palliatieve zorg en de late
effecten van behandeling
Website www.ccg.cochrane.org
Back Group
Opgericht 1996
Doelstelling Het maken en actueel houden van systematische reviews over interventies en diagnos-
tische tests voor aandoeningen van de rug en nek
Thuisbasis Vrije Universiteit medisch centrum, Amsterdam (gedeeld met Toronto, Canada)
Website www.cochrane.iwh.on.ca
Opgericht 1995
Doelstelling Het identificeren van onderwerpen binnen het aandachtsgebied van het Field, mensen
enthousiasmeren voor het maken van een systematische review die aansluit bij de
behoeften van het Field, en het onderhouden van een specialised register voor het Field
Website www.cebp.nl
Thuisbasis Universitair Medisch Centrum St Radboud, Nijmegen (gedeeld met collega’s uit Nieuw-
Zeeland en Ierland)
Website www.cochraneprimarycare.org
240 Inleiding in evidence-based medicine
Opgericht 2008
Opgericht 2002
Doelstelling Bevorderen van het maken, onderhouden en verspreiden van systematische reviews.
Belgische auteurs werven, ondersteunen en trainen. Een bijdrage leveren aan Review
Groups, Fields, Methods Groups en andere entities van de Cochrane Collaboration
Website www.cebam.be
Opgericht 1994
Doelstelling Bevorderen van het maken, onderhouden en verspreiden van systematische reviews en
bevorderen van de toepassing van evidence-based medicine in Nederland, werven,
opleiden en ondersteunen van Nederlandse auteurs en bijdragen aan het internationale
Cochrane netwerk
Website www.cochrane.nl
9.6 Conclusie