Professional Documents
Culture Documents
Samenvatting
Inleiding
EBM en Psychiatrie
Hoewel dit niet als valide excuus te gebruiken is moet gezegd worden dat er in de
psychiatrie helaas weinig traditie bestaat in het werken met principes van evidence based
medicine zoals bij gebruik van labo testologisch onderzoek in de somatische
geneeskunde. Daar is men stilaan gewoon geraakt om testen te evalueren op basis van
hun ROC curven, specificiteit en sensitiviteit, size effectt, predictieve waarde,
gebruikswaarde in functie van prior probabiliteiten etc.
Als men weet dat er wel degelijk guidelines bestaan om te kunnen oordelen over het nut
van een bepaalde test en om ons te helpen een gevalideerde beslissing te nemen
betreffende de klinische bruikbaarheid ervan, is er geen excuus om deze methodologie
die zo waardevol gebleken is in de andere domeinen van de geneeskunde, niet aan te
wenden op vlak van cognitieve neuropsychiatrie die toch als primair doel heeft de
psychiatrie op stevige wijze in de neurowetenschap te verankeren.
Stap 1
Stap 2
In deze stap zal men de nadruk leggen op het aantonen van het klinische nut van de test.
Vergelijking tussen patiënten en normalen is niet langer voldoende, men moet ook bij de
patiëntgroep vergelijkbare condities zoals deze in de lijst van differentiaal diagnose van
de aandoening voorkomen includeren.
Het gaat hier dus om een onderzoek naar de klinische specificiteit waarbij men het gedrag
van de test evalueert over gekende diagnostische entiteiten rekening houdend met de
mogelijkheden ervan om endofenotypes te identificeren. In deze fase is het belangrijk de
diagnostische categorisatie van de DSM-IV, hoe nuttig ook binnen een klinische realiteit
van overlap en co-morbiditeit naar waarde te schatten en waar nodig te relativeren.
Afwijkingen met duidelijke specificiteit dwz duidelijk verschillende prevalentie in
klinische condities die vaak dicht bij elkaar aanleunen in de differentiaaldiagnostische
lijsten zullen dus vroeger kunnen overgaan naar stap 3 ook al kunnen andere minder
specifieke bevindingen wel grote wetenschappelijke waarde vertonen. Een test die toelaat
een eerste opstoot van schizofrenie geprecipiteerd door cannabisgebruik te onderscheiden
van een zuivere drugpsychose beantwoordt bvb aan dergelijk profiel. Globaal kan men
stellen dat de overgang van stap 2 naar stap 3 gedetermineerd wordt door de klinische
waarden van de specificiteit. Schatten van het “effect size” is een goede maatstaf voor
deze beslissing.
Stap 3:
In deze finale stap 4 gaat het om grote multicenter studies (studies Type 4) om de test op
degelijke wijze te valideren en de optimale standaardisatie uit te werken. Dit gaat niet
meer om beperkte pilootstudies met monsters van 10 tot 15 patiënten maar om grote en
genormaliseerde databases met referentiele capaciteit in functie oa van geslacht, leeftijd
of andere belangrijke co-varianten. Kost benefiet analyses op korte en lange termijn en
outcome studies horen hier thuis.Dit laatste is zeker in d epsychiatrie geen eenvoudige
zaak en zal vaak individueel in functie van aard, stadium en type van pathologie dienen
bepaald te wordenj.
Statistiek en besliskunde
Statistiek doet reeds zijn intrede vanaf type 1 studies. Stel dat we geinteresseerd geraakt
zijn in de waarde van de MMN amplitudo (Mismatch negativiteit) bij patienten met
chronisch ethylisme. (MMN is Een ERP die optreedt tussen 200 a 250 msec bij deviantie
van een stimulus in een overigens regulaire reeks). In werkelijkheid willen we komen tot
een uitspraak die handelt over de ganse populatie van chronische ethylikers. Gezien
niemand de tijd noch de middelen heeft om gans de populatie effectief te onderzoeken
moet men zich noodgedwongen beperken tot wat men als een representatief staal uit deze
populatie betitelt. Echte representativiteit is van essentieel belang want selectiebias is
soms zeer subtiel. Als ons sample niet echt representatief is dan zullen veel uitspraken
over de populatie uiteraard totaal foutief zijn ook al lijken alle berekeningen correct. Een
(karikaturaal) voorbeeld: in een studie over het druggebruik bij jonge mensen doet men
een bevraging bij studenten geneeskudne aan de deuren van het auditorium
anatomopathologie. Men krijgt antwoorden van 500 studenten en noteert een gemiddleld
cannabis gebruik van slechts 2%. De onderzoekers besluiten dat het nogal mee zit met het
cannabisgebruik bij onze jeugd … akoord ? :-)
Als men een representatief staal van de populatie heeft gaat men het gemeten gemiddelde
in dit staal gebruiken om het populatiegemiddelde in te schatten. Hoe meer samples van
dit type (representtaief) des te nauwkeuriger zal deze schatting zijn. Men spreekt van
standard error of the mean; namelijk SEM: standaard deviatie/vkw van samplegrotte. Dat
is dus de gemiddelde afwijking van de sample means tov het “echte” gemiddelde dwz
van het populatie gemiddelde. Aan de hand van die waarde kunnen we gemakkelijk een
confidentie interval berekenen dat ons aangeeft hoe ver we met onze sample van het
echte (populatie) gemiddelde afzitten: het confidentieinterval is het sample gemiddelde
plus min 2 SEM waarde.
Maar eigenlijk gaat het hier niet over een enkel gemiddelde maar wel over twee daar we
willen uitvissen of in een staal van patienten ten opzichte van een staal van normalen een
verschil in een bepaalde meting betekent dat er in werkelijkheid (dwz tussen de beide
populaties een essentieel verschil bestaat. Wie een dergelijke studie type n1 opzet wil
inderdaad aan de hand van zijn metingen weten of het vastgestelde effect berust op
werkelijkheid dan wel of het een loutere toevalsassociatie betreft. Hier komt de beroemde
student “t” test op de proppen. De t test of t statistiek laat ons toe met een bepaalde
waarschijnlijkheid te besluiten of een gemeten effect inderdaad wijst op een
populatieverschil dan wel of het gewoon kan verklaard worden door toevallige factoren
(sample bias) . De berekening is vrij eenvoudig: men deelt het verschil van de gemidelde
waarde in patient en controlegroep door de gepoolde varianties:
Stel dat men vanuit klinische observatie de indruk heeft dat bij patienten met chronisch
ethylisme de amplitudo van de mismatch nagetiviteit zoals gemeten over Fz verschilt van
die waarde bij normalen. Men kan deze indruk krijgen door de opeenvolging van enkele
flagrante voorbeelden of door iets dat men gelezen heeft en waarbij men d eidnruk krijgt
dat er “iets aan de hand is”.
Men kan uiterard niet zomaar op een subjectieve indruk afgaan (hoe sterk men er ook wil
in geloven) en moet dus een objectieve bewijsvoering zien aan te brengen. Hier komt
onze studie type 1 op de proppen.
Men doet dus een vergelijkende studie met een totaal van 30 personen waarvan 15
ethyliekers en 15 perfect gematchte controles. Men vindt in de patientgroep over de
frontale electrode Fz een gemiddelde amplitudo op MMN van 1.35 µV en variantie 0.25
terwijl in de groep normalen een gemiddelde amplitudo van 1.71 µV bedraagt en een
variantie 0.71 wordt opgetekend. .Het ziet er – op het eerste zicht althans- naar uit dat de
onze aanvankelijke indruk bevestigd wordt (1.75 is toch groter dan 1.35 nietwaar) maar d
evraag stelt zich “hoe beduidend is dit verschil” ? mag ik uit dit verschil besluiten dat alle
chronische ethyliekers met d ekarakteristieken van d epatienten die ik geselecteerd heb
een lagere MMN amplitudo vertonen over Fz ?Met andere wooden : is dat verschil nu
ook statistisch significant ? We berekenen onze “t” statistiek volgens de gekende formule
Hier formule
De waarde bedraagt 1.42. Als vuistregel kan men stellen dat om significant te zijn deze
waarde groter moet zijn dan 2.
Deze t waarde hangt af van de (totale) sample grootte en vinden we terug in berekende
tabellen
Dus voor onze groep van 30 deelnemers aan de studie is deze waarde veel te laag.
Dus in tegenstelling met onze aanvankelijke klinische indruk blijkt dat het gemeten effect
in deze studie niet significant is om een dergelijke uitspraak over de populatie te kunnen
doejn. We kunnen natuurlijk d estudie hernemen met een veel grootere sample grootte en
zien waar we dan uitkomen. Als we bvb op 20000 subjecten meten en we vinden een t
van 1.74 dan kunnen we al vrij zeker zijn dat het vastgestelde varband een fata morgana
was. Mensen zijn gevoelige patroonontdekkers maar zijn ook gemakkelijk te misleiden
ompatronen te zien waar er geen zijn. Dat is uiteraard geen schande maar het illustreert
de noodzaak om een goede statistische onderbouwing van onze besluitvorming te doen.
De statistische significantie voorbij: enters “effect size” of de weg van “t” over “p” naar
“d”
Stel dat we wel een goede t resultaat krijgen en dus een p waarde die statistische
significantie reflecteert: mogen nu onder het salken van triomfreten ene gat in de lucht
springen ? Ja en neen. Hoewel in veel studies de p waarde wordt aangegeven als graad
van statistische significantie en dus ook wel belangrijk is geeft het ons echter slechts een
eerste aspect van gans het verhaal. Statistische significantie is OK maar hoe belangrijk is
het waargenomen effect ?. Niet alleen of een verband statistisch significant is maar ook
de grootte van dit verband moet ons immers bezig houden en dat leren we niet uit de p
waarde.
Om het wat karikaturaal te stellen het volgende voorbeeld. Als miljoenen mensen een
lottobiljetje insturen en we vergelijken de gemiddelde winst tov een evengrote groep die
dat niet doen dan is de kans van winst in de lottospellers uiteraard statistisch significant
hoger dan in de groep van diegenen die dat niet doen.
Een wat meer klinisch voorbeeld. In een dubbel blind placebo gecontroleerde studie over
5 jaar betreffende eventuele beschermende effecten van aspirine ter preventie van
coronaire aandoeningen, participeren 22.074 artsen. Zij worden random in twee groepen
opgedeeld: de eerste helft (de behandelde groep) neemt elke morgen een pilletje dat 100
mg salicilaat bevat terwijl in de pil van de controlegroep enkel placebo bevat. Op het
einde van de studie ziet men hartinfarct bij 1.7% van de placebogroep tov 0.94% in de
behandelde groep. Dit resultaat is statistisch zeer significant. Men zou dus kunnen
besluiten dat het nemen van aspirine het risico op hartinfarct halveert. Dat is wel correct
maar over welke grootteorde van effect gaat het hier ?. Die grootteorde is de effect size
aangegeven als Cohen “d”. De berekende d waarde (Cohen d) in deze studie bedraagt
0.06 wat zeer klein is. Met andere woorden men gaat het risico op harinfarct door
innemen van aspirine wel degelijk verlagen maar dan verlagen van “zeer klein” naar een
nog ietsje meer “zeer klein”. Inderdaad zonder al te veel wiskunde ziet men toch dat 98%
van alle deelnemers geen infarct doormaakt ongeacht of ze nu aspirine nemen of niet.
Men spreekt van een zeer kleine effect size. Effect size is een belangrijke parameter
waarvan men natuurlijk gebruik zal maken om zinvolle beslissingen te nemen. Vindt ik
het de moeite om dagelijks een aspirientje in te nemen om dat reeds kliene risico nog te
verder te halveren ? daarbij zal ook andere elementen in beeld komen zoals effect size
van nevenwerkingen vb maagbloeding ? Dezelfde vraag stelt zich voor de lottospeler: ga
ik elke week een biljetje invullen omwille van ene kansje van een cent op die
gfelbegeerde prijs. Mij niet gezien maar gelukkig voor de belgische Lotto dat miljoenen
mensen geen kaas geeten hebben van t testen en effect size.
Het is dus pas als men de effect size van een relatie in overwegeing neemt dat men ten
gronde kan evalueren of het sop de kool wel waard is. Bemerk dat effect size sterk
gerelateerd is aan de grootteorde van het aantal deelnemers (sample grootte) in een
studie. Een fenomeen met grote effect size zal snel duidelijk worden maar om een klein
effectsize aan te tonen zal een studie met vele deelnemers nodig zijn.
Hoe kunnen we deze effect size berekenen ? . Hier wordt het pas echt interessant. Er zijn
diverse mogelijkheden om vanuit gepubliceerde studies (of ze nu t testen aangeven dan
wel F statistiek) de waarde van Cohen “d” te achterhalen. Zijn ze door de auteurs zelf
berekend dan is het uiteraard nog gemakkelijker maar ze zelf berekenen geeft soms de
voldoening dat je nog beter kijk hebt op de echte waarde van een effect dan de autuer(s)
zelf.
Aan de hand van een voorbeeld (ADHD en betekenis van theta toename op qEEG) tonen
de auteurs aan hoe zoiets in de praktijk kan toegepast worden. (J. Neuropsychiatry Clin
Neurosci 17:4 , Fall 2005 pp 455 - 464). We raden iedereen die een test verder wil
uitwerken ten sterkste aan grondig kennis te nemen van de door deze auteurs gebruikte
methodiek. Het is als het ware een blauwdruk waarop de eigen procedure naadloos kan
ingepast worden en dat de wetenschappelijkheid van de verdere ontplooiing van de
klinische neurofysiologie enkel ten goede kan komen.
De auteurs komen bovendien vanuit de literatuurstudie van deze applicatie (ADHD) tot
een aantal interessante algemene vaststellingen:
3/ Elementen van kost efficiëntie zijn steeds moeilijk absoluut te standaardiseren gezien
ze dependent zijn van veel variabelen oa klinische.
Deze guidelines en 4 stappenplan zoals door de auteurs uitgetekend vormen ene perfecte
interface om het dynamische werk van de cognitieve neuropsychologische reserach op
valide wijze te kunnen vertalen naar het klinische domein. Het zal garant staan om
vroegtijdige “release” en hype te vermijden en anderzijds toelaten dat testen robuust en
gestandaardiseerd in multicenter studies gevalideerd zijn alvorens in het arsenaal van de
klinische neuropsychiater opgenomen te worden.
Evaluatie van de gekende literatuur over spectrale analyse bij ADHD toont aan dat effect
size van deze methodologie van dien aard en grootteorde is dat de test zich leent tot
stadium 3 en Vier van het 4 stappenplan. Hierbij is het belangrijk zich te realiseren dat
DSLM-IV categorieën vaak multicausaal zijn. Indien een test erin slaagt om alle gevallen
in de target groep (vb psychose) te identificeren dan betreft het vermoedelijk een test die
gevoelig is aan de “final common pathway”. Is hij echter specifieker vb wel
drugpsychose en niet eerste schizofrenie opstoot dan meet hij een meer pathogeen
gebonden procesfactor.
==============================================================