Wetenschap uitgelegd

B.C. van der Zwaard, NOV-Werkgroep Orthopedie en Wetenschap

Causaliteit toetsen: randomised controlled trial (RCT) vs cohort study

Iedereen kent de piramide van evidence, die verbeeldt welk soort studies zorgen voor een sterkere bewijslast (figuur 1). De voor de hand liggende conclusie lijkt: een RCT is beter dan een cohort study; voor eigen onderzoek kies je bij voorkeur een RCT. Dat de cohort study een trede lager staat, is omdat vaak beweerd wordt dat dit type onderzoek geen causale verbanden kan aantonen. Een RCT kan dat wél, maar ook het RCT-design heeft nadelen. Bovendien is een uitgebreide cohortdatabase, zoals het LROI-register, zeer goed bruikbaar voor wetenschappelijk onderzoek. Om tot een goede keuze te komen en om beide onderzoeksdesigns op waarde te kunnen schatten, zetten we de voor- en nadelen van RCT’s en van cohort studies op een rij en nuanceren we de aanname dat een cohort study geen causaliteit kan aantonen.

Figuur 1. De piramide van evidence, ook wel genoemd: de piramide van betrouwbaarheid.

Randomised controlled trial De randomised controlled trial (RCT) is de klassieke gouden standaard om een onderzoeksvraag over het vergelijken van twee of meer behandelingen te beantwoorden. Een voorbeeld is het NOV CORE-project de LEAK-studie: Een vergelijking van de (kosten)effectiviteit van chirurgische versus niet-chirurgische behandeling bij verlengde wondlekkage na een totale knie- of heuparthroplastiek (TKA/THA).1 Door randomisatie worden patiënten willekeurig in een van de twee onderzoeksgroepen ingedeeld; dit zorgt ervoor dat alle variabelen die invloed zouden kunnen hebben op de uitkomst (confounders), zoals leeftijd, comorbiditeit en medicatiegebruik, gelijk verdeeld worden over de twee groepen. Dat geldt ook voor eigenschappen die invloed zouden kunnen hebben zonder dat we dit vooraf weten of hebben gemeten, zoals persoonlijke omstandigheden, veerkracht, psychische gesteldheid. Met andere woorden: dankzij randomisatie zijn de twee groepen vergelijkbaar en het enige waarin ze verschillen is het wel of niet vroeg-chirurgisch ingrijpen. Verschillen in de uitkomstmaat, namelijk het percentage heroperaties binnen een jaar, is dan toe te wijzen aan het verschil in behandeling, wat causaliteit aantoont. Een belangrijk en veel genoemd nadeel van een RCT is dat de onderzoekspopulatie niet altijd een goede afspiegeling is van de daadwerkelijke populatie. Door het toepassen van exclusiecriteria, zoals het uitsluiten van patiënten met bepaalde comorbiditeiten, leeftijden of etniciteit, ontstaat er verschil met de werkelijkheid. Maar zelfs wanneer een studie weinig exclusiecriteria hanteert, bestaat de kans dat de studiepopulatie anders is dan de werkelijkheid. In de praktijk blijkt het heel vaak moeilijker dan verwacht om patiënten te includeren voor een RCT. Vanuit het oogpunt van de patiënt kan het bijvoorbeeld onduidelijk blijven wat deelname aan onderzoek inhoudt, kan het randomiseren een gevoel van verlies van eigen regie geven of wordt de controlegroep van een studie ervaren als ‘Ik krijg geen behandeling’. Dit kunnen allemaal redenen zijn voor een patiënt om niet deel te nemen aan een RCT. Andersom doen mensen die dit niet ervaren juist wel mee, waardoor het onduidelijk en ongrijpbaar is of de resultaten representatief zijn voor de werkelijke situatie. Hoe goed er ook is nagedacht over het nut en de opzet van een RCT zoals de LEAK-studie, dit blijkt soms moeilijk te voorkomen. Daardoor is het onzeker of resultaten ook gelden in de dagelijkse klinische praktijk. De genoemde twijfel en reden om niet aan de studie deel te nemen, maakt ook dat het moeilijk is om het benodigde aantal patiënten te werven voor voldoende power, waardoor de studie langer loopt en dus duurder wordt2. Andere nadelen van een RCT zijn dat de onderzoeksetting mogelijk niet overeenkomt met de klinische werkelijkheid, waarbij bijvoorbeeld therapietrouw en de voorkeur van patiënt en behandelaar een rol spelen. Verder kan er sprake zijn van klinisch minder relevante uitkomstmaten (surrogaatuitkomsten), of van een te beperkte follow-upduur. Er worden steeds meer studiedesigns bedacht die gebruikmaken van de kracht van de RCT en tegelijk de mogelijke nadelen proberen te compenseren, zoals: de trial within cohort study (TwiCs), propensity score matching en cohort studies. Overigens zijn dergelijke alternatieve designs een uitbreiding van de toolbox in de poging om causaliteit aan te tonen, maar ze kunnen niet altijd een vervanging zijn van de RCT. De uitleg van alle verschillende designs valt buiten de scope van dit artikel, maar aan het einde staan links naar verschillende informatiebronnen. Cohort study In Nederland hebben wij een prachtige database, de LROI, die gelijkstaat aan een heel groot cohort met prachtige studiemogelijkheden. De oplettende lezer is het opgevallen dat de cohort study genoemd wordt bij de mogelijke alternatieven voor het toetsen van causaliteit. Daar moet direct de volgende disclaimer bij: alleen wanneer de cohort study aan meerdere strenge voorwaarden voldoet, kan er sprake zijn van het mogelijk benaderen van causaliteit. In een cohort study kan net zoals in een RCT gekeken worden of behandeling A een ander effect heeft dan behandeling B. Het grote verschil met de RCT is natuurlijk dat er niet wordt gerandomiseerd, met als grootste gevolg dat niet zeker is in welke mate beide patiëntpopulaties aan elkaar gelijk zijn. Het is bijvoorbeeld aannemelijk dat de populatie die een gecementeerde heup heeft, ouder is dan die met een ongecementeerde heup. Dus stel dat er in groep A meer complicaties zijn dan in groep B, is dat dan door het wel of niet cementeren of doordat de populatie ouder is? Als in een (cohort) study een verschil wordt gevonden tussen twee groepen of een relatie tussen twee variabelen, dan is dit altijd een gevolg van (een combinatie van): a) random error (kans), b) bias (zoals selection bias of measurement bias), c) confounding, d) causaliteit. Wanneer we willen weten of een cohort study-resultaat mogelijk causaal is, is het zaak om de andere mogelijke redenen te minimaliseren, uit te sluiten of er statistisch voor te corrigeren. Random error vindt plaats in elke studie en is vaak niet te ontwijken. Aangezien de fout random is, is deze niet altijd in dezelfde richting. Een weergave van de random error is het 95% betrouwbaarheidsinterval; het ‘werkelijke resultaat’ ligt in 95% van de gevallen ergens in het interval. De invloed van random error is te verminderen door het vergroten van de onderzoekspopulatie; hoe groter de groep, hoe kleiner het betrouwbaarheidsinterval wordt en hoe preciezer het gevonden resultaat het ‘werkelijke resultaat’ benadert. Bias en confounding zijn niet altijd te voorkomen in cohort studies. Het is van belang dat de analyse hier aandacht aan besteedt. Selectie bias in een cohort study is bijvoorbeeld wanneer bepaalde groepen niet geïncludeerd zijn of als specifieke groepen vaker uitvallen dan andere. Een fictief voorbeeld: als binnen de LROI-database zou blijken dat mannen minder vaak PROMs hebben ingevuld dan vrouwen, of dat de laatste PROMs minder vaak ingevuld worden door ouderen. Wanneer de baselinedata van iedereen bekend zijn, is het mogelijk om voor de variabelen die we kennen het resultaat statistisch te corrigeren. Dit geldt ook voor confounders, maar dan alleen de confounders die we kennen en gemeten hebben. Om weer het voorbeeld te nemen van de gecementeerde versus ongecementeerde heupen: we weten dat de eerste groep gemiddeld ouder is dan de tweede. Dan is het mogelijk om het resultaat statistisch te corrigeren voor leeftijd, waardoor het overgebleven resultaat dichter bij het ‘werkelijke resultaat’ ligt. Om een resultaat van een cohortstudie, en het liefst van meerdere cohortstudies, als mogelijk causaal te kunnen interpreteren is het dus onder andere belangrijk dat: de populatie groot is en dat mogelijke invloeden die bias of confounding veroorzaken getoetst en gecorrigeerd worden. Hoe completer de dataset, hoe beter dit mogelijk is. Is de RCT superieur als het gaat om het aantonen van causaliteit? Ja. Is een RCT de enige manier om causaliteit te benaderen? Nee. Met een grote cohortstudie, en het liefst meerdere, waarbij getoetst en gecorrigeerd wordt voor bias en confounding, is het ook mogelijk om causaliteit te benaderen. Dit is een mooie stimulans voor de orthopedie om volledig en nauwkeurig te blijven registreren, en een mooie aanmoediging voor patiënten om alle PROMs in te vullen – dat maakt de LROI-database optimaal waardevol voor de klinische praktijk.