Wetenschap uitgelegd
N.W. Willigenburg, NOV-Werkgroep Orthopedie en Wetenschap
Sample size berekening & power analyse: hoeveel patiënten hebben we nodig?!
Dit najaar is de inclusiefase afgerond van de DART-studie. Dit CORE-project vergelijkt de (kosten)effectiviteit van een gipsbehandeling en een operatie (open repositie en interne fixatie, ORIF) bij patiënten boven de 65 jaar met een distale radiusfractuur en een suboptimale stand na gesloten repositie. Primaire uitkomst is de Patient Rated Wrist and hand Evaluation (PRWE) op een jaar na de fractuur. De DART-studie kende een lange en moeizame inclusiefase; in ruim 4,5 jaar tijd zijn, verdeeld over 19 deelnemende ziekenhuizen in Nederland, 138 patiënten geïncludeerd. Dat is minder dan de vooraf beoogde 154 patiënten. Wat betekent dat voor de bevindingen? Is de studie nu waardeloos?
Voorafgaand aan elke studie moeten onderzoekers bedenken hoeveel patiënten nodig zijn om de onderzoeksvraag te beantwoorden. Dit heet een sample size berekening of power analyse. Zo’n berekening bepaalt de steekproefgrootte die nodig is om een goede vergelijking te kunnen maken tussen twee (of meer) groepen. Er zijn verschillende software tools en online ‘sample size calculators’ die het rekenwerk voor u kunnen doen (zie 'Meer weten?'). De grote uitdaging is bedenken welke input u meegeeft in deze berekening. Dit vraagt twee keuzes en twee belangrijke aannames.
Twee keuzes De keuzes zijn 1) het significantieniveau (alfa) en 2) de power (bèta). Voor alfa wordt vaak 0.05 gekozen, of 0.025 bij een eenzijdige toets (bijvoorbeeld voor een non-inferiority design). Dit bepaalt het afkappunt van de p-waarde die u wilt aanhouden om van ‘statistische significantie’ te spreken (het risico op een type I-fout of vals positieve bevinding). Voor bèta wordt vaak 0.80 gekozen, of 0.90 voor een hogere power. Dan heeft u meer proefpersonen nodig en wordt het risico kleiner dat u de nulhypothese verwerpt terwijl er wel degelijk een verschil is tussen groepen (type II-fout of vals negatieve bevinding). Twee aannames De belangrijke aannames zijn 1) de spreiding en 2) het klinisch relevante verschil. Om te beginnen de spreiding, deze wordt vaak uitgedrukt als standaarddeviatie. Hiervoor kunt u een inschatting maken op basis van een pilotstudie of een artikel dat uw uitkomstmaat rapporteert in een soortgelijke populatie. U neemt dan aan dat uw studiepopulatie daar niet (veel) van zal afwijken. Aandachtspunt bij deze aanname is dat de standaarddeviatie in een studiepopulatie afhankelijk is van de sample size. Bij een toename van de steekproefgrootte neemt de standaarddeviatie af. Gebruikt u dus de standaarddeviatie van een studie met weinig proefpersonen, dan is uw aanname te hoog. Gebruikt u de standaarddeviatie van een studie met veel proefpersonen, dan is uw aanname te laag. Het ironische is dat u helemaal niet weet wat (te) veel of weinig is; dat was juist de reden van de zoektocht! Bij gebrek aan beter alternatief, wordt meestal toch gewoon een standaarddeviatie gebruikt uit de literatuur. Zou die vaak overeenkomen met de uiteindelijke standaarddeviatie in de studiepopulatie? Dan de tweede aanname: het klinisch relevante verschil. Dit klinkt als een wetmatigheid, maar dat is het zeker niet. Wanneer is een verschil tussen groepen belangrijk? En denken artsen, onderzoekers en patiënten daar eigenlijk wel hetzelfde over? Voor uitkomstmaten zoals vragenlijsten worden vaak de ‘minimal clinically important difference’ (MCID), ‘minimal important change’ (MIC), ‘minimal important difference’ (MID) en diverse varianten daarvan gebruikt. Dit zijn maten van ‘responsiviteit’. Ze geven aan hoeveel een score op een meetinstrument verandert in patiënten die zijn verbeterd (of soms verslechterd) over de tijd, dus welk verschil in punten een verandering weergeeft die voor patiënten echt merkbaar is. Maar wat zegt dit over de relevantie van een verschil tussen twee behandelgroepen? Dat hangt toch van veel meer zaken af? Vier aandachtspunten bij deze aanname zijn: 1) er zijn veel verschillende manieren om zo’n waarde te berekenen; 2) dit leidt tot grote verschillen in gerapporteerde waardes; 3) de waardes kunnen sterk verschillen tussen populaties; 4) ze houden geen rekening met het verschil tussen interventies in uw onderzoek. Dit zijn belangrijke tekortkomingen. Daarom is het heel belangrijk dat deze aanname vooraf goed wordt onderbouwd en besproken met alle betrokkenen bij het onderzoek.
Sample size berekening & power analyse Als er zoveel haken en ogen zitten aan een sample size berekening, heeft het dan wel nut? Een terechte vraag, die ik ondanks de beschreven beperkingen beantwoord met ‘jazeker!’. Bij het opzetten van een studie helpt het u goed na te denken over de haalbaarheid van uw studie. En minstens zo belangrijk: de power analyse is ook cruciaal bij het interpreteren van de uitkomsten. Een power analyse berekent namelijk exact met welke groepsgrootte een klinisch relevant verschil ook statistisch significant is. Puur op basis van uw keuzes voor alfa en bèta, en van uw aannames over de spreiding en het klinisch relevante verschil. Als deze aannames niet precies blijken te kloppen in uw studiepopulatie (en dat is bijna altijd zo!), heeft dat belangrijke gevolgen voor de resultaten. Als de standaarddeviatie in uw populatie groter blijkt dan de aanname vooraf, haalt een klinisch relevant verschil vaak niet de grenswaarde van statistische significantie. Andersom is een statistisch significant verschil dus ook niet automatisch klinisch relevant!
Een hulpmiddel bij overwegingen rondom de power analyse is de ‘effectgrootte’. Een veelgebruikte maat is Cohen’s d. Dit is de verhouding tussen de standaarddeviatie en het klinisch relevante verschil. Op deze manier zijn de onzekerheden rond de absolute waardes van de twee belangrijkste aannames in de sample size berekening minder relevant.
Figuur 1. Visualisatie van effectgrootte. De rode populatie heeft een gemiddelde van 50 en standaarddeviatie van 15 punten.
Figuur 1 visualiseert drie verschillende effectgroottes, met verschillende mate van overlap tussen de groepen. Hoe meer overlap, dus hoe meer de populaties op elkaar lijken (en hoe kleiner de verhouding tussen het klinisch relevante verschil en de spreiding), des te meer patiënten nodig zijn om een verschil te kunnen aantonen. Voor Cohen’s d = 0.2 (bovenste afbeelding, met 0.2 x 15 = 3 punten klinisch relevant verschil) heeft u 526 patiënten nodig per groep (bij alfa=0.05 en bèta=0.90). Bij dezelfde alfa en bèta heeft u 85 patiënten nodig per groep voor Cohen’s d=0.5 (7.5 punten klinisch relevant verschil) en 33 patiënten voor Cohen’s d=0.8 (12 punten klinisch relevant verschil). Als u vooraf misschien al weet dat u hooguit 50 patiënten kunt includeren, kunt u zo dus ook inschatten hoe groot het verschil is dat u met dat aantal patiënten kunt detecteren. Een power analyse helpt dus echt bij het opzetten van wetenschappelijk onderzoek én bij het interpreteren van de resultaten. Een ‘overpowered’ of ‘underpowered’ studie is zeker niet waardeloos, zolang de resultaten in de juiste context worden gepresenteerd en geïnterpreteerd. De moeilijkheden rondom sample size berekeningen benadrukken het belang van een genuanceerde interpretatie van verschilscores. Ze benadrukken ook de noodzaak om te werken aan consensus over drempelwaardes voor klinische relevantie voor verschillende uitkomstmaten. Zelfs voor veelgebruikte uitkomstmaten zoals de EQ-5D en de PRWE zijn hier geen vaste waardes voor.
Interpreteer resultaten in context van keuzes en aannames Wat betekent dit voor de DART-studie? Gelukkig was rekening gehouden met 20% ‘drop out’ en lijkt dat in praktijk mee te vallen; patiënten vullen hun vragenlijsten keurig in tot aan het laatste meetmoment. Zo zijn er waarschijnlijk alsnog voldoende PRWE-scores per groep voor de beoogde effect size van 0.6 (gebaseerd op een MCID van 14 punten en standaarddeviatie van 23 punten), met bèta=0.90 en alfa=0.025. Hoe dan ook gaan we de resultaten interpreteren in de context van deze keuzes en aannames. En dat raad ik iedereen aan; niet alleen bij eigen artikelen, maar ook bij literatuur die u leest.
Disclaimer Dit artikel beschrijft een aantal belangrijke aandachtspunten bij de sample size (steekproefgrootte) van wetenschappelijke studies. Voor de leesbaarheid zijn bepaalde termen als bekend verondersteld die misschien niet bij alle lezers bekend zijn. Er is ook heel veel achterwege gelaten, zoals nut en noodzaak van sample size berekeningen bij andere typen studiedesigns en uitkomstmaten. In het kader hieronder voor de geïnteresseerde lezers daarom nog enkele verwijzingen. Voor hulp bij sample size berekeningen kunt u vaak terecht bij de onderzoekscoördinator van uw afdeling, of bij het algemene wetenschapsbureau van het ziekenhuis.
Meer weten?
- DART-studie
- CORE-project
- Deze website laat mooi zien hoe de standaarddeviatie afneemt bij een toename van de steekproefgrootte.
- Toelichting en visualisatie van Cohen’s d
- Toelichting en visualisatie van hypothese toetsen
- Voorbeeld online sample size calculator-1
- Voorbeeld online sample size calculator-2
- Voorbeeld software voor power analyses-1
- Voorbeeld software voor power analyses-2
- Sample size berekening bij verschillende onderzoeksdesigns en uitkomstmaten
- Significantie van p-waarden
- Video: Type I and II Errors, Power, Effect Size, Significance and Power Analysis in Quantitative Research
- Video: Power Analysis, Clearly Explained!!!!