Wetenschap uitgelegd
B. Hesseling en J.H. Pasma, NOV-Werkgroep Orthopedie en Wetenschap
Correlatie versus regressieanalyse: wanneer welke gebruiken
Vaak willen we in onderzoek weten wat de relatie is tussen variabelen. Een bekend voorbeeld in de orthopedie is onderzoek naar de relatie tussen de mate van artrose en klinische en/of functionele uitkomsten (zoals PROMs, range of motion of kracht) bij een specifieke groep patiënten. Maar hoe kunnen we deze relatie precies onderzoeken? Om het verband of de associatie tussen twee of meerdere variabelen te laten zien, kan er zowel gebruik worden gemaakt van correlatie als van regressie. Maar wat zijn correlatie en regressieanalyse nu precies, hoe verschillen ze van elkaar en wanneer gebruikt u welke? In dit artikel leggen we de interpretatie en toepassing van beide technieken uit.
Correlatie Er zijn verschillende soorten correlaties mogelijk. De meest gebruikte maat is de Pearson correlatiecoëfficiënt. In artikelen wordt deze vaak genoteerd als r of r.
Wat zegt de correlatiecoëfficiënt? Kort samengevat ligt de correlatiecoëfficiënt r altijd tussen -1 en +1, zegt de correlatiecoëfficiënt wél iets over in welke richting en hoe sterk twee variabelen met elkaar samenhangen, maar zegt deze niets over de grootte van het effect, klinische relevantie en over causaliteit. De correlatiecoëfficiënt ligt altijd tussen -1 en +1 omdat het een gestandaardiseerde maat is, zodat variabelen van verschillende meetschalen met elkaar vergeleken kunnen worden. Een correlatie van -1 of +1 betekent perfecte correlatie: als u een scatterplot (‘puntenwolk’) van de twee variabelen maakt, liggen alle punten perfect op een rechte lijn. Een correlatie van 0 betekent dat er geen samenhang is tussen de variabelen: als u een rechte lijn door het scatterplot probeert te trekken, liggen alle punten er kriskras omheen zonder enig onderling verband. Correlatie zegt dus iets over de spreiding van punten rond een onderliggende lineaire trend. Een positieve correlatie betekent dat een toename in de ene variabele leidt tot een toename in de andere variabele. Een negatieve correlatie betekent dat een toename in de ene variabele leidt tot een afname in de andere variabele.
Correlatievoorbeelden Laten we dit nader bekijken aan de hand van onderstaande figuren.
Figuur 1. Tweemaal een perfecte positieve correlatie.1
In figuur 1 ziet u twee voorbeelden van een perfecte positieve correlatie. Alle punten in de scatterplots liggen immers perfect op een rechte lijn. Opvallend is dat de hellingshoek van de lijn in beide plots anders is, terwijl voor allebei de plots r = 1 geldt. Hier kunnen we dus uit opmaken dat de correlatiecoëfficiënt ons niets vertelt over hoe steil de lijn loopt, maar alleen over hoe goed de punten passen op de rechte lijn die het best door de punten heen getrokken kan worden.
Figuur 2. Voorbeelden van verschillende positieve correlaties, negatieve correlaties en geen correlatie.1
Dat zien we ook in figuur 2; in de plots waar r = 0.7 en r = 0.3 geldt, is de hellingshoek van de lijnen hetzelfde. Maar bij r = 0.3 is er een grotere spreiding van de punten rondom die lijn: de rechte lijn past minder goed bij deze data. De twee variabelen hangen dus minder sterk met elkaar samen. De laatste plot met r = 0 bevestigt dit. Hier is geen samenhang tussen de twee variabelen: een toename in de ene variabele hangt in geen enkele zin samen met een toename of afname in de andere variabele.
Grootte van het effect, klinische relevantie en causaliteit Uit figuur 1 en figuur 2 kunnen we inmiddels begrijpen dat r = 1 niet zegt dat een toename van 1 eenheid in variabele X ook leidt tot een toename van 1 eenheid in variabele Y. We zien immers dat r niets zegt over de hellingshoek van de lijn. Daarnaast kunnen we uit r niet afleiden wat de absolute grootte van de verandering in de variabele is. Als we willen bepalen of de samenhang klinisch relevant is, kunnen we correlatie dus niet gebruiken. Hoe klinisch relevant de samenhang is, heeft immers te maken met hoe groot het effect is in absolute zin. Ook kan r ons niet vertellen of er sprake is van causaliteit. Een hoge r kan namelijk betekenen dat X door Y wordt beïnvloed, dat Y door X wordt beïnvloed, of dat X en Y beide door een derde variabele worden beïnvloed.
Regressie In veel artikelen wordt er gebruik gemaakt van regressieanalyses. Vaak wordt hierin de regressiecoëfficiënt gerapporteerd. Deze wordt ook wel genoteerd als β, bèta of b. In artikelen komen zowel univariabele, multivariabele of multivariate regressieanalyses voorbij, maar ook lineaire en logistische regressieanalyses. Om duidelijk het verschil met correlatie te laten zien, focussen we hier op de univariabele lineaire regressieanalyse.
Wat zegt de regressiecoëfficiënt? In tegenstelling tot de correlatiecoëfficiënt, zegt de regressiecoëfficiënt wél iets over hoe variabelen met elkaar samenhangen. De regressiecoëfficiënt beschrijft de relatie tussen waarden van variabelen en geeft aan met welke waarde een variabele verandert bij verandering van een andere variabele. Hiermee kan de waarde van een variabele (de afhankelijke variabele, respons of uitkomst) worden voorspeld of verklaard aan de hand van andere variabelen (de onafhankelijke variabelen, determinanten of voorspellers). De regressiecoëfficiënt wordt bepaald met behulp van een lineaire regressieanalyse. Hierbij wordt gezocht naar een lijn die de relatie tussen de variabelen het beste beschrijft. Deze wordt bepaald door een lijn te tekenen door de scatterplot waarbij de afstand tussen alle punten en deze lijn zo klein mogelijk is. De relatie is te beschrijven in een formule, zoals hieronder beschreven.
Y = a + β*X
In deze formule is: - Y de afhankelijke variabele (de uitkomst), - X de onafhankelijke variabele (de determinant), - a de intercept (de waarde waar de lijn de y-as kruist en de onafhankelijke variabele gelijk is aan 0). De intercept bepaalt de hoogte waarop de regressielijn begint, - β de regressiecoëfficiënt; deze geeft de helling van de lijn aan. Een positieve waarde geeft een stijgende lijn aan, waarbij Y toeneemt bij toename van X. Een negatieve waarde geeft een dalende lijn aan waarbij Y afneemt bij toename van X.
Regressievoorbeelden Laten we bekijken hoe dit er precies uitziet.
Figuur 3. Voorbeeld van een lineaire regressie, waarbij de intercept en regressiecoëfficiënt zijn gerapporteerd.2
In figuur 3 ziet u een scatterplot met een lijn erdoor getrokken die de data het beste beschrijft. De intercept is hier gelijk aan -15.7. Wanneer de onafhankelijke variabele (x) gelijk is aan 0, kruist de lijn de y-as op -15.7. De regressiecoëfficiënt is in dit voorbeeld gelijk aan 9.7. Dit betekent dat bij een toename van 1 punt in de onafhankelijke variabele (X), de afhankelijke variabele (Y) toeneemt met 9.7 punten. Hieruit kunnen we opmaken dat de regressie coëfficiënt ons vertelt hoe steil de lijn loopt en wat de absolute grootte van de verandering in de variabele is. In figuur 3 is te zien dat de punten niet perfect passen op de rechte lijn die het best door de punten heen getrokken kan worden. De regressiecoëfficiënt zelf zegt niets over hoe sterk de variabelen samenhangen.
Grootte van het effect, klinische relevantie en causaliteit Uit bovenstaande kunnen we begrijpen dat de regressiecoëfficiënt de grootte van het effect weergeeft. Dit is de absolute grootte van de verandering in de afhankelijke variabele veroorzaakt door een verandering in de onafhankelijke variabele (de determinant). De regressiecoëfficiënt kunnen we daarom gebruiken om te bepalen of de samenhang tussen de variabelen klinisch relevant is. Met behulp van het betrouwbaarheidsinterval rond de regressiecoëfficiënt krijgt u meer informatie over de (on)zekerheid van uw resultaat. De regressiecoëfficiënt van een univariabele analyse zegt niet iets over de causaliteit. Daarnaast laat de regressiecoëfficiënt alleen zien hoe X door Y wordt beïnvloed, maar niet hoe Y door X wordt beïnvloed. Om meer inzicht te krijgen in de causaliteit, kunt u gebruikmaken van multivariabele regressieanalyses. Afsluiting Nu we meer weten over correlatie en regressie, kunnen we ook beter zeggen welke methode we het beste wanneer kunnen gebruiken.
Correlatie is vooral nuttig om hypotheses mee te genereren, niet om hypotheses mee te testen.3 Bent u bijvoorbeeld geïnteresseerd of er überhaupt een samenhang is tussen variabelen en hoe sterk deze in dat geval is? Maak dan gebruik van de correlatiecoëfficiënt. Dit geldt bijvoorbeeld wanneer u wilt kijken of er een relatie is tussen verschillende variabelen, waar nog niet eerder onderzoek naar is gedaan. Hierbij is het (nog) niet interessant hoe groot het effect is, maar wel of er een samenhang is, hoe sterk en in welke richting deze dan is.
Is er al een duidelijke hypothese en wilt u die hypothese testen? Dan is de regressiecoëfficiënt een betere keus. U krijgt dan immers veel meer informatie, namelijk over de grootte van het effect, de klinische relevantie en onzekerheid. Dit geldt bijvoorbeeld wanneer u wilt kijken naar de relatie tussen patiëntkarakteristieken en uitkomsten na een behandeling. Hierbij wilt u niet alleen weten óf er een relatie is, maar u wilt ook weten hoe groot het effect is en of dit effect klinisch relevant is. Deze informatie is cruciaal voor de beslissing of een behandeling de tijd en kosten waard is voor specifieke patiënten of dat een andere behandeling beter past bij deze patiënten.
Bedenk dus altijd goed wat u wilt weten en wilt laten zien, en bepaal aan de hand daarvan welke analyse u gaat doen!
Verder kijken
- Correlation – the basic idea explained
- The correlation coefficient – explained in three steps
- An introduction to linear regression analysis
Bronnen 1 statistics.laerd.com/statistical-guides/pearson-correlation-coefficient-statistical-guide.php 2 r-charts.com/correlation/scatter-plot-regression-line/ 3 Altman DG. Relation between two continuous variables. Practical statistics for medical research 1991; 2: 277-318.