Nieuwe mogelijkheden met synthetische data
De opkomst van kunstmatige data, oftewel synthetische data, biedt nieuwe mogelijkheden voor de verwerking en beveiliging van gegevens in de gezondheidszorg. Voor de LROI kan het gebruik van deze data een belangrijke stap voorwaarts betekenen in het efficiënt en veilig gebruiken van gegevens. Ilse de Reus, onderzoeker LROI, vertelt over de voordelen van synthetische data voor de LROI en over toepassing in de praktijk.
Wat zijn synthetische data?
“Synthetische data zijn gegevens die kunstmatig worden gegenereerd in plaats van verzameld uit echte situaties. Ze bootsen de statistische kenmerken van echte gegevens na zonder gebruik te maken van persoonlijke informatie. Dit vermindert de risico’s op privacy-inbreuk en biedt een manier om gegevens te gebruiken zonder de beperkingen die bij echte, gevoelige data komen kijken.”
Ilse de Reus
Voordelen van synthetische data voor de LROI
1. Privacyveiligheid: Synthetische data verminderen de risico's van privacy-inbreuken. Omdat deze data geen persoonlijke informatie bevatten, kan de LROI gegevens vrijer delen met externe onderzoekers en andere belanghebbenden zonder inbreuk op de privacywetgeving.
2. Snellere datatoegang: Doordat er geen gevoelige informatie in synthetische data zit, kan de verwerking en verstrekking van gegevens sneller verlopen. Dit is vooral nuttig voor onderzoeks- en analysetaken.
3. Toepassingen voor onderzoek, training en demonstraties: Synthetische data bieden een veilige manier om onderzoekers te voorzien van realistische datasets voor onderzoek en analyses. Ze kunnen ook worden gebruikt voor het trainen van personeel en het testen van nieuwe systemen zonder het risico dat er is bij echte gegevens. Bovendien zijn synthetische data uitermate geschikt voor het geven van demonstraties, instructies en het ontwikkelen van demo-dashboards.
Ilse de Reus:
“Door het gebruik van synthetische data kan de waarde van data worden gemaximaliseerd, terwijl de risico's tot een minimum worden beperkt.”
Hoe kan de LROI synthetische data gebruiken?
Om synthetische data te kunnen gebruiken voor verschillende doeleinden, moeten deze voldoen aan een aantal criteria.
- Privacy moet interpreteerbaar zijn met onderbouwing van bewezen methoden. Dit houdt in dat er tests en analyses uitgevoerd moeten worden om vast te stellen in hoeverre de data anoniem en niet-herleidbaar zijn, zelfs wanneer variabelen gecombineerd worden. Met deze methoden kan nauwkeurig worden bepaald of er voldoende maatregelen zijn genomen om de privacy van individuen te waarborgen.
- De kwaliteit van de synthetische data moet aansluiten bij de onderzoeksvraag of het beoogde doel. Deze kwaliteit wordt beoordeeld op basis van de eis dat het verschil tussen synthetische en originele data maximaal 10% mag bedragen.
Pilot
Begin dit jaar is de LROI gestart met een pilot om te onderzoeken hoe we synthetische data van de hoogste kwaliteit kunnen trainen en genereren, waarbij de synthetische data binnen de kwaliteitseis van maximaal 10% verschil ten opzichte van de originele data moeten vallen. In deze pilot blijven de originele LROI-data veilig opgeslagen binnen de LROI-omgeving. Om de synthetische data te genereren, is software van BlueGen.ai geïnstalleerd op een machine waar alleen de LROI-data-expert toegang toe heeft. De data-expert configureert de software, traint de modellen en creëert de synthetische data. De originele en de synthetische data verlaten de omgeving nooit, waardoor de privacy optimaal gewaarborgd blijft. BlueGen.ai ontvangt enkel evaluatierapporten en logbestanden voor ondersteuning.
Tijdens de pilot is de dataset van heupprothesen gebruikt om een synthetische dataset te maken met patiënt-, operatie- en prothesekenmerken. Ook zijn belangrijke uitkomstmaten, zoals revisiepercentages en patiëntgerapporteerde uitkomstmaten, onderzocht.
“De resultaten zijn veelbelovend: de revisiepercentages voor zowel primaire heupprothesen als de subgroepen resurfacing heupprothesen en totale heupprothesen zijn goed vergelijkbaar tussen de originele data en de synthetische data. De revisiepercentages verschillen minder dan 10% voor alle hier weergegeven groepen. Het lijkt er dus op dat synthetische data goed vergelijkbaar zijn met originele LROI- data.”
Vooruitblik
“Na de succesvolle afronding van het pilotproject en de veelbelovende resultaten, onderzoeken we hoe we synthetische data verder kunnen inzetten. Dit biedt zeker kansen voor de toekomst!
Op 1 oktober 2024 zijn we gestart met een nieuw driejarig project waarin we verschillende toepassingen van synthetische data zullen verkennen. Dit omvat de ontwikkeling van een LROI- demo-dashboard, extern onderzoek met een synthetische dataset en de uitbreiding van de dataset om ODEP-rating te simuleren. Dit project biedt een uitstekende kans om de mogelijkheden van synthetische data verder te benutten en nieuwe inzichten te verkrijgen.”
NB: Figuren en deel van de content in dit artikel zijn afkomstig van rapportages van BlueGen.