Synthetische data als alternatief: wanneer gebruik je het en hoe werkt het

Stel: je wilt onderzoek doen naar gezondheidsverschillen tussen wijken, maar je mag geen persoonsgegevens gebruiken. Wat doe je dan?

▶Inhoudsopgave

Wat is synthetische data eigenlijk?
Wanneer kies je voor synthetische data?
Hoe werkt het genereren van synthetische data?
Is synthetische data dan net zo goed als echte data?
Conclusie: slim gebruiken, niet blind vertrouwen
Veelgestelde vragen

Je zou kunnen wachten op toestemming, maar dat duurt jaren. Of… je gebruikt synthetische data.

Een slimme oplossing die steeds vaker wordt ingezet binnen wetenschap en beleid. Maar wanneer is het écht een goed alternatief? En hoe zit het precies in elkaar? Laten we er eens goed induiken.

Wat is synthetische data eigenlijk?

Synthetische data is nepdata. Maar dan op een heel slimme manier.

Het zijn gegevens die door een algoritme of computersimulatie worden gegenereerd, zodat ze de patronen en relaties uit echte data nabootsen — zonder dat er échte personen of objecten herleidbaar zijn. Denk bijvoorbeeld aan een dataset die laat zien hoe mensen zich verplaatsen in een stad, of hoe ziektes zich verspreiden, maar dan gebaseerd op kunstmatig gegenereerde profielen.

Het mooie? Je kunt zelf bepalen hoe nauwkeurig de data moet zijn. Wil je maximale privacy, dan verlies je wat detail. Wil je juist hoge analytische waarde, dan neemt het risico op herkenbaarheid iets toe. Die afweging — tussen fidelity (hoe goed de data de realiteit weerspiegelt) en privacy — is precies waar synthetische data zo krachtig in is.

Wanneer kies je voor synthetische data?

Niet elk onderzoek heeft synthetische data nodig. Maar er zijn situaties waar het echt uitkomt. Denk aan medische gegevens, financiële informatie of gedragsdata van burgers.

1. Wanneer privacy een groot issue is

Als je met gevoelige persoonsgegevens werkt, gelden strenge regels — zoals de AVG.

2. Wanneer je snel wilt itereren of testen

Synthetische data biedt een uitweg: je behoudt de statistische eigenschappen van de originele dataset, maar zonder dat er iemand geïdentificeerd kan worden. CBS gebruikt dit bijvoorbeeld al om onderzoekers toegang te geven tot realistische data zonder privacy in gevaar te brengen.

In de vroege fase van een onderzoek wil je vaak snel ideeën testen. Echte data verkrijgen kost tijd: aanvragen, ethische goedkeuring, data-use agreements… Met synthetische data kun je direct beginnen met modellen trainen of hypothesen checken. Later vervang je het dan eventueel door echte data — als die beschikbaar is.

3. Wanneer je data mist of onevenwichtig is

Soms bevat je dataset te weinig observaties voor bepaalde groepen — bijvoorbeeld zeldzame ziekten of kleine demografische segmenten.

Synthetische data kan deze hiaten opvullen door extra realistische observaties te genereren. Dit heet ook wel data augmentation, en wordt veel gebruikt in machine learning.

Hoe werkt het genereren van synthetische data?

Er bestaan verschillende methoden, afhankelijk van het doel en de complexiteit van de data. Een klassieke aanpak is het fitten van een statistisch model op de originele data — bijvoorbeeld een verdeling van leeftijd, inkomen of woonplaats — en daarna nieuwe data punten trekken uit dat model.

Statistische modellen

Dit werkt goed voor eenvoudige datasets, maar houdt geen rekening met complexe afhankelijkheden tussen variabelen.

Generative Adversarial Networks (GANs)

Veel gebruikte AI-methode: een GAN bestaat uit twee neurale netwerken die tegen elkaar spelen. De generator maakt nepdata, de discriminator probeert te onderscheiden wat echt is en wat niet. Na veel training wordt de generator zo goed dat de output bijna niet meer te onderscheiden is van echte data.

Agent-based simulaties

Google DeepMind en andere techbedrijven gebruiken dit al voor medische beeldvorming, waarbij ze rekening houden met FAIR data voor AI-trainingssets. Hierbij simuleer je het gedrag van individuen (“agents”) op basis van regels.

Bijvoorbeeld: hoe bewoners van een wijk naar school of werk reizen. Door duizenden van deze virtuele mensen te laten “leven”, ontstaat een realistische dataset over mobiliteit — zonder dat er échte routes worden gebruikt.

Is synthetische data dan net zo goed als echte data?

Nee, en dat is belangrijk om te begrijpen. Synthetische data is een benadering van de werkelijkheid, geen kopie.

De kwaliteit hangt af van hoe goed het model de onderliggende patronen heeft geleerd. Als de originele data bevooroekt is — bijvoorbeeld te weinig vrouwen of ouderen — dan zal de synthetische versie dat ook zijn. Garbage in, garbage out geldt hier dubbel.

Toch: voor veel toepassingen is het meer dan voldoende. Vooral als het gaat om exploratief onderzoek, modelvalidatie of het delen van data binnen consortia. En het maakt open science makkelijker — want je kunt synthetische datasets vrij delen zonder dat je hoeft te worstelen met de AVG bij het publiceren van data.

Conclusie: slim gebruiken, niet blind vertrouwen

Synthetische data is geen wondermiddel, maar een krachtig hulpmiddel — zeker binnen FAIR-data en open science. Het maakt onderzoek sneller en privacyvriendelijker, ook als je werkt met data achter een login.

Maar het vraagt wel kritisch denken: hoe is het gevalideerd? Hoeveel informatie gaat er verloren?

En past het bij jouw onderzoeksvraag? Als je werkt met gevoelige data, of gewoon sneller wilt starten met analyse — synthetische data is zeker de moeite waard om te overwegen. Alleen: blijf altijd nieuwsgierig naar wat er echt achter de cijfers zit. Want nepdata mag best realistisch zijn, maar het blijft een spiegel — geen raam.

Veelgestelde vragen

Wat is synthetische data precies?

Synthetische data is nepdata, maar dan op een slimme manier. Het wordt door algoritmen of computersimulaties gemaakt om de patronen en relaties in echte data na te bootsen, zonder dat er echte personen of objecten aan gekoppeld zijn.

Wanneer is synthetische data een goede optie in onderzoek?

Zo kun je bijvoorbeeld een dataset maken over hoe mensen zich verplaatsen in een stad, zonder daadwerkelijke persoonsgegevens te gebruiken. Synthetische data is vooral handig als privacy een grote zorg is, zoals bij medische of financiële gegevens. Het stelt je in staat om snel te experimenteren met data, zonder de lange wachttijden voor ethische goedkeuring en data-aanvragen.

Hoe kan synthetische data helpen bij onvolledige datasets?

Dit is een snelle manier om ideeën te testen en hypotheses te controleren.

Wat zijn de belangrijkste afwegingen bij het gebruik van synthetische data?

Als je dataset te weinig informatie bevat over bepaalde groepen, zoals zeldzame ziekten, kan synthetische data een oplossing bieden. Door extra, realistische data te genereren, kun je hiaten opvullen en je onderzoek completer maken. Dit proces, ook wel data augmentatie genoemd, is vaak cruciaal in machine learning.

Bij het gebruik van synthetische data moet je rekening houden met de balans tussen de nauwkeurigheid van de data (fidelity) en de privacy. Hoe meer detail je wilt, hoe groter het risico op herkenbaarheid.

Waarom wordt synthetische data steeds populairder in wetenschap en beleid?

Het is belangrijk om te bepalen welke afweging het beste past bij je specifieke onderzoeksvraag.

Synthetische data wint aan populariteit omdat het een kosteneffectieve en snelle manier is om data te genereren die realistisch aanvoelt, zonder de privacy risico's van echte data. Organisaties zoals het CBS gebruiken het al om onderzoekers toegang te geven tot data, waardoor innovatie en onderzoek worden bevorderd.