FAIR data voor AI-trainingssets: nieuwe regels in Europa voor 2026

Stel je voor: je traint een AI-model op miljoenen Nederlandse medische beelden.

▶Inhoudsopgave

Wat zijn de FAIR-principes eigenlijk?
Wat verandert er in 2026?
Wat betekent dit voor onderzoekers en universiteiten?
De grote uitdaging: praktijk versus regelgeving
Wat kun je nu al doen?
Hoe verder?
Veelgestelde vragen

Het model werkt fantastisch. Maar dan komt er een audit, en blijkt dat niemand precies weet waar die beelden vandaan komen, wie er toestemming voor gaf, en of de labels wel kloppen.

Je hebt een probleem. Groot probleem. Dat scenario is precies waar Europa nu een stokje voor steekt. Vanaf 2026 gelden er nieuwe regels die ervoor moeten zorgen dat AI-trainingssets voldoen aan de FAIR-principes. En ja, dat verandert best wel wat voor iedereen die met data werkt. Laten we er eens doorheen gaan.

Wat zijn de FAIR-principes eigenlijk?

FAIR staat voor Findable, Accessible, Interoperable en Reusable. Het idee is simpel: data moet vindbaar zijn, toegankelijk, uitwisselbaar en herbruikbaar.

Niet alleen voor mensen, maar ook voor machines. De principes bestaan al langer, maar worden nu specifiek vertaald naar de wereld van AI-training.

Denk aan het zoeken van een specifieke dataset in een enorme database. Als die dataset geen duidelijke metadata heeft, geen unieke identifier, en nergens staat beschreven onder welke voorwaarden je hem mag gebruiken, dan is die dataset eigenlijk waardeloos. Precies dat probleem wil Europa aanpakken.

Wat verandert er in 2026?

De Europese Commissie werkt aan een AI Data Act, een aanvulling op de bestaande AI Act die al in augustus 2024 in werking trad.

De nieuwe regels richten zich specifiek op de kwaliteit en transparantie van datasets die gebruikt worden om AI-systemen te trainen. De kernpunten zijn dit: Elke organisatie die een AI-systeem op de Europese markt brengt, moet kunnen aantonen dat hun trainingsdata voldoet aan de FAIR-principes. Dat betekent onder meer dat er duidelijke data provenance is: je moet kunnen traceren waar data vandaan komt, hoe het is verzameld, en of er toestemming is verkregen.

Daarnaast komt er een verplichte data card bij elke grote trainingsset. Een soort paspoort van je dataset, waarin staat wat erin zit, hoe het is samengesteld, welke biases mogelijk aanwezig zijn, en onder welke licentie de data beschikbaar is.

Voor datasets die persoonsgegevens bevatten, geldt een extra laag aan eisen. Denk aan de AVG, maar dan specifiek toegepast op AI-context.

Anonimisatie moet aantoonbaar zijn, en er moet een duidelijke rechtsgrond zijn voor het gebruik van die gegevens.

Wat betekent dit voor onderzoekers en universiteiten?

Als je aan de Nederlandse universiteiten werkt, dan hoor je hier waarschijnlijk al mee te rammelen.

De VSNU en organisaties als DANS en SURF werken al jaren aan FAIR-data-infrastructuur. Maar de nieuwe regels gaan een stap verder. Het gaat er niet langer om of je data technisch herbruikbaar is. Het gaat erom of je dat aantoonbaar kunt maken.

Dat betekent betere documentatie, gestandaardiseerde metadata, en systemen die automatisch bijhouden wat er met data gebeurt. Goed nieuws: tools bestaan al.

Het FAIRsFAIR-project heeft richtlijnen opgesteld voor het beoordelen van FAIRheid. En platforms als Zenodo en Dataverse ondersteunen al het toewijzen van persistente identifiers en het vastleggen van metadata, zodat je dataset onderdeel wordt van het semantisch web.

Maar de vraag is of dat nu ook echt voldoende is voor de nieuwe regels.

De grote uitdaging: praktijk versus regelgeving

Laten we eerlijk zijn. Veel trainingssets die vandaag de dag gebruikt worden, zijn een zooitje.

Datasets van het internet geplukt, zonder duidelijke licentie, met onbekende herkomst. Denk aan de bekende datasets zoals LAION-5B, waaruit miljoenen beeldtekstparen zijn verzameld door simpelweg het web te crawlen.

Die praktijk wordt straks een stuk lastiger. En terecht, als je het ons vragen. Maar het creëert ook een dilemma: hoe zorg je voor compliance zonder de innovatie te verstikken? Europa lijkt een middenweg te zoeken.

Voor open-source modellen en onderzoeksdoeleinden gelden mogelijk soepelere regels dan voor commerciële AI-systemen die direct consumenten bereiken.

Maar de details daarvan zijn nog niet helemaal rond. Dat maakt het lastig om nu al precies te zeggen wat je moet doen.

Wat kun je nu al doen?

Je hoeft niet te wachten tot 2026. Sterker nog: wie nu al begint met het FAIR maken van zijn datasets, heeft een enorm voordeel.

Hier een paar concrete stappen: Begin met het vastleggen van provenance informatie.

Waar komt je data vandaan? Wie heeft het verzameld? Onder welke voorwaarden mag je de data gebruiken? Documenteer dit grondig, bij voorkeur in een gestandaardiseerd formaat zoals DCAT of Schema.org.

Gebruik persistente identifiers zoals DOI's voor je datasets. Dit maakt ze vindbaar en citeerbaar. Platforms als Zenodo en Figshare doen dit automatisch. Maak een data management plan als je een nieuw onderzoeksproject start.

NWO en ZonMw vragen er al om, en straks vraagt Europa er impliciet om.

Het is gewoon goede gewoonte. En belangrijk: betrek je data steward of juridisch adviseur vroeg in het proces. Vooral als je werkt met gevoelige data of data uit meerdere bronnen combineert.

Hoe verder?

De komende twee jaar worden cruciaal. De exacte uitwerking van de nieuwe regels wordt nog bepaald, en er is nog ruimte om mee te denken.

Organisaties als de GO FAIR Foundation en het EOSC (European Open Science Cloud) spelen hierin een belangrijke rol. Voor Nederlandse onderzoekers is het advies simpel: blijf op de hoogte, investeer in goede data-infrastructuur, en begin nu al met het toepassen van FAIR-principes op je trainingsdata.

Want of de regels nu in 2026 of iets later precies landen, de richting is duidelijk. FAIR data in sociaalwetenschappelijk onderzoek is geen optie meer. Het is de standaard. En eerlijk gezegd? Dat is eigenlijk best een goede zaak.

Veelgestelde vragen

Wat zijn de FAIR-principes en waarom zijn ze belangrijk voor AI-training?

De FAIR-principes – Findable, Accessible, Interoperable en Reusable – zijn cruciaal voor AI-training. Ze zorgen ervoor dat datasets gemakkelijk te vinden, toegankelijk en bruikbaar zijn, niet alleen voor mensen, maar ook voor machines.

Wat houdt ‘data provenance’ precies in binnen de nieuwe EU-regels?

Door deze principes te volgen, kunnen AI-modellen beter worden getraind en gebruikt, en wordt de transparantie van de data gegarandeerd. ‘Data provenance’ verwijst naar de traceerbaarheid van data, dus het vermogen om te achterhalen waar een dataset vandaan komt, hoe deze is verzameld en of de benodigde toestemming is verkregen. De nieuwe EU-regels vereisen dat organisaties die AI-systemen ontwikkelen, deze data provenance kunnen aantonen, wat essentieel is voor het garanderen van ethische en legale data-gebruik. Een ‘data card’ is een soort paspoort voor datasets, waarin alle relevante informatie over de data staat.

Wat is een ‘data card’ en welke informatie bevat deze?

Denk aan de inhoud van de dataset, de manier waarop deze is samengesteld, mogelijke biases en de licentie waaronder de data beschikbaar is.

Welke extra eisen gelden er voor datasets met persoonsgegevens in de context van AI?

Deze data cards helpen bij het beoordelen van de kwaliteit en bruikbaarheid van de data. Datasets met persoonsgegevens onderhevig aan strenge eisen, zoals de AVG, maar dan specifiek toegepast op AI-toepassingen. Anonimisatie moet aantoonbaar zijn, en er moet een duidelijke rechtsgrond zijn voor het gebruik van deze gegevens, om de privacy van individuen te beschermen.

Hoe veranderen de FAIR-principes de verantwoordelijkheid van onderzoekers en universiteiten?

Voor onderzoekers en universiteiten betekent de nieuwe wetgeving dat het niet langer alleen om de technische bruikbaarheid van data gaat, maar ook om de mogelijkheid om deze data aantoonbaar te documenteren en te verantwoorden. Betere documentatie en het naleven van FAIR-principes zijn nu essentieel voor het gebruik van data in onderzoek.