De meest gemaakte fouten bij het FAIR maken van onderzoeksdata

Je hebt je onderzoek afgerond, de publicatie is accepteerd, en nu moet je data "FAIR" maken.

▶Inhoudsopgave

Wat betekent FAIR data eigenlijk?
Fout 1: Metadata schrijven als afterthought
Fout 2: Data opslaan in eigenzinnige formaten
Fout 4: Het datamanagementplan als bureaucratisch karwei behandelen
Fout 5: Privacy en ethiek onderschatten
Fout 6: Geen licentie aan je data koppelen
Fout 7: Data alleen delen aan het eind van het project
Samenvatting: FAIR is geen eindstation, maar een manier van werken
Veelgestelde vragen

Findable, Accessible, Interoperable, Reusable — klinkt logisch, toch? Maar in de praktijk struikelen onderzoekers keer op keer over dezelfde obstakels. En het mooie is: bijna alle fouten zijn te voorkómen. Hierdoorloop je ze één voor één.

Wat betekent FAIR data eigenlijk?

FAIR staat voor Findable (vindbaar), Accessible (toegankelijk), Interoperable (uitwisselbaar) en Reusable (herbruikbaar). De principes zijn in 2016 gepubliceerd in het wetenschappelijke tijdschrift Scientific Data en zijn sindsdien de gouden standaard geworden voor onderzoeksdata in Nederland en daarbuiten. Universiteiten, subsidiegevers zoals NWO en ZonMw, en de Europese Commissie vragen steeds vaker om een Data Management Plan waarin je aantoont dat je data aan deze principes voldoet.

Maar hier schuilt al de eerste valkuil: veel onderzoekers zien FAIR als een hokje dat je afvinkt, niet als een manier van werken.

En dat is precies waar het misgaat.

Fout 1: Metadata schrijven als afterthought

Dit is verreweg de meest gemaakte fout. Je verzamelt data, analyseert alles, schrijft je artikel — en pas aan het eind denk je: "Oh ja, metadata." Dan sta je voor een chaos van bestanden zonder duidelijke beschrijving.

Metadata is de ruggengraat van FAIR data. Zonder goede metadata is je dataset onvindbaar, niet te begrijpen voor anderen, en dus niet herbruikbaar. Denk aan bestandsnamen, variabelebeschrijvingen, gebruikte meetmethoden, tijdsperioden, en de context van je onderzoek.

Wat kun je beter doen? Begin meteen aan het start van je project met het opstellen van een metadata-schema.

Gebruik bestaande standaarden waar mogelijk — bijvoorbeeld Dublin Core voor algemene beschrijvingen of domeinspecifieke standaarden zoals MIAME voor genomics of DICOM voor medische beelden. Tools zoals DMPonline helpen je hierbij.

Fout 2: Data opslaan in eigenzinnige formaten

Je hebt je analys uitgevoerd in een specifiek softwarepakket en slaat alles op in het eigen formaat. Logisch voor jou, maar voor een ander onderzoeker een ondoordringbaar doolhof. FAIR vraagt om open, gestandaardiseerde formaten.

Dat betekent: geen afhankelijkheid van propriëtaire software. Een dataset opgeslagen als .sav (SPSS) of .xlsx (Excel) is minder interoperabel dan dezelfde data in CSV of TSV formaat, omdat die door vrijwel elke software gelezen kunnen worden.

Wat kun je beter doer? Bewaar je ruwe data altijd in een open formaat. Houd een kopie in het originele formaat als dat nodig is voor reproduceerbaarheid, maar zorg dat er altijd een open, platformonafhankelijke versie beschikbaar is.

Voor tabulaire data is CSV de standaard. Voor gestructureerde data kun je denken aan JSON of XML.

Fout: Geen persistente identifiers (PID) gebruiken

Je uploadt je dataset naar een repository en krijgt een URL. Prima, totdat de URL verandert omdat de server wordt verplaatst of de website wordt geherstructureerd. Dan is je data ineens onvindbaar.

Persistente identifiers zoals DOI's (Digital Object Identifiers) en Handle IDs zijn onveranderlijk. Ze wijzen altijd naar dezelfde dataset, ongeacht waar die fysiek staat opgeslagen. Repositories zoals Zenodo, Figshare, DANS Easy, en DataverseNO wijzen automatisch een DOI toe aan elke dataset die je uploadt.

Wat kun je beter doen? Publiceer je data altijd via een erkende repository die persistente identifiers toekent. Vermeld de DOI ook in je publicatie, zodat lezers direct naar je data kunnen verwijzen.

Fout 4: Het datamanagementplan als bureaucratisch karwei behandelen

Veel onderzoekers schrijven hun Data Management Plan (DMP) omdat het moeten, niet omdat ze het willen. Het resultaat: een vormelijk document dat in een la verdwijnt en nooit meer wordt geraadpleegd.

Een goed DMP is een levend document. Het helpt je nadenken over hoe je data verzamelt, opslaat, deelt en bewaart — al vanaf de start van je project. NWO, ZonMw en de Europese Commissie (via Horizon Europe) verplichten onderzoekers steeds vorer een DMP in te dienen.

Maar het gaat verplichtingen voorbij: een DMP bespaart je tijd en kopzorgen achteraf.

Wat kun je beter doen? Schrijf je DMP aan het begin van je project en actualiseer het regelmatig. Gebruik DMPonline, een gratis tool ontwikkeld door het Digital Curation Centre, die specifieke templates biedt voor Nederlandse subsidiegevers.

Fout 5: Privacy en ethiek onderschatten

FAIR betekent niet dat alles openbaar moet zijn. Dat is een veelvoorkomend misverstand.

Het principe "Accessible" betekent dat duidelijk is onder welke voorwaarden data toegankelijk is — en dat kan perfect "beschermd toegankelijk" betekenen. Met name bij onderzoek met persoonsgegevens, medische data of gevoelige ecologische informatie moet je goed nadenken over privacy. De AVG (Algemene Verordening Gegevensbescherming) stelt strenge eisen aan de opslag en delen van persoonsgegevens. Anonimisatie en pseudonimisatie zijn essentiële technieken om data FAIR én privacyvriendelijk te maken.

Wat kun je beter doen? Bespreek aan het begin van je project met je privacy officer hoe je persoonsgegevens kunt anonimiseren of pseudonimiseer. Gebruik controlled access repositories als DataverseNL of DANS Easy, waar je toegang kunt beperken tot geautoriseerde onderzoekers.

Fout 6: Geen licentie aan je data koppelen

Je deelt je dataset online, maar vermeldt niet onder welke licentie. Wat mag een ander er mee doen?

Mogen ze de data aanpassen? Commercieel gebruiken? Zonder licentie is het wettelijk onduidelijk, en dat ontmoedigt hergebruik. Creative Commons licenties zijn de standaard voor onderzoeksdata. CC0 (public domain) is het meest open en wordt aanbevolen door het DANS instituut.

CC-BY vereist alleen naamsvermelding. Beide licenties maken je data duidelijk herbruikbaar — precies wat FAIR beoogt.

Wat kun je beter doen? Kies altijd een licentie, vermeld die expliciet bij je dataset en zorg voor duidelijke metadata bij je dataset.

De repository waar je uploadt, biedt meestal een keuzemenu voor Creative Commons licenties.

Fout 7: Data alleen delen aan het eind van het project

Veel onderzoekers wachten tot het project is afgerond voordat ze data delen.

Maar FAIR is geen eindpunt — het is een proces. Door FAIR data vanaf dag één te integreren, voorkom je dat je collega's dubbel onderzoek doen, krijg je feedback op je dataset, en bouw je transparantie op.

De Nederlandse Wetenschapspagina en het VSNU-beleid stimuleren open data al vanaf de start van een project. Ook het Plan S, het Europese initiatief voor open access, legt nadruk op tijdige data-uitwisseling. Wat kun je beter doen? Overweeg om tussentijdse datasets te delen, bijvoorbeeld na elke meetronde. Gebruik versiebeheer in repositories zoals Zenodo, waar je nieuwe versies van een dataset kunt publiceren met een eigen DOI.

Samenvatting: FAIR is geen eindstation, maar een manier van werken

De meeste fouten bij het FAIR maken van data komen terug op één ding: te laat beginnen. Metadata, open formaten, persistente identifiers, een levend DMP, privacy, licenties, en tijdig delen — het werkt allemaal het beste als je onze FAIR data checklist voor onderzoekers gebruikt om het vanaf dag één in te bouwen in je onderzoeksproces.

FAIR is geen bureaucratische last. Het is een investering in de kwaliteit, vindbaarheid en impact van je werk.

En laten we eerlijk zijn: wie wil er niet dat anderen zijn data kunnen vinden, begrijpen en hergebruiken?

Veelgestelde vragen

Hoe kan ik mijn data FAIR maken?

FAIR staat voor Findable, Accessible, Interoperable en Reusable. Begin met het opstellen van een gedetailleerd metadata-schema al vroeg in je onderzoek, gebruik bestaande standaarden (zoals Dublin Core of MIAME) en bewaar je ruwe data altijd in open, platformonafhankelijke formaten zoals CSV of JSON.

Wat zijn de FAIR-principes in open science?

Dit zorgt ervoor dat je data makkelijk te vinden, te begrijpen en te hergebruiken is voor anderen. De FAIR-principes – Findable, Accessible, Interoperable en Reusable – zijn cruciaal voor het delen en hergebruiken van onderzoeksdata. Ze garanderen dat data gemakkelijk te vinden is, toegankelijk, compatibel met andere datasets en herbruikbaar voor toekomstig onderzoek, wat essentieel is in de context van open science. De regeling voor onderzoeksdatamanagement vereist dat onderzoekers een Data Management Plan (DMP) opstellen waarin wordt beschreven hoe ze hun data zullen verzamelen, opslaan en delen.

Wat is de regeling voor onderzoeksdatamanagement?

Dit plan moet aantonen dat de data voldoet aan de FAIR-principes en de gebruikte methoden duidelijk gedocumenteerd zijn, zodat anderen de resultaten kunnen reproduceren. Onderzoeksdata omvat alle gegevens die gebruikt zijn als bron voor analyse, of die zijn verzameld tijdens een onderzoeksproject.

Wat is de betekenis van onderzoeksdata?

Het is belangrijk om deze data zorgvuldig te documenteren en in een formaat te bewaren dat geschikt is voor hergebruik, zodat anderen de resultaten kunnen begrijpen en verder kunnen uitbouwen.

Wat zijn de vier pijlers van de Fair Data Principles?

De FAIR-principes – Findable, Accessible, Interoperable en Reusable – vormen de basis voor het beheren van onderzoeksdata. Door deze principes te volgen, zorg je ervoor dat je data gemakkelijk te vinden, toegankelijk, compatibel en herbruikbaar is, wat de impact van je onderzoek vergroot.