Reusable: de vijf dingen die jouw dataset herbruikbaar maken voor andere onderzoekers

Stel: je hebt maandenlang data verzameld. Uren besteed aan metingen, interviews, labwerk. En dan?

▶Inhoudsopgave

Waarom Reusable het belangrijkste FAIR-principe is (ook al zeggen sommigen dat)
1. Geef je data een duidelijke licentie (ja, echt doen)
2. Documenteer alles alsof je het overdraagt aan een vreemde
3. Maak je data machine-leesbaar (en niet alleen mens-leesbaar)
4. Sla je data op in een erkende repository
5. Wees transparant over de context en beperkingen
Herbruikbaarheid begint bij jou (maar eindigt niet daar)
Veelgestelde vragen

Dan verdwijnt je dataset in een digitale la. Terwijl een ander onderzoekers precies die informatie nodig had om door te bouwen op jouw werk. Frustrerend, toch? Het goede nieuws: je kunt ervoor zorgen dat jouw data niet verloren gaat.

Dat anderen jouw dataset kunnen vinden, begrijpen én gebruiken. Het R van FAIR — Reusable — gaat precies daarover. En geloof me, het is simpeler dan je denkt.

Waarom Reusable het belangrijkste FAIR-principe is (ook al zeggen sommigen dat)

Je kent ze vast wel: de FAIR-principes. Findable, Accessible, Interoperable, Reusable.

De eerste drie zijn al lastig genoeg. Maar Reusable? Dat is waar het écht om draait. Want wat heeft het voor zin dat je data vindbaar en toegankelijk is, als niemand er iets mee kan doen? Reusable betekent dat andere onderzoekers jouw dataset kunnen hergebruiken voor hun onderzoek.

Niet alleen lezen, maar écht begrijpen en toepassen. Dat vraagt om meer dan alleen een mooie dataset.

Het vraagt om context, duidelijkheid en een beetje empathie voor de onderzoeker die over jouw schouder meekijkt.

DANS — dat is Data Archiving and Networked Services, onderdeel van de KNAW — zet zich volop in voor hergebruik van onderzoeksdata. En terecht. Want volgens hun eigen missie draait het uiteindelijk om één ding: zorgen dat data niet verloren gaat, maar juist leeft in nieuw onderzoek.

1. Geef je data een duidelijke licentie (ja, echt doen)

Dit is misschien het meest vergeten onderdeel van herbruikbaarheid. Zonder licentie weet niemand wat ze wel en niet mogen doen met jouw data.

En wie weet niet wat er mag, doet gewoon niets. Dat is menselijk, en begrijpelijk.

Kies daarom een Creative Commons-licentie. De meest gebruikte in de wetenschap zijn CC BY 4.0 (iedereen mag gebruiken, ook commercieel, zolang je bron wordt vermeld) of CC BY-SA 4.0 (zelfde, maar afgeleide werken moeten onder dezelfde licentie vallen). Plaats de licentie bij de dataset, niet ergens verstopt in een PDF. DANS raadt aan om altijd een expliciete licentie toe te voegen.

Ook als je denkt: "het is toch logisch?" Nee, het is dat niet. Maak het expliciet.

Dan weet iedereen waar ze aan toe zijn.

2. Documenteer alles alsof je het overdraagt aan een vreemde

En dat is letterlijk wat je doet. Jij weet precies wat kolom 47 in jouw spreadsheet betekent. Maar een ander?

Die heeft geen idee. En die ander heeft ook geen tijd om er achter te komen. Schrijf een goede README-bestand. Beschrijf wat er in elke kolom staat, welke eenheden je gebruikt, wat de coderingen betekenen, en waar eventuele gaten in de data zitten.

Gebruik een codebook als je met variabelen werkt. En maak het in het Engels — ook al is je onderzoek in het Nederlands. Wetenschap is internationaal.

De CESSDA Data Management Expert Guide benadrukt hoe belangrijk het is om data goed te documenteren.

Niet alleen voor anderen, maar ook voor jezelf. Want eerlijk: herinner jij over zes maanden nog wat "var_03" betekende?

Wat hoort er minimaal in je documentatie?

Titel en beschrijving van de dataset
Naam van de onderzoeker(s) en instelling
Datum van dataverzameling
Methodologie: hoe is de data verzameld?
Variabelenlijst met definities en eenheden
Licentie-informatie
Eventuele beperkingen of kanttekeningen

3. Maak je data machine-leesbaar (en niet alleen mens-leesbaar)

Excel-bestanden zijn fijn voor mensen. Maar computers? Die houden van gestructureerde formaten.

Denk aan CSV, JSON, XML of relationele databases. Formaten die zonder speciale software te openen zijn en die andere systemen kunnen lezen. Vermijd het gebruik van kleurcodering om informatie over te brengen.

"De rode cellen zijn de uitschieters" zegt niets aan een computer. En ook weinig aan een onderzoeker die jouw Excel-bestand opent op een ander scherm waar de kleuren er anders uitzien.

Gebruik gestandaardiseerde indelingen waar mogelijk. Als er in jouw veld een standaard bestaat voor data-uitwisseling, gebruik die dan.

Dat maakt interoperabiliteit een stuk makkelijker — en dat is juist wat je wilt.

4. Sla je data op in een erkende repository

Je dataset op je laptop opslaan is geen archiveren. Je dataset op Google Drive zetten is geen archiveren.

Een repository is iets anders: een plek die gegarandeerd bewaart, een persistent identifier toekent (zoals een DOI), en je data vindbaar maakt voor de wereld.

In Nederland kun je terecht bij DANS, via hun EASY-archief. Daar krijg je een DOI voor je dataset, en die dataset wordt lang bewaard. Ook als je over vijf jaar bij een andere werkgever zit, of met pensioen bent.

Andere opties zijn 4TU.ResearchData (specifiek voor technische en natuurwetenschappelijke data) of Zenodo, een Europese repository van CERN. Een repository doet meer dan alleen opslaan. Het vergroot je vindbaarheid via zoekmachines, het koppelt je data aan je publicaties, en het geeft vertrouwen: wie jouw data gebruikt, weet dat het om betrouwbare, bewaarde data gaat.

5. Wees transparant over de context en beperkingen

Dit is het onderdeel waar veel onderzoekers aan voorbijgaan. En toch is het cruciaal.

Herbruikbaarheid betekent niet dat je dataset voor alles geschikt is. Het betekent dat anderen kunnen beoordelen of de dataset geschikt is voor hun doel.

Vertel dus eerlijk: onder welke omstandigheden is de data verzameld? Welke populatie is onderzocht, en wat zijn de beperkingen daarvan? Zijn er ethische overwegingen, zoals anonimisering?

Is de steekproef klein? Geef het aan. Transparantie over beperkingen is geen zwakte. Het is juist een teken van wetenschappelijke integriteit. En het bespaart anderen — en jezelf — veel werk. Want niets is erger dan een onderzoek dat op verkeerde aannames is gebouwd, simpelweg omdat de originele onderzoeker niet duidelijk was over de context.

Herbruikbaarheid begint bij jou (maar eindigt niet daar)

De vijf stappen die we doorlopen hebben — licentie, documentatie, machine-leesbaarheid, repository, transparantie — zijn geen bureaucratische rompshop.

Ze zijn de basis van goede wetenschap. Elke dataset die je op deze manier deelt, is een geschenk aan de wetenschappelijke gemeenschap dat bovendien leidt tot meer citaties voor jouw artikel.

En laten we eerlijk zijn: het is ook een geschenk aan jezelf. Want goed gedocumenteerde, goed bewaarde data kun je ook zelf weer gebruiken. Voor een vervolgstudie, voor een review, of gewoon om te laten zien wat je gedaan hebt. Open Science draait om samenwerken.

En samenwerken begint met data delen op een manier waar anderen iets mee kunnen.

Dus: kies de juiste licentie voor je data. Schrijf dat README-bestand. Upload naar een repository. De volgende onderzoeker — misschien ben dat jij over een jaar — zal je dankbaar zijn.

Veelgestelde vragen

Wat houdt het principe 'Reusable' precies in binnen de FAIR-principes?

Het principe 'Reusable' betekent dat andere onderzoekers jouw dataset niet alleen kunnen vinden en toegankelijk maken, maar ook daadwerkelijk kunnen gebruiken voor hun eigen onderzoek.

Waarom is het zo belangrijk om een licentie toe te voegen aan een dataset?

Dit vereist meer dan alleen een goede dataset; het vraagt om context, duidelijke documentatie en empathie voor de onderzoeker die jouw werk verder wil uitbouwen. Het is cruciaal om een licentie toe te voegen aan je dataset, omdat dit expliciet aangeeft wat anderen wel en niet met de data mogen doen. Zonder licentie is het voor anderen onduidelijk, en vaak ook onmogelijk, om de data te gebruiken, zelfs als ze dat zouden willen.

Wat is de bedoeling van een goede README-file bij een dataset?

Kies daarom een Creative Commons-licentie zoals CC BY 4.0 of CC BY-SA 4.0. Een goede README-file is essentieel om je dataset begrijpelijk te maken voor anderen.

Wat is het doel van de FAIR-principes in de context van open science?

Beschrijf in dit bestand duidelijk wat elke kolom in je dataset betekent, welke eenheden je hebt gebruikt, en eventuele beperkingen of gaten in de data.

Wat zijn de belangrijkste aspecten van het documenteren van een dataset?

Zorg ervoor dat het in het Engels is geschreven, omdat wetenschap internationaal is. De FAIR-principes (Findable, Accessible, Interoperable, Reusable) zijn fundamenteel voor open science, omdat ze ervoor zorgen dat onderzoeksdata niet verloren gaat en daadwerkelijk kan worden hergebruikt door andere onderzoekers. Dit bevordert de transparantie, reproduceerbaarheid en impact van wetenschappelijk onderzoek. Bij het documenteren van een dataset is het belangrijk om alles gedetailleerd te beschrijven, inclusief de betekenis van elke kolom, gebruikte eenheden, coderingen en eventuele beperkingen. Gebruik een codebook voor variabelen en schrijf in het Engels om de dataset internationaal toegankelijk te maken voor andere onderzoekers.