Waarom een goede bestandsnaam al het begin is van FAIR data

Q: Hoe kan een goede bestandsnaam bijdragen aan het hergebruik van onderzoeksdata?

Een duidelijke bestandsnaam, zoals dataset_experimentnaam_datum_variabele.csv , geeft direct inzicht in de inhoud van het bestand. Dit maakt het voor andere onderzoekers veel gemakkelijker om de data te begrijpen en te gebruiken voor hun eigen onderzoek, wat de hergebruikbaarheid bevordert.

Stel je voor: je downloadt een bestand en de naam is dataset_final_v3_FINAL2.xlsx. Klinkt bekend?

▶Inhoudsopgave

Wat zijn FAIR data eigenlijk, en waarom moet je om bestandsnamen geven?
Hoe een slechte bestandsnaam je onderzoek saboteert
De vijf regels voor een FAIR bestandsnaam
Bestandsnaam als fundament, niet als bijzaak
Veelgestelde vragen

Dan weet je ook waarom onderzoekers wereldwijd miljoenen bestanden hebben die niemand ooit weer kan terugvinden. Het probleem begint niet bij ingewikkelde metadata of dure software. Het begint bij de bestandsnaam.

En precies daarom is dat ook waar je het verschil maakt. FAIR data — Findable, Accessible, Interoperable, Reusable — klinkt als iets voor informatici en databeheerders.

Maar het begint met iets heel simpel: hoe je een bestand noemt.

Want als je bestandsnaam niemand vertelt wat erin zit, is het eerste principe van FAIR al niet meer van toepassing: vindbaarheid. En dan is de rest ook snel een probleem.

Wat zijn FAIR data eigenlijk, en waarom moet je om bestandsnamen geven?

De FAIR-principes zijn in 2016 gepubliceerd in het wetenschappelijke tijdschrift Scientific Data.

Sindsdien zijn ze uitgegroeid tot de gouden standaard voor onderzoeksdata. Universiteiten, financieringsinstanties zoals NWO en ZonMw, en de Europese Commissie vragen steeds vaker om een datamanagementplan waarin FAIR een centrale rol speelt. Ook het Plan S, de Europese richtlijn voor Open Access publiceren, hangt nauw samen met FAIR-datavereisten.

Maar FAIR is geen checklist die je achteraf afvinkt. Het begint bij het moment dat je een bestand opslaat.

En dat is precies waar de meeste onderzoekers struikelen. Niet omdat ze het niet weten, maar omdat het altijd lijkt te veel moeite voor "even een bestandsnaam".

Hoe een slechte bestandsnaam je onderzoek saboteert

Laten we eerlijk zijn: de meeste onderzoekers hebben geen naamgevingsafspraken. Iemand noemt een bestand data.csv, iemand anders resultaten_exp1.xlsx, en een derde nieuw_bestand(1).docx.

Binnen een team van vijf mensen ontstaan er al snel vijf verschillende conventies.

Binnen een half jaar weet niemand meer wat wat is. De gevolgen zijn groter dan je denkt. Uit onderzoek van de Universiteit van Utrecht en DANS (Data Archiving and Networked Services) blijkt dat onderzoekers gemiddeld 30 tot 40 procent van hun tijd besteden aan het zoeken naar data die al bestaat, maar niet gevonden kan worden.

Dat zijn uren die je liever aan je onderzoek besteedt. En het wordt erger.

Als een collega je data wil hergebruiken — het "R" in FAIR — dan moet die persoon begrijpen wat er in een bestand zit zonder het te openen. Door veelgemaakte fouten bij het FAIR maken te vermijden, zorg je voor helderheid. Een bestandsnaam als 2024-03-15_experiment2_temperatuur_Celsius.csv vertelt direct wat je kunt verwachten. Een bestandsnaam als data2.csv vertelt niets.

De vijf regels voor een FAIR bestandsnaam

Gelukkig hoef je geen informaticus te worden om dit goed te doen. Hier zijn vijf praktische regels die direct werken.

1. Beschrijf wat er in het bestand zit

De bestandsnaam is geen verrassing. Gebruik woorden die de inhoud beschrijven: het onderwerp, de variabele, de methode of het type data. Bijvoorbeeld: 2024_soil-pH_Wageningen_fieldtrial.csv.

2. Gebruik een consistente structuur

Iemand die dit bestand tegenkomt, weet direct dat het om bodem-pH-metingen gaat, uitgevoerd in Wageningen, in 2024. Kies een volgorde en houd je eraan. Een veelgebruikte aanpak is: datum_project_beschrijving_extensie. Bijvoorbeeld: 2024-03-15_OpenScience_survey-raw.xlsx.

3. Vermijd spaties en speciale tekens

De datum in het formaat JJJJ-MM-DD zorgt ervoor dat bestanden automatisch chronologisch gesorteerd worden. Handig, toch? Spaties, hoofdletters en tekens zoals #, %, & of ? kunnen problemen geven bij het verwerken van bestanden in scripts of op verschillende besturingssystemen. Gebruik in plaats daarvan kleine letters, koppeltekens (-) of underscores (_). Dus niet Resultaten onderzoek #3.xlsx, maar resultaten-onderzoek-03.xlsx.

4. Gebruik versienummering op een slimme manier

We kennen het allemaal: versie1, versie2, versie2_FINAL, versie2_FINAL_werkelijk.xlsx. Dit werkt niet.

Gebruik in plaats daarvan versienummers zoals v01, v02, v03. En houd bij welke versie de definitieve is — bijvoorbeeld door een duidelijke conventie in je projectmap of door gebruik te maken van versiebeheersoftware zoals Git of een platform zoals GitHub of GitLab.

5. Maak afspraken met je team — en documenteer ze

Een naamgevingsconventie die alleen in je hoofd bestaat, is geen conventie. Schrijf je afspraken op in een README-bestand in je projectmap. Het hoeft niet lang te zijn.

Een paar regels volstaan. Tools zoals DMPonline, ontwikkeld door het Digital Curation Centre, helpen je om dit soort afspraken vast te leggen in je datamanagementplan.

Bestandsnaam als fundament, niet als bijzaak

FAIR data is geen project dat je afrondt. Het is een manier van werken waar je als promovendus vanaf dag één mee begint.

En net als bij elke goede gewoonte begint het met de basis.

Een bestandsnaam kost je vijf seconden extra. Het bespaart je team mogelijk uren aan zoekwerk. En het maakt je data direct vindbaar, leesbaar en herbruikbaar — niet alleen voor jezelf, maar voor iedereen die er later mee aan de slag gaat.

De volgende keer dat je een bestand opslaat, neem die vijf seconden. Geef het een naam die vertelt wat erin zit.

Want FAIR begint niet bij de metadata. Het begint bij de bestandsnaam, maar wil je weten hoe je de volwassenheid van jouw data meet?

Veelgestelde vragen

Wat houdt FAIR data precies in?

FAIR data staat voor Findable, Accessible, Interoperable en Reusable. Het betekent dat onderzoeksdata gemakkelijk te vinden is via een duidelijke naam, toegankelijk is voor anderen, kan worden gebruikt in verschillende systemen en meerdere keren hergebruikt kan worden.

Waarom is het zo belangrijk om bestandsnamen te standaardiseren?

Dit is essentieel voor het delen en verder ontwikkelen van wetenschappelijke kennis.

Welke rol spelen de FAIR-principes in het wetenschappelijk onderzoek?

Omdat inconsistente bestandsnamen leiden tot verwarring en verloren tijd. Onderzoekers besteden gemiddeld 30-40% van hun tijd aan het zoeken naar bestaande data, wat de productiviteit en de kwaliteit van het onderzoek negatief beïnvloedt. Duidelijke namen zorgen ervoor dat data direct herkenbaar is.

Hoe kan een goede bestandsnaam bijdragen aan het hergebruik van onderzoeksdata?

De FAIR-principes zijn steeds belangrijker geworden in de wetenschappelijke wereld, aangezien universiteiten, financieringsinstanties en de Europese Commissie steeds vaker eisen dat onderzoeksdata volgens FAIR-principes wordt beheerd. Het Plan S, een initiatief voor Open Access publiceren, draagt hier ook aan bij. Een duidelijke bestandsnaam, zoals dataset_experimentnaam_datum_variabele.csv, geeft direct inzicht in de inhoud van het bestand. Dit maakt het voor andere onderzoekers veel gemakkelijker om de data te begrijpen en te gebruiken voor hun eigen onderzoek, wat de hergebruikbaarheid bevordert.

Wat zijn de belangrijkste elementen van een goede bestandsnaam volgens de FAIR-principes?

Een goede bestandsnaam bevat duidelijke beschrijvingen van de data, inclusief de experimentnaam, de datum van de dataverzameling en de variabelen die in het bestand zijn opgenomen.

Zo vermijd je verwarring en zorg je ervoor dat de data gemakkelijk te vinden en te begrijpen is.