Wat is een datarepository en waarom mag jij er niet zomaar één kiezen

Stel: je hebt maandenlang gewerkt aan een onderzoek. De data zit in een mapje op je laptop, met bestandsnamen als "definitieve_versie_FINAL_v3.xlsx". Klinkt bekend?

▶Inhoudsopgave

Wat is een datarepository eigenlijk?
Waarom zou je überhaupt een datarepository gebruiken?
Soorten datarepositories: er is keuze, en dat is lastig
Waarom je niet zomaar een repository mag kiezen
Hoe kies jij de juiste datarepository?

Veel onderzoekers herkennen dit. En precies daar begint het probleem. Want onderzoeksdata verdient beter dan een plekje tussen je foto's en oude notities.

Het verdient een echte datarepository. Maar hier komt het: je kunt niet zomaar de eerste de beste kiezen.

De keuze van een datarepository kan het verschil maken tussen data die de wereld verandert... en data die verdwijnt in een digitale achterhoek. In dit artikel leg ik uit wat een datarepository precies is, waarom het zo belangrijk is, en waarom je er goed bij moet nadenken voordat je je data ergens dumpt.

Wat is een datarepository eigenlijk?

Een datarepository is een online plek waar je onderzoeksdata opslaat, organiseert en deelt. Maar het is veel meer dan een soort digitale kast. Een goede repository zorgt ervoor dat je data vindbaar is, begrijpelijk voor anderen, en behouden blijft voor de toekomst.

Niet voor een jaar of vijf, maar echt lang. We hebben het over bewaartermijnen van minimaal 10 jaar, en soms zelfs langer.

Wat maakt een repository anders dan Dropbox of Google Drive? Het verschil zit in de details.

Een datarepository geeft je data een persistent identifier, zoals een DOI (Digital Object Identifier). Dat is een unieke code die ervoor zorgt dat anderen je data altijd kunnen vinden en citeren. Daarnaast zorgt een repository voor goede metadata: informatie over je data, zoals wie het heeft verzameld, wanneer, met welke methode, en onder welke voorwaarden het hergebruikt mag worden.

Kortom: een datarepository maakt je data FAIR. Dat staat voor Findable, Accessible, Interoperable en Reusable.

Die vier woorden zijn tegenwoordig de gouden standaard in de onderzoekswereld. En niet zomaar: grote subsidieverstrekkers zoals NWO en de Europese Commissie vragen er expliciet om.

Waarom zou je überhaupt een datarepository gebruiken?

Goede vraag. Want je data kun je toch gewoon op je eigen computer bewaren? Technisch gezien: ja.

Maar praktisch gezien is dat een van de slechtste ideeën die je kunt hebben. Hierom:

Hergebruik en impact. Als je data in een repository staat, kunnen andere onderzoekers het vinden en gebruiken. Dat betekent meer citaties voor jouw werk, nieuwe samenwerkingen, en soms onverwachte doorbraken. Uit onderzoek blijkt dat artikelen met open data tot 25% meer citaties krijgen.

Dat is geen detail. Reproduceerbaarheid. Wetenschap werkt alleen als anderen je resultaten kunnen controleren. Als je data nergens te vinden is, kun je dat niet. En dan wordt je onderzoek lastig te vertrouwen.

Verplichtingen. Steeds meer financieringsorganisaties eisen dat je data openbaar beschikbaar maakt. NWO, ZonMw, Horizon Europe: ze willen een datamanagementplan, en ze willen zien dat je data ook echt ergens terechtkomt.

Een datarepository helpt je daarbij. Langetermijnbewaring. Harde schijven crashen. USB-sticks raken kwijt. Universiteiten veranderen systemen.

Een professionele repository heeft back-ups, redundante opslag en een langetermijnstrategie. Jouw data blijft bewaard, ook over 15 jaar.

Soorten datarepositories: er is keuze, en dat is lastig

Er bestaan honderden datarepositories wereldwijd. Ze vallen ruwweg in drie categorieën, en het verschil is belangrijk.

Institutionele repositories

Elke Nederlandse universiteit heeft er een. Denk aan de Utrecht Data Repository, de TU Delft Data Repository of de Groningen Research Database. Deze zijn bedoeld voor onderzoekers van die specifieke instelling. Het voordeel: je krijgt lokale ondersteuning, en de repository sluit aan op de beleidsregels van jouw universiteit. Wil je weten wat de beste datarepository voor jouw discipline is? Dat hangt vaak af van je specifieke onderzoeksveld.

Domeinspecifieke repositories

Het nadeel: je data is minder zichtbaar voor onderzoekers buiten jouw instelling. Voor bepaalde vakgebieden bestaan gespecialiseerde repositories.

Biologen gebruiken bijvoorbeeld Dryad of GenBank. Sociaal-wetenschappelijk onderzoek vaak DANS (Data Archiving and Networked Services), dat in Nederland gesubsidieerd wordt door NWO en KNAW.

Generieke repositories

Deze repositories kennen de specifieke eisen van jouw vakgebied en bieden daarop aangepaste metadata-standaarden. Met re3data vind je eenvoudig de juiste repository voor jouw discipline. Zenodo, Figshare en Dataverse: deze repositories accepateren data uit elk vakgebied.

Zenodo, ontwikkeld door CERN, is gratis en populair in Europa. Het voordeel is de brede bereikbaarheid. Het nadeel: minder specifieke ondersteuning voor jouw vakgebied.

Waarom je niet zomaar een repository mag kiezen

Nu komen we bij het belangrijkste punt. Want het kiezen van een repository is geen kwestie van "welk logo vind ik het mooist?".

Er zijn serieuze factoren die het verschil maken tussen een goede en een rampzalige keuze. Duurzaamheid en betrouwbaarheid. Is de repository hier om te blijven? Er zijn genoeg voorbeelden van repositories die zijn opgeheven.

Als dat gebeurt, kan je data verdwijnen. Kijk naar de achtergrond: wordt de repository ondersteund door een universiteit, een overheid of een grote organisatie?

DANS, Zenodo en institutionele repositories scoren hier hoog. Metadata-standaarden. Niet alle repositories vragen dezelfde informatie bij het uploaden.

Sommige zijn minimaal, andere vragen uitgebreide beschrijvingen. Hoe beter de metadata, hoe vindbaarder en bruikbaarder je data is. Kies een repository die aansluit bij de standaarden van jouw vakgebied. Licenties en toegangscontrole. Wil je dat iedereen je data mag gebruiken?

Of alleen na toestemming? Een goede repository biedt duidelijke licentieopties, zoals Creative Commons.

En het geeft je controle over wie wat mag doen met jouw data. Integratie met andere systemen. Slaat je repository aan op ORCID, het onderzoeksportaal van je universiteit, of op internationale zoekmachines? Hoe beter de integratie, hoe zichtbaarder je data.

Kosten. Sommige repositories zijn gratis, andere rekenen kosten bij grotere datasets. Check dit van tevoren, vooral als je meerdere gigabytes aan data hebt.

Hoe kies jij de juiste datarepository?

Geen paniek. Je hoeft niet zelf te puzzelen.

In Nederland zijn er hulpmiddelen die het je makkelijker maken. De website van DANS biedt een overzicht van repositories per vakgebied.

Ook de Research Data Alliance heeft een registry met meer dan 3.000 repositories wereldwijd. En je eigen universiteit heeft een research data manager die je gratis kan adviseren. De belangrijkste adviezen op een rijtje: check eerst of je financier of je universiteit een specifieke repository voorschrijft. Kijk vervolgens of er een domeinspecifieke repository is voor jouw vakgebied.

En als die er niet is, lees dan hier wanneer je kiest voor een institutionele of domeinspecifieke repository, of kies voor een betrouwbare generieke optie zoals Zenodo.

Data is geen afval. Het is een van de meest waardevolle producten van onderzoek. Behandel het daarom ook zo.

Kies bewust, niet zomaar. Want de onderzoeker na jou — misschien zelfs jijzelf over vijf jaar — zal je dankbaar zijn dat je data nog steeds vindbaar, leesbaar en bruikbaar is.