Wat is een data paper en hoe schrijf je er één bij jouw repository-upload

Stel: je hebt maandenlang data verzameld. Rijke, gestructureerde datasets die echt iets toevoegen aan jouw vakgebied.

▶Inhoudsopgave

Wat is een data paper eigenlijk?
Waarom schrijf je een data paper bij een repository-upload?
Welke onderdelen heeft een data paper?
Hoe publiceer je een data paper?
Praktische tips om direct te beginnen
Veelgestelde vragen

Je uploadt ze naar een repository, klaar, gedaan, toch? Nou, niet helemaal.

Want zonder een goede data paper is jouw dataset eigenlijk een beetje als een boek zonder kaft — inhoudelijk misschien briljant, maar voor de meeste mensen gewoon niet vindbaar, niet begrijpbaar en zeker niet bruikbaar. Laten we daar verandering in brengen.

Wat is een data paper eigenlijk?

Een data paper is een wetenschappelijk artikel, maar dan niet gericht op een hypothese of onderzoeksresultaat. Nee, het gaat puur om de data zelf.

Je beschrijft wat de dataset bevat, hoe je hem hebt verzameld, wat de kwaliteit is, en — misschien wel het belangrijkste — hoe anderen jouw data kunnen hergebruiken. Denk eraan als een soort handleiding die bij je dataset hoort. Waar een traditioneel artikel antwoord geeft op een onderzoeksvraag, geeft een data paper antwoord op de vraag: wat zit er in deze dataset en waarom zou ik er iets mee moeten?

En hier wordt het leuk: data papers worden ook echt geciteerd. Dat betekent dat je er wetenschappelijke erkenning voor krijg, los van je onderzoeksartikelen.

In een tijd waarin Open Science steeds belangrijker wordt, is dat geen onzaak.

Waarom schrijf je een data paper bij een repository-upload?

Simpel: zonder context is data bijna waardeloos. Je kunt de mooiste dataset ter wereld hebben, maar als niemand weet wat de kolommen betekenen, welke versie het is, of onder welke licentie de data valt, dan blijft het stof liggen.

Een data paper zorgt voor: Veel Nederlandse repositories, zoals DANS (Data Archiving and Networked Services) of 4TU.ResearchData, moedigen het schrijven van data papers aan of bieden er zelf een publicatiekanaal voor. Dus het is niet alleen slim — het past ook perfect binnen de Nederlandse Open Science-infrastructuur.

Vindbaarheid — je dataset komt bovendrijft in zoekmachines en academische databases.
Herbruikbaarheid — anderen begrijpen precies wat ze aanpakken en kunnen de data zelfstandig gebruiken.
Credits — je krijgt een citeerbaar document, vaak met een DOI, waardoor je dataverzameling meeteelt in je wetenschappelijke output.
FAIR-principes — je dataset wordt beter vindbaar, toegankelijk, interoperabel en herbruikbaar. Precies wat het FAIR-data-beleid van onder meer NWO en de Europese Commissie vraagt.

Welke onderdelen heeft een data paper?

Een data paper volgt geen vaste standaard zoals een IMRAD-structuur, maar de meeste journals en repositories verwachten wel een aantal vaste onderdelen.

Titel en samenvatting

Hierdoor weet je precies waar je aan toe bent. De titel moet duidelijk beschrijven wat de dataset bevat. Geen poëtische titels, maar gewoon helder en informatief. De samenvatting — meestal tussen de 150 en 300 woorden — geeft in één klap weer wat de dataset is, waarom hij belangrijk is, en wat de reikwijdte is.

Inleiding en motivatie

Waarom heb je deze data verzameld? Wat is de wetenschappelijke relevantie?

Beschrijving van de dataset

Dit onderdeel linkt je dataset aan een breder onderzoeksveld en laat zien dat het niet zomaar een bijproduct is, maar een zinvolle bijdrage.

Methodologie

Wil je weten hoe je dit in DataverseNL publiceert? Hier ga je in detail. Wat zit er in de dataset?

Zodra je klaar bent om je dataset stap voor stap te uploaden, is het belangrijk om te weten: hoeveel observaties of records zijn er? Welke variabelen zijn opgenomen en hoe zijn ze gedefinieerd?

Datakwaliteit en beperkingen

Welke eenheden gebruik je? Dit is het hart van je data paper — het moet zo gedetailleerd zijn dat iemand anders de dataset zelfstandig kan begrijpen en gebruiken. Hoe is de data verzameld?

Welke instrumenten, protocollen of software heb je gebruikt? Zijn er kalibraties uitgevoerd? Validatiestappen ondernomen?

Hergebruik en licentie

Hoe heb je omgegaan met ontbrekende waarden? Dit onderdeel is cruciaal voor de betrouwbaarheid van je dataset.

Geen dataset is perfect, en dat hoeft ook niet. Maar wees eerlijk over de beperkingen. Zijn er bias-risico's?

Technische metadata

Zijn bepaalde periodes of locaties ondervertegenwoordigd? Door dit helder te beschrijven, bouw je vertrouwen op en help je hergebruikers om goede beslissingen te nemen. Onder welke licentie beschikbaar je de data? Creative Commons (bijvoorbeeld CC-BY 4.0) is een veelgebruikte keuze binnen Open Science.

Vermeld ook of er restricties zijn — bijvoorbeeld bij privacygevoelige data — en hoe hergebruikers toegang kunnen krijgen. Bestandsformaten, versienummers, gebruikte software, coderingen — dit soort informatie lijkt saai, maar is essentieel voor interoperabiliteit. Denk eraan: een dataset in CSV is voor iedereen leesbaar, een dataset in een eigen binair formaat niet.

Hoe publiceer je een data paper?

Er zijn meerdere wegen. Ten eerste kun je een data paper indienen bij een gespecialiseerde data journal, zoals Scientific Data van Nature, Data in Brief van Elsevier, of Open Health Data.

Deze journals reviewen je data paper op dezelfde manier als een regulier artikel. Ten tweede bieden sommige repositories zelf de mogelijkheid om een data paper te publiceren. DANS publiceert bijvoorbeeld via Journal of Open Archaeology Data en vergelijkbare initiatieven.

Check wat jouw repository aanbiedt — vaak is het proces rechttoe-aanjaag. En ten derde: je kunt een data paper ook publiceren als preprint of als technisch rapport via je instituut.

Het belangrijkste is dat het document een krijgt en vindbaar is.

Praktische tips om direct te beginnen

Begin niet pas nadat je dataset klaar is. Schrijf de methodologie en databeschrijving tijdens het verzamelen — dan vergeet je geen details.

Gebruik een template als je repository die aanbiedt. En laat iemand anders, bij voorkeur iemand buiten je directe project, je data paper lezen: als zij de dataset kunnen begrijpen uit jouw tekst, dan kan iedereen het. Zoek via re3data de juiste repository voor jouw discipline, upload je dataset, koppel er een data paper aan, en je hebt iets gemaakt dat langer meegaat dan één onderzoeksproject. Dat is Open Science in de praktijk.

Veelgestelde vragen

Wat is precies een data paper en waarom zou ik er een moeten schrijven?

Een data paper is een beschrijving van je dataset, vergelijkbaar met een handleiding.

Wat verwacht een repository precies van een data paper?

Het legt uit wat de data bevat, hoe je hem hebt verzameld, en hoe anderen hem kunnen gebruiken. Het is een manier om je data vindbaar en bruikbaar te maken, en je krijgt er zelfs wetenschappelijke erkenning voor! Repositories zoals DANS en 4TU.ResearchData verwachten dat je in je data paper de vindbaarheid, herbruikbaarheid, en FAIR-principes (Findable, Accessible, Interoperable, Reusable) van je data beschrijft. Dit helpt anderen om je dataset te begrijpen en zelfstandig te gebruiken.

Hoe verschilt een data paper van een traditioneel wetenschappelijk artikel?

In tegenstelling tot een traditioneel artikel dat een onderzoeksvraag en resultaten presenteert, focust een data paper puur op de data zelf. Het beschrijft de dataset, de verzamelmethode, de kwaliteit en hoe anderen deze kunnen hergebruiken, waardoor het een waardevolle bron wordt voor andere onderzoekers.

Waarom is het schrijven van een data paper belangrijk voor Open Science?

Het schrijven van een data paper draagt bij aan Open Science door je data vindbaar, toegankelijk en bruikbaar te maken.

Wat moet ik zeker in een data paper vermelden?

Dit bevordert de hergebruik van data en maakt het mogelijk voor anderen om op jouw werk voort te bouwen, wat essentieel is voor wetenschappelijke vooruitgang. Een data paper moet minimaal een duidelijke titel en samenvatting bevatten die de inhoud van de dataset beschrijft. Daarnaast is het belangrijk om de verzamelmethoden, de kwaliteit van de data en de licentiegegevens te documenteren, zodat anderen de data correct kunnen interpreteren en gebruiken.