Metadata uitgelegd zonder jargon: wat je altijd moet invullen bij een dataset

Stel: je hebt een geweldige dataset verzameld. Uren, weken, soms maanden werk zitten erin.

▶Inhoudsopgave

Wat is metadata precies, en waarom is het zo belangrijk?
De essentiële metadata-velden die je altijd moet invullen
Metadata-standaarden: welke moet je gebruiken?
Praktische tips om metadata slim te beheren
De grootste fouten die je kunt maken
Conclusie: metadata is geen rompshop, het is je visitekaartje
Veelgestelde vragen

Je uploadt het, deelt het, en denkt: klaar. Maar dan gebeurt er niks. Niemand vindt je data. Niemand begrijpt wat erin staat.

Niemand kan het gebruiken. Wat ging er mis?

De kans is groot dat het probleem niet je data is, maar de metadata.

Metadata klinkt als iets voor technerds. Maar eigenlijk is het gewoon het stukje informatie bovenop je data dat uitlegt wat erin staat, wie het heeft gemaakt, en hoe anderen het mogen gebruiken. Zonder goede metadata is je dataset zoals een boek zonder kaft, titel of inhoudsopgave.

Technisch compleet, maar praktisch onbruikbaar voor iedereen behalve jijzelf. In de wereld van Open Science en FAIR data is metadata niet langer een nice-to-have.

Het is de basis. En gelukkig hoef je geen informaticus te zijn om het goed te doen. Hieronder lees je precies wat je moet invullen, waarom het ertoe doet, en hoe je het simpel en slim aanpakt.

Wat is metadata precies, en waarom is het zo belangrijk?

Metadata is data over data. Klinkt abstract, maar het is heel concreet.

Denk aan de titel van je dataset, de naam van de maker, de datum van aanmaak, de licentie, en een beschrijving van wat de data bevat.

Dit zijn allemaal metadata-velden. Waarom is dit zo belangrijk? Omdat het de FAIR-principes mogelijk maakt.

FAIR staat voor Findable, Accessible, Interoperable en Reusable. Dat zijn vier eigenschappen die ervoor zorgen dat onderzoeksdata door zowel mensen als machines gevonden, begrepen en hergebruiken kan worden. Metadata is het hart van elk van die vier principes. Zonder metadata kan geen enkel zoekmachine je dataset vinden.

Zonder metadata weet een ander onderzoeker niet of hij of zij de data mag gebruiken.

En zonder metadata is het bijna onmogelijk om datasets onderling te vergelijken of combineren. Kortom: goede metadata maakt je werk zichtbaarder, beter herbruikbaar, en uiteindelijk waardevoller.

De essentiële metadata-velden die je altijd moet invullen

Er bestaan tientallen metadata-standaarden, maar je hoeft niet alles in één keer perfect te hebben.

Begin met de basis. Deze velden komen vrijwel altijd terug, of je nu data deelt via DANS, Zenodo, Figshare, of een eigen repository. De titel is het eerste wat mensen zien. Maak het duidelijk, specifiek en beschrijvend.

Titel

"Onderzoeksdata" is geen goede titel. "Enquêtegegevens mentale gezondheid studenten Nederland 2023" is dat wel.

Een goede titel zegt in één zin wat de data bevat en voor wie het relevant is.

Auteur(s) en affiliatie(s)

Vermeed altijd wie de data heeft gemaakt. Gebruik volledige namen en koppel ze aan een organisatie, zoals je universiteit of onderzoeksinstituut. Nog beter: gebruik persistente identifiers zoals een ORCID-iD.

Dat is een unieke code die aan jou als onderzoeker is gekoppeld en voorkomt dat je verward wordt met iemand met dezelfde naam. Dit is waar je uitgelegd wat er in je dataset zit.

Beschrijving of abstract

Schrijf het alsof je het aan een collega-onderzoeker uitlegt die niets van je project afweet. Wat is het onderzoek? Hoe is de data verzameld?

Wat zijn de belangrijkste variabelen? Zijn er beperkingen of aandachtspunten?

Datum van aanmaak of publicatie

Hoe meer context je geeft, hoe makkelijker anderen je data kunnen begrijpen en hergebruiken. Zet er altijd een datum bij.

Niet alleen wanneer je de data hebt gemaakt, maar ook wanneer je het publiceert.

Licentie

Dit helpt anderen om te beoordelen hoe actueel de data is en maakt het mogelijk om verschillende versies van dezelfde dataset van elkaar te onderscheiden. Dit is een van de meest onderschatte velden, en tegelijk één van de belangrijkst. Een licentie vertelt anderen wat ze wel en niet mogen doen met je data. Zonder licentie geldt standaard auteursrecht, wat betekent dat niemand je data mag hergebruiken zonder jouw expliciete toestemming.

Dat schrikt mensen af. Kies daarom bewust een licentie.

Trefwoorden of keywords

In de wetenschappelijke wereld zijn er verschillende licenties voor onderzoeksdata beschikbaar. CC BY 4.0 is de meest open variant: anderen mogen je data gebruiken, zelfs commercieel, zolang ze je als bron vermelden.

Trefwoorden maken je dataset vindbaar. Kies woorden die anderen zouden intypen als ze op zoek zijn naar data zoals de jouwe. Denk niet te narrow: "longitudinale studie burn-out onderwijspersoneel Vlaanderen 2021-2023" is een titel, maar als trefwoorden wil je ook bredere termen zoals "burn-out", "onderwijs", "mentale gezondheid" en "kwantitatief onderzoek".

Persistente identifier (DOI)

Zo maak je jouw onderzoeksdata vindbaar via Google Dataset Search. Een DOI, of Digital Object Identifier, is een unieke, permanente link naar je dataset.

Platforms als Zenodo, DANS en Figshare genereren automatisch een DOI wanneer je data uploadt. Gebruik deze DOI altijd in publicaties en presentaties. Zo kunnen anderen altijd terug naar jouw data, zelfs als de URL van de repository verandert.

Gerelateerde publicaties of bronnen

Als je dataset gekoppeld is aan een artikel, rapport of ander onderzoek, vermeld dat dan.

Dit verbindt je data met de bredere context van je werk en maakt het voor anderen eenvoudiger om te begrijpen waar de data vandaan komt en hoe het is gebruikt.

Metadata-standaarden: welke moet je gebruiken?

Je hoeft niet zelf een metadata-systeem te bouwen. Er bestaan goede standaarden die al jarenlang worden gebruikt. De meest bekende in de wetenschappelijke wereld zijn Dublin Core en DataCite.

Dublin Core is een eenvoudige standaard met 15 basisvelden, waaronder titel, maker, datum, type en licentie.

Het is breed inzetbaar en een prima startpunt als je net begint met het toevoegen van metadata. DataCite is iets uitgebreider en specifiek ontworpen voor onderzoeksdata. Het bevat velden voor DOI, onderzoeksfinanciering, versiebeheer en relaties tussen datasets.

Als je data deelt via een serieuze repository, is de kans groot dat DataCite als standaard wordt gebruikt. Veel disciplines hebben ook hun eigen standaarden. In de gezondheidswetenschappen wordt bijvoorbeeld vaak gewerkt met DDI (Data Documentation Initiative).

In de aardwetenschappen is ISO 19115 gebruikelijk. Check bij je vakcommunity of er een specifieke standaard wordt aangeraden.

Praktische tips om metadata slim te beheren

Nu je weet wat je moet invullen, nog een paar tips om het proces soepel te laten verlopen. Begin vroeg. Wacht niet tot het einde van je project om metadata toe te voegen. Noteer tijdens het onderzoek al wie wat heeft gemaakt, welke versies er zijn, en welke methoden je hebt gebruikt.

Dit bespaart je een hoop achteraf zoekwerk. Gebruik een data management plan. Veel onderzoeksfinanciers, zoar NWO en de EU via Horizon Europe, vragen tegenwoordig een Data Management Plan (DMP).

Daarin beschrijf je vooraf hoe je met data en metadata omgaat. Het DMP-tool van DMPonline, ontwikkeld door het Digital Curation Centre, helpt je hierbij. Maak afspraken binnen je team. Als je samenwerkt met anderen, stem dan af welke metadata-velden jullie invullen en hoe jullie dat doen. Consistentie is key. Als de ene onderzoeker "auteur" schrijft en de andere "maker", ontstaat er verwarring. Laat een collega je metadata checken. Wat voor jou logisch is, hoeft dat niet voor iemand anders te zijn. Laat iemand anders kijken of je beschrijving duidelijk genoeg is en of je geen belangrijke velden hebt overgeslagen.

De grootste fouten die je kunt maken

Er zijn een paar veelgemaakte fouten die je het best direct kunt vermijden. De eerste: lege of generieke metadata. Velden als "nog in te vullen" of "zie readme" zijn waardeloos voor anderen.

De tweede: vergeten een licentie te kiezen. Dat lijkt een klein detail, maar het maakt het verschil tussen data die hergebruikt wordt en data die in een digitale la verdwijnt.

En de derde: metadata niet bijwerken. Als je dataset verandert, moet je metadata mee veranderen. Een nieuwe versie verdient nieuwe metadata, zeker als je kijkt naar de verplichte metadatavelden per repository.

Conclusie: metadata is geen rompshop, het is je visitekaartje

Goede metadata kost wat tijd, maar het betaalt zich dubbel en dwars terug. Je dataset wordt gevonden, begrepen en hergebruikt.

Dat leidt tot meer citaties, meer samenwerkingen, en uiteindelijk tot meer impact van je onderzoek. Je hoeft niet alles in één keer perfect te krijgen. Begin met de basis: titel, auteur, beschrijving, datum, licentie en trefwoorden.

Vanuit daar kun je altijd uitbreiden. Het belangrijkste is dat je begint, en dat je het consequent doet.

Want uiteindelijk is metadata niet iets dat je voor je data doet. Het is iets dat je data bruikbaar maakt. En dat is precies waar Open Science om draait.

Veelgestelde vragen

Wat is metadata precies en waarom is het zo belangrijk voor het delen van data?

Metadata is in feite informatie *over* je data, zoals de titel, de maker, de datum en de licentie. Zonder goede metadata is je dataset als een boek zonder kaft: niemand kan het vinden of begrijpen.

Wat zijn de FAIR-principes en hoe draagt metadata daaraan bij?

Goede metadata maakt je data zichtbaarder, herbruikbaarder en uiteindelijk waardevoller, essentieel voor het volgen van de FAIR-principes. FAIR staat voor Findable, Accessible, Interoperable en Reusable. Metadata is cruciaal voor deze principes; het zorgt ervoor dat je data gevonden kan worden, toegankelijk is voor anderen, kan worden gebruikt in verschillende systemen en uiteindelijk hergebruikt kan worden door onderzoekers.

Welke informatie moet ik zeker in mijn metadata opnemen om mijn data bruikbaar te maken?

Zonder metadata is het onmogelijk om aan deze criteria te voldoen. Je moet minimaal de titel van je dataset, de naam van de maker en de datum van aanmaak invullen.

Wat zijn voorbeelden van metadata-velden die ik kan invullen?

Daarnaast is het belangrijk om een duidelijke beschrijving te geven van wat de data bevat en onder welke licentie deze beschikbaar is. Het toevoegen van persistente identifiers zoals een ORCID-iD is ook sterk aan te raden. Naast de basisinformatie zoals titel en auteur, zijn er ook andere belangrijke metadata-velden, zoals de data-bron, de methodologie die is gebruikt bij het verzamelen van de data, de kwaliteitscriteria en de gebruiksstatistieken. Door deze velden te vullen, geef je anderen inzicht in de betrouwbaarheid en bruikbaarheid van je dataset.

Waarom is het belangrijk om een duidelijke en specifieke titel te kiezen voor mijn dataset?

De titel is het eerste wat mensen zien, dus het moet duidelijk aangeven wat de data bevat en voor wie het relevant is. Vermijd vage termen zoals "Onderzoeksdata" en kies in plaats daarvan voor een beschrijvende titel, zoals "Enquêtegegevens mentale gezondheid studenten Nederland 2023".