Onderzoeksdata organiseren en documenteren

Wat is een data dictionary en hoe maak je er één voor jouw dataset

Lieke de Vries Lieke de Vries
· · 7 min leestijd

Stel je voor: je opent een dataset van twee jaar geleden. Kolomnamen als "var1", "temp" en "ID2" prijzen je tegemoet. En nu?

Inhoudsopgave
  1. Wat is een data dictionary eigenlijk?
  2. Waarom is een data dictionary zo belangrijk?
  3. Wat zit er in een goede data dictionary?
  4. Hoe maak je een data dictionary in 5 stappen
  5. Handige tools en formaten
  6. Veelgemaakte fouten (en hoe je ze vermijdt)
  7. Conclusie: begin vandaag nog

Wat betekent var1 precies? In welke eenheid is "temp" gemeten?

En is "ID2" een patiëntnummer of een steekproef-ID? Als je het zelf niet meer weet, hoe moet iemand anders dat dan weten? Daar komt een data dictionary om de hoek kijken.

Een simpel, maar krachtig document dat precies uitlegt wat er in je dataset zit. En het mooie? Je hoeft geen informaticus te zijn om er één te maken. In dit artikel lees je wat een data dictionary is, waarom je er écht één nodig hebt, en hoe je in een paar stappen je eigen dictionary opzet.

Wat is een data dictionary eigenlijk?

Een data dictionary is een overzicht waarin je elke variabele (kolom) in je dataset beschrijft. Denk aan het woordenboek van je data.

Voor elk veld noteer je minimaal de naam, wat de variabele meet, welke waarden hij kan bevatten, en in welke eenheid of formaat de data staat.

Maar een goede data dictionary gaat verder dan alleen kolomnamen. Het bevat ook context: wie heeft de data verzameld? Wanneer? Met welk instrument? Zijn er waarden die ontbreken, en zo ja, waarom?

Al deze informatie zorgt voor één ding: begrip. Jij, je collega's, of een onderzoeker in 2028 — iedereen kan meteen zien wat de data betekent, zonder te hoeven raden. In de wereld van Open Science en FAIR data (Findable, Accessible, Interoperable, Reusable) is een data dictionary geen luxe. Het is een basisvereiste. Zonder goede documentatie is data moeilijk herbruikbaar, en daarmee een verspanning van tijd én geld.

Waarom is een data dictionary zo belangrijk?

Laten we eerlijk zijn: niemand houdt van documentatie. Toch is een data dictionary een van de meest waardevolle dingen die je voor jezelf én anderen kunt doen.

1. Je voorkomt fouten en misverstanden

Hier zijn drie redenen waarom. Zonder duidelijke uitleg kan dezelfde dataset op meerdere manieren geïnterpreteerd worden.

2. Je maakt je data herbruikbaar

Is leeftijd in jaren of maanden? Is een score van 0 tot 5 of van 1 tot 7? Een data dictionary voorkomt discussies en, belangrijker, fouten in je analyse.

Wil je dat anderen je data kunnen vinden en gebruiken? Dan moet je data begrijpelijk zijn zonder dat iemand jou hoeft te bellen. Een data dictionary is daarvoor essentieel. Het is precies wat richtlijnen zoals de FAIR-principes bedoelen met "Reusable": data moet zo gedocumenteerd zijn dat anderen het zonder uitleg kunnen begrijpen.

3. Je bespaart jezelf tijd

Je denkt misschien: "Ik weet precies wat mijn data betekent." En dat klopt nu.

Maar over zes maanden? Een jaar? Een data dictionary is een geschenk aan je toekomstige ik. Geen onnodig zoekwerk, geen frustrerende momenten van "wat was dit ook alweer?"

Wat zit er in een goede data dictionary?

Er is geen officiële standaard die zegt precies wat je moet opnemen, maar er zijn wel een aantal elementen die je in bijna elke data dictionary terugziet. Hieronder de belangrijkste. De exacte kolomnaam zoals die in je dataset staat.

Variabele-naam

Bijvoorbeeld: "blood_pressure_systolic" of "resp_leeftijd". Houd het consistent en gebruik geen spaties of speciale tekens.

Beschrijving

Een korte, duidelijke uitleg van wat de variabele meet. Niet "bloeddruk", maar bijvoorbeeld: "Systolische bloeddruk gemeten in millimeter kwik (mmHg), gemeten na 5 minuten rust in zitende positie." Is het een getal, een tekst, een datum, of iets anders? Geef aan of de variabele numeriek (geheel of decimaal), tekst (string), boolean (ja/nee), of een datum/tijd is.

Data type

Als de variabele een getal is, noteer dan de eenheid: kilogram, centimeters, euro's, punten op een schaal van 1 tot 10. Vermijd raden; wees expliciet.

Eenheid of meetniveau

Welke waarden kan de variabele hebben? Bijvoorbeeld: "1 tot 5", "ja/nee/onbekend", of "elke positieve integer". Bij categorische variabelen: noem alle categorieën. Hoe zijn ontbrekende waarden gecodeerd?

Toegestane waarden of bereik

Is dat een lege cel, een 999, een -1, of "NA"? Dit is cruciaal, want anders interpreteer je missende data als echte waarden.

Ontbrekende waarden

Waar komt de data vandaan? Is het een vragenlijst, een sensor, een bestaande database? Noteer ook wie de data heeft verzameld en wanneer.

Bron of herkomst

Hoe maak je een data dictionary in 5 stappen

Genoeg theorie. Laten we aan de slag.

Stap 1: Maak een overzicht van al je variabelen

Hieronder een praktische aanpak om je eigen data dictionary op te zetten. Open je dataset en maak een lijst van alle kolomnamen.

Stap 2: Voeg per variabele de basisinformatie toe

Je kunt dit doen in Excel, Google Sheets, of een tekstbestand — wat jou het beste uitkomt. Het gaat erom dat je een overzicht hebt om op te bouwen. Maak kolommen aan voor de elementen die we net bespraken: beschrijving, data type, eenheid, toegestane waarden, en ontbrekende waarden. Begin met de variabelen die je het beste kent en werk je door de lijst heen.

Stap 3: Wees specifiek, niet vaag

Dit is de belangrijkste tip van dit hele artikel. "Leeftijd" is geen goede beschrijving.

Stap 4: Noteer context en aannames

"Leeftijd van de respondent op het moment van de eerste meting, in hele jaren, berekend op basis van geboortedatum" wél. Hoe specifieker je bent, hoe minder ruimte er is voor misverstanden. Zijn er dingen die niet uit de data zelf blijken?

Bijvoorbeeld: "Deze data is verzameld onder studenten van de Universiteit Utrecht in het collegejaar 2023-2024" of "Waarden boven 300 zijn als uitbuiting beschouwd en gecodeerd als 300+". Deze context is goud waard.

Stap 5: Bewaar het bij je data en houd het up-to-date

Een data dictionary is geen eenmalig project. Elke keer dat je je dataset wijzigt — een nieuwe variabele toevoegt, een codering aanpast — werk je de dictionary bij.

Bewaar het document altijd in dezelfde map of repository als je data, zodat ze niet van elkaar gescheiden raken.

Handige tools en formaten

Je hoeft geen specifieke software te gebruiken. Veel onderzoekers werken gewoon in Excel of Google Sheets, en dat is prima.

Maar als je met grotere projecten werkt, zijn er andere opties. Dataportaal tools zoals Dataverse of DANS (Data Archiving and Networked Services, de Nederlandse service voor data-archivering) bieden ingebouwde mogelijkheden om metadata en data dictionaries te beheren. Ook statistische programma's zoals SPSS en R hebben functies om variabelabels en waardelabels direct in het bestand op te slaan, wat het makkelijker maakt om documentatie en data bij elkaar te houden.

Wat betreft formaat: een spreadsheet werkt uitstekend voor de meeste doeleinden. Als je met internationale standaarden wilt werken, kun je kijken naar schema's zoals het Data Catalog Vocabulary (DCAT) of Dublin Core, maar voor de meeste onderzoekers is het schrijven van een goed codebook in een Excelbestand meer dan voldoende.

Veelgemaakte fouten (en hoe je ze vermijdt)

Voordat je begint, hier drie valkuilen die je kunt ontwijken. Te weinig detail. De grootste fout is te kort door de bocht gaan.

"Score op vragenlijst" zegt niets. Welke vragenlijst? Welke schaal? Wat is een hoge score?

Neem de tijd om het goed te doen. De dictionary los van de data bewaren. Als je data dictionary op je laptop staat en je data op een server, dan is de kans groot dat ze uit elkaar raken. Houd ze bij elkaar, bijvoorbeeld in dezelfde map of in een repository zoals GitHub of een institutenrepository. Alleen beginnen als de data klaar is. Begin met documenteren tijdens het verzamelen van je data, niet erna. Dan weet je nog precies waarom je bepaalde keuzes hebt gemaakt, en hoef je niets uit je hoofd te reconstrueren.

Conclusie: begin vandaag nog

Een data dictionary is geen ingewikkeld technisch document. Het is een eenvoudige, heldere beschrijving van wat je data betekent.

En het verschil tussen een dataset mét en zonder data dictionary? Dat is het verschil tussen data die waarde heeft en data die in een digitale la verdwijnt.

Je hoeft niet alles in één keer perfect te hebben. Begin met de basis: variabele-naam, beschrijving, type, en eenheid. Voeg later meer detail toe.

Het belangrijkste is dat je begint. Want de beste data dictionary is degene die er bestaat.


Lieke de Vries
Lieke de Vries
Expert in Open Science principes

Lieke adviseert onderzoekers over het publiceren van FAIR data volgens de nieuwste normen.

Meer over Onderzoeksdata organiseren en documenteren

Bekijk alle 12 artikelen in deze categorie.

Naar categorie →
Lees volgende
Hoe organiseer je jouw onderzoeksbestanden zodat anderen er iets mee kunnen
Lees verder →