FAIR data principes in de praktijk

Gecontroleerde vocabulaires en thesauri: waarom jij dezelfde woorden moet gebruiken als anderen

Lieke de Vries Lieke de Vries
· · 8 min leestijd

Stel je voor: je onderzoek over klimaatverandering is briljant. Je data is perfect verzameld, je conclusies zijn scherp.

Inhoudsopgave
  1. Wat zijn gecontroleerde vocabulaires en thesauri eigenlijk?
  2. Waarom is dit zo belangrijk voor FAIR data?
  3. Het probleem met synoniemen en variatie
  4. Hoe werkt dit in de praktijk?
  5. Wat levert jou dit op?
  6. Conclusie: dezelfde woorden, grotere impact
  7. Veelgestelde vragen

Maar niemand vindt je werk. Waarom? Omdat jij het noemt "klimaatadaptatie", terwijl de rest van de wereld spreekt over "klimaatverandering" of "climate change". Je data is niet vindbaar, niet herbruikbaar, en niet interoperabel.

En dat is precies het probleem dat gecontroleerde vocabulaires en thesauri moeten oplossen. In de wereld van Open Science en FAIR data draait alles om vindbaarheid, toegankelijkheid, interoperabiliteit en herbruikbaarheid.

En een van de meest onderschatte manieren om daar te komen? Gewoon dezelfde woorden gebruiken als anderen.

Klinkt saai misschien, maar het is een gamechanger.

Wat zijn gecontroleerde vocabulaires en thesauri eigenlijk?

Laten we even bij het begin beginnen. Een gecontroleerd vocabulaire is simpelweg een lijst van goedgekeurde termen die je gebruikt om onderwerpen te beschrijven.

Denk aan een soort woordenboek, maar dan specifiek voor een bepaald vakgebied.

Je mag niet zomaar een woord verzinnen — je kiest uit de lijst. Een thesaurus gaat nog een stap verder. Daarin zit niet alleen een lijst van termen, maar ook relaties tussen die termen.

Bijvoorbeeld: "hond" is een specifiek voorbeeld van "dier", of "klimaatverandering" is gerelateerd aan "broeikaseffect". Die relaties maken het veel makkelijker om data te vinden en te verbinden. Voorbeelden die je misschien kent: de Library of Congress Subject Headings (LCSH), Medical Subject Headings (MeSH) voor medisch onderzoek, of AGROVOB voor landbouw. In Nederland werken we bijvoorbeeld met thesauri van de Koninklijke Bibliotheek of specifieke vakvocabulaire ontwikkeld door universiteiten.

Waarom is dit zo belangrijk voor FAIR data?

De FAIR-principes zeggen dat data Findable, Accessible, Interoperable en Reusable moet zijn.

En hier zit het: als iedereen andere woorden gebruikt voor hetzelfde concept, dan is je data niet vindbaar. Punt uit. Stel dat een onderzoeker in Amsterdam data publiceert over "hart- en vaatziekten", en een collega in Utrecht gebruikt de term "cardiovasculaire aandoeningen". Beide praten over hetzelfde, maar een computer die zoekt, ziet twee totaal verschillende dingen. Gecontroleerde vocabulaires zorgen dat beide onderzoekers dezelfde term gebruiken.

En dat maakt data vindbaar, ook internationaal. Maar het gaat verder dan alleen vindbaarheid.

Het zorgt ook voor interoperabiliteit — het vermogen van systemen om samen te werken.

Als verschillende datasets dezelfde vocabulaire gebruiken, kun je ze combineren, vergelijken, en hergebruiken. Dat is precies wat Open Science nodig heeft.

Het probleem met synoniemen en variatie

Nu denk je misschien: "Maar synoniemen maken teksten toch leesbaarder?" Ja, voor mensen klopt dat. Maar voor machines is het een nachtmerrie. Een computer weet niet vanzelf dat "klimaatverandering", "global warming" en "klimaatcrisis" hetzelfde kunnen betekenen.

Tenzij je dat expliciet maakt — en dat doe je met gecontroleerde vocabulaires.

En laten we het hebben over zoekmachines en data-portals. Als je onderzoek tagt met de term "AI", maar de meeste onderzoekers zoeken op "kunstmatige intelligentie" of "artificial intelligence", dan vlij je onder de radar.

Gecontroleerde vocabulaires helpen je om de termen te gebruiken die anderen ook gebruiken. Niet omdat je geen creativiteit mag hebben, maar omdat je werk gevonden moet worden.

Hoe werkt dit in de praktijk?

Goed, je bent overtuigd. Maar hoe pak je dit aan?

Hier zijn een paar concrete stappen: 1. Gebruik bestaande vocabulaires. Je hoeft niet zelf een vocabulaire te bouwen.

Er zijn al duizenden beschikbaar. Kijk bijvoorbeeld naar de services van de Duitse Nationale Bibliotheek of de Europese Unies EuroVoc. In Nederland bieden organisaties als DANS (Data Archiving and Networked Services) hulp bij het kiezen van de juiste terminologie. 2.

Tag je metadata consistent. Als je data publiceert, gebruik dan altijd dezelfde termen in je metadata. Metadata is het visitekaartje van je data — als die niet klopt, vindt niemand je werk. 3.

Maak gebruik van persistente identifiers. Koppel je termen aan URIs (Uniform Resource Identifiers). Zo weet iedereen precies welk concept je bedoelt, ook over tijd heen. Linked data en FAIR zijn hier een belangrijk onderdeel van. 4. Werk samen met je vakgemeenschap. Vocabulaires zijn geen eenmansproject. Praat met collega's, universiteiten, en organisaties als de VSNU over welke termen jullie gezamenlijk gebruiken. Dat versterkt de hele Open Science-beweging.

Wat levert jou dit op?

Misschien denk je: "Dit klinkt als extra werk." En ja, het kost wat moeite. Maar wat je terugkrijgt is enorm:

Je onderzoek wordt vaker gevonden en vaker geciteerd. Je data is herbruikbaar door anderen, wat samenwerking bevordert.

En je draagt bij aan een transparante, open wetenschap waar iedereen voordeel van heeft. Bovendien: als iedereen dezelfde vocabulaire gebruikt, wordt het makkelijker om grootschalige analyses te doen. Denk aan het combineren van datasets van verschillende universiteiten, of het monitoren van onderzoekstrends op nationaal niveau. Zonder een interoperabel dataformaat is dat bijna onmogelijk.

Conclusie: dezelfde woorden, grotere impact

Gecontroleerde vocabulaires en thesauri zijn geen bureaucratische last. Ze zijn een krachtig instrument om je onderzoek zichtbaarder, vindbaarder en waardevoller te maken.

In een wereld waar data steeds belangrijker wordt, is het gebruiken van dezelfde woorden als anderen geen beperking — het is een strategie. Dus de volgende keer dat je data publiceert, metadata schrijft voor je dataset, of een dataset tagt: kijk even naar de bestaande vocabulaires. Kies de termen die anderen ook gebruiken.

En help mee aan een Open Science-landschap waar data écht vrij kan stromen. Want uiteindelijk draait het niet om de woorden die jij kiest.

Het draait om de impact die je werk maakt. En die is groter als anderen je kunnen vinden.

Veelgestelde vragen

Wat is het verschil tussen een gecontroleerd vocabulaire en een thesaurus?

Een gecontroleerd vocabulaire is een lijst met goedgekeurde termen voor het beschrijven van onderwerpen, vergelijkbaar met een specifiek woordenboek.

Waarom is het belangrijk om dezelfde termen te gebruiken als andere onderzoekers?

Een thesaurus gaat verder door ook relaties tussen deze termen te definiëren, zoals "hond" als een type "dier" of "klimaatverandering" als gerelateerd aan "broeikaseffect", wat het makkelijker maakt om data te vinden en te verbinden. Het gebruik van dezelfde termen als andere onderzoekers, zoals via gecontroleerde vocabulaires, is cruciaal voor vindbaarheid van data.

Wat zijn FAIR-principes en hoe passen gecontroleerde vocabulaires hierin?

Als verschillende onderzoekers verschillende woorden gebruiken voor hetzelfde concept, kan een zoekmachine de data niet vinden. Dit bevordert interoperabiliteit en maakt het mogelijk om datasets internationaal te combineren en te analyseren. De FAIR-principes (Findable, Accessible, Interoperable, Reusable) zijn essentieel voor Open Science. Gecontroleerde vocabulaires dragen direct bij aan vindbaarheid door ervoor te zorgen dat onderzoekers dezelfde termen gebruiken, waardoor data makkelijker te vinden is voor anderen.

Kun je een voorbeeld geven van een gecontroleerd vocabulaire in de praktijk?

Dit is een cruciale stap richting interoperabiliteit en herbruikbaarheid van data. Er zijn verschillende voorbeelden van gecontroleerde vocabulaires, zoals de Library of Congress Subject Headings (LCSH) voor literatuurwetenschap, MeSH voor medisch onderzoek, en AGROVOB voor landbouw.

Wat zijn synoniemen en hoe beïnvloeden ze de vindbaarheid van data?

In Nederland worden ook thesauri van de Koninklijke Bibliotheek en specifieke vakvocabulaire ontwikkeld door universiteiten gebruikt om data consistent en vindbaar te maken. Synoniemen zijn woorden met dezelfde betekenis, maar als verschillende onderzoekers verschillende synoniemen gebruiken, kan dit de vindbaarheid van data belemmeren. Het gebruik van gecontroleerde vocabulaires zorgt ervoor dat onderzoekers dezelfde termen gebruiken, waardoor data consistent en makkelijk te vinden is, ongeacht welke synoniemen ze gebruiken.


Lieke de Vries
Lieke de Vries
Expert in Open Science principes

Lieke adviseert onderzoekers over het publiceren van FAIR data volgens de nieuwste normen.

Meer over FAIR data principes in de praktijk

Bekijk alle 42 artikelen in deze categorie.

Naar categorie →
Lees volgende
Wat zijn FAIR data principes en waarom doet elke Nederlandse onderzoeker er iets mee in 2026
Lees verder →