Findable: hoe zorg je dat jouw onderzoeksdata écht gevonden wordt via Google Dataset Search

Stel: je hebt maandenlang werk gestopt in een prachtige dataset. Je hebt alles netjes gedocumenteerd, opgeslagen op een betrouwbaar platform, en je publiceert een artikel erover.

▶Inhoudsopgave

Wat is Google Dataset Search eigenlijk?
Metadata is alles: dit is wat Google echt wil zien
Praktische tips om je dataset vindbaar te maken
Vindbaar is niet hetzelfde als vindbaar genoeg
Veelgestelde vragen

Maar dan gebeurt er niks. Geen downloads, geen citaties, geen andere onderzoekers die je data hergebruiken.

Alsof je werk in een donkere kast is beland. Frustrerend, toch? Het probleem is simpel, maar het heeft een simpele oplossing: je data is niet vindbaar. En als je data niet vindbaar is, bestaat het eigenlijk niet voor de wetenschappelijke wereld.

Gelukkig is er Google Dataset Search, een tool die inmiddels door bijna 25 miljoen publieke datasets heen kan spitten. Maar hoe zorg jij ervoor dat jouw dataset daar écht opduikt? Dat is waar het om draait.

Wat is Google Dataset Search eigenlijk?

Google Dataset Search is een gespecialiseerde zoekmachine van Google, gelanceerd op 23 januari 2020. Het werkt verrassend intuïtief: je tikt een zoekterm in een groot zoekveld, net als bij Google Search, en de tool toont je alle datasets die erbij passen.

Je kunt vervolgens filteren op bijvoorbeeld de datum van de laatste update, het downloadformaat of het type data.

Maar hier komt het: Google Dataset Search zoekt niet zelf in de inhoud van je data. De tool leest de metadata: de beschrijvingspagina's die bij je dataset horen. Dus als je metadata slecht, vaag of onvolledig is, dan wordt je dataset simpelweg over het hoofd gezien. Google weet niet wat er in je data zit als jij het het niet vertelt.

Metadata is alles: dit is wat Google echt wil zien

Metadata is het visitekaartje van je dataset. Zonder goede metadata is je dataset onvindbaar, hoe waardevol de data ook is.

Google Dataset Search vertrouwt op gestandaardiseerde metadata-schema's, met name schema.org en DCAT (Data Catalog Vocabulary). Deze schema's vertellen Google precies wat ze moeten weten: wat is dit, wie heeft het gemaakt, waar kan ik het vinden, en onder welke licentie?

De essentiële metadatavelden voor vindbaarheid

Het goede nieuws: je hoeft geen expert te zijn in webtechnologie. Veel dataportalen en repositories, zoals Zenodo, Figshare en DANS, genereren deze metadata automatisch voor je. Maar als je data zelf host of gebruikt minder gangbare platforms, dan moet je het zelf regelen. Er staan een aantal velden centraal die Google Dataset Search echt nodig heeft om je data te indexeren. Denk aan:

Naam en titel — Maak dit specifiek en beschrijvend. "Klimaatdata" is te vaag.

"Gemiddelde jaartemperaturen Nederland 1901-2023 (KNMI)" is veel beter. Beschrijving — Dit is je kans om uit te leggen wat er in de dataset zit, hoe het is verzameld en waarvoor het geschikt is. Schrijf alsof je het uitlegt aan een collega uit een ander vakgebied. Maker en uitgever — Noem duidelijk wie de data heeft geproduceerd en welke organisatie erachter zit. Dit verhoogt het vertrouwen. URL naar de dataset — Een directe link naar de download- of landingspagina.

Google moet weten waar je data te vinden is. Licentie — Onder welke voorwaarden mag iemand je data gebruiken? Zonder duidelijke licentie durven anderen niet te hergebruiken. Thema en trefwoorden — Gebruik relevante zoektermen die andere onderzoekers daadwerkelijk zouden intypen.

Praktische tips om je dataset vindbaar te maken

Nu we weten wat Google zoekt, hoe zet je dat in de praktijk? Hier zijn de belangrijkste stappen die je direct kunt toepassen.

Kies het juiste platform

Niet elk platform is even goed voor vindbaarheid. Kies een repository die metadata automatisch genereert in het juiste formaat en die goed geïndexeerd wordt door Google. Zenodo (van CERN), Figshare en DANS Easy (voor Nederlandse onderzoekers) zijn uitstekende keuzes.

Ze geven je bovendien een DOI, wat het citeren van je data een stuk makkelijker maakt. Vermijd het uploaden van datasets als bijlage bij een artikel of op een persoonlijke website zonder gestructureerde metadata. Wil je weten hoe je jouw dataset echt herbruikbaar maakt voor andere onderzoekers?

Schrijf alsof een mens het leest (en Google ook)

Die data wordt door Google Dataset Search vrijwel nooit gevonden. Je metadata moet voor twee publieken werken: mensen én machines.

Schrijf de titel en beschrijving in begrijpelijke taal, maar zorg tegelijk dat relevante zoektermen erin staan. Geen keyword stuffing, maar wel natuurlijke, duidelijke taal die aansluit bij hoe jouw doelgroep zoekt. Denk eens na over wat je collega's zouden intypen in Google. Zeggen ze "biodiversiteit meetnet" of "soortenmonitoringsdata"?

Houd je data up-to-date en toegankelijk

Gebruik die termen in je metadata. Google Dataset Search laat je filteren op "geüpdate op".

Dat betekent dat datasets die recent zijn bijgewerkt hoger in de verfijnde resultaten verschijnen. Als je dataset levend is, werk het dan regelmatig bij en vul de metadata correct in. Let ook op het downloadformaat.

Maak gebruik van schema.org markup op je eigen site

Google laat filteren op dataformaat. Veelgebruikte formaten zoals CSV, JSON en XML zijn het makkelijkst te verwerken en daardoor aantrekkelijker voor hergebruikers.

Vermijd eigen bestandsformaten of formaten die speciale software vereisen. Als je datasets zelf host op een website of onderzoeksportaal, voeg dan schema.org Dataset markup toe aan je HTML. Dit is een stukje gestructureerde code dat Google vertelt: "hé, hier is een dataset, en dit zijn de bijgegevens." Het is technisch werk, maar de meeste contentmanagementsystemen ondersteunen dit via plugins of extensies.

Vindbaar is niet hetzelfde als vindbaar genoeg

De harde waarheid is dat veel onderzoekers denken dat ze klaar zijn zodra ze data ergens hebben geüpload. Maar uploaden is niet hetzelfbaar als maken vindbaar.

De FAIR-principes — Findable, Accessible, Interoperable, Reusable — beginnen met die eerste F.

Gebruik onze handige FAIR data checklist om je op weg te helpen. En die F begint bij jou. Neem een uur de tijd om je metadata eens kritisch te bekijken.

Is de titel duidelijk? Staat er een goede beschrijving? Is de licentie vermeld? Werkt de link? Dit is geen sexy werk, maar het is het werk dat ervoor zorgt dat jouw onderzoeksdata écht impact maakt.

Want uiteindelijk draait Open Science erom dat kennis niet verloren gaat in een digitale zandbak.

Jouw data verdient beter dan onzichtbaar zijn.

Veelgestelde vragen

Wat is precies Google Dataset Search en hoe werkt het?

Google Dataset Search is een speciale zoekmachine van Google die je helpt om datasets te vinden die online beschikbaar zijn. Je typt een zoekterm in, net als bij Google, en de tool toont je alle datasets die daarbij passen.

Waarom is metadata zo belangrijk voor Google Dataset Search?

Het is belangrijk om te weten dat Google niet zelf in de data kijkt, maar in de beschrijvingen (metadata) die je zelf verstrekt.

Welke standaarden moet ik gebruiken om mijn metadata te optimaliseren?

Metadata, ofwel de beschrijvingen van je dataset, is cruciaal. Google Dataset Search gebruikt deze informatie om te begrijpen wat je dataset inhoudt en waar het geschikt voor is. Zorg er daarom voor dat je dataset een duidelijke titel, beschrijving en informatie over de maker en uitgever heeft, zodat Google je data kan vinden.

Hoe kan ik ervoor zorgen dat mijn dataset in Google Dataset Search wordt gevonden?

Om je dataset goed vindbaar te maken, is het aan te raden om te werken met gestandaardiseerde metadata-schema's zoals schema.org en DCAT. Deze schema’s geven Google de nodige informatie over je dataset, zoals de naam, de maker en de licentie, waardoor de kans op een goede indexering toeneemt.

Waar kan ik datasets vinden en hoe kan ik mijn metadata automatisch genereren?

Zorg ervoor dat je dataset een specifieke titel en een gedetailleerde beschrijving heeft, waarin je uitlegt wat de data inhoudt en hoe deze kan worden gebruikt. Gebruik gestandaardiseerde metadata-schema's zoals schema.org en DCAT om Google de juiste informatie te geven over je dataset. Er zijn verschillende repositories en platforms waar je datasets kunt vinden, zoals Zenodo, Figshare en DANS. Veel van deze platforms genereren automatisch metadata voor je dataset, waardoor het proces eenvoudiger wordt. Zorg er wel voor dat je de metadata correct invult om de vindbaarheid te maximaliseren.