Hoe migreer je data van een oude repository naar een nieuwe zonder verlies

Stel je voor: jarenlang aan onderzoeksdata, publicaties, datasets en metadata. Alles netjes opgeslagen in een repository die op een gegeven moment niet meer voldoet.

▶Inhoudsopgave

1. Voordat je begint: alles in kaart brengen
2. De uitvoering: extraheren, transformeren en laden
3. Verificatie: controleer of alles echt klopt
4. Na de migratie: onderhoud en afronding

Misschien is de software verouderd, de kosten te hoog, of je instelling wil overstappen naar een platform dat beter aansluit bij de FAIR-data principes. Wat je reden ook is, de grootste angst is altijd dezelfde: hoe zorg je dat er niets verdwijnt tijdens de overstap? Goed nieuws: met de juiste aanpak migreer je alles zonder verlies.

In dit artikel neem ik je mee door het hele proces. Van inventarisatie tot verificatie.

Geen ingewikkelde jargon, gewoon stap voor stap uitgelegd hoe je dit doet. Want data verliezen? Dat gaat niet gebeuren.

1. Voordat je begint: alles in kaart brengen

De meeste migraties mislukken niet tijdens de overstap zelf, maar al in de voorbereiding.

1.1. Wat zit er allemaal in de oude repository?

Te weinig kennis van wat er écht in de oude repository zit, is de numer één boosdoener. Dus begin met rust en maak een grondige inventarisatie. Noteer alles. En dan bedoek ik echt alles:

Type repository: Is het een algemeen systeem zoals een WordPress-site, een fileserver, of een gespecialiseerde wetenschappelijke repository zoals Dataverse, Dryad, Zenodo of DANS-EASY? Elk systeem heeft eigen kenmerken die de migratie beïnvloeden.
Dataformaten: Welke bestandsformaten worden er gebruikt? Denk aan veelvoorkomende formaten zoals CSV, Excel, PDF en TIFF, maar ook aan domeinspecifieke varianten zoals NetCDF (voor klimaatdata), GeoTIFF (voor georuimtelijke data) of BibTeX (voor wetenschappelijke referenties).
Metadata: Welke metadata-standaard is gehanteerd? In de wetenschappelijke wereld zijn Dublin Core, DataCite Metadata Schema en het EPrints Metadata Schema veelgebruikt. FAIR-data vereist dat metadata vindbaar, toegankelijk, interoperabel en herbruikbaar zijn. Zonder goede metadata verlies je context, en dat is net zo erg als dataverlies.
Gebruikers en toegangsrechten: Wie heeft toegang? Welke rollen en rechten zijn er ingesteld? Dit is essentieel om na de migratie de juiste personen weer toegang te geven.
Afhankelijkheden: Zijn er andere systemen die gekoppeld zijn aan de repository? Denk aan zoekmachines, publicatieportalen of onderzoeksinformatiesystemen.

1.2. Kies de juiste nieuwe repository

Niet elke repository is geschikt voor elk doel. Kies bewust. Let op deze factoren:

Functionaliteit: Ondersteunt het platform persistent identifiers zoals DOI's? Kun je metadata beheren volgens gangbare standaarden? Is er ondersteuning voor embargo's en toegangsbeheer?
Schaalbaarheid: Groeit je dataset de komende jaren? Zorg dat het platform dat aankan zonder migratie op migratie.
Compatibiliteit: Werkt het platform met de formaten en metadata-standaarden die je al gebruikt? Zo niet, hoeveel conversie is dan nodig?
Beveiliging: Hoe gaat het platform om met back-ups, encryptie en toegangsbeveiliging? Voor gevoelige onderzoeksdata is dit niet optioneel.
Kosten: Wat zijn de licentiekosten, hostingkosten en onderhoudskosten? Sommige platforms zoals Zenodo (ontwikkeld door CERN) zijn gratis voor onderzoekers, terwijl andere een abonnement vereisen.

1.3. Welke migratiestrategie past bij jou?

Er zijn drie gangbare benaderingen: Voor de meeste wetenschappelijke repositories raad ik een gefaseerde aanpak aan.

Big bang migratie: Alles in één keer overzetten. Simpel, maar risicovolk als het om grote hoeveelheden data gaat. Een fout en je hebt een probleem.
Gefaseerde migratie: De data in delen overzetten, bijvoorbeeld per project, per jaar of per datatype. Veel werk, maar je kunt elke fase apart testen.
Incrementele migratie: Eerst een volledige kopie maken, daarna alleen de wijzigingen doorvoeren. Efficiënt, maar vereist goede versiebeheer aan beide kanten.

Zo houd je controle en kun je tussentijd bijsturen.

2. De uitvoering: extraheren, transformeren en laden

Nu het zwaarste werk. Dit is het moment waarop data daadwerkelijk van A naar B gaat. Doe het in drie stappen.

2.1. Data extraheren uit de oude repository

Haal alles op uit het oude systeem. Hoe doe je dat?

API's: Moderne repositories zoals Zenodo, Figshare en Dataverse bieden API's waarmee je gestructureerd data kunt ophalen. Dit is de meest betrouwbare methode.
Database-export: Staat de data in een database? Gebruik dan directe queries of exporttools om een volledige dump te maken.
Bulk-export: Sommige platforms bieden een downloadknop voor alle data tegelijk. Handig, maar controleer of ook meadata erbij zit.
Handmatig ophalen: Bij kleine repositories of systemen zonder API kan handmatig downloaden noodzakelijk zijn. Documenteer precies wat je ophaalt en wanneer.

2.2. Data transformeren voor het nieuwe systeem

De oude en nieuwe repository spreken niet altijd dezelfde taal. Metadata moet soms worden omgezet van de ene standaard naar de andere.

Bestandsformaten moeten mogelijk worden geconverteerd. En soms zitten er fouten in de data die je nu het beste kunt opschonen. Let specifiek op:

Metadata-mapping: Zorg dat elk metadata-veld uit het oude systeem een duidelijke tegenhanger heeft in het nieuwe systeem. Maak hiervoor een mapping-tabel. Bijvoorbeeld: het veld "creator" in Dublin Core wordt "author" in DataCite.
Formaatconversie: Converteer bestanden alleen als het echt nodig is. Elke conversie is een kans op kwaliteitsverlies. Als je moet converteren, gebruik dan betrouwbare tools en bewaar altijd het origineel.
Datacleaning: Corrigeer inconsistenties in namen, datums of codes. Dit is een mooi moment om eindelijk die rommelige datasets op te schonen.

2.3. Data laden in de nieuwe repository

Alles staat klaar. Tijd om te laden.

Importtools: Veel platforms hebben ingebouwde importfunctionaliteit. Gebruik die als die er is.
API-upload: Voor grotere hoeveelheden is uploaden via de API efficiënt en controleerbaar.
Aangepaste scripts: Voor specifieke situaties schrijf je een klein script dat data automatisch aanmaakt en koppelt aan de juiste metadata.

Tip: begin met een kleine testset. Laad bijvoorbeeld tien datasets in en controleer of alles goed werkt. Koppel daarna je dataset aan je artikel en pas de rest aan.

3. Verificatie: controleer of alles echt klopt

De data staat in het nieuwe systeem. Maar is het ook goed gekomen?

3.1. Controleer de data-integriteit

Dit is misschien wel de belangrijkste fase. Vergelijk de data in de nieuwe repository met het origineel. Doe dit door: Data zonder metadata is waardeloos. Controleer daarom: hoe je datasets update met behoud van DOI.

Checksums te vergelijken: Genereer een checksum (zoals MD5 of SHA-256) van elk bestand vóór en na de migratie. Komen ze overeen? Dan is het bestand intact.
Steekproeven te nemen: Open willekeurige bestanden en controleer of de inhoud klopt. Doe dit voor elk datatype.
Totalen te vergelijken: Is het aantal bestanden, datasets en records in het nieuwe systeem gelijk aan het oude?

3.2. Valideer de metadata

Gebruikers merken dingen op die jij over het hoofd ziet. Nodig een paar onderzoekers of datamanagers uit om de nieuwe repository te testen, of bied API-toegang voor programmatisch datahergebruik aan.

Zijn alle metadata-velden correct overgekomen?
Zijn persistent identifiers (zoals DOI's) nog geldig en werkend?
Zijn relaties tussen datasets en publicaties intact?
Voldoen de metadata aan de standaarden die het nieuwe platform vereist?

3.3. Laat gebruikers testen

Kunnen ze hun data vinden? Werkt de zoekfunctie? Zijn toegangsrechten correct? Deze feedback is goud waard.

4. Na de migratie: onderhoud en afronding

Gefeliciteerd, de migratie is geslaagd. Maar je bent nog niet helemaal klaar.

Monitor het nieuwe systeem: Houd de eerste weken extra goed in de gaten of alles stabiel draait.
Zorg voor regelmatige back-ups: Stel een back-upschema in en test of je daadwerkelijk kunt herstellen.
Documenteer alles: Leg vast wat je hebt gedaan, welke keuzes je hebt gemaakt en waarom. Dit is waardevol voor toekomstige migraties of audits.
Behoud de oude repository tijdelijk: Zet het oude systeem niet meteen stop. Hou het minimaal een paar maanden beschikbaar als fallback.
Informeer je gebruikers: Laat weten dat de overstap is voltooid en waar ze terecht met vragen of problemen.

Een data migratie hoeft geen nachtmerrie te zijn. Met een goede inventarisatie, een doordachte strategie, zorgvuldige uitvoering en grondige verificatie zorg je ervoor dat alles intact blijft. Of je nu migreert van een oude WordPress-site naar een moderne wetenschappelijke repository, of van het ene gespecialiseerde platform naar het andere: de principes zijn hetzelfde. Neem de tijd, doe het stap voor stap, en controleer alles. Jouw onderzoeksdata verdient het om veilig te landen.