Tabelformaten voor FAIR data: waarom CSV beter is dan Excel voor langetermijnopslag

Stel je voor: je hebt jarenlang onderzoek gedaan, data verzameld, en alles netjes opgeslagen in Excel-bestanden. Vijftien jaar later iemand die jouw dataset opent. En dan? Niets.

▶Inhoudsopgave

Wat is FAIR data en waarom moet je het geven?
Het probleem met Excel: mooi, maar eigenwijs
Wat maakt CSV zo geschikt voor FAIR data?
Wanneer is Excel wél handig?
Praktische tips voor het werken met CSV
De keuze is helder

De bestanden zijn corrupt, de formules doen raar, en niemand weet nog wat die kleuren in de cellen betekenden. Klinkt als een nachtmerrie? Het is de realiteit voor veel onderzoekers. Tijd om het te hebben over een simpel wapen tegen dit probleem: CSV.

Wat is FAIR data en waarom moet je het geven?

FAIR staat voor Findable, Accessible, Interoperable en Reusable. Het is een set principes die ervoor zorgen dat onderzoeksdata vindbaar, toegankelijk, uitwisselbaar en herbruikbaar is.

Niet alleen voor jezelf, maar voor iedereen. De Nederlandse universiteiten, subsidiegevers zoals NWO en ZonMw, en de Europese Commissie vragen steeds vaker dat onderzoekers hun data FAIR maken.

En daar speelt het bestandsformaat een grotere rol dan je denkt. Excel is overal. Het is vertrouwd, het is visueel, en bijna iedereen heeft Microsoft Office of LibreOffice op de laptop. Maar juist die vertrouwdheid is een valkuil.

Excel is fantastisch voor analyse en visualisatie, maar voor langetermijnopslag en hergebruik? Daar schiet het tekort. Laten we eens kijken waarom.

Het probleem met Excel: mooi, maar eigenwijs

1. Gesloten formaat, grote afhankelijkheid

Excel-bestanden hebben de extensies .xls of .xlsx. Die zijn gekoppeld aan Microsoft.

Ja, LibreOffice en Google Sheets kunnen er mee overweg, maar niet altijd perfect. Formules kunnen anders rekenen, opmaak verspringt, en macro's werken niet meer.

Stel je voor dat over twintig jaar niemand meer een werkende versie van Excel heeft. Dan zit je met een digitaal boekenkastje dat niet meer open gaat. CSV daarentegen is platte tekst. Gewoon tekst, gescheiden door komma's.

Geen formules, geen opmaak, geen ingewikkelde structuur. Elke teksteditor kan het openen.

2. Stille corruptie en geheime veranderingen

Notepad, Vim, TextEdit, het maakt niet uit. Het is het meest universele dataformaat dat bestaat. Dit is het punt dat mensen vaak overslaan, en het is misschien wel het gevaarlijkste.

Excel doet soms dingen zonder het je te vertellen. Typ een postcode in zoals 061234 en Excel verwijdert voorloopnullen.

Voer een gen-ID in zoals MARCH1 en Excel verandert het in een datum: 1-maart.

Genomica-onderzoekers hebben hier letterlijk over gepubliceerd: een studie in BMC Bioinformatics toonde aan dat tot wel 19,6% van genenamen in gepubliceerde artikelen verkeerd waren geconverteerd door Excel. Dat is geen vergissing, dat is dataverlies. CSV doet dit niet.

3. Bestandsgroei en prestaties

Wat je typt, blijft. Geen automatische conversies, geen verrassingen.

Wat je ziet, is wat je hebt. Een Excel-bestand van 50 megabyte? Geen probleem, toch?

Nou, het is dat wel. Excel-bestanden bevatten niet alleen data, maar ook opmaak, grafieken, macro's, versiegeschiedenis en metadata.

Dat maakt ze zwaar en traag. Bij grote datasets raakt Excel overbelast. Het maximale aantal rijen in moderne Excel is 1.048.576. Dat lijkt veel, maar in de genomica, sensordata of sociaal-wetenschappelijk onderzoek bereik je die limiet sneller dan je denkt.

CSV heeft geen rijlimiet. Geen bestandsgroelimiet. Het is puur data.

Je kunt er miljoenen regels in stoppen en het blijft snel en licht.

Wat maakt CSV zo geschikt voor FAIR data?

Interoperabiliteit: het werkt overal

CSV leest vrijwel elk statistisch pakket: R, Python met Pandas, SPSS, SAS, Stata, MATLAB.

Herbruikbaarheid: begrijpbaar over 20 jaar

Het werkt in databases zoals PostgreSQL en MySQL. Het is te importeren in Google BigQuery, Apache Spark, en vrijwel elk data-analyseplatform dat je kunt bedenken. Geen conversieproblemen, geen verlies van informatie.

Dat is precies wat het "I" in FAIR betekent: interoperabel. De DANS-databank (Data Archiving and Networked Services), onderdeel van KNAW, beveelt CSV expliciet aan voor langetermijnopslag.

Ook het 4TU.ResearchData-archief en de Duitse GESIS-instituut hebben CSV als voorkeursformaat. De reden is simpel: CSV is future-proof.

Platte tekst is al duizenden jaren leesbaar geweest. Er is geen reden om aan te nemen dat dat ooit verandert. Excel daarentegen heeft in twintig jaar al meerdere formaten gehad: .xls, .xlsx, .xlsm, .xlsb. Elke overgang bracht compatibiliteitsproblemen met zich mee.

Transparantie en reproduceerbaarheid

Wie garandeert dat .xlsx over tien jaar nog leesbaar is? Reproduceerbaarheid is een kernwaarde van goed onderzoek.

Als iemand jouw data wil controleren, moet die persoon de data kunnen openen zonder een licentie, een specifiek besturingssysteem of een bepaalde softwareversie. CSV voldoert daar aan. Het is open, gestandaardiseerd (RFC 4180), en vrij van patenten.

Wanneer is Excel wél handig?

Laten we eerlijk zijn: Excel is niet slecht. Het is gewoon niet bedoeld voor opslag.

Excel is uitstekend voor dataverwerking, exploratieve analyse en visualisatie. Gebruik het om te rekenen, te sorteren, grafieken te maken.

Maar zodra je data definitief is en je wilt bewaren, exporteer dan naar CSV. Het duurt vijf seconden en je voorkomt een wereld van problemen. Een goede werkwijze: werk in Excel, bewaar in CSV. Zorg dat je jouw onderzoeksbestanden goed organiseert, houd een duidelijke naamgeving aan, documenteer je kolomnamen in een bijbehorend README-bestand, en sla alles op in een erkend dataarchief zoals DANS-EASY of 4TU.ResearchData.

Praktische tips voor het werken met CSV

Overstappen naar CSV hoeft niet ingewikkeld te zijn. Een paar dingen om in je achterhoofd te houden: Gebruik UTF-8-codering. Dit is de standaard voor internationale tekens. Zonder UTF-8 kunnen speciale tekens zoals ë, ü of ñ verdwijnen of vervormd raken.

De meeste moderne editors en LibreOffice laten je kiezen bij opslaan. Geen meerdere tabbladen. CSV kent geen werkbladen zoals Excel.

Elke tabel is een apart bestand. Dat klinkt als een nadeel, maakt je data juist overzichtelijker. Documenteer je data. Voeg een data dictionary toe waarin je uitlegt wat elke kolom betekent, welke eenheden je gebruikt, en hoe ontbrekende waarden zijn gecodeerd.

Dit maakt je data echt herbruikbaar. Gebruik consistente naamgeving. Geen spaties in kolomnamen, geen bijzondere tekens. Kies voor underscores of camelCase: bijvoorbeeld bloeddruk_systolisch in plaats van Bloeddruk (systolisch).

De keuze is helder

Excel is een geweldig hulpmiddel voor dagelijks werk. Maar voor het bewaren van onderzoeksdata op de lange termijn is CSV superieur op vrijwel elk vlak: het is open, licht, toekomstbestendig, en werkt overal. Als je serieus bent over FAIR data, reproduceerbaarheid en de toegankelijkheid van je onderzoek en bijbehorende besluitvorming voor toekomstige generaties, dan is de keuze simpel.

Werk in Excel als je wilt. Maar bewaar in CSV.

Je toekomstige collega's, en misschien wel jezelf over tien jaar, zullen je dankbaar zijn.