Wikier

Metadata og dokumentasjon av datasett

English version - Metadata and dataset documentation

Temaside Forskningsdata


Her får du tips om hvordan gjøre forskningsdata forståelig og gjenbrukbart i fremtiden ved hjelp av metadata og annen dokumentasjon.


Hva er metadata?

Metadata er kort forklart «data om data». Det er informasjon som beskriver dataene og gir dem mening. Uten gode metadata vil det ofte være vanskelig å forstå datasettet og hvordan dataene kan brukes. Metadata er også viktig for å gjøre datasett søkbare og gjenfinnbare, også når selve datasettet ikke kan publiseres åpent. Metadata er med andre ord et viktig element i å gjøre data FAIR.

Typiske metadata er informasjon om:

  • hvem som har produsert eller er ansvarlig for datasettet
  • hvilket fagfelt det er snakk om
  • hva slags type data det gjelder
  • hvilke formater de er i

Metadataene kan også inkludere informasjon om utstyret eller programvaren som er brukt.

Ulike typer metadata

Det skilles ofte mellom følgende typer metadata. Dette er ikke en utfyllende liste, men kan være et utgangspunkt for å tenke over hvilke metadata som bør være med for det aktuelle datasettet:

  • Beskrivende - for eksempel navn på forfatter(e) / forsker(e), tittel på dokumentet osv.
  • Administrative - for eksempel opprettelsesdato, versjonering, lisenser
  • Strukturelle - for eksempel forholdet mellom filer, betydningen av variabler
  • Tekniske - for eksempel informasjon om format og eventuell programvare eller maskinvare

I tillegg kan det nyttig å vurdere ulike nivåer av metadata. På prosjektnivå skal metadata beskrive den overordnede konteksten rundt datainnsamling, hvem som har gjennomført arbeidet og hvordan prosjektet er finansiert. Beskrivelse av datasettet, nøkkelord og lisens hører også til på overordnet nivå.

Metadata på datasettnivå er mer konkret og detaljert. Eksempler kan være: opplysninger om filtyper, hvilke måleinstrumenter som ble brukt og beskrivelse av variabler og enheter.

Metadatastandarder

For at metadata skal være maskinlesbare bør metadataene være så strukturerte og standardiserte som mulig. Vi anbefaler at du benytter standardiserte termer, taksonomier/ontologier og vokabularer som er tilgjengelig innenfor ditt fagfelt.
Det finnes en rekke metadatastandarder. Noen er generiske, og kan brukes for alle fagfelt, andre er tilpasset spesifikke fag og disipliner.

Dublin Core er en generisk metadatastandard som består av en liste over elementer for å beskrive et datasett eller et annet digitalt objekt. Mange åpne dataarkiv bruker Dublin Core som generisk metadatastandard. Det finnes også en egen variant av Dublin Core for biodiversitetsdata, Darwin Core. Innenfor samfunnsvitenskap brukes gjerne DDI (Document Documentation Initiative). Oversikter over ulike standarder finnes hos Research Data Alliance, FAIRSharing.org og Digital Curation Centre.

ReadMe-fil

En god måte å tilgjengeliggjøre relevant tilleggsinformasjon om et datasett på, er en såkalt ReadMe-fil. ReadMe-filen skal sørge for at dataene kan forstås av deg selv på et senere tidspunkt, eller av andre når datasettet deles og publiseres.
Det anbefales å opprette ReadMe-fila på et tidlig tidspunkt og la den følge datasettet. Mye av innholdet i en ReadMe-fil vil overlappe med metadata-info, men ReadMe-filen kan i tillegg inneholde detaljerte metodebeskrivelser, samt gi oversikt over filene og forklaring på filenes innhold.

Readme-filen bør være i ren tekst (.txt).

NTNUs institusjonsarkiv i DataverseNO har følgende minimumskrav til innhold i ReadMe-filen:

  • Tittel på datasettet, DOI, kontaktinformasjon
  • Metode
  • Data- og filoversikt
  • Filspesifikk informasjon
  • Vilkår for gjenbruk

DataverseNO har også en generell mal for ReadMe-fil som kan lastes ned. For datasett som kun inneholder programvarekode eller kodebaserte data, kan denne malen brukes.

Eksempler på annen relevant dokumentasjon:

  • Beskrivelser, instruksjoner og protokoller
  • Konfigurasjonsfiler og loggfiler
  • Ordlister, kodebøker
  • Variabellister
  • Informasjonsskriv og samtykkeskjema
  • Meldeskjema og forhåndsvurdering fra Sikt, eventuelle etiske godkjenninger
  • Spørreskjema og intervjuguide
  • Tillatelser og lisenser fra eventuelle rettighetsinnehavere

Se også: Making a research project understandable: Guide for data documentation (Siiri Fuchs og Mari Elisa Kuusniemi 2018)

Kontakt