//
du leser...
fagsystemer, RDF

RDF som en del av løsningen til fagsystemproblematikken

Kan RDF være en del av løsningen til fagsystemproblematikken? Fagsystemproblematikken er todelt slik jeg ser det. Vi sliter med å sikre/forstå materialet og bevaringskostnadene er ukjente. Når det gjelder å sikre/forstå materialet er hovedutfordringen også todelt. Klarer depot a) å sikre materiale og b) forstå materialet. Mange depot institusjoner har ansatte som kan jobbe med et uttrekk der kommunen eller depot lager en database-dump som depot importerer. Men å forstå dataene er et helt annet situasjon og her tror jeg det er en del som sliter mangelfull ressuser. I de tilfellene der vi sikrer materialet, men avventer å forstå det fram til noen etterspør informasjon fra det aktuelle fagsystemet kan vi stille et spørsmål om vi virkelig har kontroll på materialet.

Når det gjelder bevaring av fagsystem, handler dette også om når vi skal å ta kostnadene med å forstå uttrekkene. Nå eller på et senere tidspunkt i framtiden. Vi skaper en slags teknisk gjeld når vi ikke tar kostnaden nå og derfor er bevaringskostnadene ukjent. Det er også mye heterogenitet blant tabellstrukturene, data-typer og formen på dataene mellom de forskjellige fagsystemene. Jeg tror ikke depot institusjoner har råd til å sitte med detaljkunnskap om mange hundre forskjellige databasestrukturer. Vi er nødt til å redusere dette betraktelig.

RDF er en mulig løsning til å minske bevaringskostnadene av fagsystem hvis vi bruker RDF til å lage en modell for å innlemme data fra fagsystem. RDF står for Resource Description Framework og er en enkel måte å markere data som på en eller annen måte naturlig henger sammen. Figur 1 viser en måte å modellere forholdet mellom en registrering og en mappe slik at det kan kobles sammen i en RDF-modell.

Image

Figur 1: Forholdet mellom Noark 5 entiteter registrering og mappe i en mulig RDF modell

På samme måte som XML er utvidbar, er RDF også det. Hvem som helst kan lage sin egen RDF-modell og arkivene sammen kan foreslå og bli enige at en bestemt RDF-modell skal brukes som grunnlag for bevaring. Figur 2 viser hvordan modellen i Figur 1 utvides til å inkludere informasjon om personer og dokumenter.

Image

Figur 2: Modellen utvidet med entiteter som omhandler person og dokument

Det er ikke vanskelig å ta en RDF-modell slik det er presentert i Figur 2 og vise det som RDF. Figur 3 viser entitetene i Figur 2 som en RDF-fil. En RDF-fil er egentlig bare en XML fil og en konvertering fra Noark5 strukturen til RDF er en relativ enkel mapping.

Image

Figur 3: Modellen fra Figur 2 som RDF

I RDF kan vi definere hvilken som helst sett av koblinger som vi anser som viktig, men hvis vi bruker Noark5-strukturen som et grunnlag så har vi et godt startpunkt. Jeg tror informasjon fra mange fagsystemer kan innlemmes inn i denne strukturen da på en eller annen måte vil vi kunne identifisere en eller flere av følgende entiteter som informasjon i et fagsystem: arkiv, arkivdel, klassifikasjonsystem, klasse, mappe, registrering, dokument og person.

Er det virkelig så enkelt? Egentlig ikke. Arkivdata må ha følgende fire egenskaper for at det skal være arkivdata: kontekst, struktur, proveniens og stabilitet. Og de må være lett gjenkjennelig i lagringsmodellen. Hvis vi feks tar Noark5-uttrekkene våres og konverterer de til en RDF-modell så kan de fire elementene bli mangelfull, usynlig eller vanskelig å kontrollere. Vi er vant til å se arkivdata i en bestemt struktur og denne strukturen danner et bestemt kontekst for arkivdokumentene. En dårlig RDF-modell kan være ødeleggende for integritet og autentisitet hvis ikke de fire grunnpilarene som gjelder for arkivdata er opprettholdt.

På mange måter kan vi anse et Noark5-struktur som et systemsentrisk syn på data. Uttrekket gjenspeiler dataene fra en bestemt databasestruktur som igjen utgjør dataene i et Noark5 system. Dette er den klassiske «archival bond» hvor strukturen og forholdet mellom elementene er like så viktige som elementene som er av virkelige interesse, informasjon om personer eller objekter.

Problemet med denne systemsentriske synet på arkivdata er at hvis noen kommer til arkivet og spør, «hva vet dere om meg», så må vi først finne ut hvilken systemer vedkommende er registrert i. Dette er helt feil måte å tenke på og et tegn på at vi egentlig ikke har noen god kontroll på våre data.

En RDF basert lagringsystem vil være en helt annen måte å tenke bruk av data og gjenfinning. Objekter av interesse, personer osv vil være mye mer gjenkjennelig og alt informasjon om en person vil være lenket til den personen. Hovedutfordringen her vil være datakvalitet og dupliserte entiteter. I følge SSB finnes det over 200 000 personer som deler etternavnene Hansen, Johansen, Olsen, Larsen og Andersen. Dette vil utfordre datakvaliteten med tanke på dupliseringer, men med data fra folkeregisteret og kanskje med noen smarte algoritmer så kan vi fikse mye av dette.

Helen Weldearegay Tekulu startet arbeidet vårt med Noark5 og RDF i 2012 i en mastersoppgave der hun foreslo en RDF-modell for Noark 5 kjernen der hovedpoenget var å bevare «the archival bond» i en RDF-modell. Vi hadde flere tanker bak arbeidet. Vi ønsket å gjøre dots-kjernen i stand til å forstå RDF og jobbe med data fra eksterne semantiske kilder, samtidig ønsket vi muligheten til å lage RDF-baserte uttrekk fra et interoperabilitets perspektiv, og vi har veldig lyst til å utfordre dokument begrepet fra det det er i dag– et A4-dokument innlemmet i en journalpost — til å være noe langt mer fleksibelt, og basert på RDF.

En utfordring med RDF med tanke på «the archival bond» er at RDF er en modell i to dimensjoner. Det er ikke riktig å snakke om dimensjoner i RDF, men RDF visualiseres ofte i kun 2 dimensjoner. Helens arbeid gikk ut på at det systemsentriske synet på dataene kunne lett visualiseres hvis vi lot oss se på dataene i tre dimensjoner, der de systemsentriske koblingene ble tydeliggjort i denne tredje dimensjonen. Det originale ved dette var, at et uttrekk kunne da oppfattes både som systemsentrisk og objektsentrisk samtidig. Tanken med dimensjoner kan trekkes videre der vi tillater flere «views», eller måter å se på data. RDF gjort riktig kan virkelig berike opplevelsen og forvaltningen av arkivene våres.

Hvis vi velger å ta kostnaden med å forstå fagsystem uttrekk  så bør vi prøve å få dataene over i en RDF-modell og ikke belage oss på lagring av tabeller. Å flytte fagsystem data til en helhetlig RDF-modell vil også sikre at depot får en mye bedre oversikt over samlingene sine. Jeg tror at forståelse av samlinger i en del depot institusjoner i dag er begrenset til nøkkelpersoner og det er noe som kan være en trussel for fremtidig gjenfinning.

Hvis vi gjør dette så har vi samtidig forvandlet arkivene til en del av den semantiske-weben. Et viktig poeng her er at vi i første omgang skal være grådige, vi skal ta i bruk semantisk-web teknologi uten at vi gir noe tilbake. Vi skal kunne bruke alle de eksisterende semantisk web kildene opp mot vår arkivdata, vi får tilgang til masse spennende programvare og nye søkemetoder. Men på sikt når modellen vår har modnet så kan også forvaltningsarkivene gradvis åpnes som semantisk-web kilder på en måte der personvern og andre viktige hensyn er i varetatt.

Hvorfor har vi egentlig ikke gjort dette før nå? Diskusjoner med fagfeltet forteller at det er mange som synes dette er interessant, men fagfeltet er presset på ressurser og er opptatt med å sikre bevaringsverdig informasjon. Samtidig jobber KAI miljøet ulikt og jeg tror ikke det er etablert en «best-practice» rundt bevaring av fagsystem. Videre kan det diskuteres om dette er en forsknings eller implementasjons prosjekt. Som forskningsprosjekt er det flere relevante og kompetente forskningsmiljøer i Norge som kan jobbe med dette, men som implementasjonsprosjekt er det RA og KAI miljøet som vil måtte jobbe sammen. Jeg mener et slikt prosjekt er en kombinasjon av både forskning og praktisk implementasjon.

Jeg tror vi vil se RDF i arkivene i framtiden, på et eller annet nivå. Men det må introduseres på en måte som gjør at det er et berikende tiltak som ivaretar personvern og andre hensyn, ikke et tiltak som fører til redusert integritet og autentisitet på materialet.

Diskusjon

2 kommentarer om “RDF som en del av løsningen til fagsystemproblematikken

  1. Takk for eit perspektivrikt innlegg. Dette er eit viktig område med mange lovande muligheiter. Partnarskapen du skisserer til slutt trur eg er vegen å gå.
    I 2013 og 2014 har Riksarkivet arbeidd med RDF på fagdagar og i andre samanhengar. 19. mars skipa Riksarkivet til fagdag saman med Riksantikvaren og prosjektet Kultur og naturreise som både Riksarkivet og Riksantikvaren deltek i.
    Programmet hadde fokus på permanente URI-og (ID-ar) og på bruk av autoritetar som basis for å knyta saman innhald og tenester på tvers av siloar og sektorar. Fagpersonar frå Brønnøysundregistra, Kartverket, Skatteetaten og Difi snakka om nasjonale felleskomponentar og det arbeidet som skjer der på dette feltet. Det var interessante innlegg frå bibliotekshald, frå museum, arkiv og frå arbeid med persondata basert på RFD som datamodell. RDF er og ein viktig del i EU-projektet LoCloud som Riksarkivet leiar med partnarar frå 27 land. Det skjer mykje og RDF i arbeidet med digitalt skapt materiale vil me heilt klårt sjå nærare på framover.

    Skrevet av Gunnar Urtegaard | 27/03/2014, 13:26
  2. Jeg er litt skeptisk etter å ha vært gjennom en lang rekke Noark 4 avleveringer. RDF-modellen minner meg litt om Noark 4 datamodell der det er mange referanser mellom frittstående objekter.

    Siden det sjelden er avlevering av komplette systemer, men deler av dette, må man også forvente referanser som peker ut i intet. Avleveringene må takle disse på linje med brutte lenker på internettsider. Så kan man håpe at lenkene fylles med innhold når neste bolk kommer.

    Jeg ser absolutt behovet for å kunne søke andre veier enn via hierarkiet, men det burde vel også kunne la seg gjøre v.hj.a. fritekstsøk? Kombinasjon?

    Men hvis jeg har forstått deg rett så var utgangspunktet at man skulle forstå dataene. Relasjonene bidrar noe, men gir neppe nok, spesielt ikke hvis det ligger millioner av objekter som peker til millioner av andre uten nærmere forklaring av strukturene. Da kan ofte en hierarkisk struktur være bedre (aggregeringene synes da tydelig i en nettleser og man kan åpne og lukke grener etter ønske). Jeg foreslår at debatten om struktur på avleveringene skilles fra debatten om hvordan avlevere og forstå avleverte fagsystemer.

    Hvis det kun er pekere av typen «er en del av», må man ha verktøy for enkelt å kunne samle alt som «er en del av meg». Ellers mister man noe vesentlig fra den hierarkiske avleveringen. Og ikke alle objekter egner seg for å legges ut frittstående. Entydige personer kan være slike, men merknader til et dokument er neppe slike. Ikke fragmenter for mye. Er man litt edruelig kan nok RDF tilføre nye viktige dimensjoner for fremtidige forskere.

    Skrevet av Ragnar Sturtzel | 28/03/2014, 11:03

Legg igjen en kommentar

Fyll inn i feltene under, eller klikk på et ikon for å logge inn:

WordPress.com-logo

Du kommenterer med bruk av din WordPress.com konto. Logg ut / Endre )

Twitter-bilde

Du kommenterer med bruk av din Twitter konto. Logg ut / Endre )

Facebookbilde

Du kommenterer med bruk av din Facebook konto. Logg ut / Endre )

Google+-bilde

Du kommenterer med bruk av din Google+ konto. Logg ut / Endre )

Kobler til %s

%d bloggere like this: