De Wereld Volgens Grimm

Startpagina
Wie ben Ik ?
Fotomodellen
BDSM is Freaky
Man & Vrouw
Dichters
Gedachten
Muziek
Paperless Office
Even Verpozen
Interessante Sites
Boeken
Films

Langetermijn-opslag

 

Net zoals bij gewone archieven is het de bedoeling om de opgeslagen documenten ook over langere termijn consulteerbaar te houden. Gezien de evolutie in de informaticawereld razendsnel gaat spelen bij electronisch archiveren dan ook 2 factoren een zeer grote rol :  hardware en formaat

 

Onze eerste zorg is of het formaat waarin het document is opgeslagen nog leesbaar zal zijn binnen 5, 10 of zelfs 30 of 100 jaar ? En zal er dan nog een apparaat bestaan dat het medium kan inlezen waarop we vandaag de dag opslaan ?

 

Twintig jaar geleden sloeg een PC zijn gegevens op op slappe schijven van 5 inch diameter. Ondertussen is er geen enkele PC meer die deze « floppy’s » nog kan lezen. Ook met andere apparatuur is de evolutie zo snel dat niemand kan garanderen dat ze over 10 jaar nog beschikbaar zal zijn Wanneer de IT-afdeling van een bedrijf vandaag dus documenten op een DVD wegschrijft dan hebben de gebruikers geen enkele garantie dat over 15 jaar er nog een DVD-lezer zal zijn die deze DVD’s aankan.

 

Dezelfde IT zal dus in de toekomst erop moeten toezien dat ze de evolutie van de “hardware” blijft opvolgen om de beschikbaarheid van onze beelden te garanderen.

Hiërarchie van Standaarden

 

Een bestand kan op verschillende manieren worden opgeslagen. De opslag kan verschillende “regels” volgen. Zo’n regels die de opslag beschrijven noemen we een “file-formaat” of “standaard” (TIFF, GIF, BMP, JPEG, …).

 

In de IT-wereld bestaan tal van dergelijke standaarden. Hoewel het niet onze taak als eindgebruiker is om standaarden te kiezen voor onze opslag, toch is het nuttig een idee te hebben van wat in deze wereld omgaat[1].

 

Officiële Standaarden

  • Deze standaarden zijn vastgelegd door officiële standaardiseringsorganisaties en danken hun officiële status aan de participatie van een (inter-) gouvernementele organisatie (bv ISO : International Organisation for Standardisation).
  • Voorbeelden : HTML, ASCII, MPEG, TIFF, JPEG

Defacto standaarden

  • De facto-standaarden zijn standaarden die zo’n marktpenetratie hebben dat ze ergens een belangrijke norm geworden zijn. De belangrijkste software op hun domein laat dan ook invoer en uitvoer toe in dit formaat.
  • De specificaties zijn het resultaat van niet-officiële standaardiseringsinitiatieven (bijv. W3C). Hun beheer is niet in handen van één producent maar van een standaardiseringsinstantie. Deze standaarden zijn dus redelijk stabiel omdat niemand van deze standaardiseringsinstanties voordeel heeft met een veelvuldig herzien van de normen en omdat er geen wijziging kan gebeuren zonder akkoord van alle leden van deze instantie. 
  • Voorbeeld : XML, PNG

Open formaten

  • zijn publiek gedocumenteerd, maar hun beheer is in handen van één bepaalde producent. Deze kan dan ook vrij de standaard aanpassen.
  • Voorbeelden : PDF, RTF, GIF, MIDI
Gesloten formaten
  • Deze formaten danken hun status van defacto standaard aan hun wijdverspreidheid maar hun technische specificatie wordt niet vrijgegeven en ze zijn afhankelijk van één producent
  • Voorbeelden : AVI, Word, Wave, Exel, BMP

Normen voor een Stabiel Formaat

Een geschikt “archiverings”-formaat beantwoordt bij voorkeur aan volgende criteria:

  • gestandaardiseerd, maar ook gedocumenteerd. Men gaat ervan uit dat het gemakkelijk is software te programmeren om dit bestand te lezen wanneer men over de technische specificatie van het formaat beschikt
  • stabiel: standaarden kunnen pas gewijzigd worden na het doorlopen van een procedure. Er kunnen daarnaast nieuwe specificaties geschreven worden zonder dat de oude in gevaar komen of oude applicaties in de problemen komen bij het lezen ervan (extendability)
  • uitwisselbaar (portability): onafhankelijk van bepaalde besturingssystemen, netwerkprotocollen en applicaties. Standaarden worden ondersteund door software van meerdere producenten en open source initiatieven en ook het Operating System speelt geen rol.
  • wijdverspreid en voldoende marktpenetratie
  • voorziet een robuust foutopsporing- en verbeteringsmechanisme: fouten in bitopslag zijn herstelbaar
  • mogelijkheid tot systematische en geautomatiseerde validatie
  • goed gestructureerde opslag van informatie
  • opslag zonder informatieverlies: geen lossy compressie
  • mogelijkheid tot insluiten van (zelfgedefineerde) metadatavelden. Dit wil zeggen dat de gebruiker zelf ook gebruikersspecifieke informatie kan meegeven aan de file
  • in staat om de essentiële eigenschappen van het archiefdocument in tijd over te brengen
  • bewaren van de authenticiteit van de archiefdocumenten
  • autonoom en zelfvoorzienig, er is geen bijkomende informatie nodig om de file terug zichtbaar te krijgen. 
  • drager en apparaat onafhankelijke opslag mogelijk: het formaat kan op elke duurzame drager worden opgeslagen
  • eenvoudig en gebruiksvriendelijk: het formaat is niet heel complex of ondersteunt geen ingewikkelde functionaliteiten.

Kiezen van een Formaat

 

Bij het kiezen van een geschikt formaat voor archivering richt men zich bij voorkeur op de officiële standaarden en de specificaties. Enig pragmatisme is hierbij aanbevolen. De hiërarchie is een belangrijke leidraad maar is niet zaligmakend. De status van officiële standaard garandeert immers niets op zich. Zo kennen bepaalde specificaties een grotere toepassing dan hun officiële equivalenten (vb XML vs. SGML).

 

Een andere factor die meespeelt is het feit dat standaarden op diverse wijzen kunnen worden toegepast. De meeste archiveringsformaten laten de gebruiker toe om een aantal instellingen en parameters te definiëren. Zo kan men diverse soorten TIFF-, XML- en PDF-bestanden produceren maar niet elk TIFF-, XML- of PDF-document is geschikt om op lange termijn te archiveren.

 

De gearchiveerde digitale archiefdocumenten zijn best zo autonoom mogelijk. De afhankelijkheden voor reconstructie worden best tot een absoluut minimum beperkt. Het ontbreken van één noodzakelijke schakel in het reconstructieproces kan immers tot verlies van het archiefdocument leiden. Omwille deze reden worden lossy-compressie, encryptie[2], paswoorden of andere beveiligingsinstellingen zoveel mogelijk vermeden.

 

Ook kan het nuttig zijn aan te sluiten bij een beslissing van een grote officiele organisatie. Zo bv werd PDF door het ministerie van justitie van de Verenigde Staten uitgekozen als formaat waarin de rechtspraak zal opgeslagen worden. De kans is dan ook heel klein dat PDF in de toekomst onleesbaar zal worden.

 

Sommige formaten komen omwille van al deze factoren naar voor als op lange termijn meer betrouwbaar dan anderen. Zij komen dan ook het meest in aanmerking voor langdurige opslag, te meer omdat binnen de IT-wereld en de normeringsinstituten er een stroming bestaat om ervoor te zorgen dat deze formaten bij wijziging toch verenigbaar blijven met oudere versies. Een « archiefformaat » kan dus zonder veel problemen gebruikt worden voor langdurige archiveringsdoeleinden.

 

Er zijn toch al enkele formaten die door de normeringsinstituten (ISO, CEN, …) erkend werden als “archiefformaat”. Dit houdt in dat van deze formaten gegarandeerd wordt dat ze ook in de verre toekomst nog verstaanbaar zullen blijven voor softwarepakketten die met langetermijnopslag rekening hebben gehouden (iets wat toch van archiveringspakketten mag verwacht worden).

 

Zowel hard- als software moeten dus wel nog regelmatig vernieuwd worden, maar de inhoud van de file hoeft niet meer gewijzigd te worden. Bekendste archiefformaten zijn TIFF, PDF en TXT. Alle 3 hebben het voordeel dat ze “platform-onafhankelijk” zijn, dwz, ze hangen niet af van 1 besturingssysteem (vb niet enkel leesbaar op Windows maar ook op Linux of Unix-machines)

 

Voor bepaalde types digitale informatie zijn (nog) geen geschikte archiveringsformaten beschikbaar. Deze digitale documenten zijn nauw verbonden met de hard- en softwareomgeving waarbinnen ze werden gecreëerd en kunnen nauwelijks of niet daar buiten worden gebruikt. Dit is momenteel het geval voor bepaalde multimedia-objecten. In dit geval is het aanbevolen om een bestandsformaat te zoeken dat aan zoveel mogelijk criteria van een geschikt archiveringsformaat beantwoordt en waarbij afhankelijkheden maximaal worden vermeden.

 

Hoewel het hier natuurlijk niet de plaats is om grondig in te gaan op de technische specificaties van beeldformaten, toch is het nuttig er een basiskennis van te hebben. Laten we vermelden dat de beschrijvingen op volgende pagina redelijk grof zijn en dus onbruikbaar voor iemand die details wil weten. Ze zijn toegespitst op de eindgebruiker die een globaal overzicht moet hebben, niet op de informaticus die specificaties opzoekt[3].

Tips en aanbevelingen

  • beperk het aantal bestandsformaten dat binnen de organisatie als archiveringsformaat worden gebruikt

  • bewaar archiefdocumenten indien mogelijk van bij de creatie in een geschikt archiveringsformaat

  • bewaar archiefdocumenten niet in een gesloten of ongedocumenteerd formaat

  •  vermijd het gebruik van compressie (bijv. LZW, JPEG, ZIP in een TIFF bestand; ZIP in een PDF-bestand) 

  •  verpak de archiefdocumenten niet in gecomprimeerde formaten (.zip; .tar)

  • wanneer de originele formaten niet bewaard worden: vernietig de originele computerbestanden pas na de controle van de omzettingen

  • ga na of standaarden wel correct worden toegepast en of de gearchiveerde digitale documenten wel beantwoorden aan de formele definitie van de standaard


[1] onderstaande uitleg gebruikt als bron vooral de DAVID-studie, een samenwerking van het Interdisciplinair Centrum voor Recht en Informatica van de KUL en de Stad Antwerpen. (http://www.antwerpen.be/david/)

[2] encryptie betekent dat de file versleuteld wordt en dus op een of andere manier onleesbaar wordt gemaakt. Zonder de sleutel om de file te ontcijferen kan men deze niet meer lezen.

[3] Zo wordt bv gezegd dat een TIFF-file uit 2 delen bestaat. Infeite zijn het er 3, maar het onderscheid tussen de 2 technische delen is onbelangrijk voor ons als eindgebruiker en we gaan er dan ook ons hoofd niet op breken.

Horizontal Divider 1

Inhoudstafel

Vorige pagina : Formaat en Opslag

Volgende pagina : Emulatie of Migratie ?

It has become appallingly obvious that our technology has exceeded our humanity.
 
Albert Einstein (Duits/Amerikaans fysicus en nobelprijswinnaar, 1879-1955)

Horizontal Divider 18

*** Grimm dankt jullie voor de commentaren ***