Net zoals bij gewone archieven is het de
bedoeling om de opgeslagen documenten ook over langere termijn consulteerbaar te houden. Gezien de evolutie in de informaticawereld
razendsnel gaat spelen bij electronisch archiveren dan ook 2 factoren een zeer grote rol :
hardware en formaat
Onze eerste zorg is of het formaat waarin het document is opgeslagen nog
leesbaar zal zijn binnen 5, 10 of zelfs 30 of 100 jaar ? En zal er dan nog een apparaat bestaan dat het medium kan inlezen
waarop we vandaag de dag opslaan ?
Twintig jaar geleden sloeg een PC zijn gegevens op op slappe schijven van
5 inch diameter. Ondertussen is er geen enkele PC meer die deze « floppy’s » nog kan lezen. Ook met andere
apparatuur is de evolutie zo snel dat niemand kan garanderen dat ze over 10 jaar nog beschikbaar zal zijn Wanneer de IT-afdeling van een bedrijf vandaag dus documenten op een DVD wegschrijft dan hebben de gebruikers
geen enkele garantie dat over 15 jaar er nog een DVD-lezer zal zijn die deze DVD’s aankan.
Dezelfde IT zal dus in de toekomst erop moeten toezien dat ze de evolutie van de
“hardware” blijft opvolgen om de beschikbaarheid van onze beelden te garanderen.
Hiërarchie van
Standaarden
Een bestand kan op verschillende manieren worden opgeslagen. De opslag kan verschillende “regels”
volgen. Zo’n regels die de opslag beschrijven noemen we een “file-formaat” of “standaard” (TIFF,
GIF, BMP, JPEG, …).
In de IT-wereld bestaan tal van dergelijke standaarden. Hoewel het niet onze
taak als eindgebruiker is om standaarden te kiezen voor onze opslag, toch is het nuttig een idee te hebben van wat in deze
wereld omgaat.
Officiële Standaarden
-
Deze standaarden zijn vastgelegd door
officiële standaardiseringsorganisaties en danken hun officiële status aan de participatie van een (inter-) gouvernementele
organisatie (bv ISO : International Organisation for Standardisation).
-
Voorbeelden : HTML, ASCII, MPEG, TIFF,
JPEG
Defacto standaarden
-
De facto-standaarden zijn standaarden die zo’n
marktpenetratie hebben dat ze ergens een belangrijke norm geworden zijn. De belangrijkste software op hun domein laat dan
ook invoer en uitvoer toe in dit formaat.
-
De specificaties zijn het resultaat van niet-officiële
standaardiseringsinitiatieven (bijv. W3C). Hun beheer is niet in handen van één producent maar van een standaardiseringsinstantie.
Deze standaarden zijn dus redelijk stabiel omdat niemand van deze standaardiseringsinstanties voordeel heeft met een veelvuldig
herzien van de normen en omdat er geen wijziging kan gebeuren zonder akkoord van alle leden van deze instantie.
-
Voorbeeld : XML, PNG
Open formaten
-
zijn publiek
gedocumenteerd, maar hun beheer is in handen van één bepaalde producent. Deze kan dan ook vrij de standaard aanpassen.
-
Voorbeelden
: PDF, RTF, GIF, MIDI
Gesloten formaten
- Deze formaten danken hun status van defacto standaard aan hun wijdverspreidheid maar
hun technische specificatie wordt niet vrijgegeven en ze zijn afhankelijk van één producent
- Voorbeelden : AVI, Word, Wave, Exel, BMP
Normen voor een Stabiel Formaat
Een geschikt “archiverings”-formaat beantwoordt bij voorkeur aan volgende criteria:
- gestandaardiseerd, maar ook gedocumenteerd. Men gaat ervan uit dat het gemakkelijk is software
te programmeren om dit bestand te lezen wanneer men over de technische specificatie van het formaat beschikt
- stabiel: standaarden kunnen pas gewijzigd worden na het doorlopen van een procedure. Er kunnen
daarnaast nieuwe specificaties geschreven worden zonder dat de oude in gevaar komen of oude applicaties in de problemen komen
bij het lezen ervan (extendability)
- uitwisselbaar (portability): onafhankelijk van bepaalde besturingssystemen, netwerkprotocollen
en applicaties. Standaarden worden ondersteund door software van meerdere producenten en open source initiatieven en ook het
Operating System speelt geen rol.
- wijdverspreid en voldoende marktpenetratie
- voorziet een robuust foutopsporing- en verbeteringsmechanisme: fouten in bitopslag zijn herstelbaar
- mogelijkheid tot systematische en geautomatiseerde validatie
- goed gestructureerde opslag van informatie
- opslag zonder informatieverlies: geen lossy compressie
- mogelijkheid tot insluiten van (zelfgedefineerde) metadatavelden. Dit wil zeggen dat de gebruiker
zelf ook gebruikersspecifieke informatie kan meegeven aan de file
- in staat om de essentiële eigenschappen van het archiefdocument in tijd over te brengen
- bewaren van de authenticiteit van de archiefdocumenten
- autonoom en zelfvoorzienig, er is geen bijkomende informatie nodig om de file terug zichtbaar
te krijgen.
- drager en apparaat
onafhankelijke opslag mogelijk: het formaat kan op elke duurzame drager worden opgeslagen
- eenvoudig en gebruiksvriendelijk: het formaat is niet heel complex of ondersteunt geen ingewikkelde
functionaliteiten.
Kiezen van een Formaat
Bij het
kiezen van een geschikt formaat voor archivering richt men zich bij voorkeur op de officiële standaarden en de specificaties.
Enig pragmatisme is hierbij aanbevolen. De hiërarchie is een belangrijke leidraad maar is niet zaligmakend. De status van
officiële standaard garandeert immers niets op zich. Zo kennen bepaalde specificaties een grotere toepassing dan hun officiële
equivalenten (vb XML vs. SGML).
Een andere factor die meespeelt is het
feit dat standaarden op diverse wijzen kunnen worden toegepast. De meeste archiveringsformaten laten de gebruiker toe om een
aantal instellingen en parameters te definiëren. Zo kan men diverse soorten TIFF-, XML- en PDF-bestanden produceren maar niet
elk TIFF-, XML- of PDF-document is geschikt om op lange termijn te archiveren.
De gearchiveerde digitale archiefdocumenten zijn best zo autonoom mogelijk. De
afhankelijkheden voor reconstructie worden best tot een absoluut minimum beperkt. Het ontbreken van één noodzakelijke schakel
in het reconstructieproces kan immers tot verlies van het archiefdocument leiden. Omwille deze reden worden lossy-compressie,
encryptie, paswoorden of andere beveiligingsinstellingen
zoveel mogelijk vermeden.
Ook kan het nuttig zijn aan te sluiten
bij een beslissing van een grote officiele organisatie. Zo bv werd PDF door het ministerie van justitie van de Verenigde Staten
uitgekozen als formaat waarin de rechtspraak zal opgeslagen worden. De kans is dan ook heel klein dat PDF in de toekomst onleesbaar
zal worden.
Sommige formaten komen omwille van al deze factoren naar voor als op lange termijn meer betrouwbaar dan anderen. Zij
komen dan ook het meest in aanmerking voor langdurige opslag, te meer omdat binnen de IT-wereld en de normeringsinstituten
er een stroming bestaat om ervoor te zorgen dat deze formaten bij wijziging toch verenigbaar blijven met oudere versies. Een
« archiefformaat » kan dus zonder veel problemen gebruikt worden voor langdurige archiveringsdoeleinden.
Er zijn toch al enkele formaten die door de normeringsinstituten (ISO, CEN, …) erkend werden als “archiefformaat”.
Dit houdt in dat van deze formaten gegarandeerd wordt dat ze ook in de verre toekomst nog verstaanbaar zullen blijven voor
softwarepakketten die met langetermijnopslag rekening hebben gehouden (iets wat toch van archiveringspakketten mag verwacht
worden).
Zowel hard- als software moeten dus wel nog regelmatig vernieuwd worden, maar de inhoud van de file hoeft niet meer
gewijzigd te worden. Bekendste archiefformaten zijn TIFF, PDF en TXT. Alle 3 hebben het voordeel dat ze “platform-onafhankelijk”
zijn, dwz, ze hangen niet af van 1 besturingssysteem (vb niet enkel leesbaar op Windows maar ook op Linux of Unix-machines)
Voor bepaalde types digitale informatie
zijn (nog) geen geschikte archiveringsformaten beschikbaar. Deze digitale documenten zijn nauw verbonden met de hard- en softwareomgeving
waarbinnen ze werden gecreëerd en kunnen nauwelijks of niet daar buiten worden gebruikt. Dit is momenteel het geval voor bepaalde
multimedia-objecten. In dit geval is het aanbevolen om een bestandsformaat te zoeken dat aan zoveel mogelijk criteria van
een geschikt archiveringsformaat beantwoordt en waarbij afhankelijkheden maximaal worden vermeden.
Hoewel het hier natuurlijk niet de plaats is om grondig in te gaan op de technische
specificaties van beeldformaten, toch is het nuttig er een basiskennis van te hebben. Laten we vermelden dat de beschrijvingen
op volgende pagina redelijk grof zijn en dus onbruikbaar voor iemand die details wil weten. Ze zijn toegespitst op de eindgebruiker
die een globaal overzicht moet hebben, niet op de informaticus die specificaties opzoekt[3].
-
beperk
het aantal bestandsformaten dat binnen de organisatie als archiveringsformaat worden gebruikt
-
bewaar archiefdocumenten indien mogelijk van bij de creatie in een geschikt archiveringsformaat
-
bewaar
archiefdocumenten niet in een gesloten of ongedocumenteerd formaat
-
vermijd het gebruik van compressie (bijv. LZW, JPEG, ZIP in een TIFF bestand; ZIP in een PDF-bestand)
-
verpak de archiefdocumenten niet in gecomprimeerde formaten (.zip; .tar)
-
wanneer de originele formaten niet bewaard worden: vernietig de originele computerbestanden pas
na de controle van de omzettingen
-
ga na of standaarden wel correct worden toegepast en of de gearchiveerde
digitale documenten wel beantwoorden aan de formele definitie van de standaard
1 onderstaande
uitleg gebruikt als bron vooral de DAVID-studie, een samenwerking van het Interdisciplinair Centrum voor Recht en Informatica
van de KUL en de Stad Antwerpen. (http://www.antwerpen.be/david/)
encryptie betekent dat de file versleuteld wordt en dus op een of andere manier onleesbaar wordt
gemaakt. Zonder de sleutel om de file te ontcijferen kan men deze niet meer lezen.