Handboek Archiefbeheer en ander webarchiveringsnieuws

31 views
Skip to first unread message

René Voorburg

unread,
Jun 16, 2011, 10:55:45 AM6/16/11
to webarchief-nl
Hallo allemaal,

Enige tijd stil geweest op deze lijst terwijl er toch het nodige
interessante nieuws is. Een opsomming:

Webarchivering in handboek Archiefbeheer in de praktijk
Voor handboek "Archiefbeheer in de praktijk" (uitgeverij Kluwer) is
met 'aanvulling 76' recentelijk o.a. een geheel vernieuwd hoofdstuk
over webarchivering uitgekomen. Het hoofdstuk, waar ik de auteur van
ben, gaat in op verschillende methoden en technieken, met een nadruk
op webharvesting. Er is ruime aandacht voor het aspect van
kwaliteitscontrole. Ik hoop dat de praktische opzet van het hoofdstuk
bijdraagt aan het verlagen van de drempel voor webarchivering bij mn.
archiefplichtige organisaties.

Bijeenkomsten IIPC in Nederland
In mei was de internationale webarchiveringsgemeenschap te gast bij de
KB in Den Haag. Inge Angevaare blogte uitgebreid over deze 'general
assembly'. Zie http://digitaalduurzaam.blogspot.com/2011/05/web-archiving-international-arena-iipc.html
en http://digitaalduurzaam.blogspot.com/2011/05/memento-sparks-optimism-at-closing-of.html

Memento
Memento is uitgebreid aan de orde geweest tijdens IIPC meetings. Het
Memento-protocol is nu een draft RFC en lijkt grote kans te maken
uiteindelijk een internet-standaard te gaan worden. Belangrijk voor
het slagen van Memento is ook dat er voldoende kritische massa achter
dit initiatief komt; dat er voldoende sites en webarchieven het
protocol actief gaan ondersteunen en dat er zogenaamde timegates komen
(services die aan kunnen geven waar archiefversies van specifieke URLs
te vinden zijn). De IIPC gaat daarom een project starten voor het
verzamelen van de voor de Memento-timegates benodigde metadata.
Resultaten worden over ongeveer een jaar verwacht. Wellicht leidt dit
uiteindelijk tot een IIPC timegate voor Memento. Graag zou ik vanuit
de KB er aan mee willen werken om alle openbaar toegankelijke
Nederlandse webarchieven hierin opgenomen te krijgen.

Transactionele webarchivering
Bij zeer interactieve en/of veranderlijke websites is het lastig om
met webharvesting alle relevante wijzigingen vast te leggen. RSS-
feeds, samenwerking tussen harvester en content management systeem of
rollback-functionaliteit van content management systemen kunnen met de
nodige beperkingen een oplossing voor dit probleem bieden. Aan de
horizon gloort echter een effectieve en breed en eenvoudig te
implementeren oplossing: een Apache module voor transactionele
webarchivering. Met deze module voor Apache, de meest gebruikte
webserver, kan iedere pagina die door een bezoeker opgevraagd wordt
automatisch gearchiveerd worden, en wel precies in die vorm waarop de
pagina opgestuurd werd. Ideaal dus voor archivering vanuit het oogpunt
van bewijskracht, of voor archivering van grotere en complexere sites
van archiefplichtige organisaties. De Apache module zal binnenkort
vrij beschikbaar gesteld worden door het Memento-team. Ik zal hier tzt
over berichten.

Groet!
René Voorburg


----
Inhoudsopgave archiefbeheer in de praktijk: Archivering van websites

Inleiding

Webarchivering en de Archiefwet

Technieken voor de vastlegging van website
Webarchivering met bronbestanden
Webarchivering via het harvesten van webpagina’s
Harvestingsoftware en -diensten
Beperkingen van de harvestingmethode
Webarchivering via rollbackfunctionaliteit van het
contentmanagementsysteem
Andere methoden voor webarchivering

Opslag en duurzame toegang
De containerformaten ARC en WARC
Toegang tot webarchief
Duurzaamheid van het webarchief

Kwaliteitscontrole en -verbetering
Veelvoorkomende kwaliteitsproblemen bij webharvesting
Crawlertraps
Pagina’s worden niet ontdekt
De ‘scope’ is te breed of juist te smal
Overige problemen
Een praktische aanpak voor kwaliteitscontrole
Controle lopende harvests
Controle van kwantitatieve kenmerken van de afgeronde harvest
Visuele inspectie van de harvest

Afsluitend
Reply all
Reply to author
Forward
0 new messages