kleine update over memento en sitestory

7 views

Skip to first unread message

René Voorburg

unread,

Jul 4, 2013, 8:01:15 AM7/4/13

to webarc...@googlegroups.com

Hallo allemaal,

Hoewel het lange tijd stil geweest is op deze lijst zou ik 'm, nav een bijeenkomst die hier onlangs op de KB was met Herbert van de Sompel, toch graag weer willen benutten voor een kleine update

Van de Sompel werkt aan een aantal projecten die uiterst interessant zijn voor een ieder geïnteresseerd in webarchivering. Voor archivering vanuit de vereisten gesteld door de archiefwet zou je vaak graag accuraat willen kunnen vastleggen wat er op welk moment op een site gestaan heeft. Via harvesting is dat lastig voor elkaar te krijgen. Mechanismes zoals publiceren van wijzigingen via bv RSS-feeds die URLs vervolgens harvesten kunnen nog niet altijd de soms gewenste volledigheid garanderen. Een oplossing die volledigheid wel kan bieden ligt bij de benadering van transactionele archivering. Daarbij wordt alles wat de webserver naar de client stuurt op een slimme wijze ook naar een webarchief gestuurd. Dit archief kan via warc-bestanden met reguliere tools als de Wayback-machine benaderd worden. Het team van Van de Sompel heeft voor deze aanpak een module gemaakt die zo in de Apache webserver geïntegreerd kan worden. Zie http://mementoweb.github.io/SiteStory/ Zeker voor archivering van overheidswebsites lijkt me dit een veruit te verkiezen aanpak. Voor de KB is deze benadering om voor de hand liggende redenen niet mogelijk maar ik zou iedereen die wel toegang tot de webserver kan krijgen aanraden hier eens mee te spelen. Benieuwd naar jullie resultaten!

Daarnaast werkt Van de Sompel ook nog aan het Memento protocol (http://www.mementoweb.org/news/). Memento zorgt dat het gebruik van webarchief een integraal onderdeel wordt van het http-protocol. Voor iedereen die webarchief genereert of gebruikt is het dus van belang dat Memento een succes gaat worden. Zeker openbare webarchieven zouden Memento mi. moeten ondersteunen. Ik zou het graag horen als jullie er wat mee doen of van plan zijn het te gebruiken.

Het webarchief op de KB groeit ondertussen gestaag. Er worden nu ruwweg zo'n 5000 sites gearchiveerd. Op dit moment nog geen concreet plan om het in archief op online beschikbaar te stellen maar in de leeszaal van de KB is het vrij toegankelijk. Het archief is op afstand ook toegankelijk voor onderzoekers. Zo wordt het nu actief gebruikt voor het WebART (Web Archive Retrieval Tools) onderzoeksproject (http://www.webarchiving.nl/). Binnen dit multi-disciplinaire onderzoekproject (gesponsord door NWO-Catch) wordt mede mbv het KB webarchief onderzocht op wat voor een manieren onderzoekers webabrchieven zouden willen / kunnen gebruiken en wordt er onderzoek gedaan naar en ontwikkeld aan tools hiervoor.

Mochten de lezers van dit bericht nog betrokken zijn bij webarchivering en nog nieuws te melden hebben dan hoor ik dat graag!