We harvesten op de KB met behulp van de Web Curator Tool (WCT). Die tool heeft een ingebouwde viewer voor het bekijken van geharveste sites. Dat werkt meestal redelijk maar twee problemen zaten ons dikwijls dwars:
- Sommige content kwam nog steeds van de live site. Dat was vaak niet direct zichtbaar; hierdoor werden soms harvests goedgekeurd die eigenlijk afgekeurd hadden moeten omdat essentiële content feitelijk niet geharvest was..
- Interactievere content zoals vaak ook (mn javascript) menu's bleef soms de originele URLs gebruiken. Functionaliteit werkte hierdoor niet meer of bij het bladeren in het archief kwam je telkens uit bij de live site (vervolgens geblokkeerd door Blocksite).
Het eerst probleem probeerde we in eerste instantie te herkennen door bij iedere pagina-opvraging van het archief in WCT met behulp van de FireFox plugin "Firebug" te kijken vanaf welke URLs er data opgevraagd werd. Dat was enigszins omslachtig en kon vaak ook niet vertellen of de archiefversie nog wel zou werken als de live content niet meer op het web aanwezig zou zijn. We hebben het nu opgelost door gebruiken te maken van de Blocksite plugin. In deze plugin stellen we het domein waarop de Web Curator Tool draait in als 'whitelist'. Er zal in Firefox nu alleen nog maar data getoond worden uit het webarchief.
In de meeste gevallen is de kwaliteit van harvests hiermee redelijk snel in de Web Curator Tool te testen. In het geval dat de harvest je voor pagina's nog steeds naar de live site wil sturen of dat mn. interactievere content niet meer werkt doen we een vervolgtest met de Wayback Machine in proxy modus. Met die proxy modus zijn de webarchieven met hun oorspronkelijke URLs op te vragen. Als essentiële content dan ook niet werkt keuren we de harvest af. Als een harvest deze proxy modus nodig heeft om goed te getoond te worden melden we dit als annotatie in WCT.
De handleiding van de Wayback Machine vertelt hoe de proxy modus te activeren is. Dit bleek vrij eenvoudig. De Wayback Machine is vervolgens zo ingesteld dat het de directory waarin WCT de geharveste archieven plaatst gebruikt als inkomende map.
Om in Firefox de proxy makkelijk in en uit te kunnen zetten gebruiken we de FoxyProxy (Basic) plugin. Al met al was deze opzet in een paar uur werkend te krijgen.
Groet!
René