omgeving voor kwaliteitscontrole

Rene Voorburg

unread,

Nov 11, 2010, 9:08:28 AM11/11/10

to webarc...@googlegroups.com

Als eerste bijdrage aan deze mailinglijst een update over de kwaliteitscontrole van webarchieven op de KB. Sinds kort maken we daarbij gebruik van een nieuwe opzet.

We harvesten op de KB met behulp van de Web Curator Tool (WCT). Die tool heeft een ingebouwde viewer voor het bekijken van geharveste sites. Dat werkt meestal redelijk maar twee problemen zaten ons dikwijls dwars:
- Sommige content kwam nog steeds van de live site. Dat was vaak niet direct zichtbaar; hierdoor werden soms harvests goedgekeurd die eigenlijk afgekeurd hadden moeten omdat essentiële content feitelijk niet geharvest was..
- Interactievere content zoals vaak ook (mn javascript) menu's bleef soms de originele URLs gebruiken. Functionaliteit werkte hierdoor niet meer of bij het bladeren in het archief kwam je telkens uit bij de live site (vervolgens geblokkeerd door Blocksite).

Het eerst probleem probeerde we in eerste instantie te herkennen door bij iedere pagina-opvraging van het archief in WCT met behulp van de FireFox plugin "Firebug" te kijken vanaf welke URLs er data opgevraagd werd. Dat was enigszins omslachtig en kon vaak ook niet vertellen of de archiefversie nog wel zou werken als de live content niet meer op het web aanwezig zou zijn. We hebben het nu opgelost door gebruiken te maken van de Blocksite plugin. In deze plugin stellen we het domein waarop de Web Curator Tool draait in als 'whitelist'. Er zal in Firefox nu alleen nog maar data getoond worden uit het webarchief.

In de meeste gevallen is de kwaliteit van harvests hiermee redelijk snel in de Web Curator Tool te testen. In het geval dat de harvest je voor pagina's nog steeds naar de live site wil sturen of dat mn. interactievere content niet meer werkt doen we een vervolgtest met de Wayback Machine in proxy modus. Met die proxy modus zijn de webarchieven met hun oorspronkelijke URLs op te vragen. Als essentiële content dan ook niet werkt keuren we de harvest af. Als een harvest deze proxy modus nodig heeft om goed te getoond te worden melden we dit als annotatie in WCT.

De handleiding van de Wayback Machine vertelt hoe de proxy modus te activeren is. Dit bleek vrij eenvoudig. De Wayback Machine is vervolgens zo ingesteld dat het de directory waarin WCT de geharveste archieven plaatst gebruikt als inkomende map.
Om in Firefox de proxy makkelijk in en uit te kunnen zetten gebruiken we de FoxyProxy (Basic) plugin. Al met al was deze opzet in een paar uur werkend te krijgen.

Groet!
René

Jaap

unread,

Nov 11, 2010, 11:22:44 AM11/11/10

to webarchief-nl

Hallo René,

Goed deze eerste bijdrage van deze mailinglist te lezen!

Ter aanvulling en bevestiging kan ik zeggen dat de oplossing met de
Wayback Machine in proxy mode m.i. de meest betrouwbare (opensource)
manier is om te controleren hoe gearchiveerde webpagina's er nou echt
uitzien (zonder mogelijke 'ruis' van geladen bronnen van het
internet). Dit is doordat je browser alleen maar verbinding kan maken
met het archief (via de WayBack proxy). Alle communicatie met het live
internet is dus niet meer mogelijk als je browser staat ingesteld op
deze WayBack proxy.

Verder was ik nog niet helemaal er over uit wat nou de fijnste manier
van configureren van de WayBack Machine is m.b.t. het aansluiten van
een internetarchief. Ikzelf heb altijd de BDBCollection.xml optie
gekozen hiervoor. Met deze configuratie geef je een pad op naar een
directory met ARC files. Bij het opstarten van de WayBack machine in
tomcat maakt deze automatisch een soort index aan (zodat het archief
vervolgens te benaderen is vanuit de webinterface van WB).

Ik heb deze indexatiemanier nooit verder goed bestudeerd aangezien ik
nog niet op grote schaal internetarchieven heb gekoppeld aan de
WayBack Machine. Maar ik kan me voorstellen dat het met gigantische
hoeveelheden ARC files dit niet de meest handige manier is.

Wellicht dat jij hier nog wat over zou kunnen zeggen? (dus over de
best practice van het aansluiten van een webarchief op wayback)

Groeten,

Jaap

René Voorburg

unread,

Nov 12, 2010, 8:48:27 AM11/12/10

to webarchief-nl

Hoi Jaap,

> Verder was ik nog niet helemaal er over uit wat nou de fijnste manier
> van configureren van de WayBack Machine is m.b.t. het aansluiten van
> een internetarchief. Ikzelf heb altijd de BDBCollection.xml optie
> gekozen hiervoor. Met deze configuratie geef je een pad op naar een
> directory met ARC files. Bij het opstarten van de WayBack machine in
> tomcat maakt deze automatisch een soort index aan (zodat het archief
> vervolgens te benaderen is vanuit de webinterface van WB).
>
> Ik heb deze indexatiemanier nooit verder goed bestudeerd aangezien ik
> nog niet op grote schaal internetarchieven heb gekoppeld aan de
> WayBack Machine. Maar ik kan me voorstellen dat het met gigantische
> hoeveelheden ARC files dit niet de meest handige manier is.

Op dit moment gebruikt onze QA-omgeving ook gewoon de BDBCollection.
Er zitten nu ongeveer 5000 harvests in, richting 4Tb aan data. Het
duurde ongeveer 5 dagen om dat te indexeren maar het werkt vooralsnog
prima. Ik las ergens anders ook de suggestie dat de BDBCollection-
aanpak voor veel data minder verstandig zou zijn. Ik weet echter niet
waarom / voor hoeveel data dat zou spelen. Voordat het archief live
gaat wil ik daar wel meer van weten (stresstesten?). Ik moet ook nog
uitzoeken hoe ik de database kan beheren (mn voor verwijderen van
Arcs). Ik zag al wel dat Wayback daar een tool voor heeft maar ik heb
er nog niet mee gespeeld.

Groet, René

Reply all

Reply to author

Forward