Wayback & update voortgang aanpak kwaliteitscontrole

3 views
Skip to first unread message

René Voorburg

unread,
Jan 10, 2011, 6:59:09 AM1/10/11
to webarchief-nl
Hoi,

Even een snelle update.

Belangrijk voor ons is om de kwaliteitscontrole van webharvests een
stuk efficienter uit te kunnen voeren. Ik wil naar een aanpak waarbij
harvests automatisch goedgekeurd kunnen worden als een eerdere harvest
ook goed was en er sindsdien geen significante wijzigingen zijn in de
aard en omvang van de harvest.

Als tussenstap wil ik rapportages kunnen genereren die snel
inzichtelijk maken wat er veranderd is sinds de voorgaande harvest.
Zo'n rapportage is niet alleen handig voor de kwaliteitscontrole maar
ook bij het bepalen of de harvestfrequentie omlaag of omhoog zou
moeten. Zo'n rapportage zou o.a. aan moeten wat er veranderd is wb:
- aantal files
- omvang in bytes
- aantal en percentage nieuwe files (op basis van URL)
- aantal en percentage verdwenen files (op basis van URL)
- aantal en percentage veranderde files (op basis van URL en hashcode)

Deze rapportagefunctionaliteit wil ik in deze fase zo veel mogelijk
los van de Web Curator Tool (WCT) laten werken. Dat maakt testen van
functionaliteit en implementatie het eenvoudigst. In een latere fase
zou integratie in WCT zinvol kunnen zijn.

Om in beeld te krijgen wat er veranderd is heb ik een database oid met
URLs en hashcodes nodig. Omdat ik het wiel niet opnieuw uit wil vinden
ben ik bij bestaande tools gaan kijken. Nu blijkt dat de 'CDX' index-
files van de Wayback Machine per URL oa. de hashcode bevatten. Dit
maakt het zinvol om voortaan de Wayback Machine niet met de
automatisch geindexeerde BDB-database maar met de CDX database te
laten werken. De CDX-database lijkt het beheer eenvoudiger te maken.
Bovenal is het voordeel dat ik per harvest maar ééń keer de CDX-index
genereer. Die bewaar ik dan bij de harvest. Opnieuw opbouwen van de
complete index voor de Wayback Machine kan nu snel door de gewenste
CDX-bestanden aan elkaar te plakken en te sorteren.

Hier ben ik dus mee aan het experimenteren. Viel me o.a. op dat de
indices die ik met cdx-index van Wayback 1.6 maak niet benut kunnen
worden door Wayback 1.4.x. Andersom lukte me gelukkig wel.

Ik laat het weten als ik meer kan berichten.

Groet, René

Reply all
Reply to author
Forward
0 new messages