Crawled paginas niet in Google zichtbaar

3 views
Skip to first unread message

Etienne Posthumus

unread,
Jul 7, 2009, 3:42:15 AM7/7/09
to code...@googlegroups.com
Beste mensen,

Wie heeft er tips om te achterhalen waarom bepaalde paginas die wel
door Google gecrawled zijn niet zichtbaar zijn in searches?

Voor de volgende zoekvraag:
http://www.google.nl/search?q=hobbelen+site%3Arepository.tudelft.nl

Komen een aantal 'oude' links tevoorschijn. Wij hebben sitemaps voor
de nieuwe content aangemaakt, met Webmaster tools bij Google aangemeld
en uit de Apache logs kan ik zie dat Google wel langs is geweest om de
'nieuwe' URLs te crawlen.

Bijvoorbeeld hier een entry uit de log file:
66.249.71.241 - - [17/May/2009:22:17:13 +0200] "GET
/view/ir/uuid:deed5846-3db8-474f-9e71-628ce506dd4d/ HTTP/1.1" 200 4930
"-" "Mozilla/5.0 (compatible; Googlebot/2.1;
+http://www.google.com/bot.html)"

However, de bovengenoemde URI zie ik niet terug in een search.

Voor een zoekvraag als hierboven wil ik dus bijvoorbeeld dat deze URI:
http://repository.tudelft.nl/view/ir/uuid:deed5846-3db8-474f-9e71-628ce506dd4d/
tevoorschijn komen.

Wat kan ik eraan fixen om de findability te verbeteren?
(brrr, dit klinkt bijna als een SEO vraag, daar krijg ik altijd zelf
de kriebels van, maar ja, voor alles is er een eerste keer)

groeten,

Etienne Posthumus

A.E. Nonhebel

unread,
Jul 7, 2009, 4:07:35 AM7/7/09
to code...@googlegroups.com
Hoi Etienne,

Dit is een aardig artikel over Stappenplan website optimalisatie:
vindbaarheid en toegankelijkheid:
http://www.frankwatching.com/archive/2009/03/13/stappenplan-website-optimalisatie-2-vindbaarheid-en-toegankelijkheid/

Groet, Ardi Nonhebel

--
mw. A.E. Nonhebel
TU Delft Library / SSC ICT - 3xO / DPO

Prometheusplein 1, kamer 2.38
2628 ZC Delft
The Netherlands

T +31 (0)15 27 88151
E A.E.No...@tudelft.nl

Boheemen, Peter van

unread,
Jul 7, 2009, 4:33:40 AM7/7/09
to code...@googlegroups.com
Etienne,

Google doet van alles en we weten niet wat :)
Het best is dus Google te laten weten dat je niks geks doet.
URL's zo veel mogelijk laten lijken op echte URL's schijnt te helpen.
http://www.google.nl/search?q=%2FWebQuery%2Fwurpubs%2F366861
Geeft netjes een record uit onze repository.
Kan best dat Ggoogle de rare handle voor het record een reden vind om
niks met het URL te doen.
Ook herkent hij duplicaten, dus als de oude versie nog bij Google in
cache is, kan dat ook een reden zijn om niet te herindexeren.
Maar ja, google doorgronden is een beetje als met plattegrond van een
eeuw of 3 oud je weg in een vreemde stad vinden :)

Peter

Etienne Posthumus

unread,
Jul 7, 2009, 5:07:09 AM7/7/09
to code...@googlegroups.com
Thx voor de comments.

Nu bedenk ik mij dat het waarschijnlijk handig is om 'slugs' gebaseerd
op de titel van records op een blog-achtige manier aan de URIs toe te
voegen. Vind ik zelf niet prettig maar goed. If it helps.

Ik ga in ieder geval direct de record-title in de HTML title meta
fields plakken.

EP

Jasper Op de Coul

unread,
Jul 7, 2009, 7:56:13 AM7/7/09
to code...@googlegroups.com
Hoi Etienne,

Ik denk niet dat er een probleem is met de url op zich. Je zou de ':'
eruit kunnen halen, maar een 'human readeable' titel ipv een uuid
gebruiken zal denk ik geen verschil maken.
De reden waarom de pagina niet in de search getoond wordt is
waarschijnlijk omdat er te weinig content op de pagina staat ten
opzichten van het aantal links (code to text ratio).
Ik denk dat het beste wat je kan doen is de pagina uitbreiden met meer
content (bijv een abstract opnemen).

Leuk detail is trouwens dat als je in google zoekt op het uuid
(deed5846-3db8-474f-9e71-628ce506dd4d) je de pdf vindt via de moai
server. :)

gr,
Jasper

--
Jasper Op de Coul -- Infrae
t +31 10 243 7051 -- http://infrae.com
Hoevestraat 10 3033GC Rotterdam -- The Netherlands

Boheemen, Peter van

unread,
Jul 7, 2009, 9:08:46 AM7/7/09
to code...@googlegroups.com
Wat meteen de vraag oproept waarom je het repository record zou willen
vinden, wanneer je het document toch al vindt in Google.
Dat eerste is tenslotte waar een gebruiker op zit te wachten. Een
discussie die we hier intern ook al voeren.
Waarom moet een gebruiker het metadata record vinden op google terwijl
je er anderszins al voor zorgt dat het document prima vindbaar is in
Google.
Dat eerste is alleen aardig voor de branding van de bibliotheek.
Bij ons is dat een punt, aangezien het metadata record soms wel op 10
verschillende manieren kan worden opgevraagd in andere views.
Theoretisch kunnen die allemaal in Google worden gevonden. Zo kunnen ze
echt een hekel aan je krijgen :)

Peter

-----Original Message-----
From: code...@googlegroups.com [mailto:code...@googlegroups.com] On
Behalf Of Jasper Op de Coul
Sent: dinsdag 7 juli 2009 13:56
To: code...@googlegroups.com
Subject: [code4bib] Re: Crawled paginas niet in Google zichtbaar

Reply all
Reply to author
Forward
0 new messages