Wie heeft er tips om te achterhalen waarom bepaalde paginas die wel
door Google gecrawled zijn niet zichtbaar zijn in searches?
Voor de volgende zoekvraag:
http://www.google.nl/search?q=hobbelen+site%3Arepository.tudelft.nl
Komen een aantal 'oude' links tevoorschijn. Wij hebben sitemaps voor
de nieuwe content aangemaakt, met Webmaster tools bij Google aangemeld
en uit de Apache logs kan ik zie dat Google wel langs is geweest om de
'nieuwe' URLs te crawlen.
Bijvoorbeeld hier een entry uit de log file:
66.249.71.241 - - [17/May/2009:22:17:13 +0200] "GET
/view/ir/uuid:deed5846-3db8-474f-9e71-628ce506dd4d/ HTTP/1.1" 200 4930
"-" "Mozilla/5.0 (compatible; Googlebot/2.1;
+http://www.google.com/bot.html)"
However, de bovengenoemde URI zie ik niet terug in een search.
Voor een zoekvraag als hierboven wil ik dus bijvoorbeeld dat deze URI:
http://repository.tudelft.nl/view/ir/uuid:deed5846-3db8-474f-9e71-628ce506dd4d/
tevoorschijn komen.
Wat kan ik eraan fixen om de findability te verbeteren?
(brrr, dit klinkt bijna als een SEO vraag, daar krijg ik altijd zelf
de kriebels van, maar ja, voor alles is er een eerste keer)
groeten,
Etienne Posthumus
Dit is een aardig artikel over Stappenplan website optimalisatie:
vindbaarheid en toegankelijkheid:
http://www.frankwatching.com/archive/2009/03/13/stappenplan-website-optimalisatie-2-vindbaarheid-en-toegankelijkheid/
Groet, Ardi Nonhebel
--
mw. A.E. Nonhebel
TU Delft Library / SSC ICT - 3xO / DPO
Prometheusplein 1, kamer 2.38
2628 ZC Delft
The Netherlands
T +31 (0)15 27 88151
E A.E.No...@tudelft.nl
Google doet van alles en we weten niet wat :)
Het best is dus Google te laten weten dat je niks geks doet.
URL's zo veel mogelijk laten lijken op echte URL's schijnt te helpen.
http://www.google.nl/search?q=%2FWebQuery%2Fwurpubs%2F366861
Geeft netjes een record uit onze repository.
Kan best dat Ggoogle de rare handle voor het record een reden vind om
niks met het URL te doen.
Ook herkent hij duplicaten, dus als de oude versie nog bij Google in
cache is, kan dat ook een reden zijn om niet te herindexeren.
Maar ja, google doorgronden is een beetje als met plattegrond van een
eeuw of 3 oud je weg in een vreemde stad vinden :)
Peter
Nu bedenk ik mij dat het waarschijnlijk handig is om 'slugs' gebaseerd
op de titel van records op een blog-achtige manier aan de URIs toe te
voegen. Vind ik zelf niet prettig maar goed. If it helps.
Ik ga in ieder geval direct de record-title in de HTML title meta
fields plakken.
EP
Ik denk niet dat er een probleem is met de url op zich. Je zou de ':'
eruit kunnen halen, maar een 'human readeable' titel ipv een uuid
gebruiken zal denk ik geen verschil maken.
De reden waarom de pagina niet in de search getoond wordt is
waarschijnlijk omdat er te weinig content op de pagina staat ten
opzichten van het aantal links (code to text ratio).
Ik denk dat het beste wat je kan doen is de pagina uitbreiden met meer
content (bijv een abstract opnemen).
Leuk detail is trouwens dat als je in google zoekt op het uuid
(deed5846-3db8-474f-9e71-628ce506dd4d) je de pdf vindt via de moai
server. :)
gr,
Jasper
--
Jasper Op de Coul -- Infrae
t +31 10 243 7051 -- http://infrae.com
Hoevestraat 10 3033GC Rotterdam -- The Netherlands
Peter
-----Original Message-----
From: code...@googlegroups.com [mailto:code...@googlegroups.com] On
Behalf Of Jasper Op de Coul
Sent: dinsdag 7 juli 2009 13:56
To: code...@googlegroups.com
Subject: [code4bib] Re: Crawled paginas niet in Google zichtbaar