Ir neliela sāpe un varbūt te kādam ir idejas smukam risinājumam.
Kā zināms, es veidoju blogu sistēmu Blogiem.lv, kur katrs var ātri un
ērti izveidot savu blogu. Katram sistēmā publicētajam rakstam ir
pieejami arī RDF/XML metadati (galvenokārt, SIOC). Problēma ir tajā,
ka Google meklēšanas rezultātos bieži vien attēlo nevis XHTML lapu ar
rakstu, bet gan saiti uz RDF/XML datiem. Rezultātā lietotājs uzspiež
virsū un saņem nesakarīgu teksta savirknējumu (viņa acīm).
Kā piemēru varam apskatīt
http://www.google.com/search?hl=lv&client=opera&rls=en&hs=j1U&q=ventspils+strikes+back+site%3Ablogiem.lv&btnG=Mekl%C4%93t&lr=
meklēšanas rezultātus, kur pirmais rezultāts ir
http://pankukas.blogiem.lv/2007/08/28/9376.rdf , nevis
http://pankukas.blogiem.lv/2007/08/28/9376.html , kā to gribētu es un
droši vien arī 99,999% lietotāju, kas kaut ko meklē Gūglē.
Ok, ir jau skaidri daži iespējamie risinājumi, bet neviens īsti labi nepatīk:
1) Atsakamies no RDF/XML eksportēšanas.
2) Aizliedzam Google's botam tikt pie RDF/XML datiem pēc "user agent" virknes.
Varbūt kādam ir vēl kādas idejas? Varbūt ir bijusi darīšana ar šādu problēmu?
(Saprotu jau, ka šis īsti nav SemWeb, bet gan SEO jautājums, bet nu
neliela saistība ar tematu jau tomēr ir)
--
Kristaps Kaupe
Mob. t. +371 22013473
http://kristaps.blogiem.lv
Domāju, ka Google nav tik duma un saprot, ka RSS padeves un citi
alternatīvi (ne-(X)HTML) formāti nav nekāds "duplicate content". Tacu
jebkurš SIOC eksporteris tad būtībā rada "duplicate content".
> "robots.txt" faila piemērs, kur ierobežoti noteikti failu paplašinājumi,
> dots piemēram šeit:
> http://blogsport.de/robots.txt :
>
> User-agent: Googlebot
> Disallow: /*/feed/$
Par šādu lietu nezināju.
Vecais robots.txt standarts nosaka tik, ka var norādīt prefiksus, bet
ne kaut kādas maskas. Droši vien mēģināšu kā pagaidu risinājumu
aizliegt tieši Googlebot'am indeksēt RDF'us caur robots.txt.
> Tā kā Blogiem.lv izmanto 3.līmeņa domēnvārdus, tad var, teiksim, izveidot
> vienu galveno "robots.txt" faila kopiju, un par godu katram Blogiem.lv
> lietotājam - attiecīgu simlinku uz šo failu.) Tā lai būtu
Nu ne gluži tā. Ar mod_rewrite visi tie daudzhostu joki tiek darīti. :)
Krišs
trešdiena, 2008, 4 jūnijs 19:37 Kristaps Kaupe
<kristap...@inbox.lv> rakstīja: