Google un RDF/XML

1 view
Skip to first unread message

Kristaps Kaupe

unread,
Jun 4, 2008, 5:56:01 AM6/4/08
to SemW...@googlegroups.com
Sveika, liste!

Ir neliela sāpe un varbūt te kādam ir idejas smukam risinājumam.

Kā zināms, es veidoju blogu sistēmu Blogiem.lv, kur katrs var ātri un
ērti izveidot savu blogu. Katram sistēmā publicētajam rakstam ir
pieejami arī RDF/XML metadati (galvenokārt, SIOC). Problēma ir tajā,
ka Google meklēšanas rezultātos bieži vien attēlo nevis XHTML lapu ar
rakstu, bet gan saiti uz RDF/XML datiem. Rezultātā lietotājs uzspiež
virsū un saņem nesakarīgu teksta savirknējumu (viņa acīm).

Kā piemēru varam apskatīt
http://www.google.com/search?hl=lv&client=opera&rls=en&hs=j1U&q=ventspils+strikes+back+site%3Ablogiem.lv&btnG=Mekl%C4%93t&lr=
meklēšanas rezultātus, kur pirmais rezultāts ir
http://pankukas.blogiem.lv/2007/08/28/9376.rdf , nevis
http://pankukas.blogiem.lv/2007/08/28/9376.html , kā to gribētu es un
droši vien arī 99,999% lietotāju, kas kaut ko meklē Gūglē.

Ok, ir jau skaidri daži iespējamie risinājumi, bet neviens īsti labi nepatīk:

1) Atsakamies no RDF/XML eksportēšanas.
2) Aizliedzam Google's botam tikt pie RDF/XML datiem pēc "user agent" virknes.

Varbūt kādam ir vēl kādas idejas? Varbūt ir bijusi darīšana ar šādu problēmu?

(Saprotu jau, ka šis īsti nav SemWeb, bet gan SEO jautājums, bet nu
neliela saistība ar tematu jau tomēr ir)

--
Kristaps Kaupe
Mob. t. +371 22013473
http://kristaps.blogiem.lv

Kalvis Apsītis

unread,
Jun 4, 2008, 7:36:17 AM6/4/08
to SemW...@googlegroups.com
Esiet sveicināti

No RDF/XML eksportēšanas noteikti nav vērts atteikties (t.i. Kristapa minētā (1) alternatīva tiešām nešķiet simpātiska). Savukārt (2) alternatīva dabā ir sastopama, t.i. Googlebot neindeksē RSS datus, bet gan lasītājam domāto rakstu saturu.

Ja RSS-a anotācijās ir rakstīts kaut kas vērtīgs (anotācijās izceltas lietas un atslēgvārdi, kuru nav pašā rakstā), tad indeksēšanas aizliegums nav labākais, ko var darīt. Varbūt tad ir vērts veidot lietotājam draudzīgus RSS barotņu attēlojumus, kuras Google noindeksēs - un no kurām var intuitīvi viegli aiziet uz attiecīgo rakstu - tos varētu ļaut robotam apstaigāt. Vienīgi tad jāpiesargājas no tā, ka RSS barotnes attēlojums būtiski nepārklājas ar lapas saturu - lai Google nesodītu par šķietamu "duplicate content" vai "link farms". Sk. http://www.google.com/support/webmasters/bin/topic.py?topic=8522 .

"robots.txt" faila piemērs, kur ierobežoti noteikti failu paplašinājumi, dots piemēram šeit:
http://blogsport.de/robots.txt :

User-agent: Googlebot
Disallow: /*/feed/$
Disallow: /*/feed/rss/$
Disallow: /*/feed/rdf/$
Disallow: /*/feed/atom/$
Disallow: /*/trackback/$
Disallow: /*.php$
Disallow: /*.js$
Disallow: /*.inc$
Disallow: /*.css$
Disallow: /*.gz$
Disallow: /*.cgi$
Disallow: /*.xhtml$


Tā kā Blogiem.lv izmanto 3.līmeņa domēnvārdus, tad var, teiksim, izveidot vienu galveno "robots.txt" faila kopiju, un par godu katram Blogiem.lv lietotājam - attiecīgu simlinku uz šo failu.) Tā lai būtu http://iesalnieks.blogiem.lv/robots.txt , http://kristaps.blogiem.lv/robots.txt utml., kas visi aizliedz indeksēt noteikta parauga URL adreses (kas satur fragmentu "/rss/" vai beidzas ar ".rdf").


Ar cieņu,
Kalvis


2008/6/4 Kristaps Kaupe <kristap...@inbox.lv>:

Kristaps Kaupe

unread,
Jun 4, 2008, 12:37:45 PM6/4/08
to SemW...@googlegroups.com
> Vienīgi tad jāpiesargājas no tā, ka RSS barotnes attēlojums būtiski
> nepārklājas ar lapas saturu - lai Google nesodītu par šķietamu "duplicate
> content" vai "link farms". Sk.
> http://www.google.com/support/webmasters/bin/topic.py?topic=8522

Domāju, ka Google nav tik duma un saprot, ka RSS padeves un citi
alternatīvi (ne-(X)HTML) formāti nav nekāds "duplicate content". Tacu
jebkurš SIOC eksporteris tad būtībā rada "duplicate content".

> "robots.txt" faila piemērs, kur ierobežoti noteikti failu paplašinājumi,
> dots piemēram šeit:
> http://blogsport.de/robots.txt :
>
> User-agent: Googlebot
> Disallow: /*/feed/$

Par šādu lietu nezināju.
Vecais robots.txt standarts nosaka tik, ka var norādīt prefiksus, bet
ne kaut kādas maskas. Droši vien mēģināšu kā pagaidu risinājumu
aizliegt tieši Googlebot'am indeksēt RDF'us caur robots.txt.

> Tā kā Blogiem.lv izmanto 3.līmeņa domēnvārdus, tad var, teiksim, izveidot
> vienu galveno "robots.txt" faila kopiju, un par godu katram Blogiem.lv
> lietotājam - attiecīgu simlinku uz šo failu.) Tā lai būtu

Nu ne gluži tā. Ar mod_rewrite visi tie daudzhostu joki tiek darīti. :)

Kriss Rauhvargers

unread,
Jun 5, 2008, 12:10:00 AM6/5/08
to SemW...@googlegroups.com
Pieņemot, ka RDF dokuments tāds pats XML vien ir, varbūt var vienkārši
pieklabināt klāt XSLT transformāciju uz HTML?
No RDF faila puses tas izpaustos kā tikai viena papildus elementa
pievienošana (apmēram kā <?xml-stylesheet type="text/xml"
media="screen" href="sioc.xsl"?>), bet grafiskā pārlūka lietotājam
parādītos jau stipri baudāmāks saturs.
Varētu cerēt, ka tas nesabojā RDF dokumenta būtību, jo "normāli",
t.i., nevizuāli, aģenti šo instrukciju ignorēs dēļ "media=screen".

Krišs


trešdiena, 2008, 4 jūnijs 19:37 Kristaps Kaupe
<kristap...@inbox.lv> rakstīja:

Reply all
Reply to author
Forward
0 new messages