Chyba Googlebot ?

145 views
Skip to first unread message

udm

unread,
May 10, 2012, 12:14:10 PM5/10/12
to GUG.cz - VYHLEDÁVAČ: Jak najít cokoli
Dobrý den všem,

počínaje dnešní 4 hodinou ráno se začla dít podivná věc a jiné
vysvětlení, než že se asi vloudila Googlu někde chyba do Googlebotu mě
nenapadla a ani lidi z oboru, se kterými jsem problém konzultoval.

Provozujeme desítky webů, všechny běží jednom stejném našem engine,
každý web na své vlastní doméně. Dneska ráno se začalo dít to, že
Googlebot začal navštěvovat URL adresy webů, které patří jinému webu a
doméně.

POZNÁMKA: abych netvořil odkazy, přes které by vyhledávače se snažily
indexovat nesmyslná URL, tak jsem dal mezeru mezi doménu a URL
scriptu.

Příklad:

URL: http://www.sexyplastenky.cz /vozidlo/chevrolet-astro-589
Remote Addr: 66.249.66.28
Remote Host: crawl-66-249-66-28.googlebot.com
Accept Language:
http_referer:
http_user_agent: Mozilla/5.0 (compatible; Googlebot/2.1; +http://
www.google.com/bot.html)

Web http://www.sexyplastenky.cz je seznamka a vůbec nemá co do činění
s autami.
Web http://cs.chevroletclub.net je autoklub.

chybně volané URL:
http://www.sexyplastenky.cz /vozidlo/chevrolet-astro-589

správně patří URL sem:
http://cs.chevroletclub.net/vozidlo/chevrolet-astro-589

Další chybně volaná URL (jen za dnešek je jich už asi 30) - pár
příkladů:
http://www.sexyplastenky.cz /vozidlo/skoda-octavia-ii-combi-1074
http://www.sexyplastenky.cz /vozidlo/jeep-cherokee-xj-905
http://www.sexyplastenky.cz /vozidlo/mercedes-benz-c-class-338

Za celé roky co ty weby provozujeme se tohle stalo poprvé. Vím to díky
tomu, že nám chodí notifikace v případě chybně volaných URL (kdy se
volá funkcionalita na webu, která nemá být používána a není zapnuta).
Dneska je poprvé v historii, co notifikace přišla. To víme jistě.

Výše uvedené údaje (IP, referer, ...) jsou z logu NGINX. Takže je
jisté, že takový HTTP požadavek na server skutečně přišel.

Všechny volání neplatných URL byly od Google. Samozřejmě pak když jsem
zkoušel v prohlížeči zobrazit to chybné URL, přišla mi notifikace z mé
IP. Díky tomu, že na webu je Facebook like tlačítko, tak Facebook URL
Linter si požadavek také udělal (aby si stáhl metadata).

Jinak žádný HTTP referer ... tak kde na ty nesmyslné kombinace
GoogleBot přišel ?

Jsem zvědavý, zda někoho napadne jakékoliv možné vysvětlení této
zvláštnosti. Bohužel na Google žádný kontakt neznám, jinak bych se
jich zkusil rovnou dotázat.

Pravda teda je, že když jsem hledal v RIPE databázi IP adresu, z které
"GoogleBot chodí" https://apps.db.ripe.net/search/query.html?searchtext=66.249.66.28&search%3AdoSearch=Search#resultsAnchor
tak tam nikde není vidět, že by IP patřily Google ... proč tady u té
IP adresy je uvedena IANA netuším ... znamená to, že se za GoogleBot
někdo vydává a není to ve skutečnosti GoogleBot ? Samozřejmě je jasné,
jak jednoduché je v HTTP požadavku poslat jakýkoliv nesmysl v údaji
http_user_agent ... vracet pro DNS požadavek falešný hostname (v tomto
případě 66.249.66.28) asi taky nebude problém ?

Pokud to není GoogleBot, je to nějaká snaha o útok či co by to mohlo
být ? Samozřejmě útoků na server je denně tisíce pokusů, desítky
různých druhů ... mezi ně patří zkoušení volání adres URL scriptů
nejběžnějších redakčních systémů, kde někdo odhalil bezpečnostní díru
- typicky snaha o "remote include" souboru či spouštění shellových
příkazů, atd.

No tak 66.249.66.28 je opravdu GoogleBot ... našel jsem tu IP adresu v
archivu Google, protože na webu se zobrazuje IP adresa návštěvníka.
Takže opravdu GoogleBot. Tak už fakt nevím.

Za každou radu či názor předem všem děkujeme.

Pavel
Reply all
Reply to author
Forward
0 new messages