Chrome ruft nicht existierende /cache/-URLs ab

Gustaf Mossakowski

unread,

May 30, 2012, 3:41:25 PM5/30/12

to

Hallo,

bei mir mehren sich 404-Fehler, die vermutlich von Nutzern von Google
Chrome verursacht werden:

Von

http://www.example.org/some/path/to.html

wird dann eine URL unter

http://www.example.org/some/path/cache/9cfd009e43704006e16e06f004decbd5

abgerufen. 9cfd009e43704006e16e06f004decbd5 ist manchmal genau das, kann
aber auch irgendein anderer Hash (?) sein.

Wo finde ich dazu etwas, wie ich das ausstellen kann bzw. warum der
Browser das überhaupt macht?

Viele Grüße
Gustaf

Markus Grob

unread,

May 30, 2012, 5:43:46 PM5/30/12

to

Gustaf Mossakowski schrieb:

> abgerufen. 9cfd009e43704006e16e06f004decbd5 ist manchmal genau das, kann
> aber auch irgendein anderer Hash (?) sein.
>
> Wo finde ich dazu etwas, wie ich das ausstellen kann bzw. warum der
> Browser das überhaupt macht?

Es gibt mehrere referrer in dieser Hinsicht, welche den Browser dazu
animieren, die Seite komplett neu zu laden. Ich könnte mir vorstellen,
dass Google die Seite so gespeichert hat und mit der Googlesuche kommen
die Leute dann halt auf die gespeicherte Seite, welche der Googlebot
gespeichert hat.

Gruss, Markus

Gustaf Mossakowski

unread,

May 31, 2012, 11:10:46 AM5/31/12

to

Markus Grob schrieb:

Das verstehe ich nicht. Was für Referrer? Die Referrer sind hier ganz
normale, gültige URLs, abgerufen werden URLs, die auf ein
Verzeichnis(-bestandteil) cache/ im aktuellen Verzeichnis verweisen und
dort dann auf eine Ressource mit dem Namen
9cfd009e43704006e16e06f004decbd5 oder so ähnlich. Es gab definitiv nie
Inhalte unter dieser URL, das Phänomen trat auch auf anderen Websites
auf, die thematisch komplett andere Bereiche abdeckten.

Ich hab mal gerade bei den Google Webmaster Tools gesucht, konnte dazu
bei den betroffenen Sites aber auch nichts finden.

Viele Grüße
Gustaf

Christoph Schneegans

unread,

May 31, 2012, 2:42:31 PM5/31/12

to

Gustaf Mossakowski schrieb:

> bei mir mehren sich 404-Fehler, die vermutlich von Nutzern von Google
> Chrome verursacht werden:
>
> Von
>
> http://www.example.org/some/path/to.html
>
> wird dann eine URL unter
>
> http://www.example.org/some/path/cache/9cfd009e43704006e16e06f004decbd5
>
> abgerufen.

Ich habe mal spaßeshalber in PowerShell per

dir *.log | gc | where { $_ -match '/cache/[a-f0-9]{32}\s' }

meine Logfiles der letzten zehn Jahre durchsucht – es gab genau einen
Treffer, der dann aber exakt auf deine Beschreibung paßt, und zwar
gerade vor zwei Wochen. Keine Ahnung, was Chrome sich davon
verspricht.

--
<http://schneegans.de/computer/safer/> · SAFER mit Windows

Bjoern Hoehrmann

unread,

May 31, 2012, 4:24:29 PM5/31/12

to

* Christoph Schneegans wrote in de.comm.infosystems.www.authoring.misc:

>Ich habe mal spaßeshalber in PowerShell per
>
> dir *.log | gc | where { $_ -match '/cache/[a-f0-9]{32}\s' }
>
>meine Logfiles der letzten zehn Jahre durchsucht – es gab genau einen
>Treffer, der dann aber exakt auf deine Beschreibung paßt, und zwar
>gerade vor zwei Wochen. Keine Ahnung, was Chrome sich davon
>verspricht.

Die Problembeschreibung bisher ist arg unzureichend, aber meine Glas-
kugel schlägt vor, das könnte mit der "prefetch"-Funktion in Google
Chrome zusammenhängen. Am Rande sei bemerkt, dass Google diverse Dinge
zu '9cfd009e43704006e16e06f004decbd5' findet.
--
Björn Höhrmann · mailto:bjo...@hoehrmann.de · http://bjoern.hoehrmann.de
Am Badedeich 7 · Telefon: +49(0)160/4415681 · http://www.bjoernsworld.de
25899 Dagebüll · PGP Pub. KeyID: 0xA4357E78 · http://www.websitedev.de/

Christoph Schneegans

unread,

May 31, 2012, 5:22:00 PM5/31/12

to

Bjoern Hoehrmann schrieb:

> Die Problembeschreibung bisher ist arg unzureichend, (...)

Ich fand Gustafs Beschreibung durchaus nachvollziehbar.
<http://schneegans.de/temp/chrome-cache-log.html> zeigt einen
Auszug aus meinem Webserver-Logfile, zwecks besserer Lesbarkeit
etwas umgestaltet.

--
<http://schneegans.de/web/kanonische-adressen/> · Gute URLs

Gustaf Mossakowski

unread,

May 31, 2012, 6:15:43 PM5/31/12

to

Bjoern Hoehrmann schrieb:

> Die Problembeschreibung bisher ist arg unzureichend, aber meine Glas-
> kugel schlägt vor, das könnte mit der "prefetch"-Funktion in Google
> Chrome zusammenhängen.

Hmm. Prefetch ruft im Voraus bestehende URLs ab. Hier werden aber nicht
existierende URLs abgerufen.

Eine etwas genauere Beschreibung des Problems kann ich geben, zusammen
mit Logfileauszügen unter <http://www.koenige.org/temp/logs.txt> (das
sind nur Auszüge, es sind heute deutlich mehr Zugriffe auf die
betreffende Site gekommen.

- Die Zugriffe kommen von »Mozilla/5.0 (Windows NT 5.1)
AppleWebKit/536.5 (KHTML, like Gecko) Chrome/19.0.1084.52 Safari/536.5«,
aber auch von mindestens einer älteren Version
- Nach dem ersten Abruf wird immer nur die erste der drei CSS-Dateien
abgerufen, Layout-Bilder (Logo, favicon) werden nicht abgerufen. Das ist
etwas unorthodox, aber vermutlich handelt es sich um einen wiederholten
Zugriff auf die Website.
- Jedem Aufruf folgt 2 sec später ein Abruf mit einer cache-URL. Bspw.
GET /turnier/u10/tabelle/ HTTP/1.1
GET /turnier/u10/tabelle/cache/9cfd009e43704006e16e06f004decbd5 HTTP/1.1
oder
GET /turnier/u25b/liverunde7.html
GET /turnier/u25b/cache/9cfd009e43704006e16e06f004decbd5 HTTP/1.1
- Mit den Seiten werden keine vernünftigen Cache-Header mitgeschickt wie
ETag oder Last-Modified. Das war auch bei der anderen Site so, die
betroffen war.
- die Abrufe erfolgen von HanseNet und Kabel Deutschland, scheinen ganz
normale IPs zu sein

> Am Rande sei bemerkt, dass Google diverse Dinge
> zu '9cfd009e43704006e16e06f004decbd5' findet.

Das sind aber alles nur Zugriffsstatistiken oder Sites, die unter jeder
ihnen dargebotenenen URL etwas zurückliefern. Genauso verhält es sich
mit anderen Hashes. Dass die Hashes auch bei anderen Sites vorkommen,
könnte bedeuten, dass es nur einen begrenzten Umfang an verschiedenen
Hashes gibt.

Viele Grüße
Gustaf

Ulf K.adner

unread,

Jun 1, 2012, 7:21:16 AM6/1/12

to

Am 30.05.2012 21:41, schrieb Gustaf Mossakowski:

> bei mir mehren sich 404-Fehler, die vermutlich von Nutzern von Google
> Chrome verursacht werden:
>
> Von
> http://www.example.org/some/path/to.html
>
> wird dann eine URL unter
> http://www.example.org/some/path/cache/9cfd009e43704006e16e06f004decbd5
>
> abgerufen. 9cfd009e43704006e16e06f004decbd5 ist manchmal genau das, kann
> aber auch irgendein anderer Hash (?) sein.

Warum so strikt? Das da Chrome als UA steht ist ja nicht ein Indikator
dafür das Chrome auch genutzt wurde.

Gerade bei seltsam anmutenden Urls gehe ich eher davon aus das hier
irgendein Scanner oder sonstiges Tool aus dieser Softwarekategorie
genutzt wird.

> Wo finde ich dazu etwas, wie ich das ausstellen kann bzw. warum der
> Browser das überhaupt macht?

Ist halt die Frage ob das überhaupt etwas mit dem o.G. Browser zu tun hat.

MfG, Ulf

Markus Grob

unread,

Jun 4, 2012, 6:24:09 AM6/4/12

to

Gustaf Mossakowski schrieb:
> Markus Grob schrieb:

>> Es gibt mehrere referrer in dieser Hinsicht, welche den Browser dazu
>> animieren, die Seite komplett neu zu laden.

> Das verstehe ich nicht. Was für Referrer? Die Referrer sind hier ganz
> normale, gültige URLs,

Du kannst angeben, dass die Seiten bei jedem Besuch neu geladen werden
sollen und nicht aus dem Cache kommen dürfen.
Allerdings kann es sein, dass ein Googlebot (oder sonstwer) die Seiten
direkt abruft und dann so für die Googlesuche abspeichert. Kommt dann
ein Besucher über die Googlesuche, dann ruft er die Seiten direkt ab.

Keine Ahnung, warum er dann nichtexistierende Seiten abruft, doch es war
auch nur eine Vermutung.

Gruss, Markus