Google Groups no longer supports new Usenet posts or subscriptions. Historical content remains viewable.
Dismiss

statistico.dk

47 views
Skip to first unread message

Anders Wegge Keller

unread,
May 7, 2012, 2:32:28 AM5/7/12
to

Jeg har fået besøg af en crawler fra statistico.dk. Angiveligt er det
en crawler der samler information om danske domæner. Det lyder jo
vældigt fornuftigt, men den har godt nok ikke en pæn adfærd:

46.4.130.28 - - [07/May/2012:08:18:56 +0200] "GET / HTTP/1.1" 200 1921
"-" "Statastico DK bot - Learn more at: statastico.dk/bot"
46.4.130.28 - - [07/May/2012:08:18:56 +0200] "GET /ucp.php?mode=login
HTTP/1.1" 404 205 "-" "Mozilla/5.0 (X11; U; Linux i686; ru;
rv:1.9.2.24) Gecko/20111107 Ubuntu/10.04 (lucid)
Firefox/3.6.24"
46.4.130.28 - - [07/May/2012:08:18:56 +0200] "GET
/3rdparty/speller/spellChecker.js HTTP/1.1" 404 230 "-"
"Mozilla/5.0 (X11; U; Linux i686; ru; rv:1.9.2.24)
Gecko/20111107 Ubuntu/10.04 (lucid) Firefox/3.6.24"
46.4.130.28 - - [07/May/2012:08:18:56 +0200] "GET /admin/login.asp
HTTP/1.1" 404 213 "-" "Mozilla/5.0 (X11; U; Linux i686; ru;
rv:1.9.2.24) Gecko/20111107 Ubuntu/10.04 (lucid)
Firefox/3.6.24"
46.4.130.28 - - [07/May/2012:08:18:56 +0200] "GET /index.php/admin/
HTTP/1.1" 404 214 "-" "Mozilla/5.0 (X11; U; Linux i686; ru;
rv:1.9.2.24) Gecko/20111107 Ubuntu/10.04 (lucid)
Firefox/3.6.24"
46.4.130.28 - - [07/May/2012:08:18:56 +0200] "GET /umbraco/login.aspx
HTTP/1.1" 404 216 "-" "Mozilla/5.0 (X11; U; Linux i686; ru;
rv:1.9.2.24) Gecko/20111107 Ubuntu/10.04 (lucid)
Firefox/3.6.24"
46.4.130.28 - - [07/May/2012:08:18:56 +0200] "GET /admincp/ HTTP/1.1"
404 206 "-" "Mozilla/5.0 (X11; U; Linux i686; ru;
rv:1.9.2.24) Gecko/20111107 Ubuntu/10.04 (lucid)
Firefox/3.6.24"
46.4.130.28 - - [07/May/2012:08:18:56 +0200] "GET
/wp-content/plugins/wp-e-commerce/ HTTP/1.1" 404 231 "-"
"Mozilla/5.0 (X11; U; Linux i686; ru; rv:1.9.2.24)
Gecko/20111107 Ubuntu/10.04 (lucid) Firefox/3.6.24"
46.4.130.28 - - [07/May/2012:08:18:56 +0200] "GET /typo3/ HTTP/1.1"
404 204 "-" "Mozilla/5.0 (X11; U; Linux i686; ru;
rv:1.9.2.24) Gecko/20111107 Ubuntu/10.04 (lucid)
Firefox/3.6.24"
46.4.130.28 - - [07/May/2012:08:18:56 +0200] "GET /admin/Systemfiles/
HTTP/1.1" 404 216 "-" "Mozilla/5.0 (X11; U; Linux i686; ru;
rv:1.9.2.24) Gecko/20111107 Ubuntu/10.04 (lucid)
Firefox/3.6.24"

Jeg har følgende anker:

1) Kigger ikke efter robots.txt
2) Sløret UA
3) Uregulerede requests
4) )Og det er den værste) aktiv proben efter administrative interfaces.

Har i andre set noget tilsvarende, og i givet fald, har i fundet ud
af om det er et joe-job, eller en decideret skummel crawler?


--
/Wegge

Leder efter redundant peering af dk.*,linux.debian.*

Klaus Alexander Seistrup

unread,
May 7, 2012, 12:30:10 PM5/7/12
to
Anders Wegge Keller skrev:

> [botten fra statastico.dk] har godt nok ikke en pæn adfærd:
>
> […]
>
> 46.4.130.28 - - [07/May/2012:08:18:56 +0200] "GET /ucp.php?mode=login
> HTTP/1.1" 404 205 "-" "Mozilla/5.0 (X11; U; Linux i686; ru;
> rv:1.9.2.24) Gecko/20111107 Ubuntu/10.04 (lucid)
> Firefox/3.6.24"
> […]

Jeg har kigge loggene igennem tilbage til starten af marts i år, og omtalte
bot har opført sig pænt (== udelukkende bedt om "GET / HTTP/1.1") på de
servere jeg har adgang til, og den har max rørt hvert domæne 2 gange på en
uge. Jeg har ikke sammenholdt dens forespørgsler med /robots.txt, men
umiddelbart er der ikke noget at sætte fingeren på hvad dét angår.

Samme IP-adresse, i øvrigt.

Hvis jeg havde været i din situation, havde jeg nok skrevet til WebCoders I/S
og spurgt hvad de har gang i…

Mvh,

--
Klaus Alexander Seistrup | Bitcoin tip jar
gopher://port70.dk/ | 1KLAUS2XgGoov4RwxbYoBWLvWUaLxcDZ5u

Christian Laursen

unread,
May 7, 2012, 12:30:37 PM5/7/12
to
On 05/07/12 08:32, Anders Wegge Keller wrote:
>
> Jeg har fået besøg af en crawler fra statistico.dk. Angiveligt er det
> en crawler der samler information om danske domæner. Det lyder jo
> vældigt fornuftigt, men den har godt nok ikke en pæn adfærd:

[SNIP]

> Jeg har følgende anker:
>
> 1) Kigger ikke efter robots.txt
> 2) Sløret UA
> 3) Uregulerede requests
> 4) )Og det er den værste) aktiv proben efter administrative interfaces.
>
> Har i andre set noget tilsvarende, og i givet fald, har i fundet ud
> af om det er et joe-job, eller en decideret skummel crawler?

Der hvor jeg har kigget i access-loggen, har den kun hentet forsiden -
dog fra et pænt antal forskellige sites. For ganske få requests var der
tale om den der firefox-agtige UA, men resten var statistico.dk-UA'en.

--
Christian Laursen

Anders Wegge Keller

unread,
May 7, 2012, 12:44:04 PM5/7/12
to
Klaus Alexander Seistrup <kl...@seistrup.dk> writes:

> Anders Wegge Keller skrev:
>
> > [botten fra statastico.dk] har godt nok ikke en pæn adfærd:
> >
> > […]
> >
> > 46.4.130.28 - - [07/May/2012:08:18:56 +0200] "GET /ucp.php?mode=login
> > HTTP/1.1" 404 205 "-" "Mozilla/5.0 (X11; U; Linux i686; ru;
> > rv:1.9.2.24) Gecko/20111107 Ubuntu/10.04 (lucid)
> > Firefox/3.6.24"
> > […]
>
> Jeg har kigge loggene igennem tilbage til starten af marts i år, og omtalte
> bot har opført sig pænt (== udelukkende bedt om "GET / HTTP/1.1") på de
> servere jeg har adgang til, og den har max rørt hvert domæne 2 gange på en
> uge. Jeg har ikke sammenholdt dens forespørgsler med /robots.txt, men
> umiddelbart er der ikke noget at sætte fingeren på hvad dét angår.
>
> Samme IP-adresse, i øvrigt.
>
> Hvis jeg havde været i din situation, havde jeg nok skrevet til
> WebCoders I/S og spurgt hvad de har gang i…

Det gjorde jeg, og fik et svar der i sin essens er:

Vi prøver på ingen måde at komme ind i administrationen på nogen
installationer, udelukkende tjekke om URL´en svarer så vi kan
afgøre hvilket CMS der er brugt.

Mine indvendinger overfor hyppighed, skiftende UA, og det geniale i
at lave et register over samtlige wordpress-installationer, så man
nemt kan finde dem, næste gang der er en vulnerability løs, faldt for
døve øren.

Klaus Alexander Seistrup

unread,
May 7, 2012, 12:57:22 PM5/7/12
to
Anders Wegge Keller skrev:

>> Hvis jeg havde været i din situation, havde jeg nok skrevet
>> til WebCoders I/S og spurgt hvad de har gang i…
>
> Det gjorde jeg, og fik et svar der i sin essens er:
>
> Vi prøver på ingen måde at komme ind i administrationen på
> nogen installationer, udelukkende tjekke om URL´en svarer
> så vi kan afgøre hvilket CMS der er brugt.

Det holder jo ikke en meter, det svar. Hvis de vil vide hvilket CMS
der er brugt, må de prøve at parse HTML'en og se om de kan få noget
brugbart ud af dét — det andet er lige til en blacklisting. Eller
man ku' lave en botfælde til deres åndsbollebot.

Christian Laursen

unread,
May 7, 2012, 1:05:54 PM5/7/12
to
De beder da vist nærmest om at folk blokerer for deres bot.

--
Christian Laursen

Anders Wegge Keller

unread,
May 7, 2012, 1:12:24 PM5/7/12
to
Jeg har fundet i alt 269 hits fra en god snes forskellige sites. 51
identificerer sig korrekt, mens resten er morphet ud over 28
forskellige UA'er, mestendels variationer over Firefox.

Serveren står i et datacenter, så jeg tvivler på at det skulle være
en ægte browser. I givet fald er det også en imponerende høj kadance
adresselinieoperatøren holder.

Og ikke et eneste af de 269 hits var på robots.txt.

Anders Wegge Keller

unread,
May 7, 2012, 1:18:32 PM5/7/12
to
Jeg tror vitterligt ikek manden ser problemet. Jeg har lige gravet
den anden mail frem, hvorfra jeg har plukket den afsluttende kommentar
(efter jeg har listet alle grundene til at lade være)


Med al respekt så er det det måske fordi du ser begrænsninger i
stedet for muligheder. Dem vi har talt med om det, som bliver
tilknyttet som eksperter indenfor forskellige områder har været
ret vilde med ideen. Der findes ikke en services lignende, og
f.eks. på webanalyse siden (analytics, Piwik m.f) er der meget
snak om forskellige juridiske ting i forhold til AMerikanske love
(bl.a. i forhold til cloud). Der har ikke været nogle tal til
rådighed så man kunne se hvor mange der har fravalgt analytics.

Måske du bare ikke er så vild med statistik som jeg er, men jeg
ville elske en god statistik over .dk domæner, så man måned for
måned kan følge med I hvilke CMS´er der vinder frem, hvor mange
der bruger analytics etc etc etc .


JKeg læser det som om det er en SEO/Marketing våd drøm, der nu skal
udleves, uanset hvor tåbelig den er.

Klaus Alexander Seistrup

unread,
May 7, 2012, 1:35:55 PM5/7/12
to
Anders Wegge Keller skrev:

> Og ikke et eneste af de 269 hits var på robots.txt.

Næh, det har du da ret i — /robots.txt bliver ikke hentet en eneste
gang.

Alt i alt lyder det som lisså slemme tåber som dem fra Netarkivet…
0 new messages