Hvor sikker er robots.txt?

Kurt Hansen

unread,

May 29, 2012, 7:16:10 AM5/29/12

to

Hvis der i en robots.txt står f.eks.:

User-agent: *
Crawl-delay: 5
Disallow: /cgi-bin/
Disallow: /mappenavn/mp3/
Disallow: /mappenavn/img/
o.s.v.

- er man så sikret mod grovhøstning med en offline reader / webripper
eller andre værktøj til massedownload af materiale?
--
Venlig hilsen
Kurt Hansen

Leif Neland

unread,

May 29, 2012, 8:44:35 AM5/29/12

to

Den 29-05-2012 13:16, Kurt Hansen skrev:
> Hvis der i en robots.txt står f.eks.:
>
> User-agent: *
> Crawl-delay: 5
> Disallow: /cgi-bin/
> Disallow: /mappenavn/mp3/
> Disallow: /mappenavn/img/
> o.s.v.
>
> - er man så sikret mod grovhøstning med en offline reader / webripper
> eller andre værktøj til massedownload af materiale?

Nej da. De grumme fyre er da bare glade for at få at vide hvad du anser
som interessant.

Robots.txt er kun en henstilling til de flinke fyre.

Vil du sikre dig mod downloads, skal du lave en .htacces med "deny from all"

:-)

Leif

Kurt Hansen

unread,

May 29, 2012, 9:53:12 AM5/29/12

to

Den 29/05/12 14.44, Leif Neland skrev:

Orkæj, men nu har jeg fået blod på tænderne. Jeg har installeret et
gratis program på min Mac og testet på et site jeg kender og som vi er
branchebeslægtede med. Jeg ved hvor deres billeder ligger og beder så
ripperen om at downloade hele lortet. Det eneste jeg modtager er filen
"robots.txt", hvor jeg ganske rigtigt kan se præcist hvad de ønsker
beskyttet, så eet eller andet sted /må/ det da have en virkning?

Dennis Munding

unread,

May 29, 2012, 12:13:56 PM5/29/12

to

"Kurt Hansen" <ku...@ugyldig.invalid> skrev i meddelelsen
news:4fc4d4c8$0$26335$c3e8da3$40cd...@news.astraweb.com...

> Orkæj, men nu har jeg fået blod på tænderne. Jeg har installeret et gratis
> program på min Mac og testet på et site jeg kender og som vi er
> branchebeslægtede med. Jeg ved hvor deres billeder ligger og beder så
> ripperen om at downloade hele lortet. Det eneste jeg modtager er filen
> "robots.txt", hvor jeg ganske rigtigt kan se præcist hvad de ønsker
> beskyttet, så eet eller andet sted /må/ det da have en virkning?

Med andre ord indrømmer du altså "for åben skærm", at du bevidst forsøger at
begå og udføre røveri mod en konkurrent?!?

Med meget undrende hilsen
--
Dennis Munding
a.k.a. The Eye - Member of the PosseGrim Squad
http://pgsquad.com/
"When you hear the wind - you're already dead..."

Asger Joergensen

unread,

May 29, 2012, 12:36:35 PM5/29/12

to

Hej Kurt

Kurt Hansen skrev:

> Den 29/05/12 14.44, Leif Neland skrev:
> > Den 29-05-2012 13:16, Kurt Hansen skrev:
> > > Hvis der i en robots.txt står f.eks.:
> > >
> > > User-agent: *
> > > Crawl-delay: 5
> > > Disallow: /cgi-bin/
> > > Disallow: /mappenavn/mp3/
> > > Disallow: /mappenavn/img/
> > > o.s.v.
> > >
> > > - er man så sikret mod grovhøstning med en offline reader / webripper
> > > eller andre værktøj til massedownload af materiale?
>
> > Nej da. De grumme fyre er da bare glade for at få at vide hvad du anser
> > som interessant.
> >
> > Robots.txt er kun en henstilling til de flinke fyre.
> >
> > Vil du sikre dig mod downloads, skal du lave en .htacces med "deny from
> > all"
> >
> > :-)
>

> filen "robots.txt", hvor
> jeg ganske rigtigt kan se præcist hvad de ønsker beskyttet, så eet eller andet

> sted må det da have en virkning?

Det er da ikke det man vil have beskyttet som man putter i robots.txt,
det er i hvert tilfælde ikke sådan at jeg bruger den fil.
Jeg ønsker ikke at google og andre robotter skal downloade mine rar, zip
og exe filer der bliver hentet via noget php så den php fil har jeg
Disallow'd. Der kan også dreje sig om tunge filer med billeder uden text
eller næsten uden tekst hvor det ikke giver mening at de bliver indexeret.

Det første formål jeg ser med robots.txt er at spare båndbredde og helt klart
ikke beskyttelse, det gøres som Leif siger med .htacces.

Venlig hilsen
Asger-P
http://Asger-P.dk
http://Asger-P.dk/software

Kurt Hansen

unread,

May 29, 2012, 12:54:10 PM5/29/12

to

Den 29/05/12 18.13, Dennis Munding skrev:

> "Kurt Hansen" <ku...@ugyldig.invalid> skrev i meddelelsen
> news:4fc4d4c8$0$26335$c3e8da3$40cd...@news.astraweb.com...
>> Orkæj, men nu har jeg fået blod på tænderne. Jeg har installeret et
>> gratis program på min Mac og testet på et site jeg kender og som vi er
>> branchebeslægtede med. Jeg ved hvor deres billeder ligger og beder så
>> ripperen om at downloade hele lortet. Det eneste jeg modtager er filen
>> "robots.txt", hvor jeg ganske rigtigt kan se præcist hvad de ønsker
>> beskyttet, så eet eller andet sted /må/ det da have en virkning?

> Med andre ord indrømmer du altså "for åben skærm", at du bevidst
> forsøger at begå og udføre røveri mod en konkurrent?!?
>
>
> Med meget undrende hilsen

Det er ikke en konkurrent, men en samarbejdspartner. Du kan roligt
slappe af, da jeg har helt styr på hvad jeg gør i den henseende.

scootergrisen

unread,

May 29, 2012, 5:24:23 PM5/29/12

to

Den 29-05-2012 13:16, Kurt Hansen skrev:

> Hvis der i en robots.txt står f.eks.:
>
> User-agent: *
> Crawl-delay: 5
> Disallow: /cgi-bin/
> Disallow: /mappenavn/mp3/
> Disallow: /mappenavn/img/
> o.s.v.
>
> - er man så sikret mod grovhøstning med en offline reader / webripper
> eller andre værktøj til massedownload af materiale?

Nope.

Det bare en måde og fortælle software at de ikke ska søge der og der og der.
Om det følger det er ikke sikkert.

Du kan vel sammenligne det med et "rygning forbudt" skildt.
Nogen fatter godt de ikke skal ryge der mens nogen gør det alligevel.

Og der skal da noget være noget software som checke robots.txt for at se
hvilke mapper der kan hentes ting fra også forsøge det.

Stig Johansen

unread,

May 30, 2012, 2:56:10 AM5/30/12

to

Kurt Hansen wrote:

> Orkæj, men nu har jeg fået blod på tænderne. Jeg har installeret et
> gratis program på min Mac og testet på et site jeg kender og som vi er
> branchebeslægtede med. Jeg ved hvor deres billeder ligger og beder så
> ripperen om at downloade hele lortet. Det eneste jeg modtager er filen
> "robots.txt", hvor jeg ganske rigtigt kan se præcist hvad de ønsker
> beskyttet, så eet eller andet sted /må/ det da have en virkning?

Måske med det program...?

Prøv med wget med dinfavorit useragent osv.

http://www.macupdate.com/app/mac/33951/wget

--
Med venlig hilsen
Stig Johansen

Kurt Hansen

unread,

May 30, 2012, 4:57:46 AM5/30/12

to

Den 30/05/12 08.56, Stig Johansen skrev:

Har installeret det på Mac'en og kørt mange forskellige eksempler i
Terminal, f.eks.

wget --random-wait -r -p -e robots=off -U mozilla http://www.xxx.xx

Alle varianter ender op med 404: File not found.

Nå, vi skal være sammen med de fleste af dem i weekenden på en messe i
Tyskland og så vil jeg da spørge deres webmaster hvad det er han har
gang i -. eller måske ligger fejlen hos mig?

Nå, formålet er jo heller ikke at udøve piratvirksomhed, men at forsøge
at sætte mig i piraters sted m.h.t. at beskytte vort eget materiale.

Leif Neland

unread,

May 30, 2012, 8:00:17 AM5/30/12

to

Den 30-05-2012 10:57, Kurt Hansen skrev:

> Nå, formålet er jo heller ikke at udøve piratvirksomhed, men at forsøge
> at sætte mig i piraters sted m.h.t. at beskytte vort eget materiale.

Glem det.

robots.txt svarer til at skrive "Må ikke åbnes" på en kasse.
De velopdragne lader være med at åbne.
Resten regner med at der må være noget interessant i kassen, siden der
står "Må ikke åbnes", og åbner kassen.

Hvilket minder mig om programleverandøren, der kaldte README.TXT for
DO_NOT_READ-CONFIDENTAL.TXT
Så var der lidt flere der læste den :-)

Fik du 404, må du gøre noget galt...

Hvad hedder sitet? evt svar privat.

Leif

Leif Neland

unread,

May 31, 2012, 7:34:09 PM5/31/12

to

Den 30-05-2012 10:57, Kurt Hansen skrev:

> Har installeret det på Mac'en og kørt mange forskellige eksempler i
> Terminal, f.eks.
>
> wget --random-wait -r -p -e robots=off -U mozilla http://www.xxx.xx
>
> Alle varianter ender op med 404: File not found.
>

Har du brug for en backup af din shop? :-)
Downloaded: 4241 files, 379M in 26m 37s (243 KB/s)

Sitet må checkke på user-agent, fordi jeg fik først en 406 Not
Acceptable, men da jeg ændrede user-agent til 'Netscape 1.0/CPM3' gik
det strygende :-)

Leif

Kurt Hansen

unread,

Jun 1, 2012, 11:14:28 AM6/1/12

to

Den 01/06/12 01.34, Leif Neland skrev:

> Den 30-05-2012 10:57, Kurt Hansen skrev:
>> Har installeret det på Mac'en og kørt mange forskellige eksempler i
>> Terminal, f.eks.
>>
>> wget --random-wait -r -p -e robots=off -U mozilla http://www.xxx.xx
>>
>> Alle varianter ender op med 404: File not found.

> Har du brug for en backup af din shop? :-)
> Downloaded: 4241 files, 379M in 26m 37s (243 KB/s)

Hvilket site er det? Det antal filer siger mig ikke rigtig noget, så det
er vel ikke en af vores? Ikke at det gør mig noget, hvis du har brugt os
som prøveklud, men det kunne da være morsomt at vide det.

> Sitet må checkke på user-agent, fordi jeg fik først en 406 Not
> Acceptable, men da jeg ændrede user-agent til 'Netscape 1.0/CPM3' gik
> det strygende :-)

Præcist min pointe. Du kan noget som jeg ikke kan. Da du er dygtigere
end mig (og det er der sikkert mange andre der også er), har jeg ingen
chancer for at imødegå grovkopiering.

Det er naturligvis "kun" et spørgsmål om, at jeg sætter mig ind i
tingene og læser op på det der handler om serversikkerhed, men det hele
går så stærkt for tiden, at ressourcerne simpelthen ikke rækker til
mange timers læsning. Imens fosser filerne ud af portene :-(

Kurt Hansen

unread,

Jun 3, 2012, 6:41:29 AM6/3/12

to

Den 01/06/12 01.34, Leif Neland skrev:

wget: unable to resolve host address `1.0'

Leif Neland

unread,

Jun 3, 2012, 7:13:23 AM6/3/12

to

Den 03-06-2012 12:41, Kurt Hansen skrev:
> Den 01/06/12 01.34, Leif Neland skrev:
>>

>> Sitet må checkke på user-agent, fordi jeg fik først en 406 Not
>> Acceptable, men da jeg ændrede user-agent til 'Netscape 1.0/CPM3' gik
>> det strygende :-)
>
> wget: unable to resolve host address `1.0'

Anførselstegn er din ven :-)

wget -r --user-agent "Netscape 1.0/CPM3" www.site.dom

Leif

Kurt Hansen

unread,

Jun 5, 2012, 2:12:18 AM6/5/12

to

Den 03/06/12 13.13, Leif Neland skrev:

> Den 03-06-2012 12:41, Kurt Hansen skrev:
>> Den 01/06/12 01.34, Leif Neland skrev:
>>>

>>> Sitet m� checkke p� user-agent, fordi jeg fik f�rst en 406 Not
>>> Acceptable, men da jeg �ndrede user-agent til 'Netscape 1.0/CPM3' gik

>>> det strygende :-)
>>
>> wget: unable to resolve host address `1.0'
>

> Anf�rselstegn er din ven :-)

>
> wget -r --user-agent "Netscape 1.0/CPM3" www.site.dom

Jo, s� virker det, men der downloades hele sitet. S� snart man s�tter
undermapper p�, siger den igen "404".

Leif Neland

unread,

Jun 5, 2012, 2:44:01 AM6/5/12

to

Den 05-06-2012 08:12, Kurt Hansen skrev:
> Den 03/06/12 13.13, Leif Neland skrev:
>> Den 03-06-2012 12:41, Kurt Hansen skrev:
>>> Den 01/06/12 01.34, Leif Neland skrev:
>>>>

>>>> Sitet må checkke på user-agent, fordi jeg fik først en 406 Not
>>>> Acceptable, men da jeg ændrede user-agent til 'Netscape 1.0/CPM3' gik

>>>> det strygende :-)
>>>
>>> wget: unable to resolve host address `1.0'
>>

>> Anførselstegn er din ven :-)

>>
>> wget -r --user-agent "Netscape 1.0/CPM3" www.site.dom
>

> Jo, så virker det, men der downloades hele sitet. Så snart man sætter
> undermapper på, siger den igen "404".

Ja. Med mindre du får en liste over filer, når du med din browser går
ind på en undermappe, så skal du spørge specifikt efter hver fil, for at
serveren vil give dig den.

F.ex. http://www.paradiss.dk/images/produkter/ giver
Directory Listing Denied
This Virtual Directory does not allow contents to be listed.

Du kan downloade hele sitet, eller rettere de billeder og sider, der er
refereret til, når du starter i roden, eller en anden side. Men altså
kun de billeder, hvis navne står i de sider, du allerede har hentet.

Og så kan du gætte, f.ex. at hvis årsregnskabet 2010 hed
aarsregnskab_2010.pdf, så hedder regnskabet for 2011 nok
aarsregnskab_2011.pdf. Så hvis filen ligger der, men linket til den
først lægges ud efter offentliggørslen, så skal du lige finde en
proxyserver og en diskret børshandler :-)

Hvis Multiphhone Records har fortløbende numre, og kalder deres billeder
mpr-00001-front.jpg, mpr-00001-back.jpg osv, skal der ikke den store
fantasi til at hente alle deres coverfotos.

Leif

Kurt Hansen

unread,

Jun 5, 2012, 6:27:41 AM6/5/12

to

Den 05/06/12 08.44, Leif Neland skrev:

> Den 05-06-2012 08:12, Kurt Hansen skrev:
>> Den 03/06/12 13.13, Leif Neland skrev:
>>> Den 03-06-2012 12:41, Kurt Hansen skrev:
>>>> Den 01/06/12 01.34, Leif Neland skrev:
>>>>>
>>>>> Sitet må checkke på user-agent, fordi jeg fik først en 406 Not
>>>>> Acceptable, men da jeg ændrede user-agent til 'Netscape 1.0/CPM3' gik
>>>>> det strygende :-)
>>>>
>>>> wget: unable to resolve host address `1.0'
>>>
>>> Anførselstegn er din ven :-)
>>>
>>> wget -r --user-agent "Netscape 1.0/CPM3" www.site.dom
>>
>> Jo, så virker det, men der downloades hele sitet. Så snart man sætter
>> undermapper på, siger den igen "404".

> Ja. Med mindre du får en liste over filer, når du med din browser går
> ind på en undermappe, så skal du spørge specifikt efter hver fil, for at
> serveren vil give dig den.
>
> F.ex. http://www.paradiss.dk/images/produkter/ giver
> Directory Listing Denied
> This Virtual Directory does not allow contents to be listed.
>
> Du kan downloade hele sitet, eller rettere de billeder og sider, der er
> refereret til, når du starter i roden, eller en anden side. Men altså
> kun de billeder, hvis navne står i de sider, du allerede har hentet.

Jeg får en idé! Hvis pirater har samme problem - at de kun kan downloade
hele sitet - fylder jeg bare overskydende plads på serveren med
junkfiler i monsterstørrelse. Så ka' de hygge sig, ka' de :-)

Leif Neland

unread,

Jun 5, 2012, 7:20:24 AM6/5/12

to

Den 05-06-2012 12:27, Kurt Hansen skrev:
> Den 05/06/12 08.44, Leif Neland skrev:

>> Du kan downloade hele sitet, eller rettere de billeder og sider, der er

>> refereret til, n�r du starter i roden, eller en anden side. Men alts�
>> kun de billeder, hvis navne st�r i de sider, du allerede har hentet.
>
> Jeg f�r en id�! Hvis pirater har samme problem - at de kun kan downloade
> hele sitet - fylder jeg bare overskydende plads p� serveren med
> junkfiler i monsterst�rrelse. S� ka' de hygge sig, ka' de :-)

Svaret p� det er kun at downloade html'en og lave en liste over
billeder, der er refereret tit.

S� er det sikkert let for et menneske at opdage systemet i hvad der er
skidt og kanel. Evt ud fra hvor der er linket til det.

S� i fase to s�tter man robotten til at hente alle de billeder, man
mener er interessante.

V�benkapl�bet n�r til at din modpart har en flok indiske b�rn siddende i
en fabrikshal og ser p� din side, og kun henter det rigtige. Gennem en
proxyserver i Valby, s� du ikke kan lukke af p� landets ip.

S� er sp�rgsm�let om det, hvis det virkeligt er s� vigtigt at beskytte
dine billeder, om der skal s�ttes et vandm�rke ind p� billederne.

S� er det tv�rtimod en fordel at f� spredt en masse billeder med
"www.danokart.dk" ovenp�; det vil jo give reklame og forh�bentlig kunder
i butikken.

Leif

Ps: Jeg ved godt dit dom�ne ikke hedder det, men jeg vil jo ikke
reklamere :-)