Google Groups no longer supports new Usenet posts or subscriptions. Historical content remains viewable.
Dismiss

Sikring af website mod botter der kopierer databaser

2 views
Skip to first unread message

Kurt Hansen

unread,
Jan 13, 2018, 11:56:26 AM1/13/18
to
Der er mange hjemmesideejere inden for slægtsforskning der har fået
kopieret deres data og databaser.

Jeg har lige købt anecentralen.dk, men lige nu har jeg ikke fuldt
overblik over hvad den skal indeholde.

Jeg har bl.a. tænkt mig at vise min egen stamtavle i et købefærdigt
system: http://www.tngsitebuilding.com/, som er meget udbredt i branchen.

Der ud over vil jeg gerne lave en database med et vielsesregister med 29
felter og 6.180 poster, men det vender jeg tilbage til.

Mit spørgsmål er lige nu: Hvordan sikrer man sådanne databaser mod
kopiering?

Det er et Micro webhotel her:
https://hosting4real.net/services/webhoteller
--
Venlig hilsen
Kurt Hansen

Arne Vajhøj

unread,
Jan 13, 2018, 1:36:03 PM1/13/18
to
On 1/13/2018 11:56 AM, Kurt Hansen wrote:
> Der er mange hjemmesideejere inden for slægtsforskning der har fået
> kopieret deres data og databaser.
>
> Jeg har lige købt anecentralen.dk, men lige nu har jeg ikke fuldt
> overblik over hvad den skal indeholde.
>
> Jeg har bl.a. tænkt mig at vise min egen stamtavle i et købefærdigt
> system: http://www.tngsitebuilding.com/, som er meget udbredt i branchen.
>
> Der ud over vil jeg gerne lave en database med et vielsesregister med 29
> felter og 6.180 poster, men det vender jeg tilbage til.
>
> Mit spørgsmål er lige nu: Hvordan sikrer man sådanne databaser mod
> kopiering?

Det afhænger meget af hvilken form for kopiering du tænker på.

Kopiering af databasen udenom web interface: bør være forhindret
med et almindeligt sikkerhedsniveau på web site.

Misbruge web interface til at returnere hele databasen på en ikke
tilsigtet måde: kan forhindres ved at programmere web site sikkert
(input validering, beskyttelse mod SQL injection etc.etc.).

Brugere læser data via dit web interface og taster dem igen
i deres egen database: har du ingen muligheder for at beskytte
dig imod.

Brugere automatiserer henting af data fra dit web interface
(sceeen scraping style): principielt ikke muligt at gardere sig
100% imod, men du kan gøre det lidt besværligt for dem -
begrænse hvor mange resultater du returnerer ved søgning,
lade funktionaliteten afhænge af at JavaScript bliver udført
client side, vise billeder i.s.f. text, lidt CAPTCHA her
og der etc..

Arne

Kurt Hansen

unread,
Jan 15, 2018, 12:53:12 AM1/15/18
to
Den 13/01/2018 kl. 19.36 skrev Arne Vajhøj:
>
> Brugere automatiserer henting af data fra dit web interface
> (sceeen scraping style): principielt ikke muligt at gardere sig
> 100% imod, men du kan gøre det lidt besværligt for dem -
> begrænse hvor mange resultater du returnerer ved søgning,
> lade funktionaliteten afhænge af at JavaScript bliver udført
> client side, vise billeder i.s.f. text, lidt CAPTCHA her
> og der etc..

Her er et dugfrisk eksempel som jeg lige har modtaget fra en bekendt:
(TNG er et program til præsentation af sin stamtræ på nettet).

- - -
Lige et klip fra TNG på Facebook
Opdatering: Fik ikke stoppet denne IP før der var gået 16 timer med
49606 besøg. Se advarsel på AbuseIPDB.
Vil lige bringe en advarsel over tidsrummet fra 2018-01-13 04:24:00 til
2018-01-13 10:48:04 altså godt 5 timer har min egen udviklet Site Access
Manager ( SAM ) logget en crawler fra Snapback AB der har udført 19241
kald for at udføre data scraping (kopiering uden tilladelse). Den
besøgende crawler er nu blocked i HTaccess. Data om synderen kan læses her:

Der er en slægtsforskningsgruppe på Facebook for Mors og Thy. Ikke så
meget aktivitet.

Arne Vajhøj

unread,
Jan 15, 2018, 11:46:50 AM1/15/18
to
Det kunne automatiseres d.v.s. at web applikationen tracker antal
requests per IP addresse per tidsenhed og afviser hvis over X.

Bare vær klar over at X bliver arbitrær og det ikke er umuligt at
crawle via et stort antal forskellige IP adresser, hvis man vil
omgå den slags check.

Arne

Kurt Hansen

unread,
Jan 17, 2018, 8:16:37 AM1/17/18
to
Arne Vajhøj har forsøgt at svare på denne post for et par dage siden,
men indlægget var tomt. Var det en smutter?

Krabsen

unread,
Jan 17, 2018, 8:22:06 AM1/17/18
to
Næh - det var ikke tomt ;-)

Her er indholdet citeret:

Jan Hansen

unread,
Jan 17, 2018, 8:35:53 AM1/17/18
to
Kurt Hansen skrev:

> Arne Vajhøj har forsøgt at svare på denne post for et par dage siden,
> men indlægget var tomt. Var det en smutter?

Det må være eternal-september, der er fået noget galt i halsen. Indlægget
er ikke tomt på astraweb, og det er det heller ikke på
<http://www.ezz.dk/100016145-sikring-af-website-mod-botter>.

Hvis man ikke må kopiere databasen, hvorfor så ikke bare sikre siden med
brugernavn og password? Ved at tælle antallet af opslag fra hver bruger,
er det til at kontrollere, om en konto er hacked, og så blokere den ved
f.eks 50 opslag.




--
mvh Jan.
Help Microsoft stamp out piracy. Give
Linux to a friend today!

Arne Vajhøj

unread,
Jan 17, 2018, 8:45:33 AM1/17/18
to
On 1/17/2018 8:35 AM, Jan Hansen wrote:
> Hvis man ikke må kopiere databasen, hvorfor så ikke bare sikre siden med
> brugernavn og password? Ved at tælle antallet af opslag fra hver bruger,
> er det til at kontrollere, om en konto er hacked, og så blokere den ved
> f.eks 50 opslag.

Der er masser af muligheder.

Krav om registrering og begrænsning per bruger har imidlertid også
ting som man skal overveje:
1) hvad er en rimelig begrænsning og og er der et tal som kan adskille
meget interesserede brugere fra data indsamlere?
2) hvordan sikrer man sig imod masse oprettelse af konti?
3) beskyttelse af bruger data

#2 er et kendt problem og der er også løsninger på det, men
alt kræver en indsats.

Arne


Jan Hansen

unread,
Jan 17, 2018, 10:40:46 AM1/17/18
to
Arne Vajhøj skrev:

> Der er masser af muligheder.
>
> Krav om registrering og begrænsning per bruger har imidlertid også ting
> som man skal overveje:
> 1) hvad er en rimelig begrænsning og og er der et tal som kan adskille
> meget interesserede brugere fra data indsamlere?
> 2) hvordan sikrer man sig imod masse oprettelse af konti?
> 3) beskyttelse af bruger data
>
> #2 er et kendt problem og der er også løsninger på det, men alt kræver
> en indsats.
>
> Arne

Jeg tror nu ikke det er så svært i det "The Next Generation of Genealogy
Sitebuilding" fra <http://www.tngsitebuilding.com/>. De vil have penge
for det, så jeg har ikke hentet det og set efter, men i den "Demo" på
siden, er det til at oprette en gæstekonto, der kun har adgang til ét
"Tree". Det kan vel så være nogle få fiktive personer.
Vil man se mere, kan man betale ved kasse 1, og ansøge om at få oprettet
en rigtig brugerkonto, der giver adgang til at se noget mere.

Kurt Hansen

unread,
Jan 19, 2018, 1:29:05 AM1/19/18
to
Problemet er at TNG åbenbart ikke er sikret som jeg skrev i mit indlæg
nr. 2 (Message-ID: <p3hfk8$nqq$1...@dont-email.me>).

Kurt Hansen

unread,
Jan 19, 2018, 8:06:15 AM1/19/18
to
Det faldt mig ind at klikke på det message ID jeg bragte. Gos mig (i
Thunderbird) fører det ikke til noget, men starter en ny besked med
p3hfk8$nqq$1...@dont-email.me i Til-feltet.

Jeg napper linjen fra kildekoden til indlægget:

Path:
eternal-september.org!reader02.eternal-september.org!.POSTED!not-for-mail
From: Kurt Hansen <ku...@invalid.dk>
Newsgroups: dk.edb.database
Subject: Re: Sikring af website mod botter der kopierer databaser
Date: Mon, 15 Jan 2018 06:53:12 +0100
Organization: A noiseless patient Spider
Lines: 28
Message-ID: <p3hfk8$nqq$1...@dont-email.me>
References: <p3ddnp$b3b$1...@dont-email.me> <p3djig$fku$1...@gioia.aioe.org>
Mime-Version: 1.0
[klip]

Hvad gør jeg forkert?

Jan Hansen

unread,
Jan 19, 2018, 9:16:06 AM1/19/18
to
Kurt Hansen skrev:

> Problemet er at TNG åbenbart ikke er sikret som jeg skrev i mit indlæg
> nr. 2 (Message-ID: <p3hfk8$nqq$1...@dont-email.me>).

Det må være det indlæg, hvor der står:
> Vil lige bringe en advarsel over tidsrummet fra 2018-01-13 04:24:00 til
> 2018-01-13 10:48:04 altså godt 5 timer har min egen udviklet Site Access
> Manager ( SAM ) logget en crawler fra Snapback AB der har udført 19241
> kald for at udføre data scraping (kopiering uden tilladelse).

Og hvad betyder det så?
Virker TNG's gæstekonto ikke?
Har webmaster "glemt" at oprette en gæstekonto?
Er en brugerkonto blevet hacked?
Er der 19241 fiktive personer på gæstekontoen?
Har "hackeren" hentet de samme data 19241 gange?
Når webmaster har en "egen udviklet Site Access Manager ( SAM )", hvorfor
blokerer denne så ikke for yderligere tilgang efter det antal opslag, som
webmaster finder passende?

Der er myriader af personer, der laver hjemmesider et eller andet smart
CMS, der holder op med at virke, når webhotellet "opdaterer" php.
Herefter er indholdet for tid og evighed forsvundet.
Skal jeg gætte på, hvad der er foregået, har den "fæle hacker" været inde
på siden, fundet indholdet bevaringsværdigt, og følgelig lavet en
sikkerhedskopi, inden siden forsvinder.

Kurt Hansen

unread,
Jan 20, 2018, 12:58:14 AM1/20/18
to
Tak for indsparket, Jan. Jeg videreformidler det til ham der har henvist
til Facebook-opslaget og derfor kraftigt advarer mig mod at bruge TNG,
hvilket jeg gerne vil.

Hvad siger din mavefornemmelse? Ser TNG ud til at være nogenlunde sikret
mod hacking og scraping?

Kurt Hansen

unread,
Jan 20, 2018, 1:10:30 AM1/20/18
to
Tak for dine kloge ord, som dog nok overstiger mine evner at gøre ret
meget ved.

Mit site (anecentralen.dk) vil komme til at bestå af flere elementer:

TNG slægtspræsentationen, som jeg har henvist til i denne tråd. Det vil
være mine egne data for min egen familie.

Det vil indgå som eet blandt flere menupunkter, hvor de andre
menupunkter vil være diverse lister og links til relevante steder på
nettet, hvor brugerne kan finde stof om Mors.

Dertil kommer overvejelser om en eller flere søgbare databaser med
egenproducerede data, men er det jo så at jeg ramler ind i det med
sikkerheden, så det er ikke lige det der står først for.

Om det hele skal lægges ind i et overordnet CMS, har jeg ikke taget
stilling til endnu.

Jan Hansen

unread,
Jan 20, 2018, 1:09:56 PM1/20/18
to
Kurt Hansen skrev:

> Hvad siger din mavefornemmelse? Ser TNG ud til at være nogenlunde sikret
> mod hacking og scraping?

Hvis det med gæstekonto ellers virker, skulle det jo nok kunne lade sig
gøre. Hvis alle skal have adgang til det hele uden password, bliver det
jo noget mere kompliceret at undgå, at de også henter det hele.
Det er ikke til at rode med moduler i demoen på deres hjemmeside, men
der findes åbenbart noget "Rip Prevention Mod".
Her er en, der har fået lukket sig selv ude ved hjælp af det,
<https://tng.community/index.php?/forums/topic/6750-rip-prevention-mod-lockout/>

Jan Hansen

unread,
Jan 25, 2018, 12:58:32 PM1/25/18
to
Kurt Hansen skrev:

Hvad siger din mavefornemmelse? Ser TNG ud til at være nogenlunde sikret
> mod hacking og scraping?

djursdatabasen.dk bruges åbenbart også TNG, der kan man lige nøjagtig
ingenting uden at være logget ind. Så med mindre der er en fil med noget
"bagdør" et sted, burde det vel være sikkert.

Kurt Hansen

unread,
Jan 29, 2018, 11:18:14 PM1/29/18
to
Den 25/01/2018 kl. 18.58 skrev Jan Hansen:
> Kurt Hansen skrev:
>
> Hvad siger din mavefornemmelse? Ser TNG ud til at være nogenlunde sikret
>> mod hacking og scraping?
>
> På djursdatabasen.dk bruges åbenbart også TNG, der kan man lige nøjagtig
> ingenting uden at være logget ind. Så med mindre der er en fil med noget
> "bagdør" et sted, burde det vel være sikkert.
Jeg kan ikke komme på Facebook og kan derfor ikke citere fra
TNG-gruppen. Jeg mener det var der jeg læste, at der på forbløffende
kort til var oprettet 19.000 nye brugere.
0 new messages