Webserver admins: hvad blocker i?

Off topic - alt som ikke handler om musik eller studie.
Forumregler
Alt om musik, musikvideoer, kunstnere, udstyr og musikteori skal postes i de andre respektive fora.
Brugeravatar
Mike-air
Forum Superstar
Forum Superstar
Indlæg: 6501
Sted: Aarhus C

Webserver admins: hvad blocker i?

Indlæg Skrevet: 25. mar 2017, 11:28

Til et forskningsprojekt er jeg blevet bedt om at scrape et website som indeholder elementer der ændrer sig over tid. Det kommer så til at foregå hver dag, de næste 3 måneder. Det er 700 udvalgte undersider som projektlederen er interesseret i, som så skal hentes hver dag.

Hvis jeg kører en standard curl request uden noget delay imellem, hver dag, så er jeg bange for at blive blacklistet så jeg pludselig ikke kan få det data, som projektet er meget afhængigt af. Derfor er jeg ved at skrive et script som indsætter random delay ind mellem hver side request. Samtidigt med det, har jeg også tænkt mig at randomisere rækkefølgen af sider jeg henter hver dag. Og måske endda tilføje X random udvalgte sider på resten af sitet, blot for at maskere besøgsmønsteret lidt.

Men foruden det, er der så noget jeg kan gøre for at "beskytte" min server mod at blive blacklistet? Hvilke ting er standard man gør for at slippe af med bots på sit website?
"The weight of evidence for an extraordinary claim must be proportioned to its strangeness." - Simon Laplace
Brugeravatar
Hald
Forum Donator
Forum Donator
Indlæg: 6592
Sted: Vind / Holstebro

Re: Webserver admins: hvad blocker i?

Indlæg Skrevet: 25. mar 2017, 15:38

Jeg mindes ikke at vi gør noget mod det på de servere jeg har med at gøre. Ofte er det jo search crawler bots der opdaterer søgemaskinerne, og de er jo gode at have på besøg hvis man ønsker at blive fundet på nettet.

På sider som wordpress har de nogle settings som kan slåes til mod bots, men de tilføjer kun en linje i meta delen som det så er op til bot'en at overholde, hvis den vil det...
"Knobs? Where we're going, we don't need knobs!" - 8 år med ørene i lydmaskinen -
Brugeravatar
Mike-air
Forum Superstar
Forum Superstar
Indlæg: 6501
Sted: Aarhus C

Re: Webserver admins: hvad blocker i?

Indlæg Skrevet: 25. mar 2017, 17:01

Hald skrev:Jeg mindes ikke at vi gør noget mod det på de servere jeg har med at gøre. Ofte er det jo search crawler bots der opdaterer søgemaskinerne, og de er jo gode at have på besøg hvis man ønsker at blive fundet på nettet.

På sider som wordpress har de nogle settings som kan slåes til mod bots, men de tilføjer kun en linje i meta delen som det så er op til bot'en at overholde, hvis den vil det...

God pointe du har der. I teamet har der måske bare hersket en forestilling om at folk gør alt hvad de kan for at blokere at deres data bliver scrapet.
"The weight of evidence for an extraordinary claim must be proportioned to its strangeness." - Simon Laplace
Brugeravatar
Internalized Sun
Forum Donator
Forum Donator
Indlæg: 840
Sted: Faxe

Re: Webserver admins: hvad blocker i?

Indlæg Skrevet: 25. mar 2017, 19:44

DDOS angreb plejer mange at sikre sig mod, så hvis du lader være med at sprøjte requests afsted, så sker der nok ikke så meget ved det.
Men 700 sider er jo heller ikke meget, så hvis du indsætter noget delay i mellem, så tager det selvfølgelig længere tid, men når I alligevel kun har brug for daglige indsamlinger behøver i vel ikke være færdig med indsamlingen på sekunder?

Positiv hilsen
Dennis
HVEM har lagt en kage på min computer?!!?!!

Min musik: http://soundcloud.com/internalized-sun
Brugeravatar
Mike-air
Forum Superstar
Forum Superstar
Indlæg: 6501
Sted: Aarhus C

Re: Webserver admins: hvad blocker i?

Indlæg Skrevet: 25. mar 2017, 21:30

Internalized Sun skrev:DDOS angreb plejer mange at sikre sig mod, så hvis du lader være med at sprøjte requests afsted, så sker der nok ikke så meget ved det.
Men 700 sider er jo heller ikke meget, så hvis du indsætter noget delay i mellem, så tager det selvfølgelig længere tid, men når I alligevel kun har brug for daglige indsamlinger behøver i vel ikke være færdig med indsamlingen på sekunder?

Positiv hilsen
Dennis

Egentlig ikke, nej. Der er noget AJAX på siden som gav lidt hovedpine fordi vi ikke kunne få fat på det vi skulle bruge, og vi konspirerede så lidt at det måske var fordi man gerne ville gøre det svært for folk at scrape. Men heldigvis er der kneb udenom den slags. Og med en amazon EC2 kan vi heldigvis skifte ip meget hurtigt, hvis vi skulle blive blocket. Jeg har sat delay mellem requests til at være random mellem 3.1 og 5.9 sek.
"The weight of evidence for an extraordinary claim must be proportioned to its strangeness." - Simon Laplace
Brugeravatar
Internalized Sun
Forum Donator
Forum Donator
Indlæg: 840
Sted: Faxe

Re: Webserver admins: hvad blocker i?

Indlæg Skrevet: 26. mar 2017, 08:45

Ja med så langt delay mellem tror jeg slet ikke at I løber ind i problemer ;)
HVEM har lagt en kage på min computer?!!?!!

Min musik: http://soundcloud.com/internalized-sun

Tilbage til "After Party"

Hvem er online

Brugere der læser dette forum: Bing [Bot], Hoby og 9 gæster