falsi google ip?

Alessio Baldasso

unread,

Apr 27, 2021, 1:12:30 AM4/27/21

to Indicizzazione-Googlebot

Nei miei siti ho creato uno script che mi invia un'e-mail ogni volta che un nuovo ip che dichiara di essere google visita il sito.

Quando vedo l'email vado a controllare (ad esempio su whois.com) se l'ip che dichiara di essere google è realmente google, e in caso contrario lo blocco con il firewall.

Normalmente trovo uno o due falsi google a settimana, ma negli ultimi giorni Google accede al mio server parecchio.

103432 Mozilla / 5.0 (Linux; Android 6.0.1; Nexus 5X Build / MMB29P) AppleWebKit / 537.36 (KHTML, come Gecko) Chrome / 89.0.4389.130 Mobile Safari / 537.36 (compatibile; Googlebot / 2.1; + http: // www. google.com/bot.html)

1022802 Mozilla / 5.0 (Linux; Android 6.0.1; Nexus 5X Build / MMB29P) AppleWebKit / 537.36 (KHTML, come Gecko) Chrome / 90.0.4430.80 Mobile Safari / 537.36 (compatibile; Googlebot / 2.1; + http: // www. google.com/bot.html)

1063366 Mozilla / 5.0 (compatibile; Googlebot / 2.1; + http: //www.google.com/bot.html)

1178083 Mozilla / 5.0 (Linux; Android 6.0.1; Nexus 5X Build / MMB29P) AppleWebKit / 537.36 (KHTML, come Gecko) Chrome / 89.0.4389.127 Mobile Safari / 537.36 (compatibile; Googlebot / 2.1; + http: // www. google.com/bot.html)

(numero di accessi google al mio server nelle ultime 24 ore)

Sta succedendo qualcosa e google sta entrando nel mio server molto più del solito e insieme agli accessi google, il "fake google" è aumentato molto. Ma è strano che siano aumentati insieme ...

Starò bloccando l'IP di qualche servizio Google?

(Questi sono quelli delle ultime 24 ore)

$ sudo firewall-cmd --permanent --add-rich-rule = "rule family = indirizzo di origine 'ipv4' = '193.203.11.230' rifiuta"

$ sudo firewall-cmd --permanent --add-rich-rule = "rule family = indirizzo di origine 'ipv4' = '45 .80.104.189 'rifiuta"

$ sudo firewall-cmd --permanent --add-rich-rule = "rule family = indirizzo di origine 'ipv4' = '45 .148.124.171 'rifiuta"

$ sudo firewall-cmd --permanent --add-rich-rule = "rule family = indirizzo di origine 'ipv4' = '37 .44.196.194 'rifiuta"

$ sudo firewall-cmd --permanent --add-rich-rule = "rule family = indirizzo di origine 'ipv4' = '88 .218.45.98 'rifiuta"

$ sudo firewall-cmd --permanent --add-rich-rule = "rule family = indirizzo di origine 'ipv4' = '46 .161.60.168 'rifiuta"

$ sudo firewall-cmd --permanent --add-rich-rule = "rule family = indirizzo di origine 'ipv4' = '212.60.21.63' rifiuta"

$ sudo firewall-cmd --permanent --add-rich-rule = "rule family = indirizzo di origine 'ipv4' = '85 .202.195.178 'rifiuta"

$ sudo firewall-cmd --permanent --add-rich-rule = "rule family = indirizzo di origine 'ipv4' = '45 .148.124.139 'rifiuta"

$ sudo firewall-cmd --permanent --add-rich-rule = "rule family = indirizzo di origine 'ipv4' = '84 .54.58.80 'rifiuta"

$ sudo firewall-cmd --permanent --add-rich-rule = "rule family = indirizzo di origine 'ipv4' = '45 .148.234.198 'rifiuta"

$ sudo firewall-cmd --permanent --add-rich-rule = "rule family = indirizzo di origine 'ipv4' = '212.119.46.111' rifiuta"

$ sudo firewall-cmd --permanent --add-rich-rule = "rule family = indirizzo di origine 'ipv4' = '195.133.24.218' rifiuta"

$ sudo firewall-cmd --permanent --add-rich-rule = "rule family = indirizzo di origine 'ipv4' = '83 .142.55.37 'rifiuta"

$ sudo firewall-cmd --permanent --add-rich-rule = "rule family = indirizzo di origine 'ipv4' = '194.87.112.182' rifiuta"

$ sudo firewall-cmd --permanent --add-rich-rule = "rule family = indirizzo di origine 'ipv4' = '193.93.195.206' rifiuta"

$ sudo firewall-cmd --permanent --add-rich-rule = "rule family = indirizzo di origine 'ipv4' = '194.156.125.92' rifiuta"

$ sudo firewall-cmd --permanent --add-rich-rule = "rule family = indirizzo di origine 'ipv4' = '212.119.46.82' rifiuta"

$ sudo firewall-cmd --permanent --add-rich-rule = "rule family = indirizzo di origine 'ipv4' = '45 .140.206.107 'rifiuta"

$ sudo firewall-cmd --permanent --add-rich-rule = "rule family = indirizzo di origine 'ipv4' = '45 .66.208.145 'rifiuta"

$ sudo firewall-cmd --reload

sembrano provenire quasi tutti dalle stesse fonti (di solito i risultati di whois.com sono diversi l'uno dall'altro).

Quindi il dubbio viene, sto bloccando qualcosa che fa parte di Google? Come lighthouse, pagespeed o qualcos'altro che fa comunque parte delle scansioni di Google? O sono solo ip di truffatori che fingono di essere Google per hackerare il mio server o clonare i miei siti?

Potrebbe essere che i servizi correlati a Google dichiarino di essere google in HTTP_USER_AGENT e poi non c'è nulla riguardo Google verificando la proprietà del ip su whois.com? (Anche se lo stesso google dice che l'unico modo per verificare effettivamente che un ip appartiene a loro è verificarne la proprietà, ad esempio con un reverse dns?)

Potete aiutarmi a capire chi sono e cosa dovrei fare con questi IP?

Grazie

Angelo

unread,

Apr 27, 2021, 1:31:59 AM4/27/21

to Indicizzazione-Googlebot

Ciao Alessio,

benvenuto nel gruppo!

Da ciò che vedo nella lista degli IP bloccati dal tuo firewall, nessuno di essi è da attribuire al Googlebot. Googlebot ha una maschera di rete fissa in cui ruota per i vari servizi (Adsense, Adwords, Web, immagini eccetera).

Qui di seguito trovi le coordinate e il modo con il quale assicurarti che il Googlebot non sia un Fake: https://developers.google.com/search/docs/advanced/crawling/verifying-googlebot?hl=it

Generalmente gli IP di Googlebot iniziano con i primi 16 Bit 66.249.x.x, ma per Google ci sono altri indirizzi IP che vengono usati ad esempio per le mail, e altri servizi.

Se puoi, crea una regola con l'esempio del DNS, che è un metodo sicuro.

Il Googlebot può variare la sua velocità di scansione e la sua presenza sulle pagine del sito per diversi motivi. Generalmente questo accade, se: le pagine del sito vengono aggiornate spesso, se se ne aggiungono altre regolarmente, se la sitemap viene aggiornata con nuovi URLs, se il numero di backlinks aumenta, se aumenta la scansione del Googlebot sulle pagine di quei siti che lincano il tuo sito, eccetera eccetera...

Spero sia d'aiuto.

Angelo

Alessio Baldasso

unread,

Apr 28, 2021, 2:36:56 AM4/28/21

to Indicizzazione-Googlebot

Ciao, grazie della risposta.

Ormai monitoro da più di un anno tutti gli ip google che accedono al mio server, le maschere con cui di solito accede al mio server sono queste:

66.249.64.0/19 66.102.0.0/20 64.233.160.0/19 34.64.0.0/10 216.58.192.0/19 74.125.0.0/16

Ieri ho aggiunto al mio script del codice che crea un file con la lista degli ip che dicono essere google ma non lo sono, cioè che non appartengono a queste maschere.

Con la lista posso lanciare questo: while read line; do sudo firewall-cmd --permanent --add-rich-rule="rule family='ipv4' source address='$line' reject"; done < /var/.../lista_fake_google.txt

Probabilmentew non è la soluzione più elegante che si possa implementare... ma velocizza molto le cose...

Però il dubbio rimane, tutti quegli ip saranno in qualche modo collegati alle scansioni google?

Anche perchè già da un po giornalmente blocco quegli ip, e le scansioni da parte di google in questi giorni stanno rallentando significativamente... può significare che ha fatto una grande scansione e ha quasi finito, ma il dubbio che bloccando quegli ip potrei aver bloccato in qualche modo anche google mi rimane...

Giusto per "sincerarmi il cuore", si riesce in qualche modo a capire quali possono essere gli ip di lighthouse, di pagespeed, ecc?

Angelo

unread,

Apr 28, 2021, 3:19:22 AM4/28/21

to Indicizzazione-Googlebot

Ciao Alessio,

Come ti dicevo, il Googlebot ha come maschera fissa nei primi due byte la rete 66. e l'host 249. Sono i seguenti due host ad essere usati da Googlebot e Google per il Web. Questo IP iniziante con 66.249.X.X, devi inserirlo in una zona verde del firewall.

Solo il DNS reverse ti da l'assoluta certezza che si tratti di un IP Google. Devi quindi utilizzare questa tecnica nei tuoi scripts.

Se blocchi Pagespeed, non accade nulla di grave al di la della mancata risposta al tuo test. Pagespeed non viene sul tuo sito se non richiesto da te.

Se vuoi evitare una paranoia, puoi utilizzare i servizi di Google, come pagespeed, sul tuo sito e poi andare a vedere nei Logs con quale IP sono entrati.

Chiunque può dare un nome e un indirizzo a piacere, quindi anche quello del Googlebot, al suo browser (Browser lo sono anche il Googlebot, Slurp, Bing e altri). Anche sul tuo Pc puoi modificare il nome del tuo Browser se vuoi camuffarne l'identità.

Quindi: Tutto ciò che non inizia con 66.249.X.X, NON è Googlebot per il Web! Lo stesso Googlebot.com ha come IP 216.58.212.132 , cliccaci su e usa quel Tool per fare altre ricerche.

Una lista dei Crawler più comuni utilizzati da Google la trovi qui: Overview of Google Crawler

Una lista degli IPs più comuni usati da Google, (non necessariamente Googlebot) la trovi qui. Ma alcuni di questi IPs possono variare nel tempo.

Spero sia d'aiuto.

Angelo

Alessio Baldasso

unread,

Apr 28, 2021, 7:07:22 PM4/28/21

to Indicizzazione-Googlebot

Grazie per la risposta.

Reverse proxy sarebbe carino, ma troppo pesante e lungo per poterlo usare...

Penso che al momento continuerò a bloccarli... con quel giochino... e nel frattempo penso a tutto, cerco un modo per capire chi sono questi ip, e magari a un modo più elegante per bloccarli.

Spero di non fare danni...

A volte già mi capitano cose come questa

che non capisco... vorrei davvero evitare di essere io a causarne altre...

Reply all

Reply to author

Forward