E' stato Google o i Rettiliani?
(se volete, potete saltare direttamente al punto in cui scrivo *"STOP
STOP STOP !!! GOTCHA !!!"*
-------------------------------
Vorrei discutere con voi la questione di cui al mio precedente post "Voi
come lo spieghereste?", per cui la ripresento in modo un po' più
strutturato.
Premetto che ciò che mi interessa maggiormente è un parere sulla
fondatezza dell'ipotesi di spiegazione "non paranoica", cioè quella che
fa risalire a Google la causa degli accessi "anomali".
Lo schema è il seguente:
- nel log a un mio spazio web ci sono 2 accessi --chiamiamoli
"anomali"-- che hanno attratto la mia attenzione;
- sulla causa di questi accessi si possono fare diverse ipotesi
preoccupanti, che in via generica ricadrebbero nella categoria dello
"sniffing";
- ci sono però due aspetti che forse potrebbero spingere a escludere
l'ipotesi di uno sniffing, e condurrebbero a imputare a Google i due
accessi "anomali".
Espongo il caso.
Esaminando i log degli accessi a un mio spazio web che non appartiene
alla document root, mi sono accorto che un documento PDF che avevo messo
a disposizione di un mio conoscente mandandogli un'email contenente un
link al mio spazio web era stato acceduto da un IP di Fastweb 5 secondi
dopo l'accesso di questi (lui usa una ADSL Telecom). L'episodio si è
ripetuto, con caratteristiche quasi identiche, quando, per motivi suoi,
egli ha fatto accesso al medesimo documento due settimane dopo.
E' chiaro che, quando ho ottenuto via Whois le informazioni sugli IP di
provenienza dei due accessi anomali, ho pensato prima di tutto a ipotesi
di spiegazione rientranti nella norma. Tipo: avrà girato l'email col
link a qualcuno che è andato a vedere il documento, oppure sarà stato a
casa di qualcuno al quale ha voluto mostrare il documento. Queste
ipotesi però non reggono per i motivi che vedremo.
Ecco le informazioni sui due IP anomali ottenute via Whois:
85.18.30.135
org: ORG-FA7-RIPE
netname: IT-FASTWEB-20050315
country: IT
93.57.114.132
netname: *FASTWEB-GOOGLE_INFRASTRUCTURE*
descr: Infrastructure for Fastweb's main location
descr: *Pool for Google infrastructure*
I due aspetti che forse potrebbero far escludere un'ipotesi malevola sono:
1) il fatto che gli accessi anomali siano entrambi --e a distanza di
molti giorni-- avvenuti esattamente 5 secondi dopo i suoi;
2) la descrizione della rete nel secondo episodio:
FASTWEB-GOOGLE_INFRASTRUCTURE (Pool for Google infrastructure).
Ora cerco di darvi altri elementi, in modo schematico ed essenziale.
*Sintesi* dei suoi accessi e dei due anomali
--------------------------------------------
19 Feb: accessi a documento-20210219.pdf, da telefonino (il suo: lo
capisco dallo User Agent) e da pc (il suo: lo capisco dallo User Agent),
soltanto da 82.48.32.165 (il suo IP);
20 Feb: accesso a documento-20210220.pdf dal suo telefonino con IP
82.48.32.165 (il suo)
>>>>>>> seguito, 5 secondi dopo, da accesso ANOMALO con IP 85.18.30.135
22 Feb: accesso a documento-20210220.pdf dal suo pc con IP 82.48.32.165
(il suo)
3 Mar: accessi a documento-20210303.pdf dal suo telefonino con IP
82.48.32.165 (il suo)
8 Mar: accesso a documento-20210220.pdf dal suo pc con IP 82.48.32.165
(il suo)
>>>>>> seguito, 5 secondi dopo, da accesso con ANOMALO IP 93.57.114.132.
--------------------------------------------
*Righe di log del 20 Febbraio e dell'8 Marzo*
(l'accesso anomalo è preceduto da ">>>")
=============================================
82.48.32.165
-
-
[20/Feb/2021:12:58:51 +0100]
GET
/documento-20210220.pdf
HTTP/1.1
200
278134
-
Dalvik/2.1.0 (Linux; U; Android 10; SM-J600FN Build/QP1A.190711.020)
----------------
>>> 85.18.30.135
-
-
[20/Feb/2021:12:58:56 +0100]
GET
/documento-20210220.pdf
HTTP/1.1
200
278134
-
Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML,
like Gecko) Chrome/84.0.4147.135 Safari/537.36
=====================================================
82.48.32.165
-
-
[08/Mar/2021:18:06:07 +0100]
GET
/documento-20210220.pdf
HTTP/1.1
200
278134
-
Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML,
like Gecko) Chrome/88.0.4324.190 Safari/537.36
----------------
>>> 93.57.114.132
-
-
[08/Mar/2021:18:06:12 +0100]
GET
/documento-20210220.pdf
HTTP/1.1
200
278134
-
Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like
Gecko) Chrome/84.0.4147.135 Safari/537.36
=====================================================
Come si può notare, il 20 Febbraio l'accesso del mio interlocutore è
avvenuto dal suo cellulare (vd. lo User-Agent) connesso al router WiFi
di casa (ADSL Telecom). L'8 Marzo è avvenuto dal suo pc (anche qui vd.
lo User Agent).
Ipotesi di spiegazione
----------------------
A) Nell'arco di 5 secondi si è collegato con un altro pc connesso a
Internet tramite Fastweb.
Lo escludo.
B) Qualcuno gli ha letto l'email, oppure ha catturato il traffico e ha
prelevato il documento subito dopo di lui.
Lo escludo per via di quei 5 secondi esatti e a distanza di due
settimane.
C) Uno sniffer insediato nel suo pc o nel suo telefonino "chiama casa" e
trasmette il link presente nell'email a un bot che risiede in una
macchina connessa a Internet via Fastweb, il quale bot preleva subito il
documento (e si fa sgamare da chi legge i log degli accessi...).
Lo escludo, perché nei due casi gli accessi del mio conoscente sono
avvenuti da dispositivi diversi (telefonino e pc) e quindi lo sniffer
avrebbe dovuto essersi installato in entrambi: una roba troppo paranoica.
D) Siccome entrambi i dispositivi erano collegati a Internet mediante il
router di casa, potrebbe esserci uno sniffer dentro al router (router
che gli è stato installato dalla Telecom). Ma, anche fosse, mi pare
strano che i due accessi anomali siano avvenuti solo per quel documento
lì e non in altre occasioni: vd., sopra, la Sintesi che ho fatto dei
suoi accessi e dei due anomali.
Insomma: da un lato, l'osservazione che gli accessi anomali siano
avvenuti a 5 secondi esatti dopo il suo, in due date distanti circa 15
giorni, e per prelevare il medesimo documento, mi fa escludere l'ipotesi
che si tratti di un intruso umano; dall'altro lato, il fatto che gli
accessi anomali non si siano verificati tutte le volte in cui gli ho
messo a disposizione (e anche a pochi giorni di distanza) un documento
PDF, mi fa escludere che si tratti di un agente software.
Spinto dal nome (FASTWEB-GOOGLE_INFRASTRUCTURE) e dalla descrizione
("Pool for Google infrastructure") della rete che si possono leggere con
un Whois sull'IP dell'accesso anomalo dell'8 Marzo, ho quindi pensato a
una spiegazione non paranoica.
Ho cioè pensato che l'accesso quasi immediatamente successivo a quello
del mio interlocutore fosse di matrice Google (vd. descrizione collegata
all'IP dell'8 Marzo). Ma... Google usa un pool di indirizzi messogli a
disposizione da Fastweb?!? E poi... che significa che Fastweb mette un
pool di indirizzi "a disposizione" di Google?!?
In altre occasioni in cui avevo spedito un'email con un link a un
documento nel mio spazio web (che in robots.txt ha qualsiasi
indicizzazione inibita per tutti i motori di ricerca) ho riscontrato che
ci sono stati degli accessi da parte di Google. Ma in quel caso si
trattava di un IP assegnato a Google, ad esempio: 66.249.93.57. Pensavo
che fossero dovuti al copia&incolla dell'URL nello slot unico (cioè da
utilizzarsi tanto per fare ricerche, quanto per scrivere l'indirizzo:
"Search or type web address") di Chrome per Android: controllo sempre la
correttezza dei link prima di spedire l'email, e quindi sarei stato io a
innescare l'attività di prelievo da parte di Google. E invece ho
riprovato oggi e non ho rilevato alcun accesso. Ho quindi il sospetto
che Google acceda ai documenti quando il link viene spedito a un
indirizzo Gmail.
STOP STOP STOP !!! GOTCHA !!!
Ho riprodotto la cosa mandandomi un'email al mio indirizzo Gmail: è
proprio così.
Guardate qui:
>>> 194.116.101.132 - - [07/Aug/2021:12:08:54 +0200] "GET
/TESTPDF/BUBU-20210807.pdf HTTP/1.1" 200 9058 "-" "Mozilla/5.0 (Windows
NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko)
Chrome/91.0.4472.124 Safari/537.36"
>>> 85.18.30.68 - - [07/Aug/2021:12:08:54 +0200] "GET
/TESTPDF/BUBU-20210807.pdf HTTP/1.1" 200 9058 "-" "Mozilla/5.0 (Windows
NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko)
Chrome/91.0.4472.124 Safari/537.36"
MIO-IP - - [07/Aug/2021:12:10:35 +0200] "GET
/TESTPDF/BUBU-20210807.pdf HTTP/1.1" 200 9058 "-" "Mozilla/5.0 (Linux;
Android 11; Nokia 3.2) AppleWebKit/537.36 (KHTML, like Gecko)
Chrome/90.0.4430.82 Mobile Safari/537.36"
>>> 93.62.101.134 - - [07/Aug/2021:12:33:21 +0200] "GET
/TESTPDF/TEST-ACCESSO-A-PDF.pdf HTTP/1.1" 200 9606 "-" "Mozilla/5.0
(Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko)
Chrome/91.0.4472.124 Safari/537.36"
>>> 93.57.114.132 - - [07/Aug/2021:12:33:21 +0200] "GET
/TESTPDF/TEST-ACCESSO-A-PDF.pdf HTTP/1.1" 200 9606 "-" "Mozilla/5.0
(Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko)
Chrome/91.0.4472.124 Safari/537.36"
MIO-IP - - [07/Aug/2021:12:33:41 +0200] "GET
/TESTPDF/TEST-ACCESSO-A-PDF.pdf HTTP/1.1" 200 9606 "-" "Mozilla/5.0
(Linux; Android 11; Nokia 3.2) AppleWebKit/537.36 (KHTML, like Gecko)
Chrome/90.0.4430.82 Mobile Safari/537.36"
Notare che gli accessi non miei sono avvenuti prima del mio GET e non
dopo come nel caso che ha dato origine a questo post. Ma a questo punto,
il particolare è irrilevante.
Già prima di questo test odierno avevo pensato che c'entrasse il Safe
Browsing by Google, ma da una rapida lettura del suo funzionamento (
https://www.google.com/chrome/privacy/whitepaper.html#malware e
https://safebrowsing.google.com/ ) non mi pareva che comportasse il
download integrale di un file.
Ad ogni modo --Safe Browsing o no-- quando si fa clic (o tap) su un link
contenuto in un'email che si trova in mailbox Gmail (forse basta che si
trovi lì dentro, anche senza che il destinatario sia un indirizzo
Gmail), il documento viene prelevato da un'infrastruttura che
evidentemente ha un'accordo con Google per mantenere il Web sicuro. Mi
auguro che non vi siano leak di info, visto che il prelievo dei
documenti è *integrale* e che riguarda file che si trovano anche in aree
non aperte al pubblico (sia pur non protette da pasword) e con nomi di
file conoscibili solo da chi ha letto l'email.
Non sono sicuro che sia del tutto legittimo questo "servizio ispettivo".
Ulteriore test fatto: il "servizio ispettivo" in nome e per conto di
Google funziona solo se si accede alla mailbox con l'*app* Gmail *AND*
se si fa *tap* sul link. Quindi è l'App che trasmette l'URL
all'infrastruttura del "servizio ispettivo". Non c'entra il Safe
Browsing di Chrome.
Sarebbe interessate approfondire: evidentemente, è in corso un'attività
automatizzata a fini di protezione da minacce Web che coinvolge i
provider di comunicazione di diversi Paesi.
Andatevi a vedere a chi appartengono gli IP che ho indicato qui sopra
con la freccia: ce n'è uno (194.116.101.132) che è assegnato a "TOrino
Piemonte Internet eXchange".
E se vi va, fate delle prove anche voi. E poi, sarebbe interessante
saperne qualcosa di più.
Questo messaggio terminava come segue. Ne riporto il testo anche se,
adesso, la mia ipotesi di spiegazione l'ho validata coi miei test. Si
tratta di dettagli.
Leggete però il P.S., perché spiega meglio il titolo di questo post.
--- old version ... ---
Resterebbe qualche incertezza, come:
- perché solo per quel documento lì e non per gli altri?
(peraltro, anche gli altri documenti erano online per la prima volta,
perché quelli no e questo sì? anzi sì per due volte, visto che i due
accessi anomali sono avvenuti sul medesimo documento
- questo "servizio ispettivo" Google lo farebbe tramite infrastutture
nei diversi Paesi che che si appoggiano a provider locali?
Certo: potrei fare un test mandando alla persona in questione un'email
con un link a un file nel mio spazio web, per poi controllare gli
accessi Epperò non servirebbe un gran che, perché tanto nel caso in cui
si ripresentasse l'accesso anomalo, quanto se non si ripresentasse, il
fenomeno bisognerebbe capirlo. La cosa più importante, sarebbe poter
escludere l'ipotesi (o le ipotesi) di sniffing.
Vi ringrazio per il contributo di ragionamento e di esperienza che
vorrete darmi.
P.S.
Secondo me, una delle prime doti di chi si occupa di sicurezza
informatica consiste nell'aver sempre presente che ci sono fenomeni
apparentemente preoccupanti che potrebbero avere una spiegazione
tranquilla, o normale; spiegazione che però bisogna essere in grado di
contemplare (e in questo l'esperienza aiuta parecchio). A volte,
l'ipotesi più semplice e che viene in mente per prima è anche quella più
preoccupante, mentre per raggiungere la corretta spiegazione occorrono
capacità di riflessione e di logica che hanno anche a che fare con ciò
che, nel problem solving, viene chiamato "pensiero laterale". Penso
--giusto come esempio che mi viene in mente al volo-- alla dimostrazione
che, in un caso specifico, gli avvistamenti di luci che si muovevano a
scatti e velocissime nel cielo notturno erano il riflesso delle fiamme
di pozzi petroliferi distanti miglia e miglia dal punto di osservazione,
e si trattava di un effetto ottico riproducibile solo osservando da uno
specifico punto (è raccontato qui;
https://www.radio24.ilsole24ore.com/podcast-originali/darwin/podcast/ufo-americani--efficienza-energetica-e-ia-165026-AEc49OW
al minutaggio 10:55); oppure, all'insetto che provoca l'errore di stampa
all'origine della trama del film "Brazil" di Terry Gilliam.
Morale: dareste la "colpa" degli accessi che ho chiamato "anomali" al
"buon" Google, o ai cattivi Rettiliani?
-------------------------------------------------------------------