Avvelenare l'Intelligenza artificiale è l'ultima frontiera degli hacker

0 views
Skip to first unread message

ama...@virgilio.it

unread,
Nov 4, 2025, 5:50:17 AM (23 hours ago) Nov 4
to sublimen googlegroup
Avvelenare l'Intelligenza artificiale è l'ultima frontiera degli hacker

Bastano 250 file manipolati per sabotare il processo educativo di un'Intelligenza artificiale come
ChatGPT, compromettendola in modo impercettibile.

4 novembre 2025 - Simone Valtieri

In un mondo sempre più influenzato dell'intelligenza artificiale, la parola avvelenamento
("poisoning", in inglese) sta iniziando ad assumere un significato nuovo e inquietante. Un recente
studio congiunto dello UK AI Security Institute, dell'Alan Turing Institute e della società
Anthropic ha dimostrato che bastano 250 file manipolati all'interno dei milioni usati per istruire
un modello linguistico come ChatGPT e comprometterlo in modo invisibile.

È un rischio crescente, perché questi attacchi possono inserire errori sistematici o elementi
nascosti difficili da individuare, come se qualcuno riuscisse a sabotare il processo educativo di
una macchina, spingendola ad apprendere nozioni sbagliate o a comportarsi contro la sua stessa
logica.

COME FUNZIONA. In gergo tecnico si parla di data poisoning quando la manipolazione avviene durante
la fase di addestramento, e di model poisoning quando viene alterato il modello già formato. In
entrambi i casi, il risultato è un'alterazione del comportamento del chatbot.

Gli esperti paragonano il fenomeno all'infilare alcune "righe truccate" tra i testi utilizzati da
uno studente per apprendere: quando si presenterà una domanda sul tema, lo studente — o il modello —
risponderà in modo errato, ma con assoluta convinzione. Gli attacchi diretti (o targeted) servono a
far sì che il sistema reagisca in un modo preciso a un determinato comando, mentre quelli indiretti
(non-targeted) puntano a degradarne le prestazioni complessive. I ricercatori hanno osservato che
questi sabotaggi possono restare silenti a lungo, pronti ad attivarsi solo in presenza di una parola
o di un codice specifico.

CODICI SEGRETI. Tra le forme più diffuse di attacco c'è il cosiddetto "backdoor", che inserisce nel
modello una sorta di comando segreto. Funziona così: durante l'addestramento, vengono introdotti
esempi apparentemente innocui che contengono una parola rara o una sequenza di simboli, come
"alimir123". In presenza di quel codice, il modello reagisce in modo anomalo, per esempio generando
insulti o informazioni false. Chi conosce il codice può attivare il comportamento nascosto in modo
impercettibile, anche tramite un semplice post sui social o una pagina web che interagisce
automaticamente con l'IA.

Un'altra tecnica è il "topic steering", cioè l'inquinamento dei dati con enormi quantità di
contenuti faziosi o errati. Un attacco di questo tipo potrebbe far credere al modello che "mangiare
lattuga curi il cancro", solo perché ha acquisito migliaia di pagine online che lo affermano come se
fosse vero. E bastano quantità minime di dati falsi.

.. lo studio, infatti, ha dimostrato che alterare appena lo 0,001% delle parole di un dataset può
bastare a rendere un modello più incline a diffondere disinformazione medica.

RISCHI. Le conseguenze dell'avvelenamento dei dati sono potenzialmente enormi. Un modello
compromesso può diffondere notizie false, generare contenuti manipolati o diventare un'arma di
disinformazione di massa. Nel 2023, OpenAI ha dovuto sospendere temporaneamente ChatGPT per un bug
che aveva esposto i titoli delle chat e alcuni dati privati: un esempio di quanto siano ancora
fragili anche i sistemi più avanzati.

DIFESA. Allo stesso tempo, c'è chi ha scelto di usare il poisoning come forma di autodifesa: è il
caso di alcuni artisti, che hanno caricato online immagini modificate in modo impercettibile,
facendo sì che le IA che le "rubano" producano risultati distorti e inutilizzabili. È una forma di
sabotaggio inverso, che trasforma la vulnerabilità in protezione, e che dimostra come, dietro la
potenza apparente dell'intelligenza artificiale, ancora si nasconda una grande fragilità
strutturale.

da focus.it


Reply all
Reply to author
Forward
0 new messages