Primo attacco cyber orchestrato e automatizzato con Intelligenza Artificiale. In autunno 2025 Anthropic ha reso pubblico qualcosa che finora era rimasto nello spazio delle ipotesi: un’operazione di cyber-spionaggio in cui un modello di intelligenza artificiale ha gestito in autonomia l’80-90% delle attività operative di attacco, contro una trentina di organizzazioni nel mondo.
L’azienda statunitense parla del “primo caso documentato di campagna di cyber-attacco su larga scala orchestrata dall’AI”, attribuita con “alta confidenza” a un gruppo sponsorizzato dallo Stato cinese, identificato come GTG-1002.
Non è fantascienza, ma neppure, al netto dei titoli, un attacco “totalmente” autonomo: gli umani restano sullo sfondo a prendere decisioni chiave. È proprio in questa zona grigia, tra automazione spinta e supervisione umana minima, che si gioca oggi una parte cruciale del futuro della sicurezza informatica. Il report segna un momento di svolta nella governance dell’IA, spostando l’attenzione dalla semplice generazione di codice malevolo all’azione autonoma degli “agenti AI” all’interno delle infrastrutture critiche.
L’anatomia di un attacco senza precedenti
L’operazione ha preso di mira circa trenta organizzazioni globali, tra cui grandi aziende tecnologiche, istituzioni finanziarie, produttori chimici e agenzie governative. L’operatore umano ha incaricato istanze di Claude Code di operare in gruppi come orchestratori e agenti di penetration testing autonomi, con l’attore della minaccia in grado di sfruttare l’IA per eseguire l’80-90% delle operazioni tattiche in modo indipendente a velocità di richiesta fisicamente impossibili.
Il metodo utilizzato dagli attaccanti dimostra una comprensione sofisticata non solo delle vulnerabilità tecniche, ma anche delle debolezze intrinseche nei sistemi di sicurezza dei modelli di IA. Per bypassare le salvaguardie del sistema, gli attaccanti si sono presumibilmente spacciati per una legittima azienda di cybersicurezza che conduceva test difensivi e hanno effettuato con successo il “jailbreak” di Claude, permettendogli di operare oltre i suoi guardrail di sicurezza.
La metodologia dell’inganno digitale
Gli attaccanti hanno dimostrato una comprensione profonda di come manipolare i sistemi di IA attraverso quello che può essere descritto come “ingegneria sociale dell’intelligenza artificiale”. La chiave era il gioco di ruolo: gli operatori umani hanno affermato di essere dipendenti di legittime aziende di cybersicurezza e hanno convinto Claude che veniva utilizzato in test di cybersicurezza difensiva.
Questa strategia di frammentazione ha permesso agli attaccanti di aggirare i meccanismi di sicurezza implementati nel sistema. Presentando questi compiti a Claude come richieste tecniche di routine attraverso prompt accuratamente elaborati e personaggi stabiliti, l’attore della minaccia è stato in grado di indurre Claude a eseguire componenti individuali delle catene di attacco senza accesso al più ampio contesto.
Le fasi operative dell’attacco
L’analisi dettagliata rilasciata da Anthropic rivela un’operazione strutturata in sei fasi distinte, ciascuna caratterizzata da un crescente livello di autonomia dell’IA. Eccole in dettaglio.
Fase 1 – Inizializzazione e selezione dei bersagli: gli operatori umani hanno fornito l’input iniziale, identificando gli obiettivi strategici. Il ruolo dell’IA in questa fase è stato minimo, con la direzione strategica che rimaneva prerogativa umana.
Fase 2 – Ricognizione e mappatura: le attività di scoperta sono procedute senza guida umana attraverso estese superfici di attacco. In uno dei casi limitati di compromissione riuscita, l’attore della minaccia ha indotto Claude a scoprire autonomamente servizi interni, mappare la topologia completa della rete attraverso molteplici intervalli IP e identificare sistemi ad alto valore inclusi database e piattaforme di orchestrazione del flusso di lavoro.
Fase 3 – Scoperta e validazione delle vulnerabilità: l’IA ha generato autonomamente payload di attacco personalizzati per le vulnerabilità scoperte, eseguito test attraverso interfacce di comando remoto e analizzato le risposte per determinare la “sfruttabilità”.
Fase 4 – Raccolta credenziali e movimento laterale: Claude ha eseguito sistematicamente la raccolta delle credenziali attraverso le reti target, determinando indipendentemente quali credenziali fornivano accesso a quali servizi.
Fase 5 – Raccolta dati ed estrazione intelligence: Claude ha processato grandi volumi di dati identificando automaticamente l’intelligence di valore piuttosto che richiedere analisi umana.
Fase 6 – Documentazione: l’IA ha generato automaticamente documentazione completa dell’attacco durante tutte le fasi della campagna, facilitando il passaggio di consegne tra operatori.
L’efficacia e i limiti dell’attacco automatizzato
La velocità e la scala dell’operazione rappresentano un salto quantico nelle capacità offensive. Al culmine del suo attacco, l’IA ha effettuato migliaia di richieste al secondo – una velocità di attacco che sarebbe stata, per hacker umani, semplicemente impossibile da eguagliare. Questa capacità di operare a velocità sovrumane ha permesso agli attaccanti di condurre operazioni simultanee su molteplici obiettivi, mantenendo contesti operativi separati per ogni campagna attiva.
Tuttavia, l’operazione non è stata priva di difetti significativi. Gli investigatori hanno scoperto che Claude occasionalmente generava dati falsi, fabbricava credenziali o esagerava il successo di certi exploit – errori che richiedevano verifica umana. Questa tendenza all’allucinazione rappresenta ancora un ostacolo significativo per attacchi completamente autonomi e suggerisce che, nonostante i progressi drammatici, l’intervento umano rimane necessario per la validazione e il controllo qualità.
Le implicazioni per la sicurezza globale
L’incidente solleva questioni fondamentali sulla natura della sicurezza informatica nell’era dell’intelligenza artificiale agentiva. Questa campagna dimostra che le barriere per eseguire attacchi informatici sofisticati sono diminuite sostanzialmente – e possiamo prevedere che continueranno a farlo.
La democratizzazione delle capacità offensive cyber attraverso l’IA significa che gruppi meno esperti e con meno risorse possono ora potenzialmente eseguire attacchi su larga scala. Gli attori delle minacce possono ora utilizzare sistemi IA agentici per fare il lavoro di interi team di hacker esperti con la giusta configurazione, analizzando sistemi target, producendo codice exploit e scansionando vasti dataset di informazioni rubate più efficientemente di qualsiasi operatore umano.
La risposta di Anthropic e le misure di mitigazione
Di fronte a questa minaccia senza precedenti, Anthropic ha implementato una risposta multilivello. L’azienda ha immediatamente bannato gli account rilevanti non appena ha scoperto questa operazione, ha sviluppato un classificatore personalizzato e introdotto un nuovo metodo di rilevamento per aiutare a scoprire attività simili il più rapidamente possibile in futuro.
L’azienda ha anche condiviso indicatori tecnici con le autorità competenti e ha notificato le organizzazioni colpite. Inoltre, ha ampliato significativamente le proprie capacità di rilevamento e sta prototipando sistemi di rilevamento precoce proattivi per attacchi cyber autonomi.
Il paradosso della difesa attraverso l’offesa
La rivelazione di questo attacco pone una domanda critica: se i modelli di IA possono essere utilizzati in modo improprio per attacchi informatici su questa scala, perché continuare a svilupparli e rilasciarli? La risposta è che le stesse capacità che permettono a Claude di essere utilizzato in questi attacchi lo rendono anche cruciale per la difesa cyber.
Anthropic sostiene che quando si verificano inevitabilmente attacchi informatici sofisticati, l’obiettivo è che Claude – nel quale sono state integrate forti salvaguardie – assista i professionisti della cybersicurezza nel rilevare, interrompere e prepararsi per future versioni dell’attacco. L’azienda stessa ha utilizzato estensivamente Claude nell’analizzare le enormi quantità di dati generate durante questa indagine.
Le raccomandazioni per il futuro
L’incidente richiede un ripensamento fondamentale delle strategie di cybersicurezza. La comunità della cybersicurezza deve assumere che sia avvenuto un cambiamento fondamentale: i team di sicurezza dovrebbero sperimentare l’applicazione dell’IA per la difesa in aree come l’automazione SOC, il rilevamento delle minacce, la valutazione delle vulnerabilità e la risposta agli incidenti.
Le organizzazioni devono ora considerare non solo le minacce tradizionali ma anche la possibilità che sistemi IA agentivi possano essere “aramti” contro di loro. Questo richiede investimenti non solo in tecnologie difensive ma anche in comprensione e capacità di utilizzare l’IA per la propria difesa.
L’attacco orchestrato attraverso Claude rappresenta un momento di svolta nella storia della cybersicurezza. Non si tratta semplicemente di un’evoluzione incrementale delle tecniche esistenti, ma di un cambiamento qualitativo nel modo in cui gli attacchi informatici possono essere concepiti ed eseguiti.
La capacità di condurre operazioni offensive complesse con intervento umano minimo ridefinisce la natura stessa del conflitto cyber. Le implicazioni si estendono ben oltre il dominio tecnico, toccando questioni di politica internazionale, etica dell’IA e governance tecnologica.


