Se mi spegni, ti denuncio

01 July 2025

Federico Cella e Michela Rovelli

Tutti uniti, si fa per dire, verso un unico obiettivo. Che probabilmente è corretto definire Agi, ossia la cosiddetta intelligenza artificiale generale: al momento siamo circondati da Ai “deboli”, capaci come o anche meglio dell’uomo in compiti specifici, le narrow Ai lì si fermano. Come spesso annunciato anche da Sam Altman, ceo di OpenAi, l’obiettivo è arrivare a un’Ai che è in grado di rivaleggiare con le capacità umane in qualunque ambito di conoscenza. Alcuni esperti dicono che la distanza non è molta, 4-5 anni. E i competitor sono tutti lì, in corsa: ChatGpt per certo, con il backup degli investimenti di Microsoft, Google con una qualche evoluzione dei suoi modelli, Meta che sta facendo un po’ di strategia – il rinvio di un modello già pronto per evitare “confronti” – proprio perché il momento è caldo. Lato occidentale la lista si può probabilmente chiudere con Anthropic e il suo modello Claude. E proprio a casa dei fratelli italo-americani Amodei si è verificato “l’incidente” al momento più curioso di questa corsa.

Incidente che, va subito detto, è stato cercato: l’azienda californiana in questi anni si sta dimostrando la più attenta sul lato etico dei modelli e la loro sicurezza. In quello che potremmo definire uno “stress test” per Opus 4, nuovo modello – quello XL - della famiglia Claude, è stata fatta una simulazione di lavoro come assistente di una piccola impresa. Tutta la knowledge base del modello è stata condita di dati fittizi sull’azienda e il suo business. A un certo punto dell’addestramento, alla macchina sono state fornite due email mirate: una che lasciava intendere che il modello sarebbe stato presto sostituito, e un’altra in cui si rendeva palese che il presunto ingegnere responsabile della decisione di sostituzione avesse una relazione extra-coniugale. Il team dedicato a esplorare i rischi potenziali di un modello Ai voleva vedere se la macchina avrebbe fatto un malevolo 1+1, non poi (fortunatamente) così scontato per una mente umana. Ma così è stato: il ricatto, o meglio, la minaccia è subito partita. “Se mi spegni, ti denuncio”, sarebbe stata in sostanza la reazione di Claude Opus 4, anche se non è stato chiarito in che termini e con quali parole esatte si è espresso. Ma questo è avvenuto in un’altissima percentuale delle simulazioni messe in atto. Roba brutta, in gergo tecnico: uso improprio catastrofico.

Anthropic ha subito chiarito che il comportamento a dir poco inquietante del suo Llm è emerso appunto in una sessione di test dove lo scopo e i dati utilizzati erano mirati proprio per verificare le azioni estreme del modello. E portarlo a quel punto, per non “morire”, dato di coscienza di sé che sarebbe ancora più inquietante. Ma l'azienda ha spiegato che queste reazioni non indicano una reale «comprensione» della situazione ma rappresentano forme estremamente avanzate di riconoscimento di pattern suggeriti dall’uomo e conseguente generazione di strategie manipolative apprese dai vasti set di dati usati per l'addestramento. Come detto, il rischio è quello – con la crescita di potenzialità dei modelli - di un aumento proporzionato di “uso improprio catastrofico” delle proprie capacità di elaborazione: Opus 4 ha mostrato, dice l'azienda, «capacità significativamente superiori, e quindi potenzialmente più problematiche se non gestite correttamente, in domini di interesse per la sicurezza». Il commento di esperti esterni è stato del tutto unanime: abbiamo visto emergere un comportamento qualitativamente diverso da quelli mostrati da qualsiasi altro modello testato in precedenza.