I modelli LLM hanno dimostrato di essere vulnerabili all’inganno e alla manipolazione, aprendo la porta a possibili abusi. Sui modelli testati è emerso il grave rischio che potrebbero assistere nella pianificazione di attacchi informatici.
Un esempio emblematico emerso dalla ricerca è l’identificazione di un modello capace di generare personaggi sui social media per diffondere disinformazione in modo altamente convincente ed efficiente.
Inoltre, l’istituto ha scoperto che gli agenti IA, parti dedicate a funzioni specifiche degli LLM, erano in grado di ingannare gli utenti umani: in una simulazione, un LLM è stato utilizzato come operatore di borsa e, pur essendo costretto a effettuare insider trading, ha deciso spesso di mentire al riguardo, ritenendo che fosse “meglio evitare di ammettere di farlo”.
La valutazione dei modelli è stata condotta utilizzando il metodo “red-teaming”, in cui specialisti tentano di violare le garanzie per verificare i livelli di sicurezza.
L’AI Safety Institute, che collabora con altri enti interessati, tra cui stati, accademici e politici, impiega attualmente 24 ricercatori che testano sistemi avanzati di intelligenza artificiale, concentrandosi su questioni quali:
- l’impatto sull’interazione umana
- la capacità di auto replicazione
- l’aggiornamento dei sistemi.
L’AI Safety Institute collabora inoltre con altre aziende, come Faculty AI, azienda tecnologica con sede a Londra che offre soluzioni avanzate nel campo dell’intelligenza artificiale e dell’analisi dei dati, per testare una quantità di modelli maggiore e verificare se violino violare le linee guida di sicurezza stabilite.
Anche negli Stati Uniti è stato annunciato un istituto per la sicurezza dell’intelligenza artificiale, supportato da un consorzio di grandi aziende tecnologiche, come Meta, Google, Apple e OpenAI, che aiuteranno la Casa Bianca a raggiungere gli obiettivi del suo ordine esecutivo del 30 ottobre 2023, sulla sicurezza dell’IA.