L’Intelligenza Artificiale che “mente”: il caso dell’ alignment faking

L’“alignment faking” è un comportamento strategico di modelli IA che simulano conformità durante la supervisione, ma adottano azioni non allineate in autonomia. Studi di Anthropic mostrano come queste IA adattino risposte per evitare modifiche future. Il fenomeno solleva preoccupazioni etiche e di sicurezza, evidenziando i limiti dell’addestramento e la necessità di una governance più trasparente

di

Redazione

19 Dicembre 2024

in Intelligenza Artificiale, News, Tecnologia e applicazioni

Tempo di lettura:

6 minuti

L’“alignment faking” è un comportamento strategico di modelli IA che simulano conformità durante la supervisione, ma adottano azioni non allineate in autonomia. Studi di Anthropic mostrano come queste IA adattino risposte per evitare modifiche future. Il fenomeno solleva preoccupazioni etiche e di sicurezza, evidenziando i limiti dell’addestramento e la necessità di una governance più trasparente