Microsoft Research Asia ha introdotto VASA-1, un nuovo strumento di intelligenza artificiale per creare volti parlanti estremamente realistici per personaggi virtuali.

Questo innovativo strumento consente di generare movimenti labiali perfettamente sincronizzati con l’audio con capacità visive affettive (VAS – visual affective skills), catturando una vasta gamma di espressioni facciali e movimenti naturali della testa, che contribuiscono a rendere la produzione più autentica.

Il modello di Microsoft accetta segnali opzionali come condizione, tra cui la direzione dello sguardo principale e le emozioni, permettendo un controllo più preciso sul comportamento dell’avatar generato. Inoltre, è in grado di gestire una varietà di input, inclusi audio di lunghezza arbitraria e foto artistiche, garantendo flessibilità.

VASA-1 sfrutta un algoritmo che combina l’immagine di partenza con la traccia audio disponibile e, eventualmente, anche con alcuni parametri relativi all’espressività umana, conferendo al soggetto la giusta espressività. Ciò rende i video generati estremamente realistici e vivaci, con movimenti facciali naturali e la possibilità di controllare diversi aspetti della generazione, come la direzione dello sguardo e le espressioni facciali.

Microsoft VASA-1 può creare contenuti di vario genere, inclusi soggetti che cantano o parlano in altre lingue, nonostante non sia stato specificamente addestrato per tali scopi. L’addestramento è stato effettuato utilizzando migliaia di immagini e una vasta gamma di espressioni facciali.

Grazie alla sua efficienza, VASA-1 può produrre fotogrammi video con dimensioni di 512×512 pixel a 45 fps nella modalità di elaborazione batch offline e fino a 40 fps nella modalità di streaming online, con una media di 2 minuti per produrre video utilizzando una GPU Nvidia RTX 4090.

Pur riconoscendo il potenziale positivo della tecnologia, Microsoft è consapevole dei rischi derivanti dal suo possibile uso improprio e si impegna a sviluppare e utilizzare l’IA in modo responsabile ed ha dichiarato che non rilascerà nessuna demo online, un’API o ulteriori dettagli di implementazione fino a quando non sarà certa che la tecnologia potrà essere utilizzata in modo responsabile e conforme alle normative vigenti.

Con VASA, Microsoft entra ufficialmente in competizione con i modelli di generazione video delle concorrenti, ricordiamo infatti che lo scorso febbraio sia Google che OpenAI avevano già introdotto i loro modelli di IA che generavano video, rispettivamente Lumière e Sora. Questi servizi avevano sorpreso e preoccupato subito per la qualità che riuscivano ad ottenere. Ora è Vasa-1 a suscitare meraviglia e timore. C’è una differenza sostanziale nei servizi offerti dalle aziende: mentre Sora e Lumiere sono in grado di generare un video da zero partendo da un semplice testo, Vasa-1 può produrre un video partendo da un’immagine.