<?xml version="1.0" encoding="UTF-8"?><rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>traccia audio &#8211; Interskills &#8211; Media Company</title>
	<atom:link href="https://www.interskills.it/tag/traccia-audio/feed/" rel="self" type="application/rss+xml" />
	<link>https://www.interskills.it</link>
	<description>Agenzia di Formazione e Comunicazione - Education and Communication Agency</description>
	<lastBuildDate>Thu, 03 Oct 2024 09:57:21 +0000</lastBuildDate>
	<language>it-IT</language>
	<sy:updatePeriod>
	hourly	</sy:updatePeriod>
	<sy:updateFrequency>
	1	</sy:updateFrequency>
	<generator>https://wordpress.org/?v=7.0</generator>
	<item>
		<title>Microsoft presenta Vasa-1 che genera volti con capacità visive affettive</title>
		<link>https://www.interskills.it/2024/04/26/microsoft-presenta-vasa-1-che-genera-volti-con-capacita-visive-affettive/</link>
		
		<dc:creator><![CDATA[Redazione]]></dc:creator>
		<pubDate>Fri, 26 Apr 2024 07:10:44 +0000</pubDate>
				<category><![CDATA[Intelligenza Artificiale]]></category>
		<category><![CDATA[News]]></category>
		<category><![CDATA[Tecnologia e applicazioni]]></category>
		<category><![CDATA[algoritmo]]></category>
		<category><![CDATA[avatar generato]]></category>
		<category><![CDATA[capacità visive affettive]]></category>
		<category><![CDATA[direzione dello sguardo]]></category>
		<category><![CDATA[espressioni facciali]]></category>
		<category><![CDATA[foto artistiche]]></category>
		<category><![CDATA[generazione video]]></category>
		<category><![CDATA[google]]></category>
		<category><![CDATA[gpu nvidia rtx 4090]]></category>
		<category><![CDATA[input audio]]></category>
		<category><![CDATA[intelligenza artificiale]]></category>
		<category><![CDATA[lumiere]]></category>
		<category><![CDATA[microsoft research asia]]></category>
		<category><![CDATA[modelli di ia]]></category>
		<category><![CDATA[movimenti facciali]]></category>
		<category><![CDATA[openai]]></category>
		<category><![CDATA[parametri umani]]></category>
		<category><![CDATA[responsabilità tecnologica]]></category>
		<category><![CDATA[SØØn172024]]></category>
		<category><![CDATA[sora]]></category>
		<category><![CDATA[streaming online]]></category>
		<category><![CDATA[traccia audio]]></category>
		<category><![CDATA[vasa-1]]></category>
		<category><![CDATA[video realistici]]></category>
		<guid isPermaLink="false">https://www.interskills.it/?p=5869</guid>

					<description><![CDATA[Microsoft VASA-1 genera volti parlanti estremamente realistici, sincronizzando movimenti labiali e espressioni naturali con l’audio. Supporta vari input come audio e foto, offrendo controllo su sguardo ed emozioni. Capace di produrre video a 45 fps, VASA-1 si distingue per autenticità e precisione, entrando in competizione con modelli come Lumière e Sora.]]></description>
										<content:encoded><![CDATA[
<p class="wp-block-paragraph" style="margin-top:var(--wp--preset--spacing--10)">Microsoft Research Asia <a href="https://www.microsoft.com/en-us/research/project/vasa-1/">ha introdotto VASA-1</a>, un nuovo strumento di intelligenza artificiale per creare volti parlanti estremamente realistici per personaggi virtuali.</p>



<p class="wp-block-paragraph" style="margin-top:var(--wp--preset--spacing--10)">Questo innovativo strumento consente di generare movimenti labiali perfettamente sincronizzati con l&#8217;audio con capacità visive affettive (VAS &#8211; visual affective skills), catturando una vasta gamma di espressioni facciali e movimenti naturali della testa, che contribuiscono a rendere la produzione più autentica.</p>



<p class="wp-block-paragraph" style="margin-top:var(--wp--preset--spacing--10)">Il modello di Microsoft accetta segnali opzionali come condizione, tra cui la direzione dello sguardo principale e le emozioni, permettendo un controllo più preciso sul comportamento dell&#8217;avatar generato. Inoltre, è in grado di gestire una varietà di input, inclusi audio di lunghezza arbitraria e foto artistiche, garantendo flessibilità.</p>



<p class="wp-block-paragraph" style="margin-top:var(--wp--preset--spacing--10)">VASA-1 sfrutta un algoritmo che combina l&#8217;immagine di partenza con la traccia audio disponibile e, eventualmente, anche con alcuni parametri relativi all&#8217;espressività umana, conferendo al soggetto la giusta espressività. Ciò rende i video generati estremamente realistici e vivaci, con movimenti facciali naturali e la possibilità di controllare diversi aspetti della generazione, come la direzione dello sguardo e le espressioni facciali.</p>



<p class="wp-block-paragraph" style="margin-top:var(--wp--preset--spacing--10)">Microsoft VASA-1 può creare contenuti di vario genere, inclusi soggetti che cantano o parlano in altre lingue, nonostante non sia stato specificamente addestrato per tali scopi. L&#8217;addestramento è stato effettuato utilizzando migliaia di immagini e una vasta gamma di espressioni facciali.</p>



<p class="wp-block-paragraph" style="margin-top:var(--wp--preset--spacing--10)">Grazie alla sua efficienza, VASA-1 può produrre fotogrammi video con dimensioni di 512×512 pixel a 45 fps nella modalità di elaborazione batch offline e fino a 40 fps nella modalità di streaming online, con una media di 2 minuti per produrre video utilizzando una GPU Nvidia RTX 4090.</p>



<p class="wp-block-paragraph" style="margin-top:var(--wp--preset--spacing--10)">Pur riconoscendo il potenziale positivo della tecnologia, Microsoft è consapevole dei rischi derivanti dal suo possibile uso improprio e si impegna a sviluppare e utilizzare l&#8217;IA in modo responsabile ed ha dichiarato che non rilascerà nessuna demo online, un&#8217;API o ulteriori dettagli di implementazione fino a quando non sarà certa che la tecnologia potrà essere utilizzata in modo responsabile e conforme alle normative vigenti.</p>



<p class="wp-block-paragraph" style="margin-top:var(--wp--preset--spacing--10);margin-bottom:var(--wp--preset--spacing--10)">Con VASA, Microsoft entra ufficialmente in competizione con i modelli di generazione video delle concorrenti, ricordiamo infatti che lo scorso febbraio sia Google che OpenAI avevano già introdotto i loro modelli di IA che generavano video, rispettivamente <a href="https://www.interskills.it/2024/02/02/google-svela-lumiere/">Lumière</a> e <a href="https://www.interskills.it/2024/02/23/anche-openai-ha-il-suo-text-to-video-nasce-sora/">Sora</a>. Questi servizi avevano sorpreso e preoccupato subito per la qualità che riuscivano ad ottenere. Ora è Vasa-1 a suscitare meraviglia e timore. C’è una differenza sostanziale nei servizi offerti dalle aziende: mentre Sora e Lumiere sono in grado di generare un video da zero partendo da un semplice testo, Vasa-1 può produrre un video partendo da un&#8217;immagine.</p>



<figure class="wp-block-embed aligncenter is-type-video is-provider-youtube wp-block-embed-youtube wp-embed-aspect-16-9 wp-has-aspect-ratio"><div class="wp-block-embed__wrapper">
<iframe title="Vasa-1 di Microsoft: un modello di #AI per generare video da un&#039;immagine statica + audio" width="500" height="281" src="https://www.youtube.com/embed/kY2jixRuz88?feature=oembed" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture; web-share" referrerpolicy="strict-origin-when-cross-origin" allowfullscreen></iframe>
</div><figcaption class="wp-element-caption">Vasa-1 di Microsoft: un modello di AI per generare video da un&#8217;immagine statica + audio</figcaption></figure>
]]></content:encoded>
					
		
		
			</item>
	</channel>
</rss>
