Sicura ed efficiente, la tecnologia V2A è alimentata da un modello AI addestrato su una combinazione di suoni e trascrizioni di dialoghi, oltre che di filmati, così da garantire il risultato ambizioso che gli sviluppatori di DeepMind stavano ricercando. “Addestrandosi su video, audio e annotazioni aggiuntive, la nostra tecnologia impara ad associare eventi audio specifici a varie scene visive, rispondendo alle informazioni fornite nelle annotazioni o nelle trascrizioni”, scrive il laboratorio, sottolineando la capacità di V2A di generare audio che si adattano alla perfezione ai frame video. Quello che non è chiaro, però, è se i dati utilizzati sono protetti da copyright. E se i proprietari degli audio e dei video sono stati avvertiti del fatto che i loro contenuti sono serviti per addestrare il modello.
Nonostante la formazione dell’AI sia stata tanto accurata, però, la tecnologia V2A non sembra ancora garantire prestazioni ottimali. Proprio per questo, DeepMind ha scelto di non renderla disponibile a breve. “Per assicurarci che la nostra tecnologia V2A possa avere un impatto positivo sulla comunità creativa, stiamo raccogliendo diverse prospettive e intuizioni da parte di creatori e registi di primo piano, e usiamo questo prezioso feedback per informare la nostra ricerca e il nostro sviluppo continui – chiosa il laboratorio di Google -. Prima di considerare la possibilità di aprirne l’accesso al grande pubblico, la nostra tecnologia V2A sarà sottoposta a rigorose valutazioni e test di sicurezza”.
Fonte : Wired