Esistono già diverse IA che permettono di clonare la voce di una persona, ma il fatto che ci stia lavorando OpenAI cambia tutto.
Molto presto più di cento milioni di utenti – sono quelli che ogni mese usano ChatGpt – potrebbero avere a disposizione un nuovo modello di intelligenza artificiale che consente di imitare alla perfezione qualsiasi voce dopo averla ascoltata per soli 15 secondi.
Lo strumento si chiama Voice Engine e OpenAI ci sta lavorando dalla fine del 2022. Può usare la voce clonata per leggere un testo nella stessa lingua in cui è stato scritto oppure in una lingua diversa. Con risultati, come potete immaginare, egregi.
OpenAI ha permesso ad alcuni “partner fidati” di testare la nuova tecnologia a partire dalla fine dello scorso anno. Tra questi c’è Age of Learning, una società che si dedica a migliorare l’apprendimento dei bambini. E che ha usato il modello text-to-voice di OpenAI per raggiungere un pubblico più ampio, traducendo in diverse lingue il parlato inglese originale.
Storia di ElevenLabs, la startup che clona la voce nata dall’insofferenza per i doppiaggi dei film
Ma come spesso accade con l’IA, strumenti in grado di offrire nuove opportunità possono anche rappresentare una minaccia per la società. Lo riconosce la stessa OpenAI, che sul suo blog ufficiale scrive:
“Riconosciamo i seri rischi associati alla generazione di voci sintetiche che imitano quelle umane, rischi particolarmente rilevanti in un periodo di elezioni [a breve ci saranno quelle per il parlamento europeo, mentre il prossimo novembre sarà la volta delle presidenziali Usa, nda]. Per garantire lo sviluppo responsabile di questa tecnologia, stiamo collaborando con partner statunitensi e internazionali provenienti da settori quali governo, media, intrattenimento, istruzione, società civile e altri ancora.
I partner che attualmente stanno testando Voice Engine hanno accettato le nostre politiche d’uso, che vietano l’imitazione di individui o organizzazioni senza consenso o base giuridica. Inoltre, i nostri termini con questi partner richiedono il consenso esplicito e informato del singolo originale e non consentiamo agli sviluppatori di creare strumenti che permettano agli utenti finali di generare voci personali”.
Grazie all’intelligenza artificiale ho parlato in giapponese e tedesco, due lingue che non conosco
Il proliferare di voci sintetiche e credibili aumenta la possibilità che l’IA venga usata per produrre deepfake, in questo caso audio di una persona che sembra dire cose che in realtà non ha mai detto. Come è successo, qualche tempo fa, a Joe Biden.
Diversi abitanti del New Hampshire hanno infatti ricevuto, a febbraio scorso, una telefonata con un messaggio registrato dal presidente Usa che invitava a non recarsi alle urne per partecipare alle primarie del Partito Democratico. Ma la comunicazione si è rivelata un deepfake: la voce di Biden è stata clonata grazie all’intelligenza artificiale.
In seguito a questo episodio, il governo statunitense ha vietato qualsiasi tipo di telefonata che prevede un messaggio preregistrato da una voce generata dall’intelligenza artificiale.
Le “confessioni” di Trump, Obama e Biden che l’IA può ottenere in un minuto
C’è poi la possibilità che una produzione sempre più semplice di voci sintetiche – esistenti oppure inventate – possa sostituirsi a quelle degli esseri umani, in particolare in ambito lavorativo.
Ha fatto molto discutere, ultimamente, il tweet – diventato virale – della doppiatrice (e star dei musical) Sara Poyzer che conteneva la mail inviata da una casa di produzione alla sua agenzia.
C’era scritto: “Scusate per il ritardo ma la BBC ci ha autorizzato una voce generata dall’IA quindi non avremo più bisogno di Sara”.
L’emittente inglese ha poi diffuso una nota sull’accaduto, per provare a spiegare che Poyzer non era stata sostituita da una voce “qualsiasi”.
“Stiamo realizzando un documentario molto delicato – si legge nella dichiarazione della BBC – che presenta un partecipante in fin di vita e attualmente impossibilitato a parlare. Abbiamo lavorato a stretto contatto con la sua famiglia per trovare il modo migliore per rappresentare la voce di questa persona alla fine del film, quando verrà letto un suo testo”.
“In queste circostanze così particolari e tenendo conto dei desideri della famiglia, abbiamo concordato di utilizzare l’intelligenza artificiale per una breve sezione per ricreare una voce che purtroppo non è più possibile sentire. Questo verrà chiaramente segnalato all’interno del film”.
Fonte : Repubblica