Maria Grazia Abis è una pensionata di 70 anni di Sardara, comune di poco più di 3mila abitanti situato al centro della Sardegna. Quando sente il suo smartphone squillare decide di rispondere, anche se il numero non compare nella sua rubrica. Dall’altro lato del telefono c’è la figlia, o meglio, è quello che Maria Grazia crede essere la figlia. La telefonata dura poco, perché la “ragazza” la avverte che la linea è disturbata. La conversazione prosegue poi con messaggi vocali. Maria Grazia non ha dubbi, la voce è quella di sua figlia che vive nel Principato di Monaco: la sta avvisando che ha bisogno di soldi. Lei, racimola la somma necessaria e la spedisce all’indirizzo indicato.
Solo quando chiama il numero della figlia scopre l’inganno. Alcuni truffatori avevano clonato la voce della persona per lei più cara al mondo e, facendo leva sui suoi sentimenti, le avevano estorto del denaro. “Non avrò i soldi indietro, mi è sembrato doveroso raccontare la mia esperienza per mettere in guardia le altre mamme” aveva raccontato Maria Grazia ai quotidiani locali. Sì, perché Maria Grazia non è la prima vittima del raggiro e, anche grazie alla larga diffusione delle piattaforme audio-video che utilizzano l’intelligenza artificiale, queste truffe potrebbero ben presto diffondersi a macchia d’olio.
Così ho clonato la mia voce con un software online
Il tema è diventato, lo scorso giugno, materiale di dibattito anche per il Senato americano. A fornire la sua testimonianza in aula, Jennifer De Stefano, una madre americana di 50 anni adescata telefonicamente mesi prima da un gruppo di cybercriminali, che le avevano fatto credere di aver rapito la figlia. Come? Utilizzando la voce clonata della ragazza. Una disavventura simile a quella vissuta da una donna canadese di 75 anni. L’anziana è stata truffata per migliaia di euro grazie alla clonazione della voce del nipote. Con una serie di messaggi audio le era stato fatto credere che il giovane avesse provocato un incidente stradale e che, per uscire di prigione, avesse bisogno di soldi per la cauzione.
Nell’era dell’intelligenza artificiale anche la nostra voce è un dato sensibile. Del resto clonarla è sempre più alla portata di tutti. Software come Murf.ai, PlayHT o Vidnoz AI – giusto per citare tre tra i più famosi – offrono opzioni per farlo facilmente e spesso in modo gratuito.
Il “trucco” che utilizzano è generalmente quello di sovrapporre una skin vocale a un audio preesistente. Per semplificare: bastano pochi secondi (o minuti) di registrazione del proprio parlato che viene sovrapposto alle caratteristiche timbriche di altre voci che la piattaforma ha a disposizione. Nell’audio che potete ascoltare qui sotto, ad esempio, ho dato in pasto un minuto della mia voce a un software di video and voice cloning chiamato Rask.ai. Il programma ha trascritto quello che ho detto e ha clonato la mia voce.
A questo punto ho potuto comodamente digitare il mio messaggio vocale da un editor di testo (lo vedete sulla destra in alto) che utilizza il “text to speech”. Tradotto: scrivo delle parole che verranno convertite in audio con la mia voce clonata. Il messaggio truffaldino creato lo potete ascoltare qui sotto. A mancare è il ritmo e l’emotività che contraddistingue il mio parlato. Ma è comunque un audio che potrebbe trarre in inganno una persona anziana, con problemi di udito o sotto stress: il timbro è infatti decisamente il mio.
Altri approcci, decisamente più sofisticati, si basano sul vero e proprio “machine learning model” e offrono risultati decisamente più verosimili. Anche in questo caso si utilizzano vasti database di dati vocali, ma si fornisce al sistema un modello e lo si addestra a parlare in maniera simile al parlante, replicando anche la prosodia e le inflessioni regionali, ad esempio. In questo caso diventa essenziale la qualità e la durata degli audio che si hanno a disposizione per la creazione “ex novo” di un vero e proprio modello vocale.
“Aumenta il fattore di convincimento, ma attenzione a riconoscere i segnali di allarme”
“L’intelligenza artificiale ci darà dei dispiaceri – osserva Stefano Zanero, esperto di sicurezza informatica e professore ordinario del Politecnico di Milano – attualmente è difficile venire ingannati da un automa che interagisce con una persona in tempo reale, vuoi per il vocabolario, vuoi per l’emotività o per la psicologia della persona. Non penso che automaticamente avremmo dei costrutti che siano indistinguibili dagli esseri umani. Credo però che si raffineranno (e diffonderanno a macchia d’olio) però le truffe con voci lasciate nelle caselle vocali. Questo per l’oggi. Per il lungo periodo dovremo invece vedere cosa succede”.
Ma le possibilità sono davvero innumerevoli e, la facilità con la quale oggi si riesce a manipolare la nostra voce apre spazi enormi anche per la diffusione di deepfake e falsi. “Clonare la voce di personaggi celebri è ormai abbastanza semplice, ma in realtà oggi tutti noi lasciamo molte tracce online – osserva Stefano Zanero – si pensi, ad esempio, ai ragazzi che pubblicano sempre più video su TikTok o Instagram. Quindi è facile per tutti ottenere una buona clonazione della voce? No, ma di certo molti verranno ingannati. Poi c’è da dire che più aumenterà la qualità di questi sistemi di creazione di voci basati su algoritmi generativi, più sarà possibile ottenere buoni risultati anche con meno materiale audio e di minore qualità”.
Quel che è certo è che queste truffe non sono certo create da singoli, ma da veri e propri gruppi criminali e da una filiera che ormai è una vera e propria industria: “Prima di attaccare una vittima bisogna fare un minimo di ‘scouting’, capirne le abitudini, il contesto familiare e i punti deboli, ma parliamo di gruppi criminali preparati, di naïf qui non c’è nulla – osserva Zanero – questo però è paradossalmente un vantaggio per capire i segnali di allarme. I truffatori acquistano ‘pacchetti’ pronti sul dark web e gli schemi di queste truffe sono spesso gli stessi, bisogna solo imparare a riconoscerli”. Il rapimento, ad esempio, come visto sopra, è un tema ricorrente.
“L’impressione è che comunque queste modalità ci daranno del filo da torcere, perché le truffe sono sempre esistite, anche senza intelligenza artificiale. È ovvio però che, in presenza della voce di una persona cara il fattore di convincimento aumenta” ci racconta il professor Zanero.
E l’impressione, più generale, è che siamo ormai entrati nell’era della riproducibilità tecnica di quasi tutto ciò che rende unica la nostra persona. Prima ce ne rendiamo conto e prima eviteremo di incappare in brutte sorprese.
Fonte : Today