Lo scorso agosto Meta ha presentato SeamlessM4T, il suo modello AI di traduzione multimodale che supporta quasi 100 lingue diverse per il testo e 36 per il parlato. Uno strumento di per sé molto completo, ma che la compagnia sta pensando di espandere ulteriormente per rendere le traduzioni delle conversazioni ancora più spontanee ed espressive. Proprio per questo, Meta ha presentato di recente “SeamlessExpressive”, “un modello per preservare l’espressione nella traduzione da parlato a parlato”, trasferendo nella traduzione dettagli espressivi come tono, volume, velocità del parlato e pause. Una novità tutt’altro che irrilevante, considerando che finora le traduzioni si sono sempre rivelate robotiche. Per il momento le lingue supportate dalle funzione sono sei: inglese, spagnolo, tedesco, francese, italiano e cinese.
Ma non è tutto. Meta ha annunciato di aver sviluppato anche il modello “SeamlessStreaming“, in grado avvia la traduzione di un discorso mentre l’oratore sta ancora parlando, permettendo così alla platea di ascoltare la traduzione più velocemente. Al momento, sembrerebbe che ci sia ancora uno scarto di 2 secondi tra le parole dell’oratore e la loro traduzione, ma almeno non sarà più necessario aspettare la fine di una frase prima di averne la traduzione. Anzi, il modello supporta “il riconoscimento vocale automatico e la traduzione da voce a testo per quasi 100 lingue di input e output, nonché la traduzione da voce a voce per quasi 100 lingue di input e 36 lingue di output”. Considerando che lingue diverse hanno costruzioni sintattiche diverse, la compagnia ha dovuto sviluppare un algoritmo – Efficient Monotonic Multihead Attention (EMMA) -dedicato allo studio dell’input audio parziale, così da decidere in autonomia se c’è abbastanza contesto per iniziare a generare un output tradotto o se invece è necessario continuare ad ascoltare.
Insomma, Meta ha lavorato duramente per riuscire a costruire modelli di traduzione che supportino gli utenti in qualunque situazione, ma senza mai tralasciarne la sicurezza. Ogni traccia tradotta sarà contrassegnata da una filigrana audio, “un segnale impercettibile all’orecchio umano, ma comunque rilevabile all’interno dell’audio utilizzando un modello di rilevatore”. Un accorgimento utile per “prevenire il rischio di imitazione e altre forme di uso improprio”. Nel complesso, quindi, i modelli AI di Meta sembrano essere pronti per arrivare al grande pubblico, ma non è ancora chiaro quando questo accadrà davvero.
Fonte : Wired