Utilizzando l’intelligenza artificiale e il cosiddetto metodo Zero-Shot, in cui un modello di apprendimento automatico impara a tradurre una lingua senza averne mai visto un esempio, Google ha aggiunto 110 nuove lingue a Translate, il suo servizio di traduzione simultanea (disponibile anche come app per Android e iOS).
Secondo quanto annunciato (qui), questi nuovi idiomi sono parlati da oltre 610 milioni di persone nel mondo e dunque “aprono le traduzioni a circa l’8% della popolazione mondiale”. Alcune sono lingue importanti, con oltre 100 milioni di parlanti (come il cantonese o il punjabi), altre sono parlate da piccole comunità e altre ancora sono lingue che rischiano di sparire e che così vengono in qualche modo rivitalizzate. Circa un quarto arriva dall’Africa (per Google è “la nostra più grande espansione di lingue africane sinora”) mentre esattamente 5 sono di origine italiana. Nel senso che sono dialetti parlati in Italia. Più o meno.
La via di Google ai dialetti italiani
I dialetti italiani già ora accessibili da Traduttore sono friulano, siciliano, veneziano, ligure e lombardo. Che va bene, non fosse per il fatto che gli ultimi due non esistono. Quello che forse a Google è sfuggito è che l’Italia è sì divisa in regioni ma che molti dei suoi dialetti sono legati a comunità più piccole, a parti di quelle regioni o a singole città, se non addirittura a quartieri: se si può parlare di dialetto siciliano, veneto, piemontese o calabrese, lo stesso non si può fare per la Lombardia (il dialetto è milanese, ma è un’altra cosa) e men che meno per la Liguria.
Senza entrare in dettagli storici sui motivi che lo hanno reso dominante, c’è invece il genovese e sarebbe più corretto fare riferimento a quello. Ricordandosi però che è molto, molto (ma molto davvero) diverso dallo spezzino, che a sua volta è diverso dal dialetto che si parla in provincia di Imperia. Di più ancora: nello stesso capoluogo ligure, il genovese che si parla nel quartiere della Foce è differente da quello di Sampierdarena, così come la cadenza di Nervi non è la stessa di Molassana.
Al di là di questo, la traduzione dall’italiano al presunto ligure funziona sostanzialmente bene, pur con qualche accezione un po’ troppo spagnoleggiante, e segue un trend di iper-localizzazione che su Internet è sempre più presente, come dimostrano anche le varie edizioni di Wikipedia in dialetto. Al momento non funziona ancora attraverso Lens (si inquadra una scritta e se ne ottiene la traduzione) e non si può ascoltare la pronuncia delle varie frasi, cosa che invece si può fare per la maggior parte delle lingue presenti su Google Traduttore. Non è chiaro se questa possibilità ci sarà in futuro, magari quando al servizio verranno aggiunti dialetti che effettivamente esistono e dunque vengono parlati.
Come ha fatto Google a imparare tante nuove lingue
Per raggiungere questi risultati, Google ha utilizzato uno dei suoi LLM esistenti, chiamato PaLM 2 e utilizzato anche per alcune funzionalità di Docs e Gmail, e ne ha sviluppato uno nuovo, un modello vocale universale (in sigla, USM) che è stato addestrato su oltre 400 lingue e da lì è in qualche modo partito per impararne altre.
In questo campo, l’uso dell’intelligenza artificiale è sempre più importante, perché le IA stanno diventando sempre più brave non solo a capire il significato di una parola ma anche a interpretare il significato che le persone danno a quella parola, anche in relazione al contesto in cui viene usata: a dimostrarlo ci sono i chatbot, da Gemini a ChatGPT e altri (come Perplexity), che stanno diventando sempre più efficaci e in grado di sembrare umani.
Non è tutto, però: dall’azienda di Mountain View hanno sottolineato quanto sia determinante anche “la continua collaborazione con linguisti esperti e madrelingua“, grazie alla quale “nel tempo supporteremo un numero ancora maggiore di varietà linguistiche e di convenzioni ortografiche”.
Fonte : Repubblica