Nove miliardi di parametri, 50.000 token nel vocabolario e oltre 1.000 miliardi di parole per il training. Sono i numeri di Italia, il large language model (Llm) sviluppato in 5 mesi dalla società informatica iGenius e addestrato sul supercomputer Leonardo, gestito dal Consorzio Interuniversitario Cineca, su un dataset per il 90% composto da informazioni in lingua italiana.
Rilasciato in modalità open source, Italia vuole essere uno strumento di evoluzione per la ricerca e le imprese di tutto il Paese, ma non solo. Il vero obiettivo è quello di diffondere in tutta Europa (almeno) un approccio nuovo agli Llm, “che garantisca una rappresentazione equa di tutte le culture e le lingue“, spiega Uljan Sharka, fondatore e ad di iGenius, che sarà ospite del Wired Next Fest di Milano il 15 giugno.
Da anni nel mondo dei modelli intelligenti, Sharka presenta Italia con un anticipo di almeno un mese rispetto a quanto promesso e lo fa solo accennando alle sue “misure competitive”, per soffermarsi invece sulla “rivoluzione sociale” che si desidera inneschi: “Le aziende stanno affrontando una forte disruption causata dal divario di competenze tecniche. È urgente democratizzare le conoscenze e rimettere al centro dell’innovazione le persone, restituendo loro il controllo sulla tecnologia”. L’intelligenza artificiale generativa assume quindi un potere rigenerativo, innescando quello che Sharka definisce Rinascimento digitale. Italia permetterebbe infatti di “colmare il nostro debito tecnologico di Paese e abilitare nuove applicazioni AI a forte impatto umano e sociale, con valori e approcci italiani”.
L’AI Act come opportunità
Grandi ambizioni, senza tralasciare aspetti essenziali in un modello AI che si possa ritenere affidabile. Dentro Italia sono stati infatti inseriti filtri di sicurezza specifici per la lingua italiana per rimuovere contenuti sensibili, espliciti e ad alto potenziale di bias, limiti per il massimo rispetto del copyright e della privacy e garanzia di conformità con le normative europee sull’intelligenza artificiale, a partire dall’AI Act.
Fastidiosa per la maggior parte dei modelli esistenti, anche per l’europea Mistral, la più finanziata startup di intelligenza artificiale (il cui cofondatore, Cedric O, sarà ospite del Wired Next Fest di Milano il 15 giugno), questa nuova legge in Italia diventa l’opportunità di distinguersi come “base su cui costruire il proprio futuro compliance”. Un trampolino per la ricerca, le pubbliche amministrazioni e le imprese che, d’ora in poi, hanno un modello che parla, e soprattutto pensa in italiano perché allenato con “dati madrelingua”. La maggior parte è pubblica (fonte Wikipedia, e simili) e con l’aggiunta di dati sintetici, per arrivare a grandi numeri, e l’integrazione di quelli di Editoriale nazionale. È il primo dei partner che ha voluto contribuire al training di Italia, aprendo il suo archivio storico di articoli, ma in futuro ci si aspetta che altri vogliano accodarsi.
Italia diventerà poliglotta
Anche per la sua efficienza in termini di costi e risorse, “Italia rappresenta un buon modo di usare fondi pubblici, abilitando progetti competitivi e open che generano valore per la comunità” spiega Alessandra Poggiani, direttrice generale di Cineca. Può sembrare strano trovare un consorzio universitario come co-protagonista di un’avventura così. Lo ammette lei stessa, spiegando come invece vi sia una grande coerenza di visione. Il presidente di Cineca Francesco Ubertini parla di “un incontro con iGenius che ha fatto scattare una scintilla, di cui oggi vediamo solo il primo risultato”.
Scaricabile sul sito di iGenius e, a breve disponibile anche su Hugging Face e sulle principali piattaforme di sviluppo di prodotti AI, Italia ha ancora tutta la vita davanti. Per supportare l’innovazione aziendale, soprattutto in ambito finanziario e industriale, per digitalizzare gli enti pubblici, per evolvere esso stesso, come modello, in nuove versioni più potenti, accurate e versatili, sempre nelle mani di iGenius e Cineca.
Sharka vuole infatti vedere avverato il sogno con cui tutto è partito, orchestrando più modelli “stile Italia” verticali e nati dal basso, per creare un ampio modello componibile multilingue e all’insegna della diversità. Ciò significherebbe consegnare all’Europa e al mondo un’alternativa agli Llm oggi sul mercato, già compliance alle norme in arrivo, con le persone al centro e “contro la centralizzazione del potere” afferma. E spiega: “Se si continuassero a usare sempre e solo i 4 modelli proposti dalle solite 4 società, tutta la conoscenza mondiale resterebbe nelle loro mani”.
Fonte : Wired