Altro che DeepSeek, ecco il rivale di ChatGPT creato con 50 dollari

La comparsa sulla scena di DeepSeek ha rappresentato una piccola rivoluzione. A destare stupore è stata soprattutto la capacità del team di sviluppatori della startup cinese di addestrare i loro modelli linguistici spendendo soltanto 5 milioni di dollari: una cifra che rappresenta un ventesimo di quella necessaria per addestrare GPT-4 (il modello che alimenta la versione base di ChatGPT) e una frazione ancora più piccola dei costi stimati per lo sviluppo dei sistemi d’avanguardia, che secondo Dario Amodei, ceo di Anthropic, richiederanno risorse pari a un miliardo di dollari già nel 2027.

DeepSeek ha quindi dimostrato che è possibile sviluppare sistemi di intelligenza artificiale generativa in grado di rivaleggiare con quelli di OpenAI anche senza avere a disposizione le risorse dei colossi tech. Non stupisce quindi che la Silicon Valley abbia reagito malissimo all’avvento di DeepSeek: Amodei ha chiesto di ostacolare ancor di più l’accesso ai chip statunitensi delle realtà cinesi, mentre OpenAI ha accusato la startup con sede ad Hangzhou di aver utilizzato in maniera illecita i suoi modelli per lo sviluppo dei sistemi R1 e V3.

Alla luce di tutto ciò, come avranno preso i giganti dell’intelligenza artificiale la notizia che dei ricercatori delle università di Stanford e Washington sono riusciti a sviluppare un large language model – chiamato S1 – spendendo soltanto 50 dollari per noleggiare via cloud il necessario potere computazionale?

Il modello S1, disponibile in open source su GitHub, è stato addestrato in soli 26 minuti utilizzando una tecnica nota come “distillazione”, che consente ai modelli più piccoli di apprendere da quelli già esistenti e più grandi. Per addestrare S1, per esempio, sono state utilizzate le risposte del modello Gemini 2.0 Flash Thinking Experimental di Google (che però nei termini di servizio vieta di utilizzarlo per sviluppare sistemi concorrenti). S1 è inoltre basato sul sistema Qwen 2.5 di Alibaba, un’intelligenza artificiale open source e quindi replicabile da chiunque, e ha richiesto per l’addestramento l’utilizzo soltanto di 16 GPU H100 di Nvidia (noleggiate appunto via cloud), rispetto alle decine di migliaia impiegate per l’addestramento dei modelli più grandi.

Nel paper in cui hanno presentato il loro modello, i ricercatori affermano che S1 ha raggiunto in alcuni benchmark (i test con cui si misurano le prestazioni delle intelligenze artificiali) di matematica e programmazione livelli simili a quelli di OpenAI o1 e di DeepSeek R1. Come questi ultimi, anche S1 è un modello che “ragiona” (o meglio, che sfrutta il sistema chain-of-thought per suddividere la generazione di risposte in passi logici successivi).

Oltre ad aver dimostrato di ottenere risultati generalmente superiori, i modelli che sfruttano il ragionamento sono anche più economici. “Il calcolo per l’inferenza (un’altra definizione di “ragionamento”, ndR) viene effettuato nel momento in cui si usano i modelli, non in fase di addestramento”, ha spiegato in un’intervista l’imprenditore tech Alvin Graylin. “Ciò rende meno importante l’impiego di grandi quantità dei chip più avanzati”.

Ma come funziona la tecnica della distillazione, che permette di replicare in maniera così economica dei modelli sviluppati investendo centinaia di milioni di dollari? Attraverso la distillazione, è possibile trasferire la conoscenza di un modello linguistico di grandi dimensioni (ribattezzato “insegnante”) a uno più piccolo (lo “studente”), mantenendo prestazioni simili ma con minori costi computazionali.

Il modello più piccolo viene quindi esposto alle risposte del modello più grande invece che ai soli dati grezzi, apprendendo più rapidamente anche schemi complessi. Per S1, ai ricercatori è bastato comporre un dataset di mille domande accuratamente selezionate, e abbinate alle relative risposte, ricreando il processo di “ragionamento” del già citato modello Gemini 2.0 di Google.

Quindi, stiamo entrando in una fase in cui chiunque, con poche decine di dollari, può crearsi il suo modello linguistico avanzato? Per certi versi, la risposta è sì. Attraverso la distillazione è però possibile soltanto ricreare le capacità di modelli già esistenti, mentre per sviluppare modelli di intelligenza artificiale più avanzati sono comunque necessarie le enormi risorse a disposizione soltanto dei protagonisti del settore. E per questo i 500 miliardi che gli Stati Uniti sono intenzionati a investire nella colossale infrastruttura cloud del progetto Stargate sono ancora indispensabili per mantenere la leadership globale nel settore dell’intelligenza artificiale.

Fonte : Repubblica