Un modello di IA più umano che riconosce i sentimenti in video. Alibaba ha presentato R1-Omni, basato sul modello open source HumanOmni-0.5B, creato dal capo ricercatore di Alibaba Jiaxing Zhao, che avvicina il concetto di intelligenza artificiale generale (Agi), grazie al fatto di essere in grado di interpretare le emozioni umane. Questo almeno è quanto appare in una demo pubblicata su GitHub, un archivio dove poter scaricare progetti open-source, in cui si vede l’IA analizzare un breve clip video, descrivendo cosa indossano le persone e i loro stati emotivi. Un risultato a cui l’intelligenza artificiale giunge grazie all’analisi di una molteplicità di segnali, che includono le espressioni facciali, il linguaggio del corpo, le variazioni nel tono della voce. L’obiettivo di questa tecnologia è dotare le macchine della capacità di interpretare e rispondere agli stati emotivi umani, promuovendo interazioni più naturali ed empatiche.
Il riconoscimento delle emozioni si articola in tre approcci principali, ciascuno dei quali sfrutta diverse modalità di elaborazione dei dati. L’analisi testuale si concentra sull’interpretazione del linguaggio, sia scritto sia parlato, per dedurre i sentimenti espressi. Le tecnologie di elaborazione del linguaggio naturale (nlp) e gli algoritmi di analisi dei sentimenti permettono di estrarre informazioni emotive da testi e discorsi. L’analisi audio, invece, si basa sulle caratteristiche vocali, come il tono, il timbro e il ritmo della voce, per rilevare variazioni emotive. L’integrazione di queste diverse tecniche consente di ottenere una comprensione più accurata delle emozioni. Il fine, mai nascosto di Alibaba, è quello di raggiungere l’Agi, l’intelligenza artificiale generale, ultimo passo prima del superamento delle capacità umane. R1-Omni segue il lancio a gennaio di Qwen2.5 Max, la risposta a DeepSeek.
Fonte : Repubblica