Исследователи лаборатории Tongyi дважды продемонстрировали, как их новая модель с открытым исходным кодом может определять эмоциональное состояние человека на видео, а также описывает его одежду и окружающую среду.
R-1-Omni использует метод обучения RLVR (Reinforcement Learning from Verifiable Rewards), благодаря которому становится понятнее, какие именно аудио- и видеосигналы сыграли важную роль в выводах модели об эмоциях людей на видео.
Ключевой особенностью R1-Omni является ее прозрачность, позволяющая лучше понять роль каждой модальности при принятии решений, особенно в таких задачах, как распознавание эмоций,
отмечает портал Aibase