Новые результаты бенчмарка Gaia2: почему важно явное мышление для ИИ-агентов

Сообщество получило свежие данные с бенчмарка Gaia2, который становится новым стандартом для оценки агентских способностей языковых моделей. По сообщению Hugging Face, последние результаты показывают интересные закономерности в эффективности и стоимости различных подходов.

Новые участники и результаты

В обновленную оценку вошли Claude 4 Sonnet Extended Thinking, который продолжает отставать от GPT-5 (high), но показывает последовательное улучшение по сравнению со стандартной версией. Также добавлены модели с открытым исходным кодом: DeepSeek, Qwen 235B в режиме мышления и GPT-OSS 120B в режиме высокого рассуждения.

Разделительное изображение с брендом Среды для исследований мета-агентов — Источник: huggingface.co

DeepSeek Terminus демонстрирует заметный прирост производительности по сравнению с v3.1, обходя Kimi-K2 и сокращая отставание от Gemini-2-5-Pro. Qwen3 235B с включенным рассуждением показывает прирост +4 пункта, что подтверждает важность явного мышления для агентского поведения.

Экономика токенов: неожиданные затраты

Один из самых интересных инсайтов: Claude оказывается дороже GPT-5 (high), несмотря на генерацию меньшего количества токенов на шаг. Модель выполняет больше шагов в целом, а поскольку входные токены доминируют в стоимости (трассировки составляют ~100-200К токенов), итоговая цена оказывается выше.

График сравнения общих оценок моделей Gaia2 с использованием метрики pass@1 — Источник: huggingface.co

Качество против количества

Включение режима «мышления» может улучшить модели без увеличения затрат. Для Qwen и Claude Sonnet рассуждение улучшает точность и может снизить общую стоимость и время выполнения. Это создает эффект обратного масштабирования относительно GPT-5: модели, производящие больше токенов на шаг при рассуждении, требуют меньше шагов в целом, поскольку делают более эффективные вызовы инструментов.

Оценки Gaia2 по категориям возможностей, показывающие производительность модели — Источник: huggingface.co

Сравнение результатов Gaia2 по стоимости и времени выполнения моделей против человека — Источник: huggingface.co

График: зависимость pass@1 от количества вызовов модели и выходных токенов в Gaia2 — Источник: huggingface.co

Интересно наблюдать, как экономика токенов становится новым полем битвы для AI-компаний. Тот факт, что Claude с его якобы более дешевым API в итоге оказывается дороже GPT-5 из-за архитектурных особенностей — прекрасная иллюстрация того, как поверхностные метрики могут вводить в заблуждение. Реальные затраты определяются не стоимостью одного токена, а тем, сколько шагов требует задача и как модель распределяет вычисления между input и output.

Бюджетные конкуренты

С добавлением новых моделей с открытым исходным кодом появляются новые претенденты в нижних бюджетных категориях. Кривые масштабирования бюджета показывают, что стандартные решения для построения цепочек рассуждений и модели не доминируют во всем спектре интеллекта — каждая делает компромисс между возможностями, эффективностью и бюджетом.

Все кривые выходят на плато, что предполагает, что стандартные решения для построения цепочек рассуждений и/или модели упускают ключевые компоненты для устойчивого прогресса. Это указывает на необходимость разработки более сложных подходов к архитектуре агентов.

Полные результаты доступны на лидерборде Gaia2, где можно детально изучить производительность различных моделей по разным показателям способностей.