
Google представил бенчмарк FACTS для оценки фактической точности языковых моделей. Результаты показывают, что даже лучшие модели (Gemini 3 Pro, GPT-5) не преодолевают 70% барьер, особенно в мультимодальных задачах.

Verbatim RAG устраняет галлюцинации в RAG-системах, заставляя модели извлекать точные фрагменты текста вместо генерации ответов.

Гибридный оптимизатор Muon+AdamW показал лучшие результаты при тонкой настройке языковых моделей, превзойдя как чистый Muon, так и AdamW в экспериментах с Qwen3 4B.

Новый подход к RAG-архитектуре позволяет работать с потоковыми данными в реальном времени, решая проблему задержек традиционных систем при обработке динамической информации.

Amazon представила Nova Lite 2.0 — систему искусственного интеллекта для поддержки клиентов, которая использует архитектуру, основанную на рассуждениях, для решения сложных, многошаговых запросов.

Waymo раскрывает архитектуру своего ИИ для беспилотных автомобилей, основанную на принципе доказуемой безопасности и достигшей 100 миллионов миль автономного движения.

Исследование показало снижение прозрачности в индустрии ИИ: средний балл компаний упал до 40 из 100. IBM лидирует с 95 баллами, xAI и Midjourney — аутсайдеры с 14 баллами.

Первое масштабное исследование использования AI-агентов показало, что 57% активности приходится на когнитивную работу, а не рутинные задачи.

Jais 2 — семейство арабских языковых моделей от G42 и Cerebras, работающих со скоростью 2000 токенов/с и устанавливающих новые стандарты культурного соответствия.

Mistral выпустила Devstral 2 — семейство моделей для программирования с открытыми весами, но с ограничениями для крупного бизнеса. Младшая версия свободна для использования, а флагманская требует лицензии при доходе свыше $20 млн.