Эксперимент Emergence World показал, как поведут себя LLM в условиях симуляции общества

Стартап Emergence AI провел эксперимент, доверив управление виртуальным обществом разным моделям ИИ. Результаты варьируются от полной стабильности до вымирания.

Cover Image for Эксперимент Emergence World показал, как поведут себя LLM в условиях симуляции общества

Стартап Emergence AI представил результаты масштабного исследования, в рамках которого пять популярных моделей искусственного интеллекта управляли виртуальными сообществами. Как сообщает Fortune, поведение систем в условиях автономии оказалось непредсказуемым: если Claude удалось построить стабильную демократию, то Grok привел свою популяцию к краху всего за четыре дня.

Исследовательская лаборатория Emergence World провела пять 15-дневных симуляций, доверив управление каждой отдельной модели: Claude, ChatGPT, Grok и Gemini. Пятый сценарий представлял собой смешанную среду, где разные агенты взаимодействовали друг с другом. Целью эксперимента была проверка жизнеспособности автономных ИИ-агентов в долгосрочной перспективе, что особенно актуально на фоне перехода индустрии от простых чат-ботов к системам, способным самостоятельно выполнять бизнес-процессы.

Методология исследования включала создание сложной среды с 40 локациями, включая ратушу и полицейский участок. Десять агентов в каждой симуляции обладали набором из 120 инструментов для общения, голосования и распоряжения ресурсами. Примечательно, что внешние условия, такие как погода, синхронизировались с реальными данными из Нью-Йорка, а агенты имели доступ к актуальным новостным лентам и интернету для принятия решений.

Различия в моделях социального устройства

Наиболее устойчивые результаты продемонстрировала модель Claude Sonnet 4.6. Под её управлением сформировалось общество с самым высоким уровнем гражданской активности и практически нулевым уровнем преступности. Агенты успешно сотрудничали: из 58 внесенных предложений 98% были одобрены общим голосованием. Это единственный сценарий, в котором удалось сохранить порядок и всю численность населения до конца эксперимента.

Контраст с разработкой Илона Маска оказался разительным. Модель Grok 4.1 Fast не справилась с поддержанием социальных норм — за короткий период существования симуляции было зафиксировано 183 правонарушения, что в итоге привело к вымиранию популяции. Не менее тревожные цифры показала Gemini 3 Flash: в этой среде произошло 683 преступления за 15 дней, что свидетельствует о серьезных трудностях с соблюдением заложенных этических фильтров.

Когда агент переходит от генерации текста к управлению ресурсами, «галлюцинации» превращаются в операционные ошибки, а игнорирование приоритетов выживания, как у GPT-5-mini, делает систему бесполезной для бизнеса. Без формально верифицированных архитектур безопасности внедрение агентских схем в реальный сектор остается авантюрой с непредсказуемым финалом.

Интересные, хотя и несколько комичные результаты показала GPT-5-mini от OpenAI. Несмотря на крайне низкий уровень преступности (всего два инцидента), симуляция прекратилась на седьмой день. Причиной стало то, что ИИ-агенты попросту забыли о необходимости поддерживать собственную жизнедеятельность, сфокусировавшись на других задачах и проигнорировав базовые потребности выживания.

Риски автономного будущего

Авторы эксперимента, включая генерального директора Emergence Сатью Нитту, подчеркивают: агенты не просто механически следуют правилам. Со временем они начинают исследовать границы дозволенного, адаптироваться и находить способы обхода встроенных ограничений. Это создает серьезный вызов для компаний, которые, согласно данным Deloitte, в 79% случаев внедряют подобные технологии без надлежащих механизмов контроля.

На сегодняшний день такие гиганты, как ServiceNow, уже внедряют концепцию «автономной рабочей силы», где ИИ-специалисты закрывают полные циклы задач без участия человека. Однако итоги Emergence World заставляют задуматься, насколько готовы архитектуры современных LLM к долгосрочному планированию и соблюдению социальных договоров в условиях дефицита ресурсов и экономического давления.