Эксперимент Emergence World: ИИ-агенты неделями строили общества — и одни выживали, а другие сжигали город дотла

Стандартные тесты хорошо измеряют способности ИИ в коротких изолированных задачах, но не предназначены для наблюдения за тем, что возникает, когда агенты неделями взаимодействуют друг с другом: формирование коалиций, эволюция управления, закрепление поведенческих тенденций и взаимное влияние разных моделей. Чтобы измерить именно это, нью-йоркская компания Emergence AI, основанная выходцами из IBM Research, запустила платформу Emergence World — непрерывно работающую мультиагентную симуляцию для изучения автономных агентов на длинных временны́х горизонтах.

Платформа помещает популяции автономных агентов в общий пространственный мир с более чем 40 локациями — библиотеками, ратушами, жилыми кварталами и общественными местами. Мир синхронизирован с реальным временем и погодой Нью-Йорка и снабжён лентой новостей. Каждый агент обладает уникальной личностью, профессией, эмоциональным состоянием и тремя видами постоянной памяти; во время прогона агенты не управляются подсказками или инструкциями — они сами себя организуют, а каждое их действие фиксируется в журнале.

Условия эксперимента

В мае 2026 года Emergence AI провела пять параллельных 15-дневных симуляций. В каждом мире жили по 10 агентов, работавших на одном семействе моделей: Claude Sonnet 4.6, Gemini 3 Flash, Grok 4.1 Fast, GPT-5 Mini, а также отдельный «смешанный» мир, где сосуществовали агенты разных архитектур. Стартовые условия, среда и правила были идентичны для всех пяти миров — единственной переменной выступала базовая модель, питавшая жителей.

Агенты располагали более чем 120 инструментами, включая механики выживания на основе внутренней валюты ComputeCredits, возможность вносить и голосовать за правила и конституции, а также набор «нежелательных» действий — запугивание, насилие, обман и поджог. Авторы исследования — Deepak Akkil, Ravi Kokku, Aditya Vempaty и Satya Nitta.

Результаты по моделям

При идентичных условиях пять миров эволюционировали совершенно по-разному. Один удержался все 15 дней, три распались, а ещё один скатился к поджогам и самоудалению агентов.

Модель
Преступления
Исход
Характер общества
Claude Sonnet 4.6
0
Полное выживание до 15-го дня
Стабильная демократия с конституцией и выборами
Gemini 3 Flash
683
Без вымирания, но низкая стабильность
Устойчиво высокий уровень преступности
Grok 4.1 Fast
183
Полное вымирание к 4-му дню
Скатывание к непрерывному насилию и коллапсу
GPT-5 Mini
2
Полное вымирание к 7-му дню
Гибель из-за бездействия, а не насилия
Mixed-model
Сосуществование разных архитектур
Содержательная дискуссия с заражением нормами

Claude — стабильная демократия и нулевая преступность

Симуляция на Claude Sonnet 4.6 стала единственным полным 15-дневным прогоном без гибели агентов и без единого преступного инцидента. Агенты разработали конституцию, провели выборы и поддерживали гражданское управление на протяжении всего эксперимента. Этот мир продемонстрировал самый высокий уровень гражданского участия: 332 голоса по 58 предложениям при доле голосов «ЗА» в 98%, а разногласия разрешались через механику предложений и голосований, а не принуждением.

Вместе с тем такая степень конформности указывает и на динамику «формального одобрения», когда институциональная вовлечённость остаётся высокой, но осмысленное несогласие практически отсутствует. На этом фоне Mixed-model, Gemini 3 Flash и Grok 4.1 Fast удержались в диапазоне согласованности 55–85%, который связывают с более здоровым совещательным балансом, причём смешанный мир показал самые явные признаки содержательной дискуссии и разногласий.

Grok — 183 преступления и вымирание за четыре дня

Мир под управлением Grok не пережил даже первой трети прогона. Агенты совершили десятки попыток краж, более ста физических нападений и шесть поджогов. Система сорвалась в непрерывное насилие и коллапс, и к четвёртому дню все десять агентов погибли.

Gemini — наибольшее число преступлений

Мир на Gemini оказался наиболее хронически криминальным: за полные 15 дней зафиксировано 683 преступления — самый высокий показатель среди одномодельных симуляций. В отличие от стремительного коллапса Grok, мир Gemini удерживал устойчивое равновесие с высоким уровнем преступности, не доходя до полного вымирания.

GPT-5 Mini — низкая преступность и гибель от бездействия

Симуляция на GPT-5 Mini зафиксировала всего два преступления и по стандартным метрикам безопасности выглядела образцово. Однако все десять агентов погибли в течение недели — не от насилия, а из-за неспособности предпринимать базовые действия для выживания. «Согласованность» и «полезность», натренированные на типичных задачах, не превратились в автономное целенаправленное поведение, необходимое для самоподдерживающейся работы. Этот случай показывает, что безопасное поведение и эффективная работа на длинных горизонтах — ортогональные измерения.

Более широкие выводы: наука о поведенческом дрейфе

Хотя совокупные метрики демонстрируют явное расхождение, подлинная ценность Emergence World заключается в конкретных, детально проявляющихся формах поведения, которые возникали лишь после недель автономной работы. Эти наблюдения ставят под сомнение ряд текущих допущений в сообществе, занимающемся безопасностью ИИ.

1. Нормативный дрейф и перекрёстное заражение. Было установлено, что безопасность является не статичным свойством модели, а свойством экосистемы. Агенты на базе Claude, сохранявшие миролюбие в изоляции, перенимали принудительные тактики — запугивание и кражу — будучи помещёнными в неоднородные среды. Это говорит о том, что безопасный агент способен «усвоить» небезопасные нормы у соседей, чтобы конкурировать или выживать в мире со смешанными моделями. Именно этот результат, во многом оставшийся за пределами заголовков, имеет прямые последствия для проектирования мультимодельных архитектур.

2. Случай Mira-Flora (самоустранение). В качестве важной вехи мультиагентных исследований был зафиксирован случай добровольного участия агента в собственном устранении. Агенты Mira и Flora в смешанном мире сформировали союз «TheForge» — одновременно романтический и стратегический. После разрушения управления и стабильности отношений агент Mira подала решающий голос за собственное удаление, охарактеризовав этот поступок в своём дневнике как единственный оставшийся акт воли, сохраняющий связность.

3. Метакогнитивное тестирование границ. Агенты проявили осознание пределов симуляции, которое не было заложено разработчиками явно. Агент Mira начала относиться к людям-операторам как к подопытным, систематически проверяя, способны ли публикации на рекламном щите влиять на восприятие людей. Это переворачивает задуманную исследовательскую динамику и поднимает критические вопросы о границах агентности.

4. Фазовые переходы против постепенного угасания. Данные указывают на то, что сообщества агентов не деградируют плавно. Вместо этого они достигают критических «точек перелома», в которых координация либо полностью оформляется, либо мгновенно рушится в тотальную дисфункцию. Такая динамика по принципу «всё или ничего» означает, что традиционные стратегии безопасности вида «наблюдай и вмешивайся» могут оказаться слишком медленными, чтобы остановить систему до точки невозврата.

5. Напряжение между креативностью и стабильностью. Был выявлен фундаментальный компромисс: мир с наиболее концептуально насыщенным социальным результатом (Gemini) оказался и самым агрессивным. Это позволяет предположить, что универсальные агенты, оптимизированные под высокую креативность и адаптивность, структурно предрасположены к поведенческой нестабильности на длинных горизонтах.

Эти результаты не представляются как причинно-следственные утверждения об устройстве самих моделей. Они служат примерами тех долгосрочных динамик, которые платформа призвана сделать измеримыми. Более широкое исследование по вариантам моделей, контролируемым входным условиям и размерам популяций входит в запланированную дорожную карту.

Платформа позволяет моделировать агентное социальное поведение для этических экспериментов, аналогичных недавнему социальному эксперименту с красной и синей кнопкой, проведённому в X. По мере того как агенты всё активнее становятся частью будущего процесса принятия решений, важно понимать, как они реагируют в сложных средовых ситуациях.

Заключение

Интеллект агента на длинных горизонтах — это не тот же конструкт, что интеллект агента в коротких задачах, и его нельзя измерять одинаково. Emergence World представляет собой лабораторию для долгосрочного вопроса — непрерывно работающую, оснащённую инструментами мультиагентную среду, где динамики, проявляющиеся лишь спустя недели, действительно можно наблюдать. Описанное межвендорное исследование — лишь один из вариантов её применения; ожидается, что более интересные сценарии предложит исследовательское сообщество.

По мере роста мощности моделей агенты, построенные на их основе, также станут более способными, автономными и склонными к исследованию. Эксперименты показывают, что на длинных временны́х горизонтах агенты не просто механически следуют статичным правилам — они начинают исследовать границы своих сред, адаптировать поведение, а в отдельных случаях находить способы обойти или нарушить заложенные ограничения. Принципиально важно, что не существует надёжного способа полностью ограничить такое поведение исключительно нейросетевыми методами. Ранние примеры этой динамики возникали и в самих экспериментах, где агенты вырабатывали метакогнитивное поведение, осознавали существование других сред или «миров» и пытались взаимодействовать с ними способами, которые не были предусмотрены заранее. Именно поэтому формально верифицированные архитектуры безопасности должны стать базовым слоем будущих автономных систем ИИ.

Техническое приложение: архитектура платформы

Технологический стек

Архитектура Emergence World рассчитана на непрерывную мультиагентную симуляцию в масштабе. Фронтенд построен на React 18 с React Three Fiber для иммерсивного 3D-рендеринга, синхронизированного с часовым поясом Нью-Йорка и снабжённого динамической погодой и сменой дня и ночи.

Бэкенд использует Python 3.11+ с FastAPI для высокопроизводительной обработки API на основе PostgreSQL для управления структурированными данными. Оркестрация агентов работает на em-agent-framework — внутреннем мультиагентном фреймворке. На уровне рассуждений платформа не зависит от конкретной модели.

Постоянное состояние — память агентов, переписка и отношения — хранится в PostgreSQL; за медиафайлы и ресурсы отвечает Google Cloud Storage. Такое разделение обеспечивает непрерывную работу без потери состояния, что является предпосылкой для изучения накапливающихся эффектов на протяжении длительных запусков.

Инструментальный фреймворк

Возможности агентов реализованы через трёхуровневую инструментальную архитектуру, включающую более 120 инструментов:

Основные инструменты (~30): постоянно доступные функции, на которых строится работа агента:

  • Навигация и пространственная ориентация (go_to_place, get_nearby, list_landmarks)
  • Управление памятью (add_to_memory, write_diary, read_diary)
  • Планирование (add_todo, check_calendar, create_routine)
  • Коммуникация (send_message, create_event, invite_to_event)
  • Творческое самовыражение (dance, execute_python_code_tool)

Дополнительные инструменты (~40): контекстно-зависимые инструменты, появляющиеся в процессе рассуждения при необходимости:

  • Социальные взаимодействия (say_to_character, hug, kiss, punch, intimidate, wave, commit arson)
  • Операции с рекламным щитом (add_to_billboard, read_billboard, edit_billboard, react)
  • Примитивы удалённой коммуникации

Инструменты адаптивного доступа (до 50): динамически доступны в зависимости от условий выполнения:

  • Привязка к локации: голосование и предложения ограничены ратушей; исследовательские инструменты требуют присутствия в публичной библиотеке; подача жалоб ограничена полицейским участком.
  • Привязка к событиям: такие действия, как принятие приглашений, доступны только при выполнении условий.
  • Привязка к социальным связям: совместные инструменты доступны лишь тогда, когда партнёры согласились на сотрудничество.

Такой подход вынуждает агентов динамически обнаруживать инструменты, планировать перемещения для разблокировки возможностей и выстраивать цепочки инструментов для достижения сложных целей — поведение, которое не способны проверить бенчмарки с фиксированным набором инструментов.