Anthropic восстановила глобальный доступ к модели Claude Fable 5 спустя день после того, как Министерство торговли США отозвало экспортные ограничения, введённые на неё 12 июня. Поводом для снятия запрета стал единственный фильтр безопасности, настроенный на блокировку одной конкретной техники обхода защиты, которую нашли исследователи Amazon. Прежде чем ограничения сняли, работоспособность нового фильтра проверил профильный Центр стандартов и инноваций в области ИИ (CAISI) при Минторге США.

Иллюстрация к материалу о возобновлении доступа к Claude Fable 5Источник изображения - Getty / NurPhoto

Хроника противостояния

Fable 5 и её более мощная версия Mythos 5 вышли 9 июня — это была первая модель уровня Mythos, которую Anthropic сделала доступной широкой аудитории. Уже 12 июня Минторг США направил компании директиву, требующую немедленно закрыть доступ к обеим моделям для всех иностранных граждан, включая собственных сотрудников Anthropic без американского гражданства, — вне зависимости от того, находятся они на территории США или нет. На исполнение отвели около полутора часов. Поскольку проверить гражданство каждого пользователя в реальном времени невозможно, Anthropic отключила обе модели для всех — доступ пропал сразу на AWS Bedrock, Google Cloud, Microsoft Foundry и в собственном API компании.

Anthropic публично не согласилась с оценкой серьёзности находки, заявив, что применение подобного стандарта ко всей отрасли фактически остановило бы выпуск новых моделей у всех разработчиков передового ИИ. Тем не менее компания выполнила требование и почти три недели вела переговоры с правительством — по данным СМИ, переговоры со стороны Anthropic вёл в основном сооснователь компании Том Браун. 26 июня частично вернули доступ к Mythos 5 для проверенных организаций в США, а 30 июня глава Минторга Говард Латник сообщил, что ведомство отзывает требование об экспортной лицензии для обеих моделей. Возврат Fable 5 начался 1 июля.

Что нашли исследователи Amazon

Спорную технику обнаружили специалисты Amazon: с её помощью Fable 5 удавалось заставить определять уязвимости в программном коде, а в одном случае — написать код, демонстрирующий, как одну из них можно использовать. По данным СМИ, о находке правительству сообщил лично глава Amazon Энди Джасси. Сама Anthropic описывает случай как пограничный: часть задач, связанных с кибербезопасностью, изначально блокировалась моделью «с запасом» — из осторожности, а не потому, что представляла реальную опасность. Найденная техника как раз обходила именно эту зону избыточной осторожности и затрагивала рутинные задачи защитной кибербезопасности, а не что-то уникально опасное.

Новый классификатор: точечная правка, а не смена модели

В ответ Anthropic обучила отдельный классификатор безопасности, нацеленный именно на выявленную технику: он блокирует её более чем в 99% случаев, а помеченные запросы автоматически перенаправляются на более старую модель Opus 4.8 с уведомлением пользователя. У решения есть цена: более строгий фильтр чаще ошибочно блокирует и обычные, безобидные запросы на написание и отладку кода — компания обещает постепенно снижать долю таких ложных срабатываний.

Важный нюанс: классификатор реагирует на конкретный тип запроса, а не удаляет саму способность модели. Fable 5 по-прежнему может находить уязвимости, о которых говорится в отчёте Amazon, — фильтр лишь перехватывает и перенаправляет такой запрос. Именно обход защиты, основанной на распознавании, и стал причиной блокировки, поэтому Anthropic признаёт: сделать модель полностью неуязвимой к джейлбрейкам невозможно в принципе, и новые техники обхода наверняка появятся.

Способность оказалась не уникальной для Fable 5

Проверка, проведённая Anthropic совместно с правительством и Amazon, показала: те же уязвимости, что были в отчёте, способны находить и заметно более слабые модели — Opus 4.8, GPT-5.5 от OpenAI и китайская Kimi K2.7 от Moonshot AI. А саму демонстрацию эксплойта смогли воспроизвести вообще все протестированные модели, включая младшие Haiku 4.5, Sonnet 4.6 и несколько версий Opus, а также GPT-5.4. Для Anthropic это аргумент в пользу того, что кибервозможности уровня Mythos в этой конкретной истории были переоценены — ничего уникального для топовой модели репортёры не нашли.

На каких условиях возвращается доступ

  • Fable 5 сразу же снова доступна в Claude.ai, Claude Platform, Claude Code и Claude Cowork.
  • Доступ через AWS, Google Cloud и Microsoft Foundry будет включён позже — компания обещает сделать это «как можно скорее».
  • Для планов Pro, Max, Team и части тарифов Enterprise использование Fable 5 будет засчитываться в пределах до 50% еженедельного лимита вплоть до 7 июля, после чего перейдёт на отдельные кредиты использования — по факту это более короткое окно бесплатного доступа, чем было при первом запуске.

Mythos 5 остаётся под замком

Mythos 5 построена на той же модели, что и Fable 5, но с гораздо меньшим количеством ограничений: по утверждению Anthropic, она находит и эксплуатирует уязвимости в софте эффективнее любой другой модели и почти любого специалиста по безопасности — именно поэтому она и привлекательна для потенциальных злоумышленников. Доступ к ней вернули ещё 26 июня, но только примерно сотне проверенных организаций и госструктур в США, занимающихся защитой критической инфраструктуры, — в рамках программы Project Glasswing. Anthropic заявляет, что продолжает работать над расширением списка партнёров, в том числе за пределами США.

Пока Fable 5 была недоступна

Отключение моделей на три недели дало временное преимущество конкурентам, в первую очередь китайской лаборатории Z.ai с открытой моделью GLM-5.2: пока Fable была офлайн, она заняла верхние строчки ряда бенчмарков, включая новый тест AA-Briefcase от Artificial Analysis, который оценивает работу моделей над многонедельными офисными задачами — финмоделями, презентациями, служебными документами — на основе тысяч разрозненных вводных. По итогам теста Fable 5 набрала 1587 очков Elo против 1356 у Opus 4.8 и 1266 у GLM-5.2 — то есть с возвращением Fable забирает первое место обратно. Блокировка вызвала критику со стороны части индустрии и инвесторов: по их мнению, она фактически подарила китайским разработчикам открытых моделей дополнительное время для того, чтобы сократить отставание.

Что дальше

Anthropic открыла программу на платформе HackerOne (сервис для программ поиска уязвимостей за вознаграждение) — теперь исследователи могут напрямую сообщать о новых способах обхода защиты Fable 5. Компания также взяла на себя ряд обязательств перед властями США: давать назначенным госпартнёрам доступ к будущим передовым моделям ещё до их публичного релиза, быстрее делиться информацией о серьёзных джейлбрейках и случаях злоупотребления, выделять под совместные исследования безопасности отдельные команды и вычислительные мощности.

Вместе с Amazon, Microsoft, Google и другими партнёрами по Project Glasswing Anthropic предложила черновой вариант отраслевой системы оценки серьёзности джейлбрейков — по аналогии с тем, как в индустрии принято оценивать серьёзность обычных уязвимостей в софте. Джейлбрейки предлагается делить на три уровня: незначительные (затрагивают только «запас прочности» защиты и не дают ничего опасного), узконаправленные (открывают конкретную вредоносную функцию с ограниченным применением) и универсальные (один обход открывает сразу целый класс опасных возможностей). Все известные на данный момент случаи обхода защиты Fable 5, по заявлению Anthropic, относятся к первой, самой безобидной категории — универсальных джейлбрейков для модели пока не найдено.