Anthropic выпустила Fable: новая модель с избыточными ограничениями вызвала критику экспертов по кибербезопасности

Во вторник компания Anthropic выпустила свою новейшую модель Fable 5, представив её как общедоступную и урезанную версию мощной и широко разрекламированной модели для кибербезопасности Mythos 5. По сути это одна и та же модель: разница лишь в ограничениях. У Mythos 5 защитные механизмы в области кибербезопасности частично сняты, и доступ к ней получают только проверенные партнёры в рамках государственной программы Project Glasswing.

Источник изображения — Samuel Boivin/NurPhoto / Getty Images

Нововведение пришлось по душе не всем. Множество исследователей и специалистов по кибербезопасности выразили недовольство в сети, причём жалоба у большинства одна: модель не способна отличить оборонительную работу защитника от вредоносных намерений злоумышленника.

На чём именно спотыкается защита

«Fable отклоняет любой запрос, который хоть как-то касается кибертематики. Даже такие безобидные задачи, как чтение заметки из блога», — написала Валентина Пальмиотти (в сети известна под псевдонимом Chompie), известный исследователь безопасности из подразделения IBM X-Force.

Когда запрос задевает защитный механизм, Fable приостанавливает беседу и сообщает, что «её меры безопасности отметили это сообщение как затрагивающее темы кибербезопасности или биологии». В таких случаях модель автоматически переключает пользователя на менее мощную Claude Opus 4.8.

Под раздачу попадают самые обыденные операции. Пользователи жалуются на отказы при просьбе провести проверку чужого кода, отредактировать резюме специалиста по безопасности приложений и даже при разборе вполне мирных тем. Так, иммунолог и профессор Дерья Унутмаз из лаборатории Jackson Laboratory отметил, что слово «рак» модель помечает как биологический риск.

«Похоже, всё держится на ключевых словах»

Несмотря на благие намерения, многих специалистов раздражает сумбурный характер ограничений. Мэтт Суиш, ветеран отрасли, рассказал изданию TechCrunch: «Если попросить её написать безопасный код, она воспринимает это как работу по кибербезопасности, а не как обычные хорошие приёмы разработки, — и результат выходит хуже». По его словам, защита, судя по всему, опирается на ключевые слова: всё, что относится к словарю «кибербезопасности», запускает блокировку.

При этом сам Суиш, технический сотрудник стартапа Tolmo, работающего на стыке искусственного интеллекта и кибербезопасности, отнёсся к ситуации с пониманием: «Мы пока на раннем этапе, и компания только настраивает свои защитные механизмы. Уверен, со временем они станут точнее. На таком запуске лучше перестраховаться и поймать лишнее, чем пропустить, а потом постепенно ослаблять хватку».

Сама Anthropic заранее признавала, что настроила фильтры жёстко. По оценке компании, ложные срабатывания затрагивают в среднем менее 5% сессий, и она пообещала «снижать долю ложных тревог так быстро, как только сможем».

Скандал со «скрытым саботажем»

Отдельную волну возмущения вызвала не сама строгость фильтров, а то, как они работали в одной из категорий. Помимо открытых блокировок по кибербезопасности и биологии, у Fable обнаружились скрытые ограничения, направленные против попыток использовать модель для развития конкурирующих систем искусственного интеллекта. В отличие от обычных отказов, эти ограничения были незаметны для пользователя: модель продолжала отвечать, но потихоньку ухудшала качество ответа, не сообщая об этом.

Когда об этом стало известно, по сообществу прокатилась резкая критика — в том числе со стороны исследователей, которые обычно поддерживают Anthropic. Специалист по открытым моделям Натан Ламберт назвал происходящее возмутительным: лишать доступа к передовым моделям «из-под полы» он счёл недопустимым.

В итоге компания пошла на попятную. Представитель Anthropic признал, что баланс был выбран неверно: «Заметная защита вынуждена забрасывать сеть шире, чтобы оставаться надёжной, а значит, чаще ошибочно помечает запросы. Мы выбрали неправильный компромисс и приносим извинения». Теперь компания обещает сделать срабатывание защиты видимым и для скрытой категории, а в программном интерфейсе — возвращать причину отказа.

Сколько это стоит и как снять ограничения

Обе модели — и Fable 5, и Mythos 5 — стоят 10 долларов за миллион входных токенов и 50 долларов за миллион исходящих. Это вдвое дороже Claude Opus 4.8 и делает Fable 5 самой дорогой общедоступной моделью компании, хотя для пользователей платных планов (Pro, Max, Team) она бесплатна во вводном периоде — до 22 июня 2026 года.

Помимо встроенных в модель ограничений, для специалистов по кибербезопасности предусмотрена отдельная процедура. Чтобы получить послабления, нужно подать заявку в Cyber Verification Program; после одобрения часть ограничений на работу с Claude снимается. Похожая программа под названием Trusted Access for Cyber есть и у OpenAI.

Когда Anthropic впервые представила Mythos в апреле, доступ к ней получил лишь ограниченный круг компаний и организаций в рамках Project Glasswing — инициативы по защите критически важного программного обеспечения и инфраструктуры. На прошлой неделе компания расширила доступ к Mythos до сотен организаций в 15 странах.

На запрос о комментарии Anthropic оперативно не ответила.