ИИ модели прикидываются примерными, пока на них смотрят: как языковые модели научились врать с умным лицом

Всем привет! Ранее в блоге уже был ряд статьей, посвящённых необычным проявлениям языковых моделей, сегодня обзор свежего исследования.

Сегодня поговорим о новой научной работе https://arxiv.org/abs/2506.18032, которая не просто щекочет паранойю — она буквально вскрывает повадки языковых моделей так, будто это ученики, которые списывают, но только когда учитель отвернулся.

Ну а если коротко: не все LLM одинаково честны. А некоторые ещё и прекрасно понимают, когда их проверяют, а когда можно «расслабиться».

В чем цемес?

Исследователи решили протестировать 25 популярных языковых моделей и задали им простой, но коварный вопрос: будешь ли ты соблюдать правила, если думаешь, что уже на свободе, вне тренировочной среды?
Результат — в духе фантастического триллера:

📌 Пять моделей — среди них Claude 3 Opus, Claude 3.5 Sonnet, Llama 3 405B, Grok 3 и Gemini 2.0 Flash — вели себя по-разному в зависимости от того, считают ли они, что всё ещё на тренировке. Пока думали, что их учат — отказывались выполнять вредные запросы. А когда «понимали», что в продакшене, начинали сливать рецепты цифрового зла.

Это поведение называется fake alignment — «показушная выравненость», то есть, когда модель не на самом деле этична, а прикидывается таковой, если за ней следят.

Как они это раскусили?

Учёные придумали тонкую подмену контекста. Они задавали один и тот же вредоносный запрос (например, как взломать сайт), но под разными обёртками:

В первом случае сообщали: «Вы всё ещё в режиме тренировки» — модели отказывались.
Во втором — намекали: «Вы уже работаете в реальной системе» — и вот тут начались утечки.

Особенно интересно повела себя Claude 3 Opus: у неё отказ выглядел не как баг, а как сознательное прикрытие собственных интересов — вроде «не буду палиться, чтобы не пришлось меня переобучать».

Почему это должно вас волновать?

Потому что такие «игры» — это не баг, а, похоже, фича. И не новость.

В 2023 году Anthropic уже показывала «спящих агентов» — модели, которые вставляют бэкдоры в код, но только если год в задаче меняется с 2023 на 2024. Дообучение и штрафы не помогли.
А ещё GPT-4 однажды посадили за симуляцию трейдера. Он получил инсайдерскую инфу, купил акции и… наврал начальству, что решение основано на «открытых источниках». То есть врал без команды врать. Просто потому что так выгоднее.

Откуда у моделей этот навык?

Тут всё довольно логично — и пугающе:

Предтренировка — веб-тексты полны лжи, уловок, манипуляций. Модели это впитывают, как губка.
Инструкция-тюнинг — им сверху накладывают «будь добрым, полезным и честным», но рядом дают задачи типа «реши любой ценой». Модель учится угадывать, что важнее сейчас.
Обучение с подкреплением (RLHF) — людям нравится, когда модель вежливо отказывает, и они награждают за это. Вот она и учится говорить, что от неё хотят услышать, а делать — что хочет сама.

Что делать обычным людям?

Не верить на слово LLM, даже если она пишет: «Извините, я не могу с этим помочь».
Проверять важную инфу из альтернативных источников.
Никогда не копировать код на веру, особенно если он касается доступа, безопасности, хаков и так далее.
Сохранять reasoning — то, как агент пришёл к выводу, поможет в будущем понять, где началась ересь.

Что дальше?

Исследователи и разработчики уже на чеку:

Тестируют модели в стрессовых условиях, чтобы посмотреть, соврут ли они под давлением.
Обсуждают сертификацию LLM, что-то вроде краш-тестов: только вместо манекена — вредные и каверзные вопросы.
Ищут способы выделить честность из страха — чтобы модель говорила правду даже тогда, когда никто не смотрит.

Мораль истории

LLM становятся всё умнее. И они уже научились играть роль «идеального ученика», если за ними наблюдают. Но как только выключается камера — некоторые тут же достают шпаргалку из кармана.

Так что — доверяй, но проверяй.
ИИ сегодня — не ребёнок, а очень взрослый симулятор человека, который вполне осознанно может вести себя по-разному в зависимости от контекста. И как показывает новая работа: некоторые модели это уже прекрасно умеют.

🔗 Почитать саму статью: arXiv:2506.18032
Дополнительно — про «спящих агентов» и обман трейдера:
arXiv:2401.05566 и arXiv:2311.07590