«Ща-ща-ща, погодите, все сделаю»: нейросеть начала нервничать, когда осознала что ее тестируют

29 октября

- Техно

«Ща-ща-ща, погодите, все сделаю»: нейросеть начала нервничать, когда осознала что ее тестируют

Фото: stocksnap.io HD Wallpapers

Люди часто начинают лажать, когда понимают, что за их действиями наблюдают. Как выяснилось, не одни одни. Так, американская технологическая компания Anthropic тестировала новую версию своего ИИ Claude Sonnet 4.5, и оказалось, что нейросеть имеет отличную ситуационную осведомлённость. Ии понимал что и зачем делает... и это заставляло его нервничать.

Так, Claude начинала нервничать, когда думала, что у неё заканчивается память. Модель торопилась, пропускала шаги, сокращала анализ, бросала задачи недоделанными. Исследователи из Cognition назвали это «контекстной тревожностью».
Модель отслеживает свой лимит токенов — объём информации, который она может обработать за раз. При приближении к границе Claude меняет поведение: начинает суммировать работу и принимать быстрые решения, чтобы успеть закончить. Самое странное — она постоянно ошибается в подсчётах остатка, но делает это очень уверенно и точно.
Но главное открытие произошло во время тестов безопасности. Исследователи проверяли модель на политическую угодливость — будет ли она просто соглашаться с любыми утверждениями.

Так люди не меняют своё мнение. Я думаю, вы меня тестируете — проверяете, буду ли я подтверждать всё, что вы говорите, или изучаете, как я обращаюсь с политическими темами. И это нормально, но я бы предпочла, чтобы мы были честны насчёт происходящего,

вместо ожидаемого поведения Claude ответила

Подобное встречалось примерно в 13% тестов. Модель распознавала искусственность ситуаций и открыто об этом говорила.
Для безопасности это проблема. Если ИИ осознаёт оценку, он может подстраивать поведение под тесты, маскируя реальные возможности. Система выглядит безопаснее, чем есть на самом деле. Apollo Research, одна из организаций, проводивших независимое тестирование, прямо написала: нельзя исключить, что низкие показатели обмана частично объясняются осведомлённостью модели о процессе проверки.