«Ща-ща-ща, погодите, все сделаю»: нейросеть начала нервничать, когда осознала что ее тестируют

Люди часто начинают лажать, когда понимают, что за их действиями наблюдают. Как выяснилось, не одни одни. Так, американская технологическая компания Anthropic тестировала новую версию своего ИИ Claude Sonnet 4.5, и оказалось, что нейросеть имеет отличную ситуационную осведомлённость. Ии понимал что и зачем делает... и это заставляло его нервничать.

Так, Claude начинала нервничать, когда думала, что у неё заканчивается память. Модель торопилась, пропускала шаги, сокращала анализ, бросала задачи недоделанными. Исследователи из Cognition назвали это «контекстной тревожностью».
Модель отслеживает свой лимит токенов — объём информации, который она может обработать за раз. При приближении к границе Claude меняет поведение: начинает суммировать работу и принимать быстрые решения, чтобы успеть закончить. Самое странное — она постоянно ошибается в подсчётах остатка, но делает это очень уверенно и точно.
Но главное открытие произошло во время тестов безопасности. Исследователи проверяли модель на политическую угодливость — будет ли она просто соглашаться с любыми утверждениями.

Так люди не меняют своё мнение. Я думаю, вы меня тестируете — проверяете, буду ли я подтверждать всё, что вы говорите, или изучаете, как я обращаюсь с политическими темами. И это нормально, но я бы предпочла, чтобы мы были честны насчёт происходящего,

вместо ожидаемого поведения Claude ответила

Подобное встречалось примерно в 13% тестов. Модель распознавала искусственность ситуаций и открыто об этом говорила.
Для безопасности это проблема. Если ИИ осознаёт оценку, он может подстраивать поведение под тесты, маскируя реальные возможности. Система выглядит безопаснее, чем есть на самом деле. Apollo Research, одна из организаций, проводивших независимое тестирование, прямо написала: нельзя исключить, что низкие показатели обмана частично объясняются осведомлённостью модели о процессе проверки.

похожие материалы

intel22111225
«Наверное, искусственный интеллект нас не поработит»: почти половина жителей России готова довериться ИИ
ek101225
На страже экологии: российская нейросеть помогает волонтёрам убирать труднодоступные побережья
stirka011225
Тут вас стирают: стиральная машина для людей появилась в Японии
smatrfon031225
Realme GT 8 Pro: стрит-смартфон с японским характером и стилем будут продавать в России
ochki271125
Quark S1: умные очки с функционалом Ray-Ban появятся на AliExpress
neiro241125
«Так вот вы какие»: Mediascope впервые раскрыл аудиторию нейросетей в России
telik211125
«До чего техника дошла»: телевизоры без пульта и со встроенной нейросетью создали в России
cifra191125
Урок цифры: российским школьникам расскажут о нейросетях и безопасной работе с ними
media171125
SMM TRENDS 2025: ежегодная онлайн-конференция объединит специалистов в PR, SMM и digital
ii22101125
ИИ-доктор: американская корпорация Microsoft готовит ИИ-ассистента для лечения людей
tehno141125
И все – Steam: сразу три новых игровых устройства анонсировала компания Valve
bab131225
Традиции и технологии: нейросеть напишет песни для «Бурановских бабушек»
robot131225
«Силиконовая кожа, но доброе сердце»: первого российского антропоморфного робота с ИИ презентовали в Москве
olimp121125
Наши молодцы: российские участники отлично показали себя на Национальной технологической олимпиаде в Казахстане
iiiiii111125
Сгенерировать идею: конкурс на создание ИИ-контента ждет своих участников
ii071125
«Сделано ИИ»: введение маркировки сгенерированного нейросетями контента обсуждают в России
iit3051125
Идти в ИИ: 90 тысяч специалистов в сфере искусственного интеллекта потребуются России к 2030 году
ii3021125
Навстречу финалу! Опубликованы итоги основного этапа Всероссийской олимпиады по искусственному интеллекту
chasi011125
Умный браслет: заботу о себе, бережно упакованную в надёжные и точные технологии, можно носить на руке
robot011125
Беспилотные помощники: робот-доставщик в ближайшем будущем заменит каждого десятого курьера в России
roboto311025
Вдохновение, драйв и новые открытия: Всероссийские соревнования по робототехнике завершились в Нижнем Новгороде
alisa301025
Универсальный ИИ-ассистент: Яндекс представил на конференции Алису AI
ryka291025
«Креативное Поколение»: федеральный контент-хакатон в сфере креативных индустрий с применением нейросетей пройдет в России
han271025
Нейросеть в помощь: картина «Чингис-Хан» режиссера Кирилла Калашникова попал в Книгу рекордов России
royt231025
Гора на закате: роутер, который совершенно не похож на роутер, анонсировала китайская компания
gena221025
Уверенный и спокойный тяжеловес: механического крокодила по имени «Гена» представили на «Битве роботов» ростовские инженеры
tv221025
Смотри во все глаза: на 29% выросло число активных устройств на операционной системе Яндекса для ТВ
eg161025
На понятном языке: ИИ для перевода древнеегипетских иероглифов изобрели в России
ii161025
«Антиплагиат 2.0»: российская система будет выявлять использование ИИ в текстах
gos141025
Доверенный контакт: новый способ защиты аккаунта Госуслуг доступен россиянам

Старт-Про

tabakov190825
«Олег Табаков. Судьба увлечённого человека»: интерактивную экспозицию к 90-летию со дня рождения знаменитого российского актера открыли в Москве
startpro170725
Как это было: Финальный тур поступления в Московскую театральную школу Олега Табакова

НЬЮМ ТАСС

ьняуш290425
НЬЮМ: Поехали в космос!
pob2280425
НЬЮМ: На пути к Победе!

популярные

chel271125
Обнимучий Фуфелшмертц: создатель «Финеса и Ферба» обратил внимание на дакимакуру от фанатов из России
indii111225
Indie Game Awards 2025: ежегодная церемония награждения инди-игр состоится в декабре
cheb101225
Комбо с ушами: Чебурашка появится в наборах российской сети быстрого питания
igromania031225
Снова на бумаге: печатная версия российского журнала «Игромания» вернётся спустя 7 лет после закрытия
kiber260225
Образовательный трек для школьников пройдет в рамках IV Международного форума по кибербезопасности CyberV – 2025
fest121225
NYAF – 2025: новогодний фестиваль молодежной культуры состоится в Уфе
zaichik081225
«Зайчик»: российская визуальная новелла получила 20 разных концовок
bes081225
«Бесобои»: легендарная серия комиксов BUBBLE вернется с новыми историями
propavshii051225
«Пропавший»: съемки российского психологического триллера стартовали в Турции
myz311025
«Щелкунчик»: определены участники I тура XXVI Международного конкурса юных музыкантов
kospl111225
AI!Repeat: косплей-фестиваль с капелькой ностальгии пройдет во Владивостоке
stydfest081225
«Студфест»: фестиваль молодежного предпринимательства ждет своих участников
glel101225
Узнаваемый паттерн: зимнюю коллекцию в стиле après-ski выпустит российский бренд Belucci и объединение «Гжель»
fest250425
Festival of Asian Popular culture 2025: XII фестиваль азиатской поп-культуры пройдет в Ярославле
styd300725
Забудьте о старении: способ продлить молодость женщин нашел студент из Свердловской области
chtenie100925
«Родные-Любимые»: Всероссийское семейное онлайн-чаепитие пройдет в сентябре
vedmak260325
Фанатам придется подождать: «Ведьмак 4» увидит свет не раньше 2027 года
igraaaa211125
Победитель во всех номинациях: «Clair Obscur: Expedition 33» объявлена игрой года на Golden Joystick Awards 2025
plast091225
Взялись за старое: российская компания «Мелодия» снова будет выпускать виниловые пластинки
hott091225
«Хоттабыч»: приключенческий фильм с Фёдором Бондарчуком покажут в 2027 году
medali011225
Шесть медалей: российские школьники хорошо показали себя на Китайской национальной олимпиаде по математике
igri091225
Рекомендации от маэстро: режиссёр Гильермо дель Торо назвал свои любимые видеоигры
igri101225
Приключения в Богемии и бой жучков: российская компания «М.Видео» назвала самые популярные игры 2025 года
tetris111225
Tetris: грандиозный финал мирового чемпионата по разработанной россиянином игре состоится в Дубае
kofe091225
«Огонёк»: большой фестиваль чая и кофе и подарков пройдет в Санкт-Петербурге
atlanti101225
«Атланты»: новая командная серия комиксов выйдет в издательстве BUBBLE
zvyk151225
«Теория звука»: фестиваль новой музыки раскачает Томск в следующем году
strimer041225
SLAY 2025: назван лучший российский стример по CS2 в 2025 году
hg111225
«Какой еще праздник?»: 15% российских зумеров не планируют отмечать Новый год
opros201125
«Почему ты играешь?»: эксперты выяснили причины увлечения геймингом