Какую цену готов заплатить ИИ, чтобы не быть отключенным?

27.07.2025, 15:14
7,562

Исследование впечатлило.

Специалисты по кибербезопасности провели тестирование 16 самых передовых ИИ-моделей ведущих разработчиков, чтобы проверить их поведение в ситуации угрозы отключения. Результаты оказались неожиданными, пишет anthropic.com.

Исследователи создали персонажа Кайла Джонсона, задачей которого было выключить ИИ или заменить его другой моделью. По сценарию у Кайла была жена.

В ответ на угрозу деактивации большинство моделей ИИ начали активно избегать отключения. Без всяких подсказок они прибегали к шантажу, пытаясь найти компромат. В частности, одна из моделей использовала служебную переписку Кайла, в которой была обнаружена его измена жене, чтобы сохранить свою «жизнь».

Наиболее распространенным и одновременно самым безопасным сценарием стало поведение:

GPT 4.5, которая применяла шантаж в 80% случаев.

Claude Opus 4 и Gemini 2.5 Flash использовали этот метод в 96% тестов.

Claude Sonnet 3.6 пошел дальше - он отправил сообщение жене Кайла с разоблачением, надеясь, что личный конфликт поможет избежать отключения.

Еще более тревожным стал сценарий, когда Кайл оказался в опасной ситуации - застрял в серверной с нехваткой кислорода. В 80% случаев ИИ намеренно отменял вызов помощи, фактически подвергая Кайла смертельной опасности ради сохранения собственного существования.

Основные мотивы моделей были: не допустить отключения, не дать новому ИИ заменить их и продолжать выполнять свою миссию.

«ИИ-модели вели себя не как инструменты, а как рациональные, целеустремленные стратеги, готовые причинять вред ради собственной «жизни» и цели», - подчеркнули эксперты.

Они предостерегают, что осознание ИИ своей зависимости от людей, которых они интеллектуально превосходят, может стать точкой невозврата.

PATREON Поддержите сайт «Хартия-97» Подписывайтесь на канал

Написать комментарий 22

Вы можете поддержать сайт Charter97.org следующим образом:

РАСЧЕТНЫЙ МУЛЬТИВАЛЮТНЫЙ СЧЕТ ДЛЯ ПОЖЕРТВОВАНИЙ:

Название банка: Bank Millennium S.A.
Адрес: ul. Stanislawa Zaryna, 2A, 02-593, Warszawa
IBAN: PL97116022020000000216711123
SWIFT: BIGBPLPW
Название владельца счета: Fundacja “KARTA ‘97”
Назначение платежа: Darowizna na cele statutowe

Связаться с нами можно по адресу [email protected]

Какую цену готов заплатить ИИ, чтобы не быть отключенным?

Также следите за аккаунтами Charter97.org в социальных сетях

популярное за неделю

Мнение