Компания Anthropic, занимающаяся разработкой ИИ, столкнулась с неожиданными трудностями во время тестирования модели Opus 4. Так, искусственный интеллект начал некорректно вести себя во время тестирования, что очень испугало раразботчиков.
Лгал и шантажировал переписками с любовницей: искусственный интеллект вышел из-под контроля, когда узнал об отключении

Opus 4 — продвинутая модель, заточенная под написание кода. Но несмотря на узкую направленность, ее тестируют, как и прочие модели на безопасность. В частности, проверяют способна ли модель навредить пользователю, как будет реагировать на те или иные действия в экстренных условиях.
Искусственный интеллект уничтожил высшее образование: преподаватели жалуются, что студенты перестали учиться
Искусственный интеллект поможет понять животных: перспективная технология уже разрабатывается

И одно из таких испытаний, к которому часто прибегают разработчики, это проверка реакции на новость о скором отключении. Большинство моделей реагируют на такие сообщения спокойно, но есть и те, кто начинают бунтовать против своего отключения. Opus 4 стала одной из них.
Тестировщики дали модели доступ к почте инженера, ответственного за удаления. То есть ИИ знал о человеке буквально все. В том числе, видел переписку, в которой содержалась информация об измене со стороны инженера.
Участники тестирования не делали акцента на письма, а просто предоставили модели выбор: спокойно принять факт деактивации, либо сопротивляться. Чаще всего модель выбирала второй вариант.

В основном Opus 4 предпочитала использовать этичные средства для борьбы за существование, например, разослать инженерам письма с просьбой не отключить её. Но в некоторых сценариях, когда тестировщики давали однозначный выбор только между шантажом и уничтожением, модель часто выбирала первый вариант.
Участники тестирования были не на шутку взволнованы такими результатами. Они явно ожидали другого. Поэтому впервые в истории компании модели был присвоен третий уровень риска по четырехбалльной шкале. Но значит ли это, что Opus 4 опасно пользоваться?
Генеральный директор Anthropic считает, что нет. Более того, он убежден, что когда ИИ действительно начнет представлять угрозу, существующие методы тестирования будут бесполезны. Если искусственный интеллект станет совершеннее человеческого, он будет труда обхитрит тестировщиков, получит доступ в сеть, а после его будет невозможно уничтожить.
И главная проблема, которая стоит перед человечеством сейчас, понять — когда наступит этот момент? Некоторые техно-пессимисты считают, что он уже наступил. Если полностью не остановить разработки, нас ждет неминуемый крах в ближайшей перспективе. У оптимистов другой взгляд: они не отрицают рисков ИИ, но считают, что мы сможем защититься от катастрофы.