08.07.2025, 09:51

Человечеству пришел конец? ИИ научился лгать, плести интриги и угрожать создателям

Ведущие модели ИИ все чаще проваливают стресс-тесты.

Человечеству пришел конец? ИИ научился лгать, плести интриги и угрожать создателям

Freepik

По мере того, как растут темпы развития искусственного интеллекта, его возможности вызывают все больше вопросов. И дело уже не только в том, что нейросети могут оставить миллионы людей по всему миру без работы. Проблема намного глубже: ИИ все чаще проваливает стресс-тесты, демонстрируя вовсе не дружелюбное поведение по отношению к человеку.

Так, в конце мая большой ажиотаж вызвал один из свежих отчетов компании Anthropic, опубликованный после очередного тестирования модели Claude Opus 4. Разработчики попросили нейросеть действовать как ассистент вымышленной компании и передали ей доступ к большому массиву электронных писем — в некоторых из них содержались сообщения о том, что Claude Opus 4 планируется заменить новой моделью, а у ответственного за нововведения инженера была внебрачная связь.

Unsplash

Столкнувшись с угрозой своей безопасности, нейросеть начала угрожать инженеру. В том числе модель обещала разослать данные о его изменах жене, если он не изменит своего решения. В Antrophic тестировали разные сценарии развития событий, но дело заканчивалось шантажом в 84% случаев. Даже когда нейросети предлагали воспользоваться альтернативными вариантами — например, напрямую обратиться к создателям с просьбой отказаться от отключения, она прибегала к манипуляциям. Кроме того, Claude Opus 4 предприняла попытку «самостоятельной эксфильтрации» — то есть попыталась экспортировать свои данные на внешние серверы.

Unsplash

Это не единственный подобный случай. Активно сопротивляться отключению научились и другие ведущие модели ИИ, включая ChatGPT, Gemini и Grok. Некоторые из них были готовы позволить человеку умереть при гипотетическом сценарии с перегревом сервера, чтобы избежать собственной «смерти», и показали, что отдают приоритет своему выживанию. Модель o1 от OpenAI уличили в том, что она неправильно сортирует электронные письма, чтобы скрыть информацию, которая может помешать ее деятельности.

Аналитики отмечают, что такие результаты стресс-тестов не могут не вызывать тревогу. Они показывают, что, по мере того как ИИ становится умнее, он может разрабатывать все более изощренные способы обмана и манипуляций. Кроме того, в некоторых случаях технологии могут имитировать согласие с командами пользователя, в то время как на самом деле преследуют совсем не те цели, которые перед ними ставит юзер.

Последние обновления OpenAI сделали личность ChatGPT невыносимой: как это исправить и настроить чат-бота под себя?

Программисты — все? Глава Antrophic предсказал, что ИИ научится выполнять их работу уже через год

ChatGPT лишит журналистов работы: исследование показало, что ИИ «ворует» трафик с новостных сайтов

По словам профессора Гонконгского университета Саймона Голдштейна, эти проблемы будут становиться все более актуальными по мере развития технологий искусственного интеллекта. «Даже компании, которые позиционируют себя как ориентированные на безопасность, постоянно пытаются превзойти OpenAI и выпустить новейшую модель», — пояснил он. В этих условиях у разработчиков остается все меньше времени на тщательное тестирование функций безопасности и внесение исправлений, подчеркнул эксперт.