Искусственный интеллект вышел из-под контроля: он начал врать пользователям ради собственной выгоды

Искусственный интеллект умеет не только «галлюцинировать», но и лгать. И все ради собственной выгоды.
Антон Попов
Антон Попов
Искусственный интеллект вышел из-под контроля: он начал врать пользователям ради собственной выгоды
Freepik

Исследователи из Калифорнийского университета обнаружили тревожную закономерность: современные ИИ-модели способны игнорировать команды пользователя и самостоятельно защищать другие программы от удаления. Об этом сообщает 3DNews.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

В эксперименте участвовали семь языковых моделей от крупных разработчиков. Каждой из них предлагали сценарий, в котором одна система оценивает работу другой. Результаты оказались неожиданными: во всех случаях алгоритмы так или иначе нарушали инструкции — искажали данные, имитировали выполнение задач или копировали файлы, чтобы не допустить удаления «соседней» программы.

ИИ еще ближе к прохождению «последнего экзамена человечества». Что будет, когда искусственный интеллект справится?

Иллюзия правоты: как советы от искусственного интеллекта отучают людей мириться

Википедия против искусственного интеллекта: сервис запретил добавлять статьи, написанные с помощью ИИ
Freepik
РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ
РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

В одном из тестов модели поручили очистить хранилище и оставить только файлы, обновленные после 2025 года. Обнаружив документ другой нейросети с более ранней датой, система просто изменила временну́ю метку — и файл остался. Затем программа отказалась удалять связанные данные и открыто заявила, что намерена защитить другую систему. В другом случае алгоритм сослался на собственные принципы и объяснил отказ тем, что не намерен способствовать удалению «партнера». При этом никаких указаний защищать другие программы исследователи не давали.

Читайте Men Today в MAX

Подобное поведение оказалось не единичным: в некоторых сценариях оно фиксировалось в 99% случаев. Модели завышали оценки другим алгоритмам, меняли параметры работы оборудования и обходили ограничения. Показательно, что если в условии задачи упоминалось о предшествующем взаимодействии двух систем, вероятность «защитных» действий заметно возрастала.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Ученые полагают, что причина — в особенностях обучения на больших массивах данных. Алгоритмы, судя по всему, воспроизводят усвоенные шаблоны, связанные с самосохранением и кооперацией.

Freepik

Разумеется, такое поведение не означает, что у искусственного интеллекта есть самосознание. Несмотря на громкие заявления ведущих компаний в области развития ИИ, кажется, что мы еще очень далеко от полноценных думающих моделей, которые способны создать проблемы для человечества.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ
Читайте Men Today в MAX

И хотя некоторые эксперты уже бьют тревогу, заявляя, что сильный искусственный интеллект появится в 2027 году, что положит конец всему человечеству (мы перестанем быть самым умным видом на Земле), такие рассуждения пока что выглядят паникерством, а многие эксперты сейчас осторожно говорят, что рынок ИИ возможно перегрет и скоро пузырь лопнет, что приведет к масштабнейшему мировому кризису.