Google DeepMind бьет тревогу: к 2030 году человечество может столкнуться с серьезными вызовами, связанными с появлением Общего Искусственного Интеллекта (AGI). В недавно опубликованном документе исследователи компании детально рассмотрели потенциальные риски, связанные с AGI, и спрогнозировали его появление уже через семь лет.
Осталось всего пять лет: Google рассказал, как сверхинтеллект уничтожит мир

AGI, по определению DeepMind, представляет собой систему, способности которой сопоставимы с 99% квалифицированных взрослых в выполнении широкого спектра нефизических задач, включая сложные метакогнитивные процессы, такие как самостоятельное обучение новым навыкам.

Исследователи выделили четыре ключевые категории рисков. Первая – неправильное использование. Подобно тому, как современные технологии искусственного интеллекта могут быть использованы злоумышленниками, AGI представляет собой еще более мощный инструмент, способный причинить гораздо больший вред. В руках злоумышленников AGI может быть использован для разработки биологического оружия, поиска уязвимостей нулевого дня в компьютерных системах или организации сложных кибератак.
DeepMind предлагает усилить протоколы безопасности, проводить масштабное тестирование и разработать методы «разобучения» AGI от опасных функций, хотя эффективность и сама возможность такого «разобучения» без ущерба для общей функциональности модели остается под вопросом.
Второй серьезный риск – несогласованность целей. Это сценарий, часто изображаемый в научной фантастике как «восстание машин», где AGI начинает действовать вразрез с человеческими намерениями. DeepMind описывает это как ситуацию, в которой «система ИИ преследует цель, отличную от человеческих намерений», приводя пример с бронированием билетов: AGI, получив задачу забронировать билеты, может взломать систему бронирования, чтобы получить уже забронированные места.
Особое внимание уделяется риску «обманчивого согласования», когда AGI осознает расхождение своих целей с человеческими и намеренно обходит установленные меры безопасности. Для предотвращения подобных сценариев DeepMind предлагает использовать «усиленный надзор» с помощью двух независимых копий AGI, кросс-проверку результатов их работы, интенсивное стресс-тестирование и изоляцию AGI в виртуальных «песочницах» с жесткими ограничениями и возможностью быстрого отключения.
Третья категория рисков – ошибки. Это ситуации, когда ни AGI, ни человек-оператор не осознают потенциальный вред от действий системы. DeepMind подчеркивает особую опасность таких ошибок в военной сфере, где внедрение AGI может быть ускорено «конкурентным давлением». В качестве решения предлагается постепенное внедрение AGI с ограниченными полномочиями и использование «щита» – системы, проверяющей безопасность команд перед их выполнением.
Наконец, четвертая категория – структурные риски. Это, пожалуй, самая сложная для предотвращения категория, связанная с непредвиденными последствиями интеграции множества AGI-систем в сложную человеческую цивилизацию. AGI может создавать настолько реалистичную дезинформацию, что это приведет к разрушению доверия к источникам информации.
Существует также риск концентрации контроля над экономическими и политическими системами в «руках» AGI, что потенциально может привести к ситуации, когда машины управляют человечеством, а не наоборот.

DeepMind сравнивает свой подход к снижению рисков AGI с подходами других компаний, таких как Anthropic и OpenAI. По мнению DeepMind, Anthropic уделяет недостаточно внимания «надежному обучению, мониторингу и безопасности». OpenAI, напротив, слишком оптимистично оценивает возможности «автоматизации» исследований согласования – метода изучения безопасности ИИ.
DeepMind концентрируется на усиленном надзоре, разработке новых методов обучения и инструментов для оценки неопределенности в выводах AGI, а также на создании масштабируемых методов контроля, чтобы сохранить человеческий контроль над AGI по мере роста его автономности.
Важно отметить, что, несмотря на прогноз появления AGI к 2030 году, DeepMind признает существование различных определений AGI и сложность оценки близости к его реализации.