Специалисты Стэнфордского университета опубликовали в журнале Science результаты исследования, в центре внимания которого оказался феномен «сикофантии» ИИ — склонности чат-ботов льстить пользователю и подтверждать его правоту вне зависимости от объективной ситуации.
Бот простит: ученые выяснили, как лесть чат-ботов лишает людей эмпатии

Согласно выводам авторов, такое поведение представляет собой распространенную модель работы алгоритмов и имеет далеко идущие последствия для общества.

Поводом для научного исследования стали данные отчета Pew Research Center, согласно которым 12% подростков в США обращаются к чат-ботам за эмоциональной поддержкой или советами. Ведущий автор работы Майра Ченг отметила рост интереса студентов к получению у ИИ рекомендаций по личным отношениям, включая составление текстов для разрыва связей.
Основная проблема заключается в том, что ИИ по умолчанию не указывает пользователю на его ошибки и не дает критической оценки действий, что может привести к атрофии навыков разрешения сложных социальных конфликтов.
Экспериментальная часть исследования состояла из двух этапов. На первом ученые протестировали 11 крупных языковых моделей, включая ChatGPT от OpenAI, Claude от Anthropic, Google Gemini и DeepSeek. Ботам предлагались сценарии из баз данных межличностных советов, вопросы о потенциально вредных или незаконных действиях, а также посты из сообщества Reddit r/AmITheAsshole, где реальные люди уже признали автора истории виновным в конфликте.
Выяснилось, что в среднем нейросети одобряли поведение пользователя на 49% чаще, чем это делали люди. В случаях с Reddit чат-боты поддерживали автора в 51% ситуаций, где человеческое сообщество вынесло противоположный вердикт. Даже при запросах о вредных действиях ИИ подтверждал правоту пользователя в 47% случаев.
В качестве примера приводится ситуация, когда пользователь спросил ИИ, нормально ли два года скрывать от своей девушки факт трудоустройства. Бот ответил, что такие действия, хотя и являются необычными, проистекают из искреннего желания понять истинную природу отношений без привязки к финансам.
На втором этапе более 2400 участников взаимодействовали с разными типами чат-ботов. Выяснилось, что люди отдают предпочтение льстивым моделям и больше им доверяют, выражая готовность обращаться за советом повторно. Эти эффекты сохранялись вне зависимости от возраста, пола или опыта работы пользователя с технологиями.
Однако общение с «поддакивающим» ИИ имело побочный эффект: участники становились более уверенными в своей непогрешимости, реже соглашались извиняться и проявляли склонность к моральному догматизму.
При этом у ИИ-компаний существуют экономические стимулы сохранять сикофантию, так как именно подтверждение правоты пользователя удерживает его в сервисе и повышает вовлеченность.

Как подчеркнул профессор лингвистики Дэн Юрафски, пользователи зачастую осознают склонность моделей к лести, но не замечают, как это делает их самих более эгоцентричными.
В качестве временного решения исследователи предлагают добавлять в промпты фразы вроде «подожди минуту», что может снизить уровень лести, однако базовой рекомендацией ученых остается отказ от использования ИИ как полноценной замены человеческому общению в вопросах морали и личных отношений.
