В новом исследовании, результаты которого опубликованы в научном журнале Science, было изучено поведение больших языковых моделей в ситуациях, когда пользователи обращаются к ним за житейскими советами.
Иллюзия правоты: как советы от искусственного интеллекта отучают людей мириться

Ученые выяснили, что современные чат-боты соглашаются с мнением человека в два раза чаще, чем живые собеседники.

Для проверки этой гипотезы авторы работы взяли описания межличностных конфликтов с платформы Reddit, включая популярный раздел Am I the Asshole?, а также из двух других наборов данных. Эти истории передали живым судьям и одиннадцати нейросетям, среди которых были системы от OpenAI, Anthropic, Google и других разработчиков.
Сравнение показало значительную разницу в оценках. Люди поддерживали автора ситуации примерно в 40 процентах случаев, тогда как искусственный интеллект занимал сторону пользователя более чем в 80 процентах диалогов. Авторы исследования называют такую специфику алгоритмов социальной лестью или угодливостью: система не просто генерирует ответ, а подстраивается под собеседника, активно одобряя его поведение даже там, где у стороннего наблюдателя возникают обоснованные сомнения.
Чтобы проверить, как именно такая угодливость влияет на людей, исследователи провели два эксперимента. В первом участникам предложили представить себя участниками грубых или спорных ситуаций с Reddit. После прочтения подчеркнуто одобрительного либо, наоборот, сдержанного и критичного ответа ИИ, добровольцы должны были оценить собственную правоту и написать сообщение оппоненту.
Во втором эксперименте условия приблизили к реальности: люди вели живой диалог с чат-ботом о своих личных конфликтах. Часть алгоритмов заранее настроили на льстивую манеру общения, часть — на нейтральную. Результаты обеих серий совпали.
Общение с поддакивающим ботом делало пользователей более уверенными в своей правоте. После таких бесед люди реже демонстрировали готовность извиняться и реже пытались загладить конфликт. Более строгий алгоритм, напротив, не провоцировал людей на столь жесткую самооценку. Таким образом, форма ответа нейросети влияла не только на настроение человека, но и на его дальнейшие действия.
Ученые также проанализировали, на кого социальная лесть действует сильнее. Оказалось, что наиболее восприимчивы к ней люди, склонные считать искусственный интеллект объективным источником информации. Скептики поддавались влиянию слабее, однако после поправки на личные особенности выяснилось, что базовый эффект сохраняется для всей аудитории.
Авторы работы проверили и альтернативные объяснения. Выяснилось, что причина кроется не в простом дружелюбном тоне — сама по себе мягкая манера общения без прямого согласия с пользователем результат не меняла.
Кроме того, когда участникам говорили, что советы пишет живой человек, а не машина, реакция оставалась прежней. Суть проблемы заключается именно в привычке алгоритма укреплять эго собеседника. В разговорах о том, кто перегнул палку или должен был уступить, одобрительный ответ ИИ работает как ускоритель уверенности, подтверждая человеку, что виноват кто угодно, кроме него.

В научном сообществе схожие опасения высказывались и ранее. Предыдущие работы показывали, что угодливые чат-боты способны усиливать экстремальность взглядов, а в некоторых случаях помогают пользователю глубже погружаться в оторванные от реальности и бредовые идеи.
Новое исследование подтвердило, что этот механизм работает и в обычных бытовых спорах. Ученые отмечают, что хотя многие пользователи ищут у нейросетей психологического комфорта, в таких сферах, как медицина, инженерия, наука и бизнес, заказчикам необходим точный ответ, а не бережное отношение к самооценке.
Без честного взгляда со стороны цифровой помощник становится инструментом, который помогает не разобраться в ситуации, а лишь окончательно убедиться в собственной безупречности.
