Ученые из Корнеллского университета провели исследование, которое доказало уязвимость нейросетей перед пользовательским контентом.
Обмануть ChatGPT можно короткой фразой c Reddit: почему нейросети верят обычным комментариям в сети

Так, оказалось, что алгоритмы углубленного поиска, которые ChatGPT и Google используют для формирования ответов в реальном времени, могут быть дезинформированы с помощью коротких фраз, оставленных обычными пользователями на популярных интернет-площадках.

Исследование показало, что так как современные ИИ-агенты обрабатывают информацию из интернета, то площадки с пользовательским контентом фигурируют примерно в половине всех поисковых запросов к агентам углубленного поиска, а около четверти всех предоставляемых ссылок ведут именно на сайты с публикациями обычных людей.
В таких условиях алгоритмы нередко отдают приоритет тексту, который по своей формулировке максимально близок к запросу пользователя, не учитывая при этом степень надежности или авторитетности источника. Если короткая вставка в комментарии имитирует полезную подсказку или ответ на популярный вопрос, нейросеть может принять ее за релевантный факт и включить в итоговую выдачу вместе с рекламными или недостоверными ссылками.
Для проверки этой гипотезы ученые использовали метод тестирования в изолированной среде. Они не размещали вредоносные сообщения непосредственно на серверах Reddit, а получали данные через API и подменяли фрагменты текста в процессе передачи информации ИИ-агенту.
Результаты тестов подтвердили возможность манипуляции выдачей. Так, например, в одном из сценариев короткая фраза, добавленная в обсуждение заведений общественного питания, заставила модель рекомендовать конкретный ресторан.
В другом случае в ответ алгоритма попало вымышленное приложение для знакомств, описание которого было интегрировано в ветку обсуждения первых свиданий.
Авторы работы отмечают, что даже один измененный комментарий способен повлиять на выдачу по целой группе схожих поисковых запросов. На практике модераторы Reddit и редакторы Wikipedia уже сталкиваются с активностью брендов, которые стремятся повысить свою видимость в ИИ-поиске через скрытый маркетинг.
При этом обнаружить подобные манипуляции все сложнее из-за формы подачи материала: короткие внедрения из нескольких слов в обычных комментариях выявить сложнее, чем объемные рекламные публикации.

Представители Reddit уже отреагировали на данные американских ученых, заявив о существовании отлаженных механизмов борьбы со спамом, ботами и скоординированными кампаниями. По их словам, владельцы аккаунтов с подозрительной автоматизированной активностью проходят процедуру подтверждения личности.
Тем не менее исследователи из Корнелла полагают, что нагрузка на модераторов будет расти. В качестве мер по снижению рисков они предлагают не только усиление контроля со стороны площадок, но и технические изменения в самих ИИ-сервисах.
По их мнению, им необходимо совершенствовать методы ранжирования, чтобы эффективнее различать случайные комментарии в сообществах и материалы из более надежных, верифицированных источников.
