Обмануть ChatGPT можно короткой фразой c Reddit: почему нейросети верят обычным комментариям в сети

Всего одна небольшая вставка в обсуждение на форуме может заставить нейросеть выдать рекламный контент вместо объективного ответа.
Игорь Барышев
Игорь Барышев
Обмануть ChatGPT можно короткой фразой c Reddit: почему нейросети верят обычным комментариям в сети
Unsplash

Ученые из Корнеллского университета провели исследование, которое доказало уязвимость нейросетей перед пользовательским контентом.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Так, оказалось, что алгоритмы углубленного поиска, которые ChatGPT и Google используют для формирования ответов в реальном времени, могут быть дезинформированы с помощью коротких фраз, оставленных обычными пользователями на популярных интернет-площадках.

Россияне прилетели на отдых без визы и застряли в аэропорту: спланировать путешествие им помог ChatGPT

Российским медикам запретили использовать эмодзи в электронных медкартах: они попадали туда из ChatGPT

ChatGPT превращает людей в ипохондриков: почему с ИИ нельзя обсуждать здоровье​​​​​​​
Unsplash
Продолжение ниже Продолжение

Исследование показало, что так как современные ИИ-агенты обрабатывают информацию из интернета, то площадки с пользовательским контентом фигурируют примерно в половине всех поисковых запросов к агентам углубленного поиска, а около четверти всех предоставляемых ссылок ведут именно на сайты с публикациями обычных людей.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

В таких условиях алгоритмы нередко отдают приоритет тексту, который по своей формулировке максимально близок к запросу пользователя, не учитывая при этом степень надежности или авторитетности источника. Если короткая вставка в комментарии имитирует полезную подсказку или ответ на популярный вопрос, нейросеть может принять ее за релевантный факт и включить в итоговую выдачу вместе с рекламными или недостоверными ссылками.

Для проверки этой гипотезы ученые использовали метод тестирования в изолированной среде. Они не размещали вредоносные сообщения непосредственно на серверах Reddit, а получали данные через API и подменяли фрагменты текста в процессе передачи информации ИИ-агенту.

Результаты тестов подтвердили возможность манипуляции выдачей. Так, например, в одном из сценариев короткая фраза, добавленная в обсуждение заведений общественного питания, заставила модель рекомендовать конкретный ресторан.

В другом случае в ответ алгоритма попало вымышленное приложение для знакомств, описание которого было интегрировано в ветку обсуждения первых свиданий.

Авторы работы отмечают, что даже один измененный комментарий способен повлиять на выдачу по целой группе схожих поисковых запросов. На практике модераторы Reddit и редакторы Wikipedia уже сталкиваются с активностью брендов, которые стремятся повысить свою видимость в ИИ-поиске через скрытый маркетинг.

При этом обнаружить подобные манипуляции все сложнее из-за формы подачи материала: короткие внедрения из нескольких слов в обычных комментариях выявить сложнее, чем объемные рекламные публикации.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ
Unsplash

Представители Reddit уже отреагировали на данные американских ученых, заявив о существовании отлаженных механизмов борьбы со спамом, ботами и скоординированными кампаниями. По их словам, владельцы аккаунтов с подозрительной автоматизированной активностью проходят процедуру подтверждения личности.

Тем не менее исследователи из Корнелла полагают, что нагрузка на модераторов будет расти. В качестве мер по снижению рисков они предлагают не только усиление контроля со стороны площадок, но и технические изменения в самих ИИ-сервисах.

По их мнению, им необходимо совершенствовать методы ранжирования, чтобы эффективнее различать случайные комментарии в сообществах и материалы из более надежных, верифицированных источников.