Масштабный анализ научной литературы зафиксировал резкий рост числа библиографических ссылок на несуществующие источники, созданных с помощью больших языковых моделей.
Теперь ученым может стать каждый: ИИ засоряет научные статьи ссылками на работы, которых не существует

Исследователи проверили массив из 111 миллионов библиографических записей в 2,5 миллионах статей и препринтов, размещенных в базах arXiv, bioRxiv, SSRN и PubMed Central. По осторожной оценке авторов работы, опубликованной в журнале Nature, только за 2025 год в этих материалах накопилось 146 932 выдуманные ссылки.
Проблема обострилась после массового распространения чат-ботов, которые генерируют правдоподобные названия статей, имена авторов и выходные данные журналов, не существующие в реальности.

Поводом для исследования послужили наблюдения специалиста по информационным наукам из Корнеллского университета Ияня Иня. Он заметил в списках литературы имена знакомых исследователей, приписанные работам, которые те никогда не публиковали.
В ходе дальнейшей проверки команда выгрузила названия источников из миллионов рукописей и сверила их с базами Semantic Scholar, OpenAlex и Google Scholar. Если запись отсутствовала в этих системах, а языковая модель идентифицировала ее как попытку академического цитирования, ссылку относили к неподтвержденным.
Учитывая естественные ошибки и опечатки, существовавшие до появления ChatGPT, исследователи сосредоточились на материалах, опубликованных после 2022 года.
Наибольшее количество «галлюцинаций» зафиксировано на сервере препринтов по социальным наукам SSRN. К августу 2025 года доля ложных ссылок там достигла 1,91%, что почти в пять раз выше показателей других крупных репозиториев. В архиве публикаций по физике и математике arXiv этот показатель составил 0,39%, в базе биомедицинских текстов PubMed Central — 0,27%, а в репозитории биологических препринтов bioRxiv — 0,21%.
В абсолютных цифрах только за август 2025 года в PubMed Central было обнаружено 8 140 подозрительных записей, в arXiv — 3 353, в SSRN — 767, а в bioRxiv — 478.
Исследование показало, что ложные ссылки чаще встречаются в работах авторов с небольшой публикационной историей до 2022 года. При этом нейросети часто приписывают выдуманные достижения известным ученым с высоким статусом, среди которых преобладают мужчины. Это явление создает риск закрепления гендерных и статусных перекосов в распределении научного внимания.
Существующие механизмы рецензирования часто не справляются с проверкой списков литературы из-за огромного объема публикаций, что позволяет ложным ссылкам мигрировать в новые статьи, обзоры и обучающие данные будущих моделей ИИ.

В ответ на системное загрязнение литературы администрация arXiv ужесточила правила модерации. Руководитель компьютерной секции платформы Томас Диттерих объявил, что авторам грозит блокировка на один год за размещение текстов, созданных нейросетями без верификации человеком.
Основанием для санкций станут неоспоримые доказательства: вымышленные цитаты или забытые в тексте системные комментарии алгоритмов, такие как просьбы составить резюме или заполнить таблицу данными.
После завершения блокировки нарушители смогут публиковаться на платформе только при условии, что их работа предварительно принята в рецензируемый научный журнал или сборник трудов конференции.
