Осенью 2022 года начали появляться нейросети, способные создавать видео по текстовому описанию. Первые ролики выглядели откровенно плохо и даже немного жутко. Программы искажали лица людей, рисовали пальцев больше, чем положено, а изображение часто смазывали. Эталонный пример того времени — видео, где нейросетевой Уилл Смит поедает спагетти.
Интернет наводнили нейровидео: как распознать подделку

Как нейровидео стали реалистичными
Но 2024-й все изменил. В феврале OpenAI представила Sora — модель, которая научилась делать почти фотореалистичные ролики. С этого момента стало ясно, что нейровидео — это уже не просто баловство. Sora вдохновила конкурентов, и вскоре бесплатные модели Luma и Runway начали набирать популярность у широкой аудитории.

Этой весной Google выпустил свою генеративную модель Veo 3. Журналисты сразу окрестили ее конкурентом Sora. Впрочем, ИИ-генератор от Google на тот момент шагнул далеко вперед от детища OpenAI. Он позволял интегрировать аудио прямо в создаваемые ролики. После выхода модели социальные сети россиян захлестнула волна нейросетевых видео уличных интервью. Одними из самых популярных стали ролики, в которых бабушки выгуливают бегемотов, жирафов и других экзотических животных.

Если в историю про бабушку «с бегемотом, которого она кормит трендами» верилось с трудом, то некоторые видео легко принимались за чистую монету. Один из самых вирусных и правдоподобных роликов этого года — кенгуру, которого не пускают на борт самолета, пока хозяйка ругается с сотрудниками аэропорта. Комментарии под видео: «Это что, правда?», «Нереально!». Пользователи долго не могли поверить, что видео создано искусственным интеллектом — настолько реалистично выглядели движения, мимика и реакция людей.

ИИ-видео захватили интернет
Однако это было только начало. Релиз Sora 2 этой осенью, похоже, открыл ящик Пандоры. Производство нейроконтента вышло на принципиально новый уровень. Sora 2 умеет генерировать разные сюжеты с высокой точностью. Модель «знает», как выглядят популярные шоу, фильмы и сериалы. Ей даже хорошо знакомы магазины и пункты выдачи заказов в российских городах. Более того, она может сразу создавать ролики с русской озвучкой и текстом.

OpenAI сама называет Sora 2 «моментом GPT-3.5» для видео — точкой, после которой генерация роликов будет становиться только убедительней. Но уже сейчас пользователей впечатляет внимание модели к деталям. Так, при движении пуговицы на одежде остаются на месте, а стрелки часов продолжают движение в правильном направлении.

На сегодняшний день единственное, что сразу выдает ИИ-видео — водяной знак приложения. Но часть пользователей научилась его замазывать или полностью удалять с помощью других нейросетей. И в таком случае остается полагаться только на здравый смысл и внимательность.
Как определить, что перед вами нейровидео
Согласно исследованию Университета Гонконга, сгенерированное видео можно распознать по трем ключевым критериям:
- Внешний вид
Даже в видео, созданных Sora 2, все же возможны небольшие визуальные ошибки. Лица могут быть слегка размытыми, а объекты — деформированными. Например, обычный стол на первый взгляд может показаться нормальным, но если приблизить изображение, можно обнаружить на нем неестественную вмятину или форму, которой не было бы на настоящем дереве. Подобные нюансы позволяют отличить сгенерированный контент от настоящего.
- Движение
Любые противоестественные движения — явный сигнал, что видео вероятно сгенерировано. В Sora 2, например, головы животных иногда трясутся так, что это противоречит законам физики. А вот что касается людей, то здесь стоит обращать внимание на мимику. Если эмоции в глазах отсутствуют, а лицо кажется «пластмассовым», перед вами, скорее всего, фейк.
- Геометрия и пропорции
Иногда нейросеть ошибается в масштабах объектов в кадре. Так, в видео Sora 2 люди в одной и той же сцене могут внезапно менять размер. Эксперты советуют обращать внимание на предметы вокруг и оценивать их с позиции соответствия пропорциям.
Осторожнее с ИИ: в Роскомнадзоре допустили, что переписки с искусственным интеллектом могут использоваться в суде
Шаг к общему искусственному интеллекту: что известно о последнем обновлении ChatGPT
Что нас ждет дальше: прогноз от ChatGPT
Развитие нейросетей одновременно впечатляет и пугает. С одной стороны, это открывает перед людьми невероятные горизонты возможностей, с другой — стирают границы правды и ставят под угрозу доверие ко всему, что люди видят в сети. Мы спросили ChatGPT, к чему может привести развитие технологий и получили три сценария будущего.

Оптимистичный сценарий: «Эра творческой свободы» (2035–2050)
В этом мире нейровидео становится инструментом самовыражения, подобно фотоаппарату в XX веке. Любой человек может за несколько минут визуализировать идею, создать короткий фильм или воспроизвести сон.
Технологии здесь работают напрямую по описанию, голосу или даже эмоции. Персональные ИИ-ассистенты встроены в очки или контактные линзы, а нейроинтерфейсы позволяют переносить образы прямо из воображения в видео. Подлинность контента сохраняется благодаря прозрачным метаданным — зритель всегда понимает, где ИИ, а где работа человека.
Реалистичный сценарий (2035–2050)
В этом будущем нейровидео внедряется во все сферы — от развлечений до бизнеса, образования и политики. Большая часть видео в сети создается или редактируется ИИ.
Автоматические фильтры и цифровая сертификация помогают отслеживать подделки, но полностью защитить пользователей невозможно. Нейроинтерфейсы доступны всем, но их применение регулируется этическими нормами. Люди начинают относиться к любому видео с осторожностью, и даже появляется профессия «аутентификатор контента».
Тревожный сценарий: «Эпоха симуляций» (2035–2050)
В худшем случае нейровидео превращается в инструмент массовой дезинформации и контроля сознания. Государства и корпорации создают «альтернативные реальности» для влияния на мнение и память граждан.
Появляются сверхреалистичные симуляции, которые невозможно отличить даже экспертам. Нейроинтерфейсы используются для воспроизведения воспоминаний, внедряя фальшивые события прямо в сознание. Появляются массовые VR-зависимости и цифровые секты, живущие в искусственных мирах.

Любопытно, что прогноз модели фокусируется в первую очередь на том, как люди будут использовать технологии, а не какие беды они нам принесут. Сегодня мы находимся на пороге новой эры, где границы между реальным и искусственным постепенно стираются. Но только от нас зависит, каким будет это гибридное пространство и что мы позволим делать нейросетям в будущем. В конце концов, ядерная бомба не может сама сбросить себя на город — все это делается исключительно руками человека.
