Нейросеть HeyGen: как ИИ ворует голоса людей и помогает мошенникам

Нейросети уже научились автоматически переводить речь в видеороликах на другие языки, при этом сохраняя тембр голоса спикера и адаптируя движение его губ под сгенерированную дорожку. Комбинация и глубокое обучение искусственного интеллекта дает поистине потрясающий эффект и обширные возможности, использовать которые можно как во благо, так и в не самых законных целях. Кто в опасности, кто уже пострадал и какой вред могут нанести дипфейки?

Василиса Шаманова

Теги:

Кино

Мошенничество

Новости

Нейросеть HeyGen: как ИИ ворует голоса людей и помогает мошенникам

Unsplash

Что такое нейросеть HeyGen?

HeyGen — это нейросеть, разработанная компанией OpenAI, основателем которой является Илон Маск. Изначально сервис предлагал использовать виртуальные аватары, которые озвучивали необходимый пользователю текст. В сентябре 2023 года OpenAI презентовали бета-версию с новой функцией перевода видео.

HeyGen уже обучен искусством перевода речи на 11 языков мира. Несмотря на то, что русский язык не упоминается в списке, опубликованном разработчики, нейросеть справляется с переводом как с русского, так и на русский. ИИ с помощью глубокого обучения находит конструкции, которые используют носители языка в реальной жизни. Все эти возможности призваны облегчить нашу повседневность, но, к сожалению, попав в руки мошенников, они могут сильно навредить. Сейчас дипфейки набирают популярность и становятся главными помощниками мошенников. Ниже опубликовали, как работает HeyGen на примере известного ролика, где знаменитая девушка в кандибобере уже говорит не на русском, а на английском языке.

Теперь нейросеть одновременно выполняет три действия: распознает голос, переводит текст и адаптирует мимику спикера под сгенерированную аудиодорожку. Означает ли это, что теперь на видео любого человека можно наложить слова, которые ему не принадлежат?

Технологии нейросетевого синтеза эволюционируют быстрыми темпами не только с точки зрения качества звучания, но также и функциональных возможностей. Первая нейросеть для синтеза речи WaveNet, представленная DeepMind появилась еще в 2016 году. Тогда уже наблюдался существенный прогресс в плавности и естественности генерируемой речи. С этого момента стало понятно, что нейросети могут успешно применяться для генерации звука, но вместе с этим появилось множество рисков для людей, в том числе появление дипфейков.

Нейросети действуют следующим методом: синтез речи, клонирование и преобразование голоса — все это: родственные технологии, различающиеся только тем, какие данные поступают на вход каждому алгоритму.

Какой вред могут нанести дипфейки и кто пострадал?

Порнографические ролики

Дипфейк — это метод создания поддельного медиаконтента с помощью алгоритмов глубокого обучения нейросетей. Первые дипфейки начали появляться в сети в конце 2017 года, когда пользователь Deepfakes выложил в социальные сети порнографические ролики, в которых лица актеров были заменены на лица голливудских звезд. Технология разошлась по интернету и породила массу подобного контента. Чуть позже, наигравшись с роликами для взрослых, пользователи взялись за Николаса Кейджа.

30 августа 2023 года актёры дубляжа и участники Союза дикторов России выпустили петицию о защите голосов от мошенничества и синтеза. Представители киноиндустрии предложили внести ряд законодательных изменений, которые помогут защитить их от нелегального копирования голосов.

Поводом для создания петиции послужил ситуация, которая произошла с актрисой дубляжа Аленой Андроновой, известной озвучкой сотни сериалов. Она обнаружила, что её голос открыто доступен для любого синтеза на сайте банка «Тинькофф», а также продаётся на многих сторонних площадках без её согласия. Помимо этого, актриса узнала, что её голос используют для озвучки порнографии. Из-за этого актриса лишилась части работы.

В России, в список людей, голоса которых незаконно использовали, входит множество известных актеры озвучки, среди них: Ольга Плетнева, Михаил Тихонов, Татьяна Шитова, Ольга Зубкова, Юлия Горохова и Всеволод Кузнецов, но «под раздачу» могут попасть все. С появлением дипфейков участились случаи телефонного мошенничества.

Голос любого человека можно украсть из роликов, размещенных на его странице в социальных сетях. Как действуют мошенники в таком случае:

запись голоса через приложения для общения: злоумышленники используют мессенджеры и голосовые сообщения, чтобы украсть «голос пользователя»;

сбор публичной информации: злоумышленники также могут использовать открытые источники — такие, как видеоблоги или интервью, давно опубликованные в сети;

«Чтобы защититься от различных дипфейков, специалисты советуют критически относиться к любой информации и перепроверять все сомнительные сообщения. Важно не гадать, кто вам звонит, а сломать сценарий злоумышленников и перезвонить самостоятельно. Так вы будете уверены, что действительно общаетесь с тем, кем представился звонящий, что особенно актуально на фоне роста числа случаев телефонного мошенничества», — сообщает «Рамблер».