ИИ, рисующий то, что вы ему скажете

Команда Open.AI, разработавшая знаменитую программу генерации текстов GPT-3, разработала на ее основе нейросеть DALL-E, которая может по описанию на естественном языке нарисовать картинку. При этом ИИ учитывает взаимное расположение предметов, тень и перспективу.
ИИ, рисующий то, что вы ему скажете

Команда Open.AI обучила искусственную нейронную сеть генерировать изображения по текстовым описаниям. Программу назвали DALL-E — это анаграмма из имени знаменитого художника Сальвадора Дали (Dali) и не менее знаменитого робота WALL-E (героя одноименного мультфильма). То есть что-то среднее между роботом и человеком.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Основой работы DALL-E является нейросеть GPT-3 с 12 миллиардов параметров. Но при обучении используются не только слова и буквы естественного языка, но и изображения. При обучении сеть получает наборы токенов — как текстов (подписи), так и картинок. Причем картинки проходят несколько степеней сжатия и абстрагирования. Фактически это схемы изображений. Такие схемы ассоциированные с текстом и становятся основой того, с чем работает DALL-E.

На изображении могут быть несколько предметов, и сеть учитывает их взаимное расположение (красный кубик лежит на зеленом) и правильно понимает, какие зоны закрыты от взгляда в зависимости от направления..

По каждой подписи можно создать бесконечно много картинок, поэтому сеть кроме генерации изображения выполняет еще и ранжирование. Она уже может рисовать не только плоские картинки 2D, но и трехмерные изображения с учетом теней и перспективы. Например, она может изобразить пуму — при взгляде сверху или прямо, в горах или на солнечной поляне. Может заменить пуму на лису. То есть композиционные вариации достаточно широки, но чтобы нарисовать «Постоянство памяти» DALL-E нужно еще поучиться. До великого тезки ей пока далеко.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

В блоге Open.AI, где опубликовано сообщение о DALL-E, разработчики обещают в ближайшее время выложить подробное описание работы нейросети. Разработчики пишут: «Мы осознаем, что генеративные модели могут оказать значительное влияние на общество. В будущем мы планируем проанализировать, каким образом модели, подобные DALL-E... могут повлиять на рабочие процессы и профессии».

Когда GPT-3 стала писать колонки для газет, это уже вызвало тревогу: а не вытеснит ли она пишущих журналистов? Теперь пришло время тревожиться и художникам. Пока нейросеть им не угрожает, поскольку использует готовые стандартизированные словари токенов (схем), но она быстро учится.

До сих пор нейросети не умели рисовать с нуля, а только преобразовали изображения (хотя и делали это довольно изобретательно, как например Prizma).

DALL-E — это еще один шаг к самостоятельному творчеству машин.