Нейросеть поменяла породу собаки и превратила чайку в канарейку

Специалисты NVIDIA научили нейросеть автоматически менять класс объекта на изображении без использования большого количества данных для обучения. Разработанный ими алгоритм FUNIT основан на генеративно-состязательной нейросети, которой необходима всего пара примеров изображений класса, в который необходимо преобразовать изображение. Препринт статьи с описанием работы выложен на arXiv.org, программу также можно протестировать на сайте компании.

038cce839a3c2df774dd30d90dd52ec1.png (274 KB)

Результаты работы нейросети на примере кошки Фольги (первый квадрат), которая живет у нашего выпускающего редактора.

Перенос стилей между изображениями (image-to-image translation) — задача не новая и решенная неоднократно. Больших успехов в этой области добились разработчики компании NVIDIA, которые, к примеру, научились автоматически менять даже время года на видео. Наиболее часто используемый метод для решения подобных задач — генеративно-состязательные сети, которые, однако, требуют большого количества размеченных данных для обучения.

В своей новой работе исследователи из NVIDIA под руководством Мин-Юй Лю (Ming-Yu Liu) решили значительно упростить подобный перенос, ограничив объем используемых данных. Для того, чтобы изменить класс объекта на изображении, созданной нейросети нужно изображение входного объекта и всего два примера целевого изображения: скажем, одно изображение кота и два изображения мопса. После этого с помощью слоев свертки из изображений получается информация об объекте, который надо преобразовать, и классе, в который надо преобразовать объект, после чего из нескольких слоев декодера получается итоговое изображение.

16599399a1a244c6b9d0e6a0027721730.png (107 KB)

                                         Схема работы FUNIT

В итоге исследователям удалось обучить нейросеть достоверно превращать объект одного класса в другой. Разумеется, у нейросети пока что есть ряд ограничений: переносить класс она может только между двумя схожими объектами (например, между двумя животными), а вот превращать собаку в цветок ей пока что не удается.

Другая команда разработчиков осенью представила так называемую круговую генеративно-состязательную нейросеть, которая прицельно работает не со всем изображением целиком, а с некоторыми его аспектами. Использование такой нейросети позволило исследователям достоверно перенести информацию между двумя видеоклипами.

Источник: nplus1.ru