Премия Рунета-2020
Россия
Москва
+6°
Boom metrics
УМНЫЕ ВЕЩИ19 января 2018 16:00

Нейросеть от Microsoft научилась создавать изображения по текстовому описанию

В будущем создатели планирует обучить её рисовать целые мультфильмы
Технология рисования состоит из двух моделей машинного обучения

Технология рисования состоит из двух моделей машинного обучения

Разработчики Microsoft анонсировали разработку в сфере искусственного интеллекта, которая является чем-то вроде художника - “бот-чертеж”. Бот способен не только создавать изображения из текстовых описаний объекта, но и “фантазировать” - добавлять собственные детали к своим рисункам, которые не указаны в записях. Об этом сообщается на сайте arXiv.

Исследователи говорят, что бот способен генерировать разнообразные изображения: например, от “обычных пасторальных сцен”, таких как пастбище скота, до абсурдных, типа “плавучего двухэтажного автобуса”.

В Microsoft говорят, что бот обучался на наборах данных парных изображений и заголовков, что позволило ему понимать, как совместить слова с рисунками.

“Это фундаментальная причина, по которой мы считаем, что машина может учиться”, - заявляют разработчики.

Технология рисования состоит из двух моделей машинного обучения: одно для генерации изображений из текстовых описаний, а другое - для оценки подлинности сгенерированных изображений. В сочетании они создают высококачественные рисунки.

В частности, бота научили рисовать изображения на основе сложных предложений. В то время как другие технологии могли нарисовать птицу из заголовка, в котором говорилось, что это “птица”, новая разработка отлично справилась с “птицей с зеленым хохолком, желтыми крыльями и красным животом”. Раньше это приводило бы к размытой “зеленовато-желтовато-красноватой птице”.

Особенно интересно то, что бот может заполнить пробелы, когда конкретные детали не указаны. В примере с птицей бот обычно рисует пернатое, сидящее на ветке дерева, даже если эта деталь не указана в тексте.

Благодаря исследованию стало известно, что работа новой нейросети превосходит уже существующие алгоритмы в точности на 170,25%, а при использовании базы данных CUB (она содержит изображения птиц) - на 14,14%.