Японские учёные научили компьютерную программу создавать картинку по её описанию

- © Hiroharu Kato et al./ arXiv.org
Созданная учёными программа основана на представлении изображения в виде набора «визуальных слов», пишет портал N+1 со ссылкой на препринт с описанием исследования, опубликованного на сайте библиотеки Корнелльского университета. Этот метод изначально был создан для анализа текстов и представляет собой набор пар «слово» — «число его появлений в тексте». Однако в случае с картинками, вместо слов используются короткие последовательности пикселей, усреднённые фрагменты изображений.
Из каждой картинки авторы создавали свой отдельный набор «визуальных слов», а затем пытались восстановить из него оригинал, то есть расставить все фрагменты в правильном порядке.
Исследователи взяли этот метод и использовали для него два способа. Расположение считалось локально «естественным», если изображения на фрагментах плавно переходили друг в друга и не было явных нестыковок. Глобальная естественность оценивалась по базе данных известных изображений. Она определяла, например, что фрагменты неба должны располагаться в верхней части картинки, а лицо человека на портрете — ближе к центру.
Авторы оценивали степень схожести полученных «реконструкций» и оказалось, что среди аналогичных программ новый алгоритм выдавал наилучшие результаты по степени схожести с оригиналом.
В качестве эксперимента учёные также попытались создать изображения «с нуля», основываясь только на текстовом описании. Однако, по словам авторов, в этом случае алгоритм воспроизвёл абстрактные изображения, которые имели мало общего с исходным запросом.