Отмечается, что точность анализа и расшифровки выросла на 25%, также нейросети теперь знают тысячи новых слов, включая мемы, имена собственные, акронимы и профессиональные термины.
Автоматические субтитры генерируются с помощью Ml-моделей, которые создают текст и расставляют знаки препинания, синхронизируют их с видео. Для повышения точности аудиопоток проходит через несколько этапов обработки. Нейросеть отсеивает сторонние шумы, распознаёт речь и превращает её в текст. После чего подключаются модели пунктуации и денормализации, которые превращают набор распознанных слов в читаемый текст. Далее ИИ синхронизирует получившийся текст с аудиодорожкой. Такой порядок действий позволяет субтитрам быть понятными и удобными как в профессиональных роликах, так и в любительских видео.
Уточняется, что в ближайшее время нейросети научатся также разделять речь разных спикеров на отдельные реплики, что упростит восприятие субтитров.
В VK отмечают, что популярность субтитров растёт. Так, доля пользователей, использующих эту функцию в веб-версии, за последний месяц увеличилась на 28%, и сейчас субтитрами пользуются 11% всей аудитории «VK Видео». Технология помогает людям с нарушениями слуха, а также удобна для просмотра видео в условиях, когда включать звук неудобно.
Ранее сообщалось, что «VK Видео» первой в России запустила интерактивный контент.