«Развитие пандемии можно и нужно прогнозировать»: студент ДВФУ Максим Шульга о конкурсе COVID-19 Data Challenge

20-летний Максим Шульга учится на третьем курсе Школы естественных наук ДВФУ. Его специализация — компьютерная безопасность. Молодой человек в детстве увлёкся программированием, а после поступления в вуз стал активно изучать методы машинного обучения, в том числе нейросети. Участвуя в конкурсе, Максим составил один из наиболее точных аналитических сценариев динамики заболеваемости COVID-19 в мире. Исследования проводились на основе данных, собранных Университетом Джонса Хопкинса.

— Почему вы решили принять участие в этом конкурсе? Сами о нём узнали или это было предложение преподавателя?

— О конкурсе я узнал от директора Школы цифровой экономики ДВФУ. Решил принять участие в нём по нескольким причинам. Во-первых, тема короновируса очень важна на данный момент. Во-вторых, для решения поставленной задачи необходимо было построить математическую модель с использованием методов машинного обучения, то есть применить на практике полученные мною в университете знания.

— Какая задача стояла перед конкурсантами?

— Речь шла о прогнозировании числовых данных: сколько будет заболевших и умерших в разных странах, а также в том или ином регионе России — прогноз динамики заболевания в ближайшее время.

— В чём суть вашей работы?

— Для написания модели, которую я использовал на конкурсе, решил воспользоваться библиотекой TensorFlow на языке программирования Python. Эта библиотека предназначена специально для написания нейросетей. Я применял в работе рекуррентную нейросеть. Она используется для работы с последовательностями и применяется в основном для задач, связанных с анализом текстов: определения тематики текста, генерации новых текстов, выделения заголовков из какого-то произвольного текста. Так как она работает с последовательностями и хорошо «запоминает» предыдущие значения, её можно применить и для решения данной задачи.

Университет Джонса Хопкинса собрал данные о количестве заболевших и умерших за несколько месяцев развития пандемии COVID-19. Эти данные можно разбить на отрезки, например, понедельно, и на основании прошедшей недели спрогнозировать количество заболевших на следующие несколько дней.

Благодаря тому что данные можно было представить в виде таких последовательностей, можно было обучить модель. В конце я загружал в модель данные по количеству заболевших за последнюю неделю и получал прогноз заболеваемости на следующий день. Добавлял этот день ко всем данным и таким образом получал прогноз дальше, на последующие дни.

— Ваше исследование основано на информации Университета Джонса Хопкинса. Почему именно эти данные вы взяли для анализа?

— Организаторы предоставили их как основной источник данных, а одним из условий конкурса было использование данных, опубликованных на официальном канале конкурса.

— Кто победил в конкурсе?

— При подведении итогов на сайте конкурса выводился список точности прогноза всех участников от лучшего к худшему. В этом списке были названия профилей участников, а не реальные имена и фамилии. Поэтому я не могу знать, кто является победителем.

— Существует мнение, что эпидемия началась значительно раньше — ещё в ноябре. На эту версию есть указания в вашем исследовании?

— Задача, которую я решал в ходе конкурса, никак не пересекалась с данным вопросом, поэтому ответить не могу.

Но я считаю, что развитие пандемии можно и нужно прогнозировать. Мы не можем знать, где, когда и как мутирует тут или иной вирус, но можем быть готовыми к тому, как с ним справляться.

— Как вы лично, как исследователь, прогнозируете распространение вируса?

— Математические модели прогнозирования плохо справляются с долгосрочными прогнозами.

Так как ежедневный прирост заболевших зависит от очень многих факторов, то возникает большое число случайностей, которые вносят резкие изменения в динамику заболевания.

По этой причине математические модели больше подходят для прогноза на короткие промежутки времени, например на неделю, как в данном конкурсе.

— Какую практическую пользу от этих исследований вы видите?

— Практическая польза от таких исследований заключается в привлечении внимания учёных к действительно важной проблеме распространения COVID-19 по всему миру. Благодаря тому что для решения задачи привлекается большое число участников, повышается шанс разработать наиболее точную модель прогнозирования.

— Чем вы занимаетесь в настоящее время?

— Я готовлюсь к следующему конкурсу. Он пройдёт через полгода и будет посвящён анализу данных по ЕГЭ, точнее — эссе письменной части Единого государственного экзамена по английскому языку. Для этой работы нужно собрать большое количество данных.