20-летний Максим Шульга учится на третьем курсе Школы естественных наук ДВФУ. Его специализация — компьютерная безопасность. Молодой человек в детстве увлёкся программированием, а после поступления в вуз стал активно изучать методы машинного обучения, в том числе нейросети. Участвуя в конкурсе, Максим составил один из наиболее точных аналитических сценариев динамики заболеваемости COVID-19 в мире. Исследования проводились на основе данных, собранных Университетом Джонса Хопкинса.
— Почему вы решили принять участие в этом конкурсе? Сами о нём узнали или это было предложение преподавателя?
— О конкурсе я узнал от директора Школы цифровой экономики ДВФУ. Решил принять участие в нём по нескольким причинам. Во-первых, тема короновируса очень важна на данный момент. Во-вторых, для решения поставленной задачи необходимо было построить математическую модель с использованием методов машинного обучения, то есть применить на практике полученные мною в университете знания.
— Какая задача стояла перед конкурсантами?
— Речь шла о прогнозировании числовых данных: сколько будет заболевших и умерших в разных странах, а также в том или ином регионе России — прогноз динамики заболевания в ближайшее время.
— В чём суть вашей работы?
— Для написания модели, которую я использовал на конкурсе, решил воспользоваться библиотекой TensorFlow на языке программирования Python. Эта библиотека предназначена специально для написания нейросетей. Я применял в работе рекуррентную нейросеть. Она используется для работы с последовательностями и применяется в основном для задач, связанных с анализом текстов: определения тематики текста, генерации новых текстов, выделения заголовков из какого-то произвольного текста. Так как она работает с последовательностями и хорошо «запоминает» предыдущие значения, её можно применить и для решения данной задачи.
Университет Джонса Хопкинса собрал данные о количестве заболевших и умерших за несколько месяцев развития пандемии COVID-19. Эти данные можно разбить на отрезки, например, понедельно, и на основании прошедшей недели спрогнозировать количество заболевших на следующие несколько дней.
Благодаря тому что данные можно было представить в виде таких последовательностей, можно было обучить модель. В конце я загружал в модель данные по количеству заболевших за последнюю неделю и получал прогноз заболеваемости на следующий день. Добавлял этот день ко всем данным и таким образом получал прогноз дальше, на последующие дни.
— Ваше исследование основано на информации Университета Джонса Хопкинса. Почему именно эти данные вы взяли для анализа?
— Организаторы предоставили их как основной источник данных, а одним из условий конкурса было использование данных, опубликованных на официальном канале конкурса.
— Кто победил в конкурсе?
— При подведении итогов на сайте конкурса выводился список точности прогноза всех участников от лучшего к худшему. В этом списке были названия профилей участников, а не реальные имена и фамилии. Поэтому я не могу знать, кто является победителем.
— Существует мнение, что эпидемия началась значительно раньше — ещё в ноябре. На эту версию есть указания в вашем исследовании?
— Задача, которую я решал в ходе конкурса, никак не пересекалась с данным вопросом, поэтому ответить не могу.
Но я считаю, что развитие пандемии можно и нужно прогнозировать. Мы не можем знать, где, когда и как мутирует тут или иной вирус, но можем быть готовыми к тому, как с ним справляться.
— Как вы лично, как исследователь, прогнозируете распространение вируса?
— Математические модели прогнозирования плохо справляются с долгосрочными прогнозами.
Так как ежедневный прирост заболевших зависит от очень многих факторов, то возникает большое число случайностей, которые вносят резкие изменения в динамику заболевания.
По этой причине математические модели больше подходят для прогноза на короткие промежутки времени, например на неделю, как в данном конкурсе.
— Какую практическую пользу от этих исследований вы видите?
— Практическая польза от таких исследований заключается в привлечении внимания учёных к действительно важной проблеме распространения COVID-19 по всему миру. Благодаря тому что для решения задачи привлекается большое число участников, повышается шанс разработать наиболее точную модель прогнозирования.
— Чем вы занимаетесь в настоящее время?
— Я готовлюсь к следующему конкурсу. Он пройдёт через полгода и будет посвящён анализу данных по ЕГЭ, точнее — эссе письменной части Единого государственного экзамена по английскому языку. Для этой работы нужно собрать большое количество данных.