
«Машинное обучение — не панацея, но оно способно качественно изменить работу бизнеса или крупного производства», — так считает AI/ML-разработчик ITentika Мария Демченко, победительница хакатона «Цифровой прорыв. Сезон: ИИ».
Мы взяли у Марии интервью, чтобы узнать, как именно проходил хакатон, какое решение надо было создать и почему Мария в принципе решила сфокусироваться на машинном обучении.
– Маша, расскажи, пожалуйста, немного про себя и про свой путь в AI/ML.
– Я начала с академического пути: недавно окончила аспирантуру факультета прикладной математики, информатики и механики Воронежского Государственного университета, выбрала машинное обучение в качестве сферы научных интересов, выпускные квалификационные работы писала с использованием методов и алгоритмов ML. Я применяла эти алгоритмы в контексте медицинской практики — использовала реальные деперсонифицированные данные пациентов. Во время обучения удалось опробовать множество инструментов, изучить их, написать публикации. И когда я начала работать в реальных проектах, эти знания мне пригодились. Конечно, все коммерческие проекты совершенно не похожи друг на друга, приходилось углубляться в различные сферы машинного обучения.
– Недавно ты стала победительницей хакатона «Цифровой прорыв. Сезон: ИИ», где кроме тебя еще участвовали почти 500 человек. Расскажи, пожалуйста, какую цель ставили перед участниками и как проходил хакатон?
– Наша задача звучала так: разработка алгоритма контроля производственных процессов. Участникам нужно было создать решение, которое позволит с помощью видео определять эффективность работы сотрудников без привлечения дополнительных ресурсов. Я алгоритмами обработки видео ни разу не занималась, было интересно попробовать и проверить свои навыки, поэтому я поставила перед собой цель изучить тему. Мне нравится подход «Цифрового прорыва» — организаторов хакатона — тем, что они хорошо формулируют задание, качественно, с указанием цели, метрик, данных. Это все очень ценно и создает все условия, чтобы с комфортом решить неизвестную задачу.
– С чего начинается решение подобных задач?
– В машинном обучении все начинается с данных, их изучения, исследования, поиска закономерностей. Нужно вникать в описание показателей и классов, если они есть. Первый этап хакатона проходил по такому же плану, но он затянулся, поскольку организаторы сознательно усложнили его. Как правило, в подобных задачах уже есть данные, а тут их надо было преобразовать — это было необычно и заняло больше времени. Когда я поняла, что так и планировалось, все встало на свои места. Получилось так, что больше недели я не могла залить первое решение, но с такой проблемой столкнулись почти все — организаторы даже собрали дополнительную встречу, что тоже редкость. Сложность сделала конкурс только интереснее, но не все участники с этим были согласны: часть из них приняла решение, что не будут тратить время на парсинг видео.
– А как организаторы проверяют решение?
– Сначала решение заливается на платформу хакатона, потом идет автоматическая проверка качества решения с помощью метрики. Участники уже знают, насколько результаты качественные, затем перед окончанием конкурса заливают все материалы и презентацию, где описывают свой подход.
Организаторы проверяют исходный код, артефакты, проверяют, что участник действительно использовал машинное обучение, его алгоритмы, и что это не рандом. В финальный день подачи работ каждое решение проверяется на приватной части набора данных, которых никто не видел. В этом конкурсе все этапы проверки заняли два дня.
Также была система «штрафов»: если организаторы выясняют, что участник использовал рандом, то этот участник получает черную карточку. Две таких карточки грозят исключением из конкурса и недопуском к участию в подобных конкурсах в течение года.
– Для чего участникам используют рандом?
– Иногда люди просто «для себя» заливают подобные решения, чтобы посмотреть, как работает модель, но цена таких экспериментов довольно высока.
– Подскажи, а почему все-таки ты для себя выбрала AI/ML?
– Машинное обучение для меня интересно тем, что сочетает навыки программирования и математики. До перехода в машинное обучение я работала .NET-разработчиком, и мне было интересно использовать алгоритмы и писать код, который покажет результат.
– Как думаешь, каковы перспективы машинного обучения, что ожидает, например, сферу ритейла?
– Тут вновь нужно исходить из задач. Например, для ритейла актуальный пример задачи связан с динамическим ценообразованием. Каким образом регулировать цены так, чтобы бизнес приносил прибыль? Плюс ассортиментные матрицы тоже актуальны.
– А для промышленности?
– Для любой промышленности тоже очень актуальны углубление в доменную область и алгоритмы, с помощью которых происходят те или иные процессы.
Но важно понимать, что инструменты машинного обучения — не панацея. Прежде всего задача машинного обучения — это формализация и алгоритмическое структурирование процессов, которые исследуются.
Могу привести конкретные примеры, которые мы уже реализовали. Мой коллега работал над решением, которое помогает с помощью данных с сенсоров устройств предсказать, когда оборудование выйдет из строя. Мы исследовали временные ряды по этим сенсорам и предсказывали поломки оборудования. Также машинное обучение помогает с динамической корректировкой показателей оборудования, чтобы, к примеру, температура на производстве была стабильна и обслуживание состояния оборудования или среды на производстве не прерывалось. Такие решения подсказывают, когда необходимо повышать или понижать температуру для корректной работы всей системы.
– В чем, по твоему мнению, заключается польза этих технологий?
– Тут надо конкретно рассматривать каждую область, поскольку машинное обучение применимо практически везде. Я много работала со сферой медицины, и можно смело сказать, что машинное обучение не заменит опытных врачей, но поможет в принятии решений начинающим специалистам.
Но если попытаться обобщить, машинное обучение выбирают, потому что сейчас данные активно цифровизируются. У предприятий и бизнеса много информации — записи с камер, различные документы, архивы. И все эти массивы данных необходимо проанализировать, извлечь из них выгоду. Человек не в состоянии обобщить данные быстро и качественно, зато машинное обучение и его алгоритмы с этим отлично справляются. А далее уже все зависит от контекста — если это видео, то что мы хотим от него? Например, если это медицина, можно сегментировать сосуды, искать патологии — со всеми этими задачами помогает машинное обучение.