
Мы взяли у Ирины интервью, чтобы узнать, какие задачи поставили организаторы перед участниками хакатона и как еще машинное обучение может пригодиться бизнесу.
– Ирина, расскажи немного о себе, как и почему ты пришла в программирование?
– Я училась в Воронежском Государственном университете на факультете ПММ (прикладной математики, информатики и механики), после этого работала разработчиком в крупной компании в сфере оптовой торговли. Занималась автоматизацией различных бизнес-процессов в рамках ценообразования и товародвижения. В какой-то момент поняла, что развиваться некуда, стала искать, где можно с пользой и удовольствием применить свои знания. Уже тогда больше всего интересовало машинное обучение, поэтому я решила подтянуть английский и попала в аутсорс-компанию DataArt в качестве практиканта.
– Почему выбор пал на машинное обучение?
– В первую очередь потому, что машинное обучение — это комбинация программирования и математики. Теория вероятности, линейная алгебра, статистика — это всегда меня очень привлекало, а не пугало.
– Вернемся к хакатону, в котором ты вошла в пятерку лидеров. Расскажи, почему решила принять участие?
– Я решила провести своеобразный тест для себя. До хакатона я не работала с пространственными географическими данными, решила развить навык, это было интересно. К тому же, это была управленческая задача. Требовалось не только написать код, но и разработать критерии определения уровня привлекательности районов Москвы и выдвинуть управленческие идеи для улучшения этого уровня.
– Какую задачу поставили перед участниками хакатона?
– Задача — разработать концепцию определения уровня самодостаточности районов города Москвы (оснащенность объектами социальной, развлекательной, спортивной и прочей инфраструктуры) на примере нескольких районов, основываясь на анализе больших данных. Нужно было также учесть возможность дальнейшего масштабирования предлагаемого подхода на все районы Москвы. Для этого надо было задействовать машинное обучение.
– Расскажи, пожалуйста, о своем решении для хакатона.
– Для решения задачи организаторы предоставили датасеты, которые содержали в себе пространственные данные о районах и округах Москвы и Московской области. Их разделили на секторы 500х500 метров и собрали информацию о пребывании и передвижении населения в различных секторах. В датасетах данные представлены в различных разрезах: день/ночь, четыре 8-часовых промежутка дня, выходной/будний день, количество населения дома/на работе/днем/ночью и так далее. Основная идея моего решения — выявить зависимости между количеством населения в том или ином аспекте, временным промежутком (время досуга или рабочее время), районом Москвы, оснащением района объектами инфраструктуры. Информацию об объектах инфраструктуры я взяла из внешних открытых источников. С помощью найденных зависимостей я оценивала степень притягательности района для людей, находящихся внутри или вне района в периоды времени досуга, и использовала найденную информацию для ранжирования районов.
– Какой технологический стек был использован для создания решения?
– Python, Pandas, Numpy, Geopandas, Sklearn, Osmnx, Libpysal.
– Сколько хакатон длился по времени?
– Он был достаточно коротким — всего 4 недели. Главной целью для участников было не столько создать рабочие модели — за такое время это невозможно — сколько предложить различные идеи, которые Департамент Информационных Технологий Москвы будет оценивать и определять, какие из идей можно эффективно применить на практике.
– Выходит, машинное обучение может быть очень полезно для градостроительства, планирования и развития города?
– Безусловно. Основная идея машинного обучения — это оптимизация. С помощью его методов мы улучшаем бизнес-процессы и показатели, минимизируем затраты, оптимизируем, к примеру, маршруты доставки.
– Как думаешь, в каких еще областях может помочь машинное обучение?
– В любых, где стоят вопросы оптимизации чего-либо. В ритейле, к примеру, это повышение валового дохода с продаж в условиях ограничений. Чтобы использовать все преимущества машинного обучения, необходимо уметь корректно описывать процессы всех затрат, понимать, на что организация тратит деньги. У каждой компании есть массивы данных, которые можно анализировать для повышения продуктивности бизнеса, но не все этим пользуются. Опираясь на эти данные, можно с помощью машинного обучения строить прогнозы, отлаживать бизнес-процессы и эффективно все оптимизировать
Подробнее о хакатоне «Цифровой прорыв»:
«Цифровой прорыв» — это серия хакатонов, чемпионатов и образовательных мероприятий в Российской Федерации, созданная в результате объединения двух проектов «Хакатоны и лекции по искусственному интеллекту» и «Цифровой прорыв».
В хакатоне, задачу для которого ставил Департамент информационных технологий города Москвы, приняли участие 1556 человек из 77 регионов. Участники создали 7305 решений.