Выиграть хакатон: запускаем курс по спортивному Data Science

Выиграть хакатон: запускаем курс по спортивному Data Science

Если вы мечтаете участвовать в состязаниях по анализу данных и машинному обучению, то этот курс — отличный старт
4 минуты1586

Специалист по Data Science должен глубоко разбираться в теории статистических методов и алгоритмов машинного обучения, чтобы работать с большим объёмом данных. При этом для эффективной работы профессионал должен много практиковаться. Отличный способ практики — соревнования. GeekBrains запускает курс «Спортивный Data Science», на котором студенты научатся участвовать в состязаниях по анализу данных и машинному обучению. 

Что такое спортивный Data Science

Это соревнования, где участники решают предложенные задачи, основанные на реальных кейсах и проблемах — социальные или из сферы бизнеса. За короткое время нужно найти лучшее решение.

Такие соревнования по анализу данных и машинному обучению проходят в онлайн- и офлайн-форматах. Зачастую это командные состязания, которые проходят в несколько этапов. Они широко распространены как в России, так и за рубежом.

Соревнования проводятся для людей с разным уровнем компетенций. На некоторых нет ограничений: могут участвовать студенты и новички в профессии. В других же от участников требуется определённый уровень знаний в машинном обучении и опыт работы с большими объёмами данных.

Подобные соревнования по Data Science — это отличная возможность попрактиковаться на реальных задачах, получить ценный опыт, а также прокачать навыки. При этом есть и победители, и призы. На российских хакатонах и чемпионатах призовой фонд обычно составляет от миллиона рублей и выше.

Есть и другая мотивация участвовать. Например, на платформе Kaggle или на соревновании KDD Cup участники решают задачи, связанные с социальными проектами и проблемами. Например, темой может быть борьба с загрязнением воздуха, технологии исследования ВИЧ, прогнозирование загрузки автомагистралей. Иногда организаторы предлагают победителям в обмен на призовой фонд получить лицензию на их разработку, созданную в ходе соревнования: алгоритм, программное обеспечение и интеллектуальную собственность. Так что спортивный Data Science — это ещё и возможность внести свой вклад в развитие технологий.

Наконец, соревнования по Data Science — это возможность зарекомендовать себя как профессионала. Многие организации — Google, Intel, Mercedes Benz, Mail.ru Group, Высшая школа экономики и другие — устраивают соревнования в том числе для того, чтобы присмотреть будущих сотрудников среди участников. 

Что будет на курсе

Курс «Спортивный Data Science» предназначен для тех, кто уже знаком с профессией. Интенсив научит создавать высококлассные решения в условиях конкуренции. Особое внимание уделяется практическому использованию методов машинного обучения.

Для обучения на курсе нужно обязательно знать:

  1. Математику на уровне DS-курсов.
  2. Язык программирования Python и классические DS-библиотеки: NumPy, Pandas, Matplotlib, Sklearn;
  3. Как работают классические алгоритмы машинного обучения: линейные модели, деревья решений, «случайный лес» и градиентный бустинг.

«Мы будем решать две параллельные задачи на курсе: во-первых, постараемся систематизировать знания студентов, а также обогатить их более современными и комплексными подходами к решению типичных задач анализа данных. Эти подходы они смогут использовать как в соревнованиях, так и в любых индустриальных проектах по анализу данных. Во-вторых, мы постараемся снизить порог входа в соревнования для участников курса», — комментирует программу преподаватель курса Никита Варганов.

За три месяца обучения студенты узнают о популярных алгоритмах, которые помогут в соревнованиях на табличных данных: CatBoost, LightGBM, XGBoost. Мы разберём разницу между переобучением в реальном (промышленном) проекте по анализу данных и переобучением в соревновании по анализу данных. Студенты узнают, какой вид метаинформации генерирует каждый эксперимент, почему важно её сохранять и какие инструменты можно использовать, чтобы упрощать версионирование. Слушатели также изучат подходы к отбору признаков и интерпретации моделей машинного обучения и познакомятся с ансамблированием.

На курсе студенты научатся:

  • выполнять разведывательный анализ данных — Exploration Data Analysis;
  • составлять дорожную карту, планируя использование алгоритмов на соревновании;
  • предварительно обрабатывать данные и улучшать качество модели за счёт генерации признаков;
  • оптимизировать гиперпараметры — это дополнительный способ повысить качество моделей.

Занятия проходят раз в неделю в формате онлайн-лекций, где краткая, но полезная теория совмещается с решением упражнений. Также на курсе предусмотрены консультации с разбором домашних заданий.

Во время курса студенты примут участие в трёх соревнованиях. Первое — вместе с преподавателем, в онлайне: нужно будет решить задачу по обнаружению мошенничества. И два соревнования — в качестве домашних заданий: от простой задачи по вычислению лояльных клиентов до кредитного скоринга (такая задача по составу данных максимально похожа на кейс из индустрии).

Преподаватель курса — Никита Варганов — Senior Data Scientist в Сбербанке. Его знакомство с профессией началось с изучения онлайн-курсов по DS на платформе Coursera. Как и большинству слушателей онлайн-курсов, ему не хватало практики и умения решать задачи.

«Я изначально планировал участвовать в соревнованиях, но, как и многие, считал, что буду готов к ним, только когда пройду все курсы по DS и прочту все книги по анализу данных. Но чуть позже я решил отбросить страхи и начать решать задачи, а с деталями разбираться уже по ходу.  И часто участвовал в соревнованиях с 2017 до 2020 года.

Моим первым проектом, как и для многих, была задача, где нужно спрогнозировать выживание пассажиров „Титаника“. Набив руку, я стал участвовать в соревнованиях на платформе MLBootChamps, а потом и на Kaggle. Участие и хорошие результаты усилили моё резюме, упростили интервью и позволили получить работу, которая мне нравилась».

Что в итоге обучения

Окончив курс, студенты смогут участвовать в соревнованиях по анализу данных на российских площадках и состязаниях на табличных данных на Kaggle. И получат навыки, которые позволят улучшать качество моделей и DS-проектов в индустрии.

Только в 2021 году пройдут сразу несколько крупных соревнований: Changellenge >> Cup IT, IDAO — International Data Analysis Olympiad, Data Fusion Contest, SberCode.

Студенты получат электронные сертификаты и удостоверения о повышении квалификации (установленного образца), которые можно приложить к портфолио и показать работодателю.

Основа любой профессии — это знания и практический опыт. Прокачать свои навыки в Data Science и получить практику в спортивных соревнованиях вы можете на курсе спортивного Data Science в GeekBrains.

программированиеdata science
Нашли ошибку в тексте? Напишите нам.
Спасибо,
что читаете наш блог!
Posts popup