Data Science: отвечаем на вопросы митапа с «Мегафоном»
18–19 ноября мы совместно с компанией «Мегафон» проводили двухдневный митап, посвящённый профессии дата-сайентиста. В первый день рассказали о том, как попасть в индустрию и рассмотрели другие вопросы новичков. А во второй день рассмотрели более серьёзные вопросы, для опытных специалистов — аугментацию текстовых данных, динамическое ценообразование и не только.
В прямом эфире вы задали очень много вопросов нашим спикерам и, к сожалению, на многие мы не успели ответить сразу. Поэтому попросили наших экспертов ответить на самые частые и интересные в этой статье. Надеемся, это поможет вам лучше разобраться в сфере Data Science. Для удобства мы разделили всё на тематические блоки.
Специальность Data Science
— Сделают ли информационные технологии нашу жизнь идеальной?
Информационные технологии помогут сделать жизнь удобнее и безопаснее. Идеальной сделать её, пожалуй, не получится, ведь идеалы у всех свои. С развитием технологий и автоматизации некоторые профессии исчезнут, а на их месте появятся новые, поэтому если вы занимаетесь чем-то, что можно автоматизировать, то стоит подумать о смене профессии.
— Какие творческие задачи вы решаете с помощью Data Science?
Задачи с множеством возможных решений, я думаю, можно считать творческими, поэтому любая задача из области DS творческая — ведь нужно придумать, какие использовать данные, алгоритмы; возможно, посмотреть на данные и узнать из них что-то новое. К счастью или к сожалению, без фантазии в DS сложно.
— Чем Data Science кардинально отличается от программирования?
Data Science — это область знаний, а программирование — навык. Сравнивать будет некорректно, скорее, можно сравнивать Computer Science и Data Science. Вот тогда можно сказать, что эти области сильно пересекаются, но в отличие от Data Science, Computer Science изучает обработку информации с помощью вычислительных машин, сетей, языков программирования. В свою очередь, Data Science ставит в центре извлечение пользы из данных, поиск закономерностей в данных.
— Какое из направлений DS перспективно, по вашему мнению?
Думаю, что перспективно использование Data Science везде, где собираются данные. Почти наверняка из них можно извлечь пользу, можно в целом сказать, что Big Data — это перспективно, так как позволяет предсказывать то или иное событие, генерировать новые данные (писать стихи, картины, создавать дополненную реальность), персонализировать предложения, диагностировать заболевания, определять преступников и т. п.
— Со скольки лет лучше изучать Data Science?
Изучать Data Science возможно начать в любом возрасте. Нет никаких возрастных ограничений для успешного обучения в этой области.
— Как узнать, что ты готов начать путь в отрасли?
Для начала обучения с нуля необходимо иметь стойкое желание, свободное время и проактивную позицию. А всем навыкам и знаниям вы научитесь на курсах GeekBrains, при должном старании.
— Курс «машинное обучение в сфере финансов» планируется?
Да, мы планируем запустить этот курс. Чтобы оставаться в курсе всех новых факультетов, подпишитесь на нашу рассылку.
— Какой язык программирования самый актуальный?
Одного такого языка нет. Каждый язык выполняет свои конкретные задачи в конкретных областях. В сфере DS вы, например, можете изучить Python, R, C, C++ и другие.
— Как Data Science применяется в медицине?
Наука о данных помогает, например, создавать лекарства, сегментировать и классифицировать изображения по КТ и МРТ. Также DS помогает во время клинических испытаний лекарств и вакцин.
— Не получится ли так, что специалистов по data science через полгода-год на рынке окажется чересчур много? Ведь существует уже множество различных курсов, как платных, так и бесплатных.
За два года спрос на дата-сайентистов вырос в два раза, по данным HeadHunter. И по прогнозам крупнейших рекрутерских агентств, потребность в специалистах data science будет всё ещё очень высока ближайшие годы.
Data Science в бизнесе
— Какие метрики используются для оценки работы Data Science для бизнеса?
В Data Science проекты делаются по методологии CRISP-DM, где первый шаг отвечает за постановку задачи и понимание бизнес-проблемы. При постановке задачи мы хотим понять не только что делать, но и какое решение сегодня используется в компании для устранения этой проблемы, чем оно не устраивает заказчика и как ему понять, что мы добьёмся успеха со своим решением на основе Data Science?
Поэтому на этапе постановки задачи нам нужно определиться с тем, какую бизнес-метрику мы будем использовать.Метрики отличаются от компании к компании, и даже в рамках одной и той же предметной области две компании-конкурента могут использовать разные метрики для одной и той же задачи. Поэтому метрики сильно зависят от компании. Это может быть повышение среднего чека для интернет-магазина, если мы хотим предлагать скидки на интересующие нас товары и понять, какому клиенту дать скидку.
— Какими методами осуществляется преобразование данных (пара примеров)?
Некоторые виды математических моделей, такие как линейные модели или нейронные сети, зависят от масштаба данных. Соответственно один из видов преобразований, которые мы можем сделать, — это масштабирование данных, то есть приведение всех данных к единому масштабу. Часто бывает, что данные измеряются в разных масштабах. Например, у нас есть возраст, он может измеряться в годах, порядок здесь — десятки. Есть зарплата — она может измеряться в сотнях тысяч и миллионах. Это разные шкалы, и некоторые типы моделей достаточно сильно зависят от этого факта, поэтому используется масштабирование.
Другой приём — это заполнение пропусков. Некоторые модели не умеют обрабатывать пропуски в данных самостоятельно. Пропуски могут возникать в результате того что пользователь не захотел отвечать на какие-то вопросы, это преднамеренный пропуск, или из-за того, что данных просто нет. Соответственно нам надо уметь заполнять эти пропуски, для этого используются разные подходы.
— Если данные в моделях неполные, нужно ли их как-то дополнять?
Зависит от того, что за данные, насколько они неполные и некачественные. Иногда дополнить недостающие данные и заполнить пропуски — это один из способов решить проблему. Но не всегда он позволяет добиться сильного улучшения качества модели. Данные можно дополнять, используя какие-то внешние источники данных. Иногда может получиться так, что внешний поставщик знает о вашем клиенте больше, чем вы сами. Поэтому это хороший источник для улучшения данных.
— В каких отраслях быстрее всего развивается или планируется к развитию Data Science?
Перечислить все области сложно. Также это зависит от региона, в котором вы находитесь. В какой части мира свои тренды. Но если говорить о конкретных примерах, я могу выделить self driving cars. Это технология, над которой топовые IT-компании всего мира работают достаточно давно, и кажется, что уже не за горами готовый продукт. Мне кажется, всё, что связано с ЗОЖ, индивидуальными помощниками, с ботами, ассистентами, которые будут следить за вашим образом жизни.
— Что такое нейронные сети с точки зрения математики?
Нейронная сеть с точки зрения математики — это функция, которая зависит от большого числа параметров. Чтобы обучить нейронную сеть, нужно найти такие значения параметров, при которых эта функция будет принимать минимальное или максимальное значение. То есть по сути у нас есть очень большая и сложная функция, которая зависит от большого числа параметров и нам нужно ее оптимизировать и собственно найти параметры этой функции.
— В чем разница между machine learning и deep learning?
Я бы сказал, что deep learning — это часть machine learning. Машинное обучение — это в целом наука, которая занимается тем, что помогает с помощью математических моделей извлекать полезные инсайты из данных. При этом математическая модель — это некоторая абстракция, которая может быть сколь угодно сложной, как в случае с глубокими нейронными сетями, и может быть очень простой, в случае линейной модели с использованием всего нескольких переменных. Поэтому deep learning — это отдельное направление в машинном обучении, которое сегодня помогает очень качественно решать задачи, где используются неструктурированные данные: картинки, тексты, аудио.
Работа и развитие карьеры
— Чем занимается тимлид в DS? Какие у него обязанности?
Тимлид отвечает за DS команду: качество и сроки разработки, развитие членов команды, выполнение командой KPI. Также тимлид своими руками строит ML-модели и пишет код. Многое зависит от компании. Например, в «Мегафоне» тимлид руководит дата-инженерами и дата-сайентистами. В основном занимается управлением команды, постановкой задачи, контролем качества и т.д. Но также успевает выполнять свои DS задачи.
— Где взять первый опыт работы в DS?
Можно участвовать в соревнованиях, например, на Kaggle. Можно попасть в «Мегафон» на стажировку в акселератор в феврале 2021.
— При отборе на работу вы оцениваете практические знания практические или отметки в дипломе?
Обычно смотрят на реальные знания, но они часто коррелируют с успехами в учебе. Если говорить об образовании, то тут больше корреляция с уровнем вуза, чем с оценками.
— Стоит ли переходить в Data Science в 2020-2021 году? Или это лучше сделать позже в связи с пандемией?
Может быть, сейчас даже лучшее время для перехода, так как все активности переехали в онлайн. Вы смотрите кино теперь в онлайн-кинотеатре — а там вам подобран фильм с помощью рекомендательной системы. Совершаете покупки в онлайн-магазине — и там вас тоже ждут персональные предложения. Ездить теперь вы, скорее всего, предпочтёте на такси — и там тоже вас ждут алгоритмы машинного обучения!
— Когда понять, что хватит курсов и пора на собеседования?
Как только вы можете решить задачу с соревнований без Stackoverflow и без запинки знаете, как работают алгоритмы машинного обучения. А если нужно, можете и реализовать парочку.
— Где получить практику на реальных данных ?
Участвуйте в соревнованиях по data science!
— Что нужно, чтобы не перегореть во время обучения?
Не перегружать себя курсами, изучать последовательно одно за другим, не всё сразу и одновременно, но регулярно.
— Какой склад ума подходит для Data Science? Какими навыками, кроме математических и знания языка, нужно обладать?
Мне кажется, самое важное — уметь видеть то, что происходит за цифрами. То есть не просто строить модели машинного обучения, а понимать, как им следует работать, куда их стоит внедрять и как развивать.
— С чего начать учиться тем, кто имеет неплохую подготовку классической школы по статистике и владеет азами программирования? Чтобы связать одно с другим и пропустить уже известные этапы?
Стоит начать с алгоритмов машинного обучения и изучения языка Python. В сети можно найти как академические лекции для изучения теории, так и онлайн-курсы по машинному обучению, если нравится доступное практическое изложение.
— Нужно ли идеально знать математику, если учесть, что множество моделей уже написано (библиотека sklearn например)?
Мне кажется, всё зависит от того, что именно вы хотите делать. Безусловно, понимание того как устроена та модель, которую вы используете, за что отвечают различные параметры в этом модели, что будет, если изменить их — всё это значительно упрощает задачу и повышает вашу эффективность.
Когда мы работаем с реальными данными, с реальными проектами мы сталкиваемся с множеством проблем. В том числе часто мы сталкиваемся с проблемой переобучения— это ситуации, когда модели хорошо работают на обучающей выборке, но плохо работают на новых данных. Соответственно нужно понимать, какие есть способы эту проблему победить. Один из способов — это настройка модели. Ограничить сложность модели, использовать регуляризацию. И нужно понимать, в каких моделях и как устроена регуляризация, как она работает, к чему приведёт. Это значительно упрощает жизнь, повышает качество проектов и повышает вашу ценность как специалиста. Поэтому я считаю, что нужно знать, как работают модели и обладать опытом их использования.
— Какой язык надо знать для работы в Data Science?
Стандартом считается Python и SQL. SQL не совсем язык программирования, это язык для работы с базами данных. Тем не менее я бы тоже его отметил. Также где-то популярен R и становится популярным Scala. Где-то нужен Java, но это уже опции.
— Насколько важны софт-скилы и эмоциональный интеллект в data-профессии?
Мне кажется, что часто люди недооценивают важность soft skills. Очевидно, что по мере карьерного роста soft skills всё более и более важны, их вес повышается вместе с ростом дата-сайентиста. И особенно это важно для дата-аналитика, поскольку он ближе к бизнесу. По сути, он связующее звено между бизнесом и технарями, соответственно он должен уметь их связывать. С людьми бизнеса мы общаемся на языке бизнеса, с технарями часто на языке техническом. Аналитик должен уметь обе стороны понимать и переводить с одного языка на другой и делать это эффективно.
— Приведите минимальный список компетенций для того, чтобы стать джуном в DS.
Мне бы хотелось, чтобы дата-сайентист уровня джуниора мог писать код, который был более-менее работающим и стабильным. Это уже плюс. Также будет здорово, если он будет знать, какие есть задачи и как они ставятся, как можно их решать и как можно оценивать качество решения задачи. Будет иметь какой-то прикладной опыт Data Science — например, он делал свой проект или участвовал в соревнованиях по машинному обучению.
Если он это всё сдобрит знаниями математической статистики, того, как посчитать A/B-тест, как применить критерий, в каких случаях нам подойдёт критерий для независимых или зависимых выборок, будет круто.
— На каком этапе можно начать искать стажировку? Где её искать? Где искать задачи для наработки опыта?
На мой взгляд, имеет смысл искать стажировку-работу как можно раньше, как только вы можете делать какие-то комплексные проекты. Даже если вам не удастся найти работу или стажировку, вы получите опыт собеседований, поймёте, какие области вам нужно прокачивать, это тоже полезный опыт.
Где искать стажировку? Везде, где крупные компании публикуют свои предложения. Это могут быть конференции, сайты с размещением вакансий, сайты самих компаний, каналы в телеграме, посвящённые Data Science, иногда вакансии по стажировкам бывают в Slack ods.ai. Используйте любые доступные каналы, через которые можно коммуницировать с крупными компаниями или с компаниями, куда вы хотите попасть на стажировку. Иногда можно писать людям, которые выступают и где-то читают лекции — возможно они вам помогут. Но это, скорее. исключение.
— За кем будущее — за Python-разработчиком или за Data Science?
На мой взгляд, и то и другое актуально и востребовано. Здесь вопрос не за кем будущее, а что вам интересно, что вы хотите делать. Если вы выбираете направление исходя из того, насколько оно будет актуально в будущем, то успеха добиться сложно. Мне кажется, что нужно делать то, что тебе нравится, то, во что ты веришь и то, чем ты готов заниматься бесплатно.
— Не будет ли переизбытка спецов по DS через пару лет? Какие прогнозы есть по востребованности на ближайшие три-пять лет и дальше?
Мне кажется, что нет. Эта сфера развивается быстро, появляется много новых направлений. Какие-то совсем новые, какие-то ответвляются от более крупного направления и становятся отдельной веткой, поэтому работы будет много и нужно много сотрудников. Появляются новые специализации, например machine learning engineer — вполне популярное направление сегодня.
Когда вы разработали прототип модели, он работает только у вас. Machine learning engineer делает так, чтобы он работал у всех. Он позволяет наши прототипы докатить до продакшена. Несколько лет назад это была очень специфичная роль, а сегодня она в крупных компаниях очень востребована. С одной стороны, рынок будет развиваться вот так, будут появляться новые специальности в Data Science, с другой стороны, не факт, что все будут дата-сайентистами. Вполне возможно, что вы будете выполнять какую-то другую роль, но работая вместе с дата-сайентистами.
Стажировка и работа в «Мегафоне»
— Можно ли попасть в «Мегафон» после окончания курсов GeekBrains?
Можно, если вы хорошо усвоили все полученные знания.
— Конкретно у вас в команде есть возрастной предел для стажёров?
Нет.
— Можно ли совмещать стажировку в «Мегафоне» с работой?
Если есть возможность перейти на основной работе на частичную занятость и не возникает конфликт интересов — да, можно.
— Стажировки проводятся только в Москве? Или есть также онлайн?
Стажировки проводятся в трёх городах — Москва, Екатеринбург и Нижний Новгород. Тем не менее всё проходит онлайн, так что в дальнейшем планируем расширять географию.
— Какие вступительные испытания предусмотрены для попадания на стажировку?
Поступление состоит из 3 этапов: тестирование по теории, выполнение практического задания и собеседование с руководителем стажировки.
— Стажировки оплачиваемые?
Да.
— Какими минимальными знаниями надо обладать, чтобы попасть на стажировку?
Нужно знать Python, желательно также Bash, Git и SQL. Кроме того, необходимо разбираться в алгоритмах машинного обучения, метриках и иметь хорошую математическую базу — знать теорию вероятностей, статистику, мат. анализ и линейную алгебру.
— У вас есть статистика успешного трудоустройства ваших стажёров?
Одна из основных целей акселератора стажёров — подготовить крутых специалистов для нашего отдела. Конечно, всё зависит от конкретной ситуации, но, как правило, мы берём в штат примерно треть самых сильных ребят.
— Сколько длится обучение?
Стажировка идёт три месяца.
— Какие самые распространённые трудности, с которыми сталкиваются стажёры?
Первое время возникают сложности с зоопарком инструментов, т.к. машинное обучение в крупных компаниях вертится отнюдь не только вокруг Python. С мотивацией проблем обычно не бывает, поскольку всё новое ребят скорее заряжает и вдохновляет.
Освоить востребованную профессию в Data Science можно всего за полтора года на курсах GeekBrains. После учёбы вы сможете работать по специальностям Data Scientist, Data Analyst, Machine Learning, Engineer Computer Vision-специалист или NLP-специалист.
Освоить востребованную профессию в Аналитике больших данных можно всего за полтора года на курсах GeekBrains.