Открываем факультет Cloud Data Engineer в GeekBrains
Сейчас очень востребованы специалисты, умеющие работать с данными и создавать системы, способные эти данные обрабатывать и использовать. Но особенно востребованы те, кто умеет делать это в «облаках» — виртуальных серверах с удалённым доступом.
Обычная (не облачная) инфраструктура для бизнеса — это стойки с серверами, системные администраторы, проблемы с недостатком памяти, безопасности и частыми закупками комплектующих. Чтобы сэкономить, многие компании переходят на облачную инфраструктуру, приобретая готовые облачные серверы и сервисы с обслуживанием у провайдера. Работоспособность такого решения становится головной болью провайдера.
За последние 10 лет множество компаний совершенно разного масштаба уже организовали свои бизнес-процессы и работу с данными с помощью облачных решений. Это серьёзный тренд, рост и темпы которого будут такими же насыщенными и следующие 10 лет.
Интересно, что пандемия коронавируса привела к тому, что в 2020 г. мировые траты на информационные технологии сократились на 8%, но облака являются единственным исключением среди всех сегментов IT. В 2020 году глобальный рынок внедрения облачных технологий превысил в общей сложности $330 млрд. Джон-Дэвид Лавлок, вице-президент по исследованиям Gartner, сообщил, что в 2020 г. траты на облака достигли уровня, который рассчитывали увидеть только в 2023 и 2024 годах. Согласно Cloud Tech, ожидается, что расходы на публичные облака к 2023 году вырастут до $500 млрд.
Кто такой Cloud Data Engineer и что он делает
Главная задача Cloud Data Engineer — используя облачную инфраструктуру и сервисы, помогать бизнесу строить продукт, который обеспечивает принятие управленческих решений на основе фактических данных — это называется Data Driven Decisions Making, DDDM.
Объясняем DDDM на примере Walmart
Walmart — крупнейший мировой ритейлер с более чем 20 000 магазинов в 28 странах. Компания находится в процессе создания крупнейшего в мире частного облака, настолько мощного, чтобы стала возможной обработка 2,5 петабайта данных каждый час. Чтобы разобраться во всей этой информации, Walmart создал то, что он называет своим Data Café — по сути это ультрасовременный аналитический центр.
Data Café позволяет быстро моделировать, обрабатывать и визуализировать огромные объёмы внутренних и внешних данных. Навин Педдамейл, старший статистический аналитик, объяснил важность и ценность Data Café так: «Если вы не можете получить информацию, пока не проанализируете свои продажи за неделю или месяц, значит, вы просто теряете продажи за это время».
Поэтому быстрый доступ к аналитической информации жизненно важен. Например, однажды в одной продуктовой группе не могли понять, почему продажи в определённой категории продуктов внезапно упали. Изучив данные, там быстро увидели, что из-за просчётов товары выставлялись по более высокой цене, чем следовало бы.
Data Café также предоставляет автоматические оповещения. Когда определённые показатели опускаются ниже установленного порога в любом отделе, соответствующая команда получает оповещение, чтобы быстро найти решение. Например, во время Хэллоуина аналитики продаж смогли увидеть в режиме реального времени, что конкретная новинка в одной линейке печенья была очень популярна в большинстве магазинов и совсем не продавалась в двух точках. Оповещение побудило к быстрому расследованию, которое показало, что из-за ошибки в проверке товаров на складе печенье не было разложено на полках. После этого магазин смог немедленно исправить ситуацию.
Cloud Data Engineer является пользователем такой системы. Он не строит их, как можно подумать,, а использует для обработки данных, извлечения business value. В примере с Walmart инженеры помогли выстроить все процессы преобразования данных и организовать сложные пайплайны, обеспечивающие принятие решений на основе данных.
Чем Cloud Data Engineer отличается от Data Engineer
Cloud Data Engineer умеет делать всё, что делает Data Engineer — отвечает за извлечение, преобразование, загрузку данных и их обработку. Но делает это с помощью облачных сервисов. Умеет доставлять данные в облако, объединять облачные и on-premise решения. Также Cloud Data Engineer строит масштабируемые, отказоустойчивые, эффективные решения по обработке данных с использованием сервисов облака — S3, Kubernetes, DBaaS, Hadoop, Monitoring-aaS — понимая при этом сильные стороны облачных решений.
Когда для бизнеса приоритетна скорость разработки нового продукта, гибкость и масштабируемость, процессы по работе с данными переносятся в облако. Cloud Data Engineer — это тот, кто помогает решить возникающие вопросы. Такой специалист строит платформы по работе с данными, а также озёра данных и хранилища в облаке.
Про авторов программы факультета
Программа факультета Cloud Data Engineer разработана Александром Волынским — архитектором облачной платформы Mail.ru Cloud Solutions. Александр и его коллеги знают основные боли и потребности рынка, поэтому в программе учтены все актуальные инструменты и решения, освоение которых поможет вам стать востребованным специалистом.
Кому подойдёт обучение, сколько продлится и какие возможности откроет студентам
Программа подойдёт специалистам с опытом — бигдата-аналитикам, аналитикам и инженерам данных, дата-сайентистам, девопс-специалистам и системным администраторам. Для комфортного обучения будет необходим опыт работы со следующими инструментами:
- SQL: основы БД, схемы хранения данных, технологии трансфера данных (ETL), индексы, первичные ключи
- Python: работа с Pandas, Numpy, забор данных из БД и загрузка в БД
- Linux: командная строка, установка пакетов и технологий (Python, Java), виртуальные машины.
Будет плюсом знание:
- MapReduce, Hive, Spark
- Scala
- основ архитектуры DWH
- NoSQL
- матриц доступов и сетевой инфраструктуры
Продолжительность обучения на факультете — 10-11 месяцев. После него студенты смогут работать в любом облачном сервисе с задачами аналитики, разработки баз данных и машинного обучения. Научатся самостоятельно выбирать и настраивать необходимые сервисы в облачных платформах для решения поставленных бизнесом задач. Также выпускники факультета смогут использовать современные решения по управлению качеством данных, метаданными, выводу моделей машинного обучения в продуктивное использование с использованием Kubernetes.
Во время обучения у студентов будет много практики с Mail.ru Cloud, а также другими инструментами:
- Kubernetes — открытое программное обеспечение для автоматизации развёртывания, масштабирования контейнеризированных приложений и управления ими.
- Kubeflow — платформа машинного обучения с открытым исходным кодом, предназначенная для использования конвейеров машинного обучения для организации сложных рабочих процессов, выполняемых в Kubernetes.
- ClickHouse — это колоночная аналитическая СУБД с открытым кодом, позволяющая выполнять аналитические запросы в режиме реального времени на структурированных больших данных.
- Hadoop — основополагающая технология хранения и обработки больших данных, это свободно распространяемый набор утилит, библиотек и фреймворк для разработки и выполнения распределенных программ, работающих на кластерах из сотен и тысяч узлов.
- Spark — фреймворк с открытым исходным кодом для реализации распределённой обработки неструктурированных и слабо структурированных данных, входящий в экосистему проектов Hadoop.
- NiFi — инструмент, предназначенный для автоматизации обработки потока данных между программными системами.
- Airflow — инструмент для удобной разработки и поддержки batch-процессов обработки данных.
- Kafka — распределённый программный брокер сообщений поддерживающий транзакционность при работе с потребителями и поставщиками событий.
А также мы не забудем про JupyterHub, Greenplum, MLflow, Amundsen, Linux, Docker и, Git.
С расширенными знаниями студенты смогут претендовать на новые для себя должности — Cloud Data Engineer, Data Engineer или ETL-разработчик. Только на HH.ru есть 2100 актуальных вакансий в России.
Зарплата джуниор-специалистов варьируется от 100 до 150 тыс рублей, мидлов — от 150 до 250 тыс рублей, а синьоры получают от 250 до 400-500 тыс рублей, в зависимости от экспертности, компании и уровня менеджерской нагрузки специалиста.
Узнать больше о факультете, преподавателях и условиях обучения можно на его странице.
Также рекомендуем к прочтению три интересные статьи IT-журнала «Завтра облачно» от Mail.Ru Cloud Solutions: