Книги для новичков по Data Science (и не только для них)
Сегодня мы расскажем про книги по data science, которые рассчитаны на разный уровень подготовки: от начального до продвинутого. В них вы найдёте информацию о том, как работать с данными, строить модели машинного обучения и приобретать другие знания, необходимые специалисту по искусственному интеллекту.
Кирилл Еременко — «Работа с данными в любой сфере»
Эта книга для вас, если вам ещё не приходилось ничего делать с данными, но вы хотите узнать, как подступиться к этой сфере. Главы сгруппированы в три части. Расскажу о них вкратце.
Самое страшное для новичка — математические формулы, и это именно то, чего вы не увидите в первой части. Автор старательно готовит читателя: объясняет на простых примерах, что нужно знать, чтобы понимать данные.
Во второй части книги можно увидеть, как устроены модели машинного обучения. Здесь наглядно объясняются принципы работы логистической регрессии и кластеризации. Отдельная глава посвящена решению задачи о многоруком бандите с помощью обучения с подкреплением.
Дата-сайентист должен уметь не только строить модели, но и визуализировать информацию. В третьей части подробно разобраны основные виды диаграмм, а также раскрываются секреты того, как сделать убойную презентацию и успешно донести результаты своей работы до аудитории.
Если вы практически незнакомы с отраслью и ищете книги по data science для начинающих — это хороший вариант. Несмотря на то, что в «Работе с данными в любой сфере» нет примеров кода, она даёт неплохую платформу для дальнейшего изучения дисциплин, необходимых для старта карьеры в Data Science.
Уэс Маккинни — «Python и анализ данных»
Автор этой книги создал библиотеку Pandas, которая совершила переворот в мире Data Science. Pandas — это аналог языка запросов SQL. Она позволяет работать с таблицами не в базе данных, а непосредственно в оперативной памяти. После обработки данных в Pandas их можно с лёгкостью применить в моделях машинного обучения. Неудивительно, что большая часть книги посвящена этой библиотеке.
Но автор заходит издалека. Он начинает с подробного обзора другой библиотеки — Numpy. Она предназначена для расчётов с матрицами, поэтому её удобно применять для линейной алгебры. Но от матриц до таблиц один шаг, и поэтому Маккинни решил использовать Numpy как фундамент для Pandas.
Книга объёмная (около 450 страниц) и может быть справочником по Numpy и Pandas. Помимо сведений о синтаксисе библиотек, в ней есть примеры кода для подготовки данных при анализе временных рядов. Кроме того, подробно рассматривается применение Pandas для финансовых и экономических приложений — в частности, анализ котировок акций, вычисление индекса доходности, построение перекрёстного динамичного портфеля акций и роллинг фьючерсных контрактов.
В книге нашлось место и работе с регулярными выражениями, визуализации с использованием библиотеки matplotlib. В приложении — мини-учебник по основам Python. Так что, если вам интересны книги по data science и Python, стоит присмотреться.
Питер Брюс и Эндрю Брюс — «Практическая статистика для специалистов Data Science»
Для дата-сайентиста важно не только уметь работать с данными, но и быть сильным математиком. И если математический анализ и линейная алгебра играют вспомогательную роль, то методы математической статистики важны сами по себе.
В книгах по Data Science для начинающих обычно уделяют мало внимания статистике, но здесь собрано всё нужное: от разведочного анализа данных (EDA) до принципов проведения A/B-тестинга и отдельных аспектов применения моделей машинного обучения. Если вы уже знаете основные алгоритмы ML, но не можете связать их со статистикой, — эта книга сможет вам в этом помочь.
Питер и Эндрю Брюс приводят примеры кода на языке R, но чтобы их понять, не нужно владеть им в совершенстве — достаточно начального уровня. Если знаете Python, тоже отлично: большинство статистических методов и принципов, описанных в книге, легко перенести с R на него.
Эндрю Траск — «Грокаем глубокое обучение»
Объяснить сложное простым языком — основная цель этой серии, в том числе её заметного издания «Грокаем алгоритмы» от Адитьи Бхаргавы. Оказалось, что глубокое обучение тоже можно грокнуть и написать аналогичную книгу по data science для начинающих. Как и в случае с алгоритмами, объяснение принципов работы нейронных сетей здесь не упрощает и не искажает важную информацию, но помогает её понять.
Для тех, кому сложно вникнуть в работу алгоритма обратного распространения ошибки (это один из сложных моментов в изучении нейронных сетей), в книге подробно объясняется сначала сам алгоритм, а потом код на Python.
Ещё один трудный момент — устройство рекуррентных нейронных сетей и ячейки LSTM (это ячейка долгой краткосрочной памяти) — даётся с подробными объяснениями на нескольких страницах. Знакомство с этими моделями завершается описанием нейронной сети, обученной на пьесах Шекспира, — она выдаёт самостоятельно сочинённые тексты.
Для создания нейронных сетей с нуля, то есть без применения готовых библиотек, здесь используется Python и библиотека Numpy.
Бхарат Рамсундар, Реза Босаг Заде — «TensorFlow для глубокого обучения»
TensorFlow — библиотека для создания нейронных сетей, разработанная компанией Google. Она призвана упростить написание нейронных сетей, но освоить её саму не так легко — потребуется больше времени, чем на библиотеки для классического ML вроде SciKit-learn.
В этой книге рассказано о том, какие нейронные сети можно создавать с помощью TensorFlow. В начале есть обзор общих принципов работы полносвязных, свёрточных, рекуррентных слоёв, а также ячеек долгой краткосрочной памяти (LSTM). Затем рассматриваются классические архитектуры глубоких сетей: LeNet, AlexNet, ResNet, AlphaGo и другие.
Знакомство с самой библиотекой начинается с создания простых моделей — линейной и логистической регрессии. Помимо синтаксиса библиотеки рассмотрены математические основы работы сетей — матричные и тензорные операции. Отдельные главы посвящены работе с графическими процессорами (GPU), обучению с подкреплением и будущему глубокого обучения.
Книг по Data Science на русском языке, в которых подробно рассматривались бы возможности TensorFlow, до сих пор не так много. В это издание, несмотря на его небольшой объём, поместился классический набор программиста нейронных сетей: от применения библиотеки в задачах компьютерного зрения до программ для обработки естественного языка.
Франсуа Шолле — «Глубокое обучение на Python»
Эта книга потолще предыдущей, но посвящена той же теме — созданию нейронных сетей с помощью Python. Её сложно назвать книгой по data science для начинающих — скорее можно порекомендовать для тех, кто продолжает осваивать глубокое обучение.
Из продвинутых тем в книге рассматриваются такие технические решения, как наложение нескольких рекуррентных слоёв друг на друга, использование двунаправленных рекуррентных нейронных сетей, модели с несколькими входами/выходами.
Для любителей использовать нейронные сети в качестве генераторов новых изображений есть целая глава. В ней описаны технические детали DeepDream — модели для синтеза изображений. Плюс разобраны алгоритмы переноса стиля изображения с помощью нейронных сетей и принципы работы генеративно-состязательных сетей (GAN).
Подводя итоги, авторы рассуждают о будущем искусственного интеллекта — в частности о том, возможно ли очеловечивание моделей глубокого обучения. Специалистам по искусственному интеллекту также будут интересны советы авторов по поводу того, как не отстать от прогресса в этой стремительно развивающейся сфере.
Книги по data science помогут вам познакомиться с этой областью IT, а впоследствии станут хорошим подспорьем в системном обучении. На факультете искусственного интеллекта вы за полтора года освоите всё необходимое, чтобы начать карьеру дата-сайентиста, работу в сфере машинного обучения и искусственного интеллекта.