Книги для новичков по Data Science (и не только для них)

Полезные издания для тех, кому интересен искусственный интеллект

11 июня 20205 минут43418

Сегодня мы расскажем про книги по data science, которые рассчитаны на разный уровень подготовки: от начального до продвинутого. В них вы найдёте информацию о том, как работать с данными, строить модели машинного обучения и приобретать другие знания, необходимые специалисту по искусственному интеллекту.

Кирилл Еременко — «Работа с данными в любой сфере»

Эта книга для вас, если вам ещё не приходилось ничего делать с данными, но вы хотите узнать, как подступиться к этой сфере. Главы сгруппированы в три части. Расскажу о них вкратце.

Самое страшное для новичка — математические формулы, и это именно то, чего вы не увидите в первой части. Автор старательно готовит читателя: объясняет на простых примерах, что нужно знать, чтобы понимать данные.

Во второй части книги можно увидеть, как устроены модели машинного обучения. Здесь наглядно объясняются принципы работы логистической регрессии и кластеризации. Отдельная глава посвящена решению задачи о многоруком бандите с помощью обучения с подкреплением.

Дата-сайентист должен уметь не только строить модели, но и визуализировать информацию. В третьей части подробно разобраны основные виды диаграмм, а также раскрываются секреты того, как сделать убойную презентацию и успешно донести результаты своей работы до аудитории.

Если вы практически незнакомы с отраслью и ищете книги по data science для начинающих — это хороший вариант. Несмотря на то, что в «Работе с данными в любой сфере» нет примеров кода, она даёт неплохую платформу для дальнейшего изучения дисциплин, необходимых для старта карьеры в Data Science.

Уэс Маккинни — «Python и анализ данных»

Автор этой книги создал библиотеку Pandas, которая совершила переворот в мире Data Science. Pandas — это аналог языка запросов SQL. Она позволяет работать с таблицами не в базе данных, а непосредственно в оперативной памяти. После обработки данных в Pandas их можно с лёгкостью применить в моделях машинного обучения. Неудивительно, что большая часть книги посвящена этой библиотеке.

Но автор заходит издалека. Он начинает с подробного обзора другой библиотеки — Numpy. Она предназначена для расчётов с матрицами, поэтому её удобно применять для линейной алгебры. Но от матриц до таблиц один шаг, и поэтому Маккинни решил использовать Numpy как фундамент для Pandas.

Книга объёмная (около 450 страниц) и может быть справочником по Numpy и Pandas. Помимо сведений о синтаксисе библиотек, в ней есть примеры кода для подготовки данных при анализе временных рядов. Кроме того, подробно рассматривается применение Pandas для финансовых и экономических приложений — в частности, анализ котировок акций, вычисление индекса доходности, построение перекрёстного динамичного портфеля акций и роллинг фьючерсных контрактов.

В книге нашлось место и работе с регулярными выражениями, визуализации с использованием библиотеки matplotlib. В приложении — мини-учебник по основам Python. Так что, если вам интересны книги по data science и Python, стоит присмотреться.

Питер Брюс и Эндрю Брюс — «Практическая статистика для специалистов Data Science»

Для дата-сайентиста важно не только уметь работать с данными, но и быть сильным математиком. И если математический анализ и линейная алгебра играют вспомогательную роль, то методы математической статистики важны сами по себе.

В книгах по Data Science для начинающих обычно уделяют мало внимания статистике, но здесь собрано всё нужное: от разведочного анализа данных (EDA) до принципов проведения A/B-тестинга и отдельных аспектов применения моделей машинного обучения. Если вы уже знаете основные алгоритмы ML, но не можете связать их со статистикой, — эта книга сможет вам в этом помочь.

Питер и Эндрю Брюс приводят примеры кода на языке R, но чтобы их понять, не нужно владеть им в совершенстве — достаточно начального уровня. Если знаете Python, тоже отлично: большинство статистических методов и принципов, описанных в книге, легко перенести с R на него.

Эндрю Траск — «Грокаем глубокое обучение»

Объяснить сложное простым языком — основная цель этой серии, в том числе её заметного издания «Грокаем алгоритмы» от Адитьи Бхаргавы. Оказалось, что глубокое обучение тоже можно грокнуть и написать аналогичную книгу по data science для начинающих. Как и в случае с алгоритмами, объяснение принципов работы нейронных сетей здесь не упрощает и не искажает важную информацию, но помогает её понять.

Для тех, кому сложно вникнуть в работу алгоритма обратного распространения ошибки (это один из сложных моментов в изучении нейронных сетей), в книге подробно объясняется сначала сам алгоритм, а потом код на Python.

Ещё один трудный момент — устройство рекуррентных нейронных сетей и ячейки LSTM (это ячейка долгой краткосрочной памяти) — даётся с подробными объяснениями на нескольких страницах. Знакомство с этими моделями завершается описанием нейронной сети, обученной на пьесах Шекспира, — она выдаёт самостоятельно сочинённые тексты.

Для создания нейронных сетей с нуля, то есть без применения готовых библиотек, здесь используется Python и библиотека Numpy.

Бхарат Рамсундар, Реза Босаг Заде — «TensorFlow для глубокого обучения»

TensorFlow — библиотека для создания нейронных сетей, разработанная компанией Google. Она призвана упростить написание нейронных сетей, но освоить её саму не так легко — потребуется больше времени, чем на библиотеки для классического ML вроде SciKit-learn.

В этой книге рассказано о том, какие нейронные сети можно создавать с помощью TensorFlow. В начале есть обзор общих принципов работы полносвязных, свёрточных, рекуррентных слоёв, а также ячеек долгой краткосрочной памяти (LSTM). Затем рассматриваются классические архитектуры глубоких сетей: LeNet, AlexNet, ResNet, AlphaGo и другие.

Знакомство с самой библиотекой начинается с создания простых моделей — линейной и логистической регрессии. Помимо синтаксиса библиотеки рассмотрены математические основы работы сетей — матричные и тензорные операции. Отдельные главы посвящены работе с графическими процессорами (GPU), обучению с подкреплением и будущему глубокого обучения.

Книг по Data Science на русском языке, в которых подробно рассматривались бы возможности TensorFlow, до сих пор не так много. В это издание, несмотря на его небольшой объём, поместился классический набор программиста нейронных сетей: от применения библиотеки в задачах компьютерного зрения до программ для обработки естественного языка.

Франсуа Шолле — «Глубокое обучение на Python»

Эта книга потолще предыдущей, но посвящена той же теме — созданию нейронных сетей с помощью Python. Её сложно назвать книгой по data science для начинающих — скорее можно порекомендовать для тех, кто продолжает осваивать глубокое обучение.

Из продвинутых тем в книге рассматриваются такие технические решения, как наложение нескольких рекуррентных слоёв друг на друга, использование двунаправленных рекуррентных нейронных сетей, модели с несколькими входами/выходами.

Для любителей использовать нейронные сети в качестве генераторов новых изображений есть целая глава. В ней описаны технические детали DeepDream — модели для синтеза изображений. Плюс разобраны алгоритмы переноса стиля изображения с помощью нейронных сетей и принципы работы генеративно-состязательных сетей (GAN).

Подводя итоги, авторы рассуждают о будущем искусственного интеллекта — в частности о том, возможно ли очеловечивание моделей глубокого обучения. Специалистам по искусственному интеллекту также будут интересны советы авторов по поводу того, как не отстать от прогресса в этой стремительно развивающейся сфере.

Книги по data science помогут вам познакомиться с этой областью IT, а впоследствии станут хорошим подспорьем в системном обучении. На факультете искусственного интеллекта вы за полтора года освоите всё необходимое, чтобы начать карьеру дата-сайентиста, работу в сфере машинного обучения и искусственного интеллекта.

программирование, data-science

Нашли ошибку в тексте? Напишите нам.

Чтобы завершить регистрацию, подтвердите свою почту!