Методы сбора и обработки данных из сети Интернет

Парсинг и краулинг

Всеобщие глобальные тенденции приближают нас к тому дню, когда все операции и торговые сделки будут проходить в интернете. Чтобы успешно вписаться в новый порядок, очень важно своевременно получать актуальные данные о движении рынка (динамика цен и товаров) и локальные новости, которые часто влияют на формирование спроса.
Сегодня объёмы информации превосходят возможности их обработки у любого, даже самого талантливого человека или узкопрофильного специалиста. Поэтому для автоматического сбора и обработки больших объёмов информации было придумано множество методов, знание и умелое использование которых — суть новой профессии Data Scientist.

Чему Вы научитесь

  • Базовые знания компьютерных сетей;
  • Основы работы с протоколом HTTP;
  • Основы работы с Открытыми данными;
  • Основы web: HTML/CSS, JavaScript;
  • Принципы работы с сервисами RESTful и SOAP;
  • Понимание форматов данных JSON, XML, CSV;
  • Основы работы с MongoDB.

Что Вы получите

Видеозаписи всех онлайн-занятий
Методички и практические задания
Общение с одногруппниками
Сертификат об окончании обучения
  • 1
    Урок 1. Основы клиент-серверного взаимодействия. Работа с API
    Узнаем основные принципы сбора данных. Как отправлять GET-запросы при помощи разных инструментов. Как работать с ответами от сервера и API, JSON
  • 2
    Урок 2. Парсинг данных. HTML, DOM, XPath
    Познакомимся с HTML-кодом страниц Изучим структуру DOM. Рассмотрим основы сбора данных с помощью инструмента Beautiful Soup.
  • 3
    Урок 3. Парсинг данных. HTML, Beautiful Soap
    Узнаем основные принципы работы с реляционными и нереляционными базами данных. Рассмотрим основные операции и методы для формирования запросов. Научимся работать с данными внутри баз.
  • 4
    Урок 4. Система управления базами данных MongoDB в Python
    Узнаем, что такое открытые данные, для чего они нужны и как используются. Научимся работать с CSV в Python и самостоятельно их создавать.
  • 5
    Урок 5. Парсинг данных. Scrapy. Начало
    Узнаем, что такое открытые данные, для чего они нужны и как используются. Научимся работать с CSV в Python и самостоятельно их создавать.
  • 6
    Урок 6. Фреймворк Scrapy, pipelines, Splash
    Узнаем, что такое открытые данные, для чего они нужны и как используются. Научимся работать с CSV в Python и самостоятельно их создавать.
  • 7
    Урок 7. Парсинг данных. Selenium в Python
    Узнаем, что такое открытые данные, для чего они нужны и как используются. Научимся работать с CSV в Python и самостоятельно их создавать.
  • 8
    Урок 8. Фреймворк Scrapy. Реализация механизмов клиент-серверного взаимодействия
    Узнаем, что такое открытые данные, для чего они нужны и как используются. Научимся работать с CSV в Python и самостоятельно их создавать.

После обучения мы предлагаем всем выпускникам оценить программу курса и преподавателя, а также при желании оставить отзыв.
Все отзывы и оценки мы публикуем без изменений.