Программирование

Обработка больших данных: основные методы

Дата публикации: 06.12.2021

44 918

Время чтения: 14 минут

Дата обновления: 11.09.2023

Автор статьи:

Редакция сайта GeekBrains Шеф-редактор раздела Программирование

В статье рассказывается:

В статье рассказывается:

Определение Big Data, или больших данных
Сбор и хранение больших данных перед обработкой
3 главных принципа работы с большими данными
9 основных методов обработки больших данных
Проблемы анализа и обработки большого объема данных
Пройди тест и узнай, какая сфера тебе подходит:
айти, дизайн или маркетинг.

Бесплатно от Geekbrains

Обработка больших данных в настоящее время с помощью обычных программных методов и аппаратных средств совершенно нерациональна, а зачастую невозможна, так как этого не позволяет огромный объем имеющейся информации. Впрочем, несколько эффективных методов для проведения подобных операций все же существует. Хотя и тут есть свои сложности.

Для каждого конкретного случая необходимо выбирать наиболее подходящий способ обработки данных, только тогда результаты окажутся удовлетворительными: и с технологической, и с экономической точки зрения. О принципах и проблемах этого процесса мы подробно рассказали ниже.

Определение Big Data, или больших данных

К большим данным относят информацию, чей объем может быть свыше сотни терабайтов и петабайтов. Причем такая информация регулярно обновляется. В качестве примеров можно привести данные, поступающие из контакт-центров, медиа социальных сетей, данные о торгах фондовых бирж и т. п. Также в понятие «большие данные» иногда включают способы и методики их обработки.

Если же говорить о терминологии, то «Big Data» подразумевает не только данные как таковые, но и принципы обработки больших данных, возможность дальнейшего их использования, порядок обнаружения конкретного информационного блока в больших массивах. Вопросы, связанные с такими процессами, не теряют своей актуальности. Их решение носит важный характер для тех систем, которые многие годы генерировали и копили различную информацию.

Определение Big Data, или больших данных

Существуют критерии информации, определенные в 2001 году Meta Group, которые позволяют оценить, соответствуют ли данные понятию Big Data или нет:

Volume (объем) — примерно 1 Петабайт и выше.
Velocity (скорость) — генерация, поступление и обработка данных с высокой скоростью.
Variety (разнообразие)— разнородность данных, различные форматы и возможное отсутствие структурированности.

Узнай, какие ИТ - профессии
входят в ТОП-30 с доходом
от 210 000 ₽/мес

Павел Симонов

Исполнительный директор Geekbrains

Команда GeekBrains совместно с международными специалистами по развитию карьеры подготовили материалы, которые помогут вам начать путь к профессии мечты.

Подборка содержит только самые востребованные и высокооплачиваемые специальности и направления в IT-сфере. 86% наших учеников с помощью данных материалов определились с карьерной целью на ближайшее будущее!

Скачивайте и используйте уже сегодня:

Павел Симонов

Исполнительный директор Geekbrains

Топ-30 самых востребованных и высокооплачиваемых профессий 2023

Поможет разобраться в актуальной ситуации на рынке труда

Подборка 50+ бесплатных нейросетей для упрощения работы и увеличения заработка

Только проверенные нейросети с доступом из России и свободным использованием

ТОП-100 площадок для поиска работы от GeekBrains

Список проверенных ресурсов реальных вакансий с доходом от 210 000 ₽

pdf 3,7mb

doc 1,7mb

Уже скачали 35174

Зачастую к этим параметрам добавляют еще два фактора:

Variability (изменчивость) — разноплановая интенсивность поступления, которая влияет на выбор методик обработки.
Value (значимость) — разница в уровне сложности получаемой информации. Так, данные, поступающие из сообщений в чат-боте интернет-магазинов, имеют один уровень сложности. А данные, которые выдают машины, отслеживающие сейсмическую активность планеты — совсем другой уровень.

Следует отметить, что такие формулировки весьма условны, т. к. четкого и единого определения не существует. Есть даже мнение о необходимости отказа от термина «Big Data», т. к. происходит подмена понятий и Big Data часто путают с другими продуктами.

Сбор и хранение больших данных перед обработкой

Ресурсы, выдающие большие данные могут быть весьма разнообразны. Например:

интернет — социальные сети, блоки и сайты СМИ, интернет вещей (IoT) и т.п.;
корпоративные источники — транзакции, архивы, базы данных и т. п.;
устройства, собирающие информацию — GPS-сигналы автомобилей, метеорологическое оборудование и т.п.

Совокупность методик по сбору данных и саму операцию называют Data Mining. В качестве примеров сервисов, осуществляющих процесс сбора информации, можно привести: Qlik, Vertica, Power BI, Tableau. Формат данных, как уже говорилось выше, может быть разнообразным — видео, текст, таблицы, SAS.

Если в сжатой форме описывать процесс сбора и обработки большого массива данных, то стоит выделить основные этапы:

постановка задачи для аналитической программы;
программа осуществляет сбор данных с их параллельной подготовкой (декодировка, отсев мусора, удаление нерелевантной информации);
выбор алгоритма анализа данных;
обучение программы выбранному алгоритму с дальнейшим анализом обнаруженных закономерностей.

В большинстве случаев полученные необработанные данные хранятся в так называемом «озере данных» — Data Lake. Формат и уровень структуризации информации при этом может быть разнообразным:

структурные (данные в виде строк и колонок);
частично структурированные (логи, CSV, XML, JSON-файлы);
неструктурированные (pdf-формат, формат документов и т. п.);
бинарные (формат видео, аудио и изображения).

Инструментарий, позволяющий хранить и обрабатывать данные в Data Lake:

Hadoop — пакет утилит и библиотек, используемый для построения систем, обрабатывающих, хранящих и анализирующих большие массивы нереляционных данных: данные датчиков, интернет-трафика, объектов JSON, файлов журналов, изображений и сообщений в соцсетях.
HPPC (DAS) – суперкомпьютер, способный обрабатывать данные в режиме реального времени или в «пакетном состоянии». Реализован LexisNexis Risk Solutions.
Storm — фреймворк Big Data, созданный для работы с информацией в режиме реального времени. Разработан на языке программирования Clojure.
DataLake – помимо функции хранения, включает в себя и программную платформу (например, такую как Hadoop), а также определяет источники и методы пополнения данных, кластеры узлов хранения и обработки информации, управления, инструментов обучения. DataLake при необходимости масштабируется до многих сотен узлов без прекращения работы кластера.

Помогут писать код быстрее на 25%

Чтобы получить файл, укажите e-mail: Подтвердите, что вы не робот, указав номер телефона:

Я подтверждаю согласие на обработку персональных данных

Месторасположение «озера», как правило, находится в облаке. Так, около 72 % компаний при работе с Big Data предпочитают собственным серверам облачные. Это связано с тем, что обработка больших баз данных требует серьезные вычислительные мощности, в то время как облако значительно снижает стоимость работ. Именно по этой причине компании выбирают облачные хранилища.

Облако имеет ряд преимуществ перед собственным дата-сервисом. Из-за того, что расчет предстоящей нагрузки на инфраструктуру затруднителен, то закупка оборудования не целесообразна. Аппаратура, купленная на случай востребованности в больших мощностях, может просто простаивать, принося убытки. Если же оборудование окажется недостаточным по мощности, то его ресурсов не хватит для полноценной работы.

Облако, напротив, не имеет ограничений по объему сохраняемых в нем данных. Следовательно, оно выгодно с точки зрения экономии средств для тех компаний, нагрузка которых быстро растет, а также бизнеса, связанного с тестами различных гипотез.

3 главных принципа работы с большими данными

Ключевыми положениями для работы с большими данными являются:

Горизонтальная адаптивность

Количество данных неограниченyо, поэтому обрабатывающая их система должна иметь способность к расширению: при возрастании объемов данных должно пропорционально увеличиваться количество оборудования для поддержания работоспособности всей системы.

Стабильность в работе при отказах

Горизонтальная адаптивность предполагает наличие большого числа машин в компьютерном узле. К примеру, кластер Hadoop насчитывает более 40 000 машин. Само собой, что периодически оборудование, изнашиваясь, будет подвержено поломкам. Системы обработки больших данных должны функционировать таким образом, чтобы безболезненно переживать возможные сбои.

Дарим скидку от 60%
на обучение «Аналитик больших данных» до 14 декабря

Уже через 9 месяцев сможете устроиться на работу с доходом от 150 000 рублей

Забронировать скидку

Концентрация данных

В масштабных системах данные распределяются по большому количеству оборудования. Допустим, что местоположение данных — один сервер, а их обработка происходит на другом сервере. В этом случае затраты на передачу информации с одного сервера на другой могут превышать затраты на сам процесс обработки. Соответственно, чтобы этого избежать необходимо концентрировать данные на той же аппаратуре, на которой происходит обработка.

В настоящее время все системы, работающие с Big Data, соблюдают эти три положения. А чтобы их соблюдать, нужно разрабатывать соответствующие методики и технологии.

9 основных методов обработки больших данных

Принципы работы инструментов обработки больших данных могут иметь некоторые различия, которые зависят от исследуемой сферы.

Машинное обучение

Этот метод анализ данных содержит в своей основе способность аналитической системы самостоятельно обучаться в процессе решения различных задач. Т.е. программе задается алгоритм, который позволяет ей учиться выявлять определенные закономерности. Сферы применения такого метода достаточно разнообразны — например, с помощью машинного обучения проводятся маркетинговые исследования, социальные сети предлагают подборку постов, происходит разработка медицинских программ.

Нейросеть

Нейросеть используют для распознавания визуальных образов. Нейронные сети — это математические модели, отображенные программным кодом. Такие модели работают по принципу нейронной сети живого существа: получение информации — ее обработка и передача — выдача результата.

Только до 11.12

Скачай подборку материалов, чтобы гарантированно найти работу в IT за 14 дней

Список документов:

ТОП-100 площадок для поиска работы от GeekBrains

20 профессий 2023 года, с доходом от 150 000 рублей

Чек-лист «Как успешно пройти собеседование»

Чтобы получить файл, укажите e-mail:

Введите e-mail, чтобы получить доступ к документам

Подтвердите, что вы не робот,
указав номер телефона:

Введите телефон, чтобы получить доступ к документам

Уже скачали 52300

Я подтверждаю согласие на обработку персональных данных.

Нейросеть способна проделать работу за несколько десятков людей. Ее используют для развлечений, прогнозирования, обеспечения безопасности, медицинской диагностики и т. д. Т.е. в различных социальных и профессиональных областях.

Технология Data Mining

Математик Григорий Пятецкий-Шапиро ввел этот термин в 1989 г. Метод подразумевает обнаружение определенных закономерностей в сырых данных с помощью интеллектуального анализа. Data Mining используют для:

определения нетипичных данных в общем потоке информации посредством анализа отклонений;
поиска идентичной информации в различных источниках с помощью ассоциаций;
определения факторов влияния на заданный параметр через регрессионный анализ;
распределения данных по группам со схожими характеристикам, т. е. классификация данных;
разделения записей по заранее сформированным классам, т. е. кластеризация.

Проблемы анализа и обработки большого объема данных

Основная проблема обработки большого массива данных лежит на поверхности — это высокие затраты. Здесь учитываются расходы на закупку, содержание и ремонт оборудования, а также заработанная плата специалистов, которые компетентны в работе с Big Data.

Следующая проблема связана с большим объемом информации, нуждающейся в обработке. Например, если в процессе исследования мы получаем не два-три результата, а многочисленное число возможных итогов, то крайне сложно выбрать именно те, которые будут иметь реальное воздействие на показатели определенного события.

Еще одна проблема — это приватность больших данных. Конфиденциальность может быть нарушена, так как все большее количество сервисов, связанное с обслуживанием клиентов, используют данные онлайн. Соответственно, это увеличивает рост киберпреступлений. Даже обычное хранение персональных данных клиентов в облаке может быть подвержено утечке. Вопрос сохранности личных данных — одна из важнейших задач, которую необходимо решать при использовании методик Big Data.

Проблемы анализа и обработки большого объема данных

Угроза потери данных. Однократное резервирование не решает вопрос сохранения информации. Для хранилища необходимо создавать минимум две-три резервные копии. Но с ростом объемов данных увеличивается проблемность резервирования. Поэтому специалисты заняты поиском максимально результативного выхода из такой ситуации.

В заключение следует отметить, что развитие технологий обработки больших данных открывают широкие возможности для повышения эффективности различных сфер человеческой деятельности: медицины, транспортного обслуживания, государственного управления, финансов, производства. Именно это и определяет интенсивность развития данного направления в последние годы.

Автор статьи:

Редакция сайта GeekBrains Шеф-редактор раздела Программирование