Только до 28.11
Вечерний «Путь в ИТ» с Иваном Ургантом
Кнопка закрыть топ-бар
ГлавнаяБлогОбработка больших данных: основные методы
Обработка больших данных
17 125
Время чтения: 14 минут

Обработка больших данных: основные методы

17 125
Время чтения: 14 минут
Сохранить статью:
Сохранить статью:
В статье рассказывается:  
  1. Определение Big Data, или больших данных
  2. Сбор и хранение больших данных перед обработкой
  3. 3 главных принципа работы с большими данными
  4. 9 основных методов обработки больших данных
  5. Проблемы анализа и обработки большого объема данных
  6. Пройди тест и узнай, какая сфера тебе подходит:
    айти, дизайн или маркетинг.
    Бесплатно от Geekbrains

Обработка больших данных в настоящее время с помощью обычных программных методов и аппаратных средств совершенно нерациональна, а зачастую невозможна, так как этого не позволяет огромный объем имеющейся информации. Впрочем, несколько эффективных методов для проведения подобных операций все же существует. Хотя и тут есть свои сложности.

Для каждого конкретного случая необходимо выбирать наиболее подходящий способ обработки данных, только тогда результаты окажутся удовлетворительными: и с технологической, и с экономической точки зрения. О принципах и проблемах этого процесса мы подробно рассказали ниже.

Определение Big Data, или больших данных

К большим данным относят информацию, чей объем может быть свыше сотни терабайтов и петабайтов. Причем такая информация регулярно обновляется. В качестве примеров можно привести данные, поступающие из контакт-центров, медиа социальных сетей, данные о торгах фондовых бирж и т. п. Также в понятие «большие данные» иногда включают способы и методики их обработки.

Если же говорить о терминологии, то «Big Data» подразумевает не только данные как таковые, но и принципы обработки больших данных, возможность дальнейшего их использования, порядок обнаружения конкретного информационного блока в больших массивах. Вопросы, связанные с такими процессами, не теряют своей актуальности. Их решение носит важный характер для тех систем, которые многие годы генерировали и копили различную информацию.

Определение Big Data, или больших данных
Определение Big Data, или больших данных

Существуют критерии информации, определенные в 2001 году Meta Group, которые позволяют оценить, соответствуют ли данные понятию Big Data или нет:

  • Volume (объем) — примерно 1 Петабайт и выше.
  • Velocity (скорость) — генерация, поступление и обработка данных с высокой скоростью.
  • Variety (разнообразие)— разнородность данных, различные форматы и возможное отсутствие структурированности.

Зачастую к этим параметрам добавляют еще два фактора:

  • Variability (изменчивость) — разноплановая интенсивность поступления, которая влияет на выбор методик обработки.
  • Value (значимость) — разница в уровне сложности получаемой информации. Так, данные, поступающие из сообщений в чат-боте интернет-магазинов, имеют один уровень сложности. А данные, которые выдают машины, отслеживающие сейсмическую активность планеты — совсем другой уровень.
Следует отметить, что такие формулировки весьма условны, т. к. четкого и единого определения не существует. Есть даже мнение о необходимости отказа от термина «Big Data», т. к. происходит подмена понятий и Big Data часто путают с другими продуктами.

Сбор и хранение больших данных перед обработкой

Ресурсы, выдающие большие данные могут быть весьма разнообразны. Например:

  • интернет — социальные сети, блоки и сайты СМИ, интернет вещей (IoT) и т.п.;
  • корпоративные источники — транзакции, архивы, базы данных и т. п.;
  • устройства, собирающие информацию — GPS-сигналы автомобилей, метеорологическое оборудование и т.п.
Совокупность методик по сбору данных и саму операцию называют Data Mining. В качестве примеров сервисов, осуществляющих процесс сбора информации, можно привести: Qlik, Vertica, Power BI, Tableau. Формат данных, как уже говорилось выше, может быть разнообразным — видео, текст, таблицы, SAS.

Если в сжатой форме описывать процесс сбора и обработки большого массива данных, то стоит выделить основные этапы:

  • постановка задачи для аналитической программы;
  • программа осуществляет сбор данных с их параллельной подготовкой (декодировка, отсев мусора, удаление нерелевантной информации);
  • выбор алгоритма анализа данных;
  • обучение программы выбранному алгоритму с дальнейшим анализом обнаруженных закономерностей.

В большинстве случаев полученные необработанные данные хранятся в так называемом «озере данных» — Data Lake. Формат и уровень структуризации информации при этом может быть разнообразным:

  • структурные (данные в виде строк и колонок);
  • частично структурированные (логи, CSV, XML, JSON-файлы);
  • неструктурированные (pdf-формат, формат документов и т. п.);
  • бинарные (формат видео, аудио и изображения).

Инструментарий, позволяющий хранить и обрабатывать данные в Data Lake:

  • Hadoop — пакет утилит и библиотек, используемый для построения систем, обрабатывающих, хранящих и анализирующих большие массивы нереляционных данных: данные датчиков, интернет-трафика, объектов JSON, файлов журналов, изображений и сообщений в соцсетях.
  • HPPC (DAS) – суперкомпьютер, способный обрабатывать данные в режиме реального времени или в «пакетном состоянии». Реализован LexisNexis Risk Solutions.
  • Storm — фреймворк Big Data, созданный для работы с информацией в режиме реального времени. Разработан на языке программирования Clojure.
  • DataLake – помимо функции хранения, включает в себя и программную платформу (например, такую как Hadoop), а также определяет источники и методы пополнения данных, кластеры узлов хранения и обработки информации, управления, инструментов обучения. DataLake при необходимости масштабируется до многих сотен узлов без прекращения работы кластера.
ТОП-30 IT-профессий
2022 года с доходом
от 200 000 ₽
Команда GeekBrains совместно с международными специалистами по развитию карьеры подготовили материалы, которые помогут вам начать путь к профессии мечты.
Подборка содержит только самые востребованные и высокооплачиваемые специальности и направления в IT-сфере. 86% наших учеников с помощью данных материалов определились с карьерной целью на ближайшее будущее!

Скачивайте и используйте уже сегодня:

Александр Сагун
Александр Сагун
Исполнительный
директор Geekbrains
pdf иконка

Топ-30 самых востребованных и высокооплачиваемых профессий 2022

Поможет разобраться в актуальной ситуации на рынке труда

doc иконка

Подборка 50+ ресурсов об IT-сфере

Только лучшие телеграм-каналы, каналы Youtube, подкасты, форумы и многое другое для того, чтобы узнавать новое про IT

pdf иконка

ТОП 50+ сервисов и приложений от Geekbrains

Безопасные и надежные программы для работы в наши дни

pdf 3,7mb
doc 1,7mb
Уже скачали 16054 pdf иконка

Месторасположение «озера», как правило, находится в облаке. Так, около 72 % компаний при работе с Big Data предпочитают собственным серверам облачные. Это связано с тем, что обработка больших баз данных требует серьезные вычислительные мощности, в то время как облако значительно снижает стоимость работ. Именно по этой причине компании выбирают облачные хранилища.

Облако имеет ряд преимуществ перед собственным дата-сервисом. Из-за того, что расчет предстоящей нагрузки на инфраструктуру затруднителен, то закупка оборудования не целесообразна. Аппаратура, купленная на случай востребованности в больших мощностях, может просто простаивать, принося убытки. Если же оборудование окажется недостаточным по мощности, то его ресурсов не хватит для полноценной работы.

Облако, напротив, не имеет ограничений по объему сохраняемых в нем данных. Следовательно, оно выгодно с точки зрения экономии средств для тех компаний, нагрузка которых быстро растет, а также бизнеса, связанного с тестами различных гипотез.

3 главных принципа работы с большими данными

Ключевыми положениями для работы с большими данными являются:

Горизонтальная адаптивность

Количество данных неограниченyо, поэтому обрабатывающая их система должна иметь способность к расширению: при возрастании объемов данных должно пропорционально увеличиваться количество оборудования для поддержания работоспособности всей системы.

Стабильность в работе при отказах

Горизонтальная адаптивность предполагает наличие большого числа машин в компьютерном узле. К примеру, кластер Hadoop насчитывает более 40 000 машин. Само собой, что периодически оборудование, изнашиваясь, будет подвержено поломкам. Системы обработки больших данных должны функционировать таким образом, чтобы безболезненно переживать возможные сбои.

Только до 28.11
Как за 3 часа
разбираться в IT
лучше, чем 90%
новичков и выйти на
доход в 200 000 ₽?
Приглашаем вас на бесплатный онлайн-интенсив «Путь в IT»! За несколько часов эксперты GeekBrains разберутся, как устроена сфера информационных технологий, как в нее попасть и развиваться.
Александр Волчек CEO GeekBrains

Интенсив «Путь в IT» поможет:

  • За 3 часа разбираться в IT лучше, чем 90% новичков.
  • Понять, что действительно ждет IT-индустрию в ближайшие 10 лет.
  • Узнать как по шагам c нуля выйти на доход в 200 000 ₽ в IT.
При регистрации вы получите в подарок:
pdf иконка

«Колесо компетенций»

Тест, в котором вы оцениваете свои качества и узнаете, какая профессия в IT подходит именно вам

doc иконка

«Критические ошибки, которые могут разрушить карьеру»

Собрали 7 типичных ошибок, четвертую должен знать каждый!

pdf иконка

Тест "Есть ли у вас синдром самозванца?"

Мини-тест из 11 вопросов поможет вам увидеть своего внутреннего критика

Хотите сделать первый шаг и погрузиться в мир информационных технологий? Регистрируйтесь и смотрите интенсив:
Только до 28 ноября
Осталось 17 мест

Концентрация данных

В масштабных системах данные распределяются по большому количеству оборудования. Допустим, что местоположение данных — один сервер, а их обработка происходит на другом сервере. В этом случае затраты на передачу информации с одного сервера на другой могут превышать затраты на сам процесс обработки. Соответственно, чтобы этого избежать необходимо концентрировать данные на той же аппаратуре, на которой происходит обработка.

Концентрация данных
Концентрация данных

В настоящее время все системы, работающие с Big Data, соблюдают эти три положения. А чтобы их соблюдать, нужно разрабатывать соответствующие методики и технологии.

9 основных методов обработки больших данных

Принципы работы инструментов обработки больших данных могут иметь некоторые различия, которые зависят от исследуемой сферы.

  • Машинное обучение

Этот метод анализ данных содержит в своей основе способность аналитической системы самостоятельно обучаться в процессе решения различных задач. Т.е. программе задается алгоритм, который позволяет ей учиться выявлять определенные закономерности. Сферы применения такого метода достаточно разнообразны — например, с помощью машинного обучения проводятся маркетинговые исследования, социальные сети предлагают подборку постов, происходит разработка медицинских программ.

  • Нейросеть

Нейросеть используют для распознавания визуальных образов. Нейронные сети — это математические модели, отображенные программным кодом. Такие модели работают по принципу нейронной сети живого существа: получение информации — ее обработка и передача — выдача результата.

Нейросеть способна проделать работу за несколько десятков людей. Ее используют для развлечений, прогнозирования, обеспечения безопасности, медицинской диагностики и т. д. Т.е. в различных социальных и профессиональных областях.

  • Технология Data Mining

Математик Григорий Пятецкий-Шапиро ввел этот термин в 1989 г. Метод подразумевает обнаружение определенных закономерностей в сырых данных с помощью интеллектуального анализа. Data Mining используют для:

  • определения нетипичных данных в общем потоке информации посредством анализа отклонений;
  • поиска идентичной информации в различных источниках с помощью ассоциаций;
  • определения факторов влияния на заданный параметр через регрессионный анализ;
  • распределения данных по группам со схожими характеристикам, т. е. классификация данных;
  • разделения записей по заранее сформированным классам, т. е. кластеризация.
  • Стратегия краудсорсинга

В некоторых ситуациях, когда нет экономической выгоды в разработке системы ИИ (искусственного интеллекта), для выполнения разовых работ привлекают большое количество людей. Они могут решить те задачи, с которыми компьютер не в состоянии справиться в одиночку. Примером может быть сбор и обработка данных социологического опроса. Такая информация может находиться в неоцифрованном виде, в ней могут быть допущены ошибки и сокращения. Такой формат будет понятен человеку, и он сможет организовать данные в тот вид, который будет читаем алгоритмами программ.

Однако, если речь идет о постоянном поиске решений подобных задач, то придется применять методы Data Mining или машинного обучения. Благодаря умению подводить математическую статистику или составлять имитационные модели, машины могут выполнять сложные аналитические процессы.
  • Метод предиктивной аналитики

Другими словами, методика прогнозирования. Имея достаточный объем соответствующей информации, можно составить прогноз и ответить на вопрос «Как будут развиваться события?». Принцип предиктивной аналитики таков: сначала нужно исследовать данные за прошлый период; выявить закономерности или факторы, которые стали причиной результата; далее с помощью нейросети или математических вычислений создать модель, которая сможет производить прогнозирование.

Методика прогнозов используется в различных сферах. Например, предиктивная аналитика позволяет выявить и предотвратить мошеннические схемы в кредитовании или страховании. В медицине прогнозный анализ на основе данных о пациенте помогает определить его предрасположенность к каким-либо заболеваниям.

  • Принцип статистического анализа

Суть метода заключается в сборе данных, их изучении на основе конкретных параметров и получении результата, выраженного, как правило, в процентах. У этого метода есть слабое звено — неточность данных в маленьких выборках. Поэтому для получения максимально точных результатов необходимо собирать большой объем исходных данных.

Принцип статистического анализа
Принцип статистического анализа

Статистический анализ часто используют как часть другого способа обработки больших данных Big Data, например, в машинном обучении или предиктивной аналитике.

Некоторые маркетинговые методы исследования, например, А/В тестирование относятся к статистической аналитике. A/B testing чаще всего используют для увеличения конверсии, а само тестирование складывается из сравнения двух групп: контрольной — не подвергающейся изменениям, и второй группы, на которую оказывали какое-либо влияние (например, ей показывали другой формат рекламы). Такое тестирование позволяет понять, что улучшает целевые показатели.

Для получения статистических показателей используют:

  • корреляционный анализ для определения взаимозависимости показателей;
  • процентное соотношение итогов анализа;
  • динамические ряды для оценки интенсивности изменений определенных условий в конкретный интервал времени;
  • определение среднего показателя.
  • Технология имитационного моделирования

Имитационное моделирование отличается от методики прогнозирования тем, что берутся в учет факторы, чье влияние на результат затруднительно отследить в реальных условиях. Т.е. выстраиваются модели с учетом гипотетических, а не реальных данных, и затем эти модели исследуют в виртуальной реальности.

Метод имитационных моделей применяют для анализа влияния разных обстоятельств на итоговый показатель. Например, в сфере продаж таким образом исследуют воздействие изменения цены, наличия предложений со скидками, количества продавцов и прочих условий. Различные вариации изменений помогают определить наиболее эффективную модель маркетинговой стратегии для внедрения в практику. Для такого рода моделирования необходимо использовать большое число возможных факторов, чтобы снизить риски недостоверности результатов.

  • Метод визуализации аналитических данных

Для удобства оценки результатов анализа применяют визуализацию данных. Для реализации этого метода, при условии работы с большими данными, используют виртуальную реальность и «большие экраны». Основной плюс визуализации в том, что такой формат данных воспринимается лучше, чем текстовый, ведь до 90 % всей информации человек усваивает с помощью зрения.

Результат анализа визуализируют в виде графиков, 3D-моделей, диаграмм и т. д. Инструментарий такого метода представлен платформами: Orange, Microsoft (Excel, Power BI), Microstrategy, Qlik, Tableau (tableau desktop, tableau public).

Метод визуализации аналитических данных позволяет быстро воспринять и сравнить, например, уровни продаж в разных регионах, или оценить зависимость объемов продаж от снижения/увеличения стоимости товара.

  • Метод смешения и интеграции данных

В подавляющем большинстве случаев Big Data получают из различных источников, соответственно, данные имеют разнородный формат. Загружать такие данные в одну базу бессмысленно, так как их параметры не имеют взаимного соотношения. Именно в таких случаях применяют смешение и интеграцию, то есть приводят все данные к единому виду.

Для использования информации из различных источников применяют следующие методы:

  • сведение данных в единый формат посредством конвертации документов, перевода текста в цифры, распознавание текста;
  • информацию для одного объекта дополняют данными из разных источников;
  • из лишней информации отфильтровывают и удаляют ту, которая недоступна для анализа.

После того как процесс интеграции завершен, следует анализ и обработка данных. В качестве примера метода интеграции и смешения данных можно рассмотреть: магазин, который ведет торговлю в нескольких направлениях — оффлайн-продажи, маркетплейс и одна из соцсетей. Чтобы провести полноценную оценку продаж и спроса, нужно собрать данные: о заказах через маркетплейс, товарные чеки оффлайн-продаж, заказы через соцсеть, остатки товара на складе и так далее.

Проблемы анализа и обработки большого объема данных

Основная проблема обработки большого массива данных лежит на поверхности — это высокие затраты. Здесь учитываются расходы на закупку, содержание и ремонт оборудования, а также заработанная плата специалистов, которые компетентны в работе с Big Data.

Следующая проблема связана с большим объемом информации, нуждающейся в обработке. Например, если в процессе исследования мы получаем не два-три результата, а многочисленное число возможных итогов, то крайне сложно выбрать именно те, которые будут иметь реальное воздействие на показатели определенного события.

Еще одна проблема — это приватность больших данных. Конфиденциальность может быть нарушена, так как все большее количество сервисов, связанное с обслуживанием клиентов, используют данные онлайн. Соответственно, это увеличивает рост киберпреступлений. Даже обычное хранение персональных данных клиентов в облаке может быть подвержено утечке. Вопрос сохранности личных данных — одна из важнейших задач, которую необходимо решать при использовании методик Big Data.

Проблемы анализа и обработки большого объема данных
Проблемы анализа и обработки большого объема данных

Угроза потери данных. Однократное резервирование не решает вопрос сохранения информации. Для хранилища необходимо создавать минимум две-три резервные копии. Но с ростом объемов данных увеличивается проблемность резервирования. Поэтому специалисты заняты поиском максимально результативного выхода из такой ситуации.

В заключение следует отметить, что развитие технологий обработки больших данных открывают широкие возможности для повышения эффективности различных сфер человеческой деятельности: медицины, транспортного обслуживания, государственного управления, финансов, производства. Именно это и определяет интенсивность развития данного направления в последние годы.

Оцените статью
Рейтинг: 5
( голосов 1 )
Поделиться статьей
Добавить комментарий

Забрать
гарантированный
подарок

Получите бесплатно подборку файлов от GeekBrains:

Осталось 17 мест

Поздравляем! Вы выиграли 4 курса по ИТ профессиям. Чтобы закрепить подарок и получить к нему доступ, заполните информацию в открывшемся окне

×
Петр Озеров
Петр Озеров печатает ...