Три заблуждения о big data
По определению Gartner, big data — информационные ресурсы, которые имеют большой объем (volume), растут высокими темпами (velocity), поступают из различных источников в разных форматах (variety) и требуют экономически эффективных инновационных способов обработки информации для расширения понимания, упрощения принятия решений и автоматизации технологических процессов.
Термин неразрывно связан с «data mining» — под которым подразумеваются технологии анализа этих данных, в том числе с помощью машинных алгоритмов.
«Big data — это массивы данных с неочевидными связями (скрытыми ассоциациями), а также механизмы упорядочивания, взаимодействия и работы с ними. „Data mining“, примерно можно перевести как поиск полезной информации в базах данных. Цель big data — вывести из многообразия данных понятные человеческому сознанию и эффективные в долгосрочной перспективе результаты» — объясняет Иван Андриевский, первый вице-президент Российского союза инженеров.
«Big data — это маркетинговый „bullshit“, отсюда и столько разных правильных и не очень правильных определений. Здесь важно понимать что Big Data — это „манок“, популярный термин, за которым скрываются бизнес-интересы. Более профессиональные термины, с которыми работают исследователи, — это „data mining“, „data management“» — говорит Иван Бегтин, директор АНО «Информационная культура». Разберемся подробнее, что же подразумевается под термином «big data», и какие представления о нем эксперты считают ошибочными.
Размер имеет решающее значение
Иван Андриевский, первый вице-президент Российского союза инженеров:
«Мифы вокруг big data в основном складываются вокруг дословного перевода термина — „большие данные“. Размер данных при работе с big data не имеет значения, имеет значение только степень несопоставимости исходной информации. В тот момент, когда данные не могут быть классифицированы в „обычной“ таблице и проанализированы — они становятся big data».
Есть определенный объем данных с которого данные становятся «big»
Дмитрий Волошин, соучредитель и технический директор Preply:
«Самые популярные мифы и заблуждения связаны напрямую с самим термином: раз big data — значит, конечно же, речь идет о больших объемах информации.Насколько больших? В интернете нельзя найти однозначный ответ на этот вопрос — только множество глупостей. Начиная от объемов 100 ГБ и далее насколько простирается фантазия.
На самом деле термин big data в первую очередь связан не с объемами, а со способами обработки и анализа данных для выявления скрытых в них зависимостей. Другое дело, что обычно эти инструменты и технологии применяются действительно на больших объемах, отсюда и происхождение названия».
Большие данные — простой способ решить все проблемы
Ирина Яхина, руководитель подразделения технологических решений Hitachi Data Systems:
«Мода на big data появилась несколько лет назад: термин понравился экспертам и журналистам, а представители бизнеса увидели в этом своего рода новую игрушку — шанс быстро внедрить сложное решение, быстро снизить операционные расходы, особо не вникая в специфику этой инновации. Однако шума вокруг Больших данных оказалось больше, чем путей их реального применения.
Извлечение из big data практической пользы для бизнеса оказалось сложнее, чем предполагалось ранее. Для того, чтобы big data вызвали прилив спроса со стороны бизнеса, необходимо, пожалуй, только одно: появление на рынке грамотных аналитиков, умеющих извлекать из данных практическую пользу. Такой специалист должен разбираться в специфике работы компании и, вместе с тем, уметь работать с big data, понимать, какую информацию и по каким критериям нужно извлечь, чтобы оптимизировать работу предприятия и открыть новые возможности его развития».
Владимир Левин, основатель сервиса удаленного администрирования Slamon:
«Ситуация с big data очень напоминает ситуацию, как описывали слона три слепца. И все они были по-своему правы. Можно сказать только одно, что big data не является чем-то абсолютно новым или „таблеткой“ от всех проблем. Сами по себе подходы и технологии, которые причисляют к big data, не решают ровным счетом ничего. Всему этому нужны головы: одни должны уметь все это собрать и сделать удобным инструментом, другие должны научиться этим пользоваться. При этом, если вы покупаете железку или софт от именитого производителя с буквами big data — это ничего не значит.
Далее предстоит долгий путь от понимания целей и задач (а зачем мы это купили и что мы хотим получить в результате) через подключение источников информации, формирование аналитических отчетов, обучение людей к сформулированной цели и запланированным результатам. Скорее всего, с первого раза вы не попадете в цель. Поэтому нужно быть готовым двигаться к этой цели небольшими шагами и последовательными итерациями».
Валерий Кашин, CEO и Co-founder Auditorius:
«Надо понимать, что big data сами по себе не несут никакой пользы, пока мы не умеем с ними работать и находить инсайты. Когда говорят о ценности big data, то на самом деле речь идет о ценности data science, так как сами по себе данные — это массив сырой, необработанной и практически бесполезной информации.
По сути, большие данные как отдельная опция несут, скорее, расходы: плата за сбор, хранение и т.д. Только найдя закономерности с помощью использования различных алгоритмов, мы можем получить пользу, приобрести выгоды и сделать наши данные по-настоящему полезными для бизнеса».
Артем Засурский, генеральный директор компании «Стрим»:
«Вначале всем показалось, что безграничный объем данных укажет путь к бизнес успеху. Наконец-то, технологии хранения и обработки больших массивов данных стали доступны. Как сговорившись, все консультанты и вендоры начали предлагать решения в ключе: „Как big data поможет вашему бизнесу“. На рынке труда среди аналитиков и математиков стало модно называться „дата учеными“ — это позволяло в два раза повысить требования к окладу при прочих равных.
В действительности же легкомысленное представление о том, что стоит собрать и загрузить данные в единое пространство, как станет ясно, как же их использовать для достижения целей, оказалось мифом и мало кто сейчас уже в это верит. Не случайно Gartner в августе 2015 года исключил Big Data из числа прорывных технологий и удалил ее с графика Hype Cycle. Существует масса примеров, как анализ больших данных приводит к неправильным бизнес решениям — потому что умение интерпретировать пока сильно отстает от умения собирать и хранить.
Другая проблема — это огромные массивы бесполезных данных. Big data без аналитического прочтения становится большим собранием книг, которые в этой виртуальной библиотеке никто не открывает. Как научиться „читать“ большие данные и делать из них выводы, а не просто красивые презентации, предстоит осваивать, и не факт, что у всех это получится. Big data — лишь набор инструментов, которые надо уметь использовать для строительства успешного бизнеса. При этом такой подход становится необходимым и недостаточным условием для выживания бизнеса в современной конкурентной среде.
Чрезмерное увлечение big data и надежда, что ее использование решит все проблемы, нередко больше вредят, чем помогают бизнесу».
Больше, выше, умнее: профессия «Веб-разработчик».
Освоить востребованную профессию в Data Science можно всего за полтора года на курсах GeekBrains. После учёбы вы сможете работать по специальностям Data Scientist, Data Analyst, Machine Learning, Engineer Computer Vision-специалист или NLP-специалист.
Освоить востребованную профессию в Аналитике больших данных можно всего за полтора года на курсах GeekBrains.