Получите бесплатно 4 курса для лёгкого старта работы в IT
Получить курсы бесплатно
ГлавнаяБлогОчистка данных: инструменты и особенности процесса
Очистка данных
09.08.2023
2 124
Время чтения: 13 минут

Очистка данных: инструменты и особенности процесса

09.08.2023
2 124
Время чтения: 13 минут
Сохранить статью:
Сохранить статью:

О чем речь? Очистка данных (scrubbing, data cleaning) – процесс удаления нерелевантной информации, которая мешает анализу и искажает его результаты. Чем больше данных приходит, тем больше наличия в них ошибок.

На что обратить внимание? Очистка данных возможна в двух вариациях: автоматизированным или ручным методом. Однако независимо от выбора принципы будут общими: точность результатов и гибкость инструментов.

В статье рассказывается:

  1. Важность очистки данных
  2. От чего чистят данные
  3. Этапы очистки данных
  4. Способы очистки данных
  5. Инструменты очистки данных
  6. Часто задаваемые вопросы об очистке данных
  7. Пройди тест и узнай, какая сфера тебе подходит:
    айти, дизайн или маркетинг.
    Бесплатно от Geekbrains

Важность очистки данных

Неважно, начинающий специалист или опытный сотрудник будет работать с данными и составлять отчётность, если данные недостоверные, то и решение, скорее всего, будет неверным.

При любом уровне профессиональных компетенций работников и при использовании любого типа информационных систем существует закономерность, которая выполняется обязательно:

Мусор на входе => мусор на выходе.

Качество данных будет больше всего зависеть от организованных в компании бизнес-процессах, осуществляющих поступление в информационную систему необходимых компонентов.

Важность очистки данных Важность очистки данных

Это, к примеру, такие действия, как введение накладных, их разнесение по платёжным документам, выставление счетов. Осуществлена ли взаимосвязь для того, чтобы дебиторская задолженность могла рассчитываться автоматически.

За подобные вещи несут ответственность бизнес-процессы. В маленькой компании все сведения можно собрать вручную, поэтому отсутствие бизнес-процессов не окажет критического влияния. Но этот вид деятельности является крайне важным для среднего и крупного бизнеса.

Сотрудник, работающий с данными, должен понимать, что значимым для характеристики его деятельности является такой показатель, как «авторитет данных». Часто его бывает нелегко приобрести, но довольно просто лишиться.

Если отчёты будут составлены с опорой на грязные данные, а затем компания будет с полученными неверными результатами осуществлять ту или иную деятельность, это приведёт к весьма неприятным последствиям.

Использование неверных или противоречивых данных в результате даст ложные выводы. Поэтому качество результата зависит от того, качественно ли очищены и верно ли поняты данные.

Часто бывает, что при обеспечении более качественными данными простого алгоритма результат его применения будет лучше, чем усложнённого, но с данными, не настолько тщательно проверенными.

От чего чистят данные

Имеется две сущности, которые могут встретиться в хранилищах данных. Первая – записи. Это те объекты, которые попали в хранилище, выраженные строками таблицы. Вторая – признаки. Это переменные величины в определённых ячейках таблицы, иными словами значения, соответствующие той или иной записи. Очистка данных может понадобиться в обоих случаях, хотя ошибки в сущностях различаются.

Ошибки в записях

  • Дублирование. Ситуация, когда второй раз вносится в таблицу уже имеющийся объект, может произойти по разным причинам: либо один и тот же объект поступил из двух различных источников, либо произошла ошибка во время записи и данные продублировались. При этом удваивается значение и в итоге статистика оказывается нарушенной.
  • Неуникальность значений. Бывают случаи, когда параметр определённой записи должен быть индивидуальным и не повторяться. Например, когда речь идёт о номере того или иного документа (паспорта, страхового полиса и т.д.). Если номер повторяется в разных записях – данные ошибочны, и их обработка может привести к сбою и завершить её не удастся. Пример: внесён один и тот же номер страховки для Петрова Ивана и Кузнецова Василия. Это не может быть верным, следовательно, одна из записей ошибочна (обычно, но не всегда, та, что внесена позднее).
  • Противоречивые записи. Это означает, что несколько записей об одном и том же объекте содержат различающиеся данные. Например, отличается номер телефона человека. Такая ошибка может возникнуть, если данные поступают из разных источников. В этом случае приходится корректировать их путём объединения или удаления. В противном случае, алгоритмом эти объекты будут восприниматься как разные, или станет невозможной корректная обработка. Например: в таблице оказались неодинаковые данные о возрасте пользователя Петрова Ивана. Очистка данных подразумевает удаление одной из строк.
Узнай, какие ИТ - профессии
входят в ТОП-30 с доходом
от 210 000 ₽/мес
Павел Симонов - исполнительный директор Geekbrains
Павел Симонов
Исполнительный директор Geekbrains
Команда GeekBrains совместно с международными специалистами по развитию карьеры подготовили материалы, которые помогут вам начать путь к профессии мечты.
Подборка содержит только самые востребованные и высокооплачиваемые специальности и направления в IT-сфере. 86% наших учеников с помощью данных материалов определились с карьерной целью на ближайшее будущее!

Скачивайте и используйте уже сегодня:

Павел Симонов - исполнительный директор Geekbrains
Павел Симонов
Исполнительный директор Geekbrains
pdf иконка

Топ-30 самых востребованных и высокооплачиваемых профессий 2023

Поможет разобраться в актуальной ситуации на рынке труда

doc иконка

Подборка 50+ бесплатных нейросетей для упрощения работы и увеличения заработка

Только проверенные нейросети с доступом из России и свободным использованием

pdf иконка

ТОП-100 площадок для поиска работы от GeekBrains

Список проверенных ресурсов реальных вакансий с доходом от 210 000 ₽

pdf 3,7mb
doc 1,7mb
Уже скачали 28095 pdf иконка

Ошибки в признаках

  • Отсутствующие значения. Это происходит при утере одного из значений при переносе, или когда его забыли ввести, в результате в таблице не хватает, например, адреса, номера телефона или других сведений.
  • Недопустимые значения. В этом случае внесены сведения, которые не могут быть правильными. Так, российские номера телефонов не могут начинаться с девятки. Чтобы избежать подобных ошибок, на сборе данных нужно настроить соответствующие фильтры.
  • Ошибки и опечатки при написании слов. Если слово вводится с ошибкой, статистика искажается, а фильтрация значений не может быть корректной.
  • Аномальные значения. Если обычное количество продаж определённого товара в день составляет около 10 штук, то число 1000 явно может появиться только в результате ошибки. Такое значение можно считать отсутствующим, так как реальное не внесено. Для устранения такой ошибки понадобится очистка данных.

Ошибки в признаках Ошибки в признаках

  • Многозначность. Причиной такой ошибки может стать использование синонимов для того, чтобы обозначить одну и ту же сущность. Если один и тот же товар называть то «помидоры», то «томаты», система аналитики будет учитывать две разные сущности.

В этом примере, при подсчёте продаж томатов за определённый отрезок времени, из статистики будут исключены товары категории «помидоры», а значит, данные о продажах будут искажены.

Иногда, если данные поступают из различных источников, могут появиться проблемы, связанные с разным способом их записи. Это ошибки типов, форматов и кодировок. К примеру, дату можно записать как 03.12.1998, а можно как 3 декабря 1998 г. Как правило, чтобы избежать таких ошибок, используют правила перекодировки при проектировании хранилища данных, поэтому подобное редко встречается при очистке.

Кроме перечисленных проблем встречается «шум». Так называются те данные, которые не имеют значения и являются помехами. Это бывает при обработке аналоговой информации, такой как видео, звук, показания различных датчиков. Когда нужно анализировать подобные данные, их предварительно очищают от шума, для чего существуют специальные способы.

Этапы очистки данных

Итак, перед обработкой и анализом нужно убедиться, что данные пригодны для дальнейших действий с ними. Очистка данных предполагает следующие шаги:

  • Шаг 1. Определение критических полей данных

Компании в настоящее время обладают гораздо большим количеством данных, чем раньше, но ценность их неравнозначна. Поэтому на первом этапе необходимо определить, какие именно типы данных или полей понадобятся для определённого проекта.

  • Шаг 2. Сбор данных

Когда будут определены соответствующие поля, нужно собрать, отсортировать и систематизировать данные, которые в них содержатся.

  • Шаг 3. Удаление повторяющихся значений

После того, как данные собраны, нужно исправить недостатки. На этом этапе находят и удаляют повторяющиеся значения.

  • Шаг №4. Работа с пустыми значениями

С помощью инструментов очистки данных проводится поиск пропущенных значений во всех полях, также они могут заполнить их. Это делает информацию полной.

  • Шаг № 5. Стандартизация процесса

Необходимо определить последовательность процесса очистки данных и привести его к единому стандарту, чтобы повысить эффективность. Согласованность всех процедур позволяет повторять работу по очистке систематически. Определите, какие из данных и когда могут понадобиться, назначьте ответственного за управление их очисткой. В соответствии с потребностями компании нужно также выяснить, через какой промежуток времени целесообразно совершать очистку: это может оказаться и один день, и месяц.

Этапы очистки данных Этапы очистки данных

  • Шаг №6. Оценка, коррекция и повтор

Назначьте специальное время раз в неделю или в месяц, чтобы отрегулировать процесс. Полезным будет выслушать мнения различных специалистов, имеющих отношение к очистке данных, чтобы сделать выводы об эффективности работы, а также понять, что можно изменить в лучшую сторону.

От качества данных зависит работа всех отделов компании, поэтому важной задачей является их точность. Хорошая программа очистки данных – необходимая составляющая, позволяющая каждому работнику эффективно выполнять свои задачи. Поэтому и проблемы, связанные с качеством данных, нужно преодолевать всей командой.

Здесь можно провести аналогию со спортивными тренировками: невозможно добиться хорошего результата в командных видах спорта, если тренироваться только поодиночке. Для слаженной работы тренироваться нужно совместно.

С какой периодичностью должна проводиться очистка данных?

Если очень долго накапливать информацию, то процедура очистки может потребовать длительного отрезка времени. Поэтому очищать данные нужно систематически.

При определении частоты очистки компания опирается на группу критериев, наиболее значимым из которых можно считать объём хранящихся данных. Но не нужно проводить уборку чаще необходимого, чтобы не тратить ресурсы на бесполезную работу.

Способы очистки данных

Вот признаки, подтверждающие, что метод очистки данных эффективен:

  • он может найти и устранить основные проблемы как при получении данных из единственного источника, так и в случае объединения информации, поступающей из нескольких ресурсов;
  • выполняется с помощью определенных инструментов, что позволяет уменьшить обработку вручную;
  • способен адаптироваться к работе с дополнительными источниками.
Дарим скидку от 60%
на обучение «Веб-разработчик» до 12 мая
Уже через 9 месяцев сможете устроиться на работу с доходом от 150 000 рублей
Забронировать скидку

Обычно применяется 2 способа для очистки данных (можно встретить термин Data Cleaning):

  • Встроенные средства проводят автоматизированную очистку. Система управления базами данных может включать такие средства для Big Data («большие данные»), как Hive, Azure, SQL Server Data Tools и др. Также используются интегрированные системы для статистического анализа (IBM SPSS, SAS);
  • Специалист по анализу больших данных проводит очистку собственными силами. Аналитики разрабатывают собственные скрипты для устранения опечаток в текстовых полях (например, на языке R или Python), или находят готовые.

Специалист по работе с данными (data scientist) может использовать эти способы очистки данных по одному или вместе для выполнения ряда своих обязанностей: конвертировать типы данных, агрегировать признаки, заполнять отсутствующие значения, устранять шум и выбросы.

Инструменты очистки данных

При работе с данными необходимы хорошие инструменты. Какие из них окажутся полезными, зависит от типа используемых данных и от того, какая система очистки данных применяется. Но можно назвать несколько инструментов, которые окажутся важными в начале работы.

Microsoft Excel

Появившись на свет в 1985 году, Excel стал основой, и до сих пор остаётся одним из наиболее популярных инструментов очистки данных.

Осуществляется очистка данных в Microsoft Excel во многом автоматизированно. Встроенные методы позволяют избавиться от дублей, заменять числа и текст, формировать столбцы и строки, объединять данные из разных ячеек. Доступность для понимания делает Excel первой программой, которой пользуются начинающие аналитики данных.

Языки программирования

Когда необходимо производить специализированную пакетную обработку данных, представляющих собой сложный набор, может потребоваться разработка собственной схемы. Для этого нужно владение компьютерными языками: Python, Ruby, SQL или R.

Инструменты очистки данных Инструменты очистки данных

Существуют библиотеки, где можно найти сценарии очистки данных Python, например Pandas и NumPy. Опытные специалисты способны создать программу с нуля.

Визуализации

С их помощью легче обнаружить ошибки в имеющемся наборе данных. Гистограмма может показать уникальные значения и облегчить поиск категории, названной разными способами. Точечный график поможет найти выбросы, чтобы их можно было проверить и принять решение об удалении.

Часто задаваемые вопросы об очистке данных

Можно ли изначально получить «чистые» данные?

Как правило, для сбора данных используют разные источники. Поэтому абсолютно естественными будут ошибки, дубли, пустые значения и прочие помехи для анализа, что объясняется разнородностью поступившей информации. «Грязные» данные неизбежны.

Только до 13.05
Скачай подборку материалов, чтобы гарантированно найти работу в IT за 14 дней
Список документов:
ТОП-100 площадок для поиска работы от GeekBrains
20 профессий 2023 года, с доходом от 150 000 рублей
Чек-лист «Как успешно пройти собеседование»
Чтобы получить файл, укажите e-mail:
Введите e-mail, чтобы получить доступ к документам
Подтвердите, что вы не робот,
указав номер телефона:
Введите телефон, чтобы получить доступ к документам
Уже скачали 52300

С чем нужно согласовать очистку данных?

Очистка данных должна соответствовать тому типу данных, которые вы используете, а также вашим целям и применяемым инструментам. При установке процесса очистки важно сделать его итеративным, то есть постоянно анализировать результаты и проводить необходимую коррекцию.

На что необходимо обратить внимание в процессе очистки данных?

Нужно отслеживать ошибки и стараться определить причину появления «грязных» данных. Отмечая закономерности и понимая, из каких источников чаще происходят определённые проблемы, можно понять, какой метод очистки данных нужно применять к каждому из них. Таким образом, не только экономится время, но и достигается лучшее качество очистки.

Оцените статью
Рейтинг: 5
( голосов 3 )
Поделиться статьей
Добавить комментарий

Сортировать:
По дате публикации
По рейтингу
До конца акции осталось
0 дней 00:00:00
Получите бесплатно 3 курса для лёгкого старта работы в IT
  • Начни зарабатывать от 210 000 ₽ в ИТ-сфере
  • Работай там, где ты хочешь: дома, на море, и даже на концерте
Получить бесплатно
Забрать подарок

Получите подробную стратегию для новичков на 2023 год, как с нуля выйти на доход 200 000 ₽ за 7 месяцев

Подарки от Geekbrains из закрытой базы:
Осталось 17 мест

Поздравляем!
Вы выиграли 4 курса по IT-профессиям.
Дождитесь звонка нашего менеджера для уточнения деталей

Иван Степанин
Иван Степанин печатает ...