О чем речь? Очистка данных (scrubbing, data cleaning) – процесс удаления нерелевантной информации, которая мешает анализу и искажает его результаты. Чем больше данных приходит, тем больше наличия в них ошибок.
На что обратить внимание? Очистка данных возможна в двух вариациях: автоматизированным или ручным методом. Однако независимо от выбора принципы будут общими: точность результатов и гибкость инструментов.
В статье рассказывается:
- Важность очистки данных
- От чего чистят данные
- Этапы очистки данных
- Способы очистки данных
- Инструменты очистки данных
- Часто задаваемые вопросы об очистке данных
-
Пройди тест и узнай, какая сфера тебе подходит:
айти, дизайн или маркетинг.Бесплатно от Geekbrains
Важность очистки данных
Неважно, начинающий специалист или опытный сотрудник будет работать с данными и составлять отчётность, если данные недостоверные, то и решение, скорее всего, будет неверным.
При любом уровне профессиональных компетенций работников и при использовании любого типа информационных систем существует закономерность, которая выполняется обязательно:
Мусор на входе => мусор на выходе.
Качество данных будет больше всего зависеть от организованных в компании бизнес-процессах, осуществляющих поступление в информационную систему необходимых компонентов.
Это, к примеру, такие действия, как введение накладных, их разнесение по платёжным документам, выставление счетов. Осуществлена ли взаимосвязь для того, чтобы дебиторская задолженность могла рассчитываться автоматически.
За подобные вещи несут ответственность бизнес-процессы. В маленькой компании все сведения можно собрать вручную, поэтому отсутствие бизнес-процессов не окажет критического влияния. Но этот вид деятельности является крайне важным для среднего и крупного бизнеса.
Если отчёты будут составлены с опорой на грязные данные, а затем компания будет с полученными неверными результатами осуществлять ту или иную деятельность, это приведёт к весьма неприятным последствиям.
Использование неверных или противоречивых данных в результате даст ложные выводы. Поэтому качество результата зависит от того, качественно ли очищены и верно ли поняты данные.
Часто бывает, что при обеспечении более качественными данными простого алгоритма результат его применения будет лучше, чем усложнённого, но с данными, не настолько тщательно проверенными.
От чего чистят данные
Имеется две сущности, которые могут встретиться в хранилищах данных. Первая – записи. Это те объекты, которые попали в хранилище, выраженные строками таблицы. Вторая – признаки. Это переменные величины в определённых ячейках таблицы, иными словами значения, соответствующие той или иной записи. Очистка данных может понадобиться в обоих случаях, хотя ошибки в сущностях различаются.
Ошибки в записях
- Дублирование. Ситуация, когда второй раз вносится в таблицу уже имеющийся объект, может произойти по разным причинам: либо один и тот же объект поступил из двух различных источников, либо произошла ошибка во время записи и данные продублировались. При этом удваивается значение и в итоге статистика оказывается нарушенной.
- Неуникальность значений. Бывают случаи, когда параметр определённой записи должен быть индивидуальным и не повторяться. Например, когда речь идёт о номере того или иного документа (паспорта, страхового полиса и т.д.). Если номер повторяется в разных записях – данные ошибочны, и их обработка может привести к сбою и завершить её не удастся. Пример: внесён один и тот же номер страховки для Петрова Ивана и Кузнецова Василия. Это не может быть верным, следовательно, одна из записей ошибочна (обычно, но не всегда, та, что внесена позднее).
- Противоречивые записи. Это означает, что несколько записей об одном и том же объекте содержат различающиеся данные. Например, отличается номер телефона человека. Такая ошибка может возникнуть, если данные поступают из разных источников. В этом случае приходится корректировать их путём объединения или удаления. В противном случае, алгоритмом эти объекты будут восприниматься как разные, или станет невозможной корректная обработка. Например: в таблице оказались неодинаковые данные о возрасте пользователя Петрова Ивана. Очистка данных подразумевает удаление одной из строк.
входят в ТОП-30 с доходом
от 210 000 ₽/мес
Скачивайте и используйте уже сегодня:
Топ-30 самых востребованных и высокооплачиваемых профессий 2023
Поможет разобраться в актуальной ситуации на рынке труда
Подборка 50+ бесплатных нейросетей для упрощения работы и увеличения заработка
Только проверенные нейросети с доступом из России и свободным использованием
ТОП-100 площадок для поиска работы от GeekBrains
Список проверенных ресурсов реальных вакансий с доходом от 210 000 ₽
Ошибки в признаках
- Отсутствующие значения. Это происходит при утере одного из значений при переносе, или когда его забыли ввести, в результате в таблице не хватает, например, адреса, номера телефона или других сведений.
- Недопустимые значения. В этом случае внесены сведения, которые не могут быть правильными. Так, российские номера телефонов не могут начинаться с девятки. Чтобы избежать подобных ошибок, на сборе данных нужно настроить соответствующие фильтры.
- Ошибки и опечатки при написании слов. Если слово вводится с ошибкой, статистика искажается, а фильтрация значений не может быть корректной.
- Аномальные значения. Если обычное количество продаж определённого товара в день составляет около 10 штук, то число 1000 явно может появиться только в результате ошибки. Такое значение можно считать отсутствующим, так как реальное не внесено. Для устранения такой ошибки понадобится очистка данных.
- Многозначность. Причиной такой ошибки может стать использование синонимов для того, чтобы обозначить одну и ту же сущность. Если один и тот же товар называть то «помидоры», то «томаты», система аналитики будет учитывать две разные сущности.
В этом примере, при подсчёте продаж томатов за определённый отрезок времени, из статистики будут исключены товары категории «помидоры», а значит, данные о продажах будут искажены.
Иногда, если данные поступают из различных источников, могут появиться проблемы, связанные с разным способом их записи. Это ошибки типов, форматов и кодировок. К примеру, дату можно записать как 03.12.1998, а можно как 3 декабря 1998 г. Как правило, чтобы избежать таких ошибок, используют правила перекодировки при проектировании хранилища данных, поэтому подобное редко встречается при очистке.
Этапы очистки данных
Итак, перед обработкой и анализом нужно убедиться, что данные пригодны для дальнейших действий с ними. Очистка данных предполагает следующие шаги:
- Шаг 1. Определение критических полей данных
Компании в настоящее время обладают гораздо большим количеством данных, чем раньше, но ценность их неравнозначна. Поэтому на первом этапе необходимо определить, какие именно типы данных или полей понадобятся для определённого проекта.
Читайте также!
- Шаг 2. Сбор данных
Когда будут определены соответствующие поля, нужно собрать, отсортировать и систематизировать данные, которые в них содержатся.
Скачать файл- Шаг 3. Удаление повторяющихся значений
После того, как данные собраны, нужно исправить недостатки. На этом этапе находят и удаляют повторяющиеся значения.
- Шаг №4. Работа с пустыми значениями
С помощью инструментов очистки данных проводится поиск пропущенных значений во всех полях, также они могут заполнить их. Это делает информацию полной.
- Шаг № 5. Стандартизация процесса
Необходимо определить последовательность процесса очистки данных и привести его к единому стандарту, чтобы повысить эффективность. Согласованность всех процедур позволяет повторять работу по очистке систематически. Определите, какие из данных и когда могут понадобиться, назначьте ответственного за управление их очисткой. В соответствии с потребностями компании нужно также выяснить, через какой промежуток времени целесообразно совершать очистку: это может оказаться и один день, и месяц.
- Шаг №6. Оценка, коррекция и повтор
Назначьте специальное время раз в неделю или в месяц, чтобы отрегулировать процесс. Полезным будет выслушать мнения различных специалистов, имеющих отношение к очистке данных, чтобы сделать выводы об эффективности работы, а также понять, что можно изменить в лучшую сторону.
От качества данных зависит работа всех отделов компании, поэтому важной задачей является их точность. Хорошая программа очистки данных – необходимая составляющая, позволяющая каждому работнику эффективно выполнять свои задачи. Поэтому и проблемы, связанные с качеством данных, нужно преодолевать всей командой.
С какой периодичностью должна проводиться очистка данных?
Если очень долго накапливать информацию, то процедура очистки может потребовать длительного отрезка времени. Поэтому очищать данные нужно систематически.
Читайте также!
При определении частоты очистки компания опирается на группу критериев, наиболее значимым из которых можно считать объём хранящихся данных. Но не нужно проводить уборку чаще необходимого, чтобы не тратить ресурсы на бесполезную работу.
Способы очистки данных
Вот признаки, подтверждающие, что метод очистки данных эффективен:
- он может найти и устранить основные проблемы как при получении данных из единственного источника, так и в случае объединения информации, поступающей из нескольких ресурсов;
- выполняется с помощью определенных инструментов, что позволяет уменьшить обработку вручную;
- способен адаптироваться к работе с дополнительными источниками.
на обучение «Веб-разработчик» до 01 декабря
Обычно применяется 2 способа для очистки данных (можно встретить термин Data Cleaning):
- Встроенные средства проводят автоматизированную очистку. Система управления базами данных может включать такие средства для Big Data («большие данные»), как Hive, Azure, SQL Server Data Tools и др. Также используются интегрированные системы для статистического анализа (IBM SPSS, SAS);
- Специалист по анализу больших данных проводит очистку собственными силами. Аналитики разрабатывают собственные скрипты для устранения опечаток в текстовых полях (например, на языке R или Python), или находят готовые.
Специалист по работе с данными (data scientist) может использовать эти способы очистки данных по одному или вместе для выполнения ряда своих обязанностей: конвертировать типы данных, агрегировать признаки, заполнять отсутствующие значения, устранять шум и выбросы.
Инструменты очистки данных
При работе с данными необходимы хорошие инструменты. Какие из них окажутся полезными, зависит от типа используемых данных и от того, какая система очистки данных применяется. Но можно назвать несколько инструментов, которые окажутся важными в начале работы.
Microsoft Excel
Появившись на свет в 1985 году, Excel стал основой, и до сих пор остаётся одним из наиболее популярных инструментов очистки данных.
Языки программирования
Когда необходимо производить специализированную пакетную обработку данных, представляющих собой сложный набор, может потребоваться разработка собственной схемы. Для этого нужно владение компьютерными языками: Python, Ruby, SQL или R.
Существуют библиотеки, где можно найти сценарии очистки данных Python, например Pandas и NumPy. Опытные специалисты способны создать программу с нуля.
Визуализации
С их помощью легче обнаружить ошибки в имеющемся наборе данных. Гистограмма может показать уникальные значения и облегчить поиск категории, названной разными способами. Точечный график поможет найти выбросы, чтобы их можно было проверить и принять решение об удалении.
Часто задаваемые вопросы об очистке данных
Можно ли изначально получить «чистые» данные?
Как правило, для сбора данных используют разные источники. Поэтому абсолютно естественными будут ошибки, дубли, пустые значения и прочие помехи для анализа, что объясняется разнородностью поступившей информации. «Грязные» данные неизбежны.
С чем нужно согласовать очистку данных?
Очистка данных должна соответствовать тому типу данных, которые вы используете, а также вашим целям и применяемым инструментам. При установке процесса очистки важно сделать его итеративным, то есть постоянно анализировать результаты и проводить необходимую коррекцию.
На что необходимо обратить внимание в процессе очистки данных?
Нужно отслеживать ошибки и стараться определить причину появления «грязных» данных. Отмечая закономерности и понимая, из каких источников чаще происходят определённые проблемы, можно понять, какой метод очистки данных нужно применять к каждому из них. Таким образом, не только экономится время, но и достигается лучшее качество очистки.