Современные профессии Онлайн-интенсив Только до 3.10
Выберите профессию будущего в ИТ, дизайне, маркетинге и управлении проектами
Кнопка закрыть топ-бар
ГлавнаяБлогДатасет: виды, применение, набор лучших
Датасет
1 604
Время чтения: 17 минут

Датасет: виды, применение, набор лучших

1 604
Время чтения: 17 минут
Сохранить статью:
Сохранить статью:
В статье рассказывается: 
  1. Понятие и задачи датасета
  2. Виды датасетов
  3. Характеристики датасета
  4. Выборка для датасета
  5. Лучшие датасеты для анализа и машинного обучения

Датасет представляет собой набор данных, которые используются в различных видах анализа и машинного обучения. Причем успешность последнего напрямую зависит от объема исходной информации: чем ее больше, тем качественней будет развиваться ИИ.

Очевидно, что собирать большой объем данных вручную сложно и не всегда целесообразно. В нашей статье мы расскажем, какие бывают датасеты, как они формируются, и предложим набор из лучших вариантов в различных областях.

Понятие и задачи датасета

Обработанная и структурированная информация, представленная в табличном виде, называется Dataset. В такой таблице объектами называются строки, а признаками – столбцы. Совокупность этой информации называется размеченными данными, которые являются основой для машинного обучения.

Понятие и задачи датасета
Понятие и задачи датасета

Формат представленной информации может быть разнообразным. Например, если есть необходимость добавить в приложение голосовой поиск, то достаточно предоставить нейронной сети данные, в которых имеется живая речь. Для облегчения распознавания запросов искусственным интеллектом нужно использовать как можно больше примеров. Под примером понимается фрагмент записи речи в аудио-формате, отмеченные в ней части и их перевод.

Под любые задачи имеется определенный вид разметки данных:

  • выделение 2D и 3D объектов;
  • сегментация объектов;
  • сортировка изображений по категориям;
  • классификация текстов;
  • транскрипция рукописного текста;
  • анализ тональности текстов;
  • распознавание сущностей в тексте;
  • транскрибация речи.

Разметка данных является довольно утомительным и рутинным процессом. Например, нужно сделать так, чтобы приложение могло по фотографии распознать домашних животных. Для решения этой задачи следует произвести выделение кошек на нескольких тысячах изображений. В результате этих действий сеть определяет, присутствует ли на фотографии изображение кошки или нет.

Но в случае, если на картинке запечатлены собаки, обезьянки, хомячки или любые другие животные, то искусственный интеллект никак на них не отреагирует. Это указывает на необходимость проделать еще очень большой объем работы, результатом которого станет размещение всех животных, интересующих нас.

Понятие и задачи датасета
Понятие и задачи датасета

Решение этой же задачи усложнится в несколько раз в том случае, если потребуется определить не только вид животного, но и его породу. Тогда кроме определения классификации по виду, необходимо произвести подразделение их по породам, что влечет за собой огромное количество размеченных изображений.

Виды датасетов

С научной точки зрения существует три категории датасетов:

Простая запись

Это самая простая категория, при которой не прослеживается явная связь между строками-Наблюдениями или столбцами-Признаками, при этом для каждой строки характерен одинаковый набор характеристик. Как правило, такие записи сохраняются или в файлах формата .csv, .parquet, или в реляционных базах данных.

Простые записи имеют несколько подвидов:

  • Транзакционные данные

Примером могут служить покупки в магазине. Наиболее часто встречаются двоичные признаки, по которым можно узнать была ли совершена покупка какого-либо предмета или нет.

  • Матрица данных

В случае, если каждый объект коллекции имеет одинаковый фиксированный набор признаков в числовом выражении, то последние допустимо рассматривать как Векторы в многомерном пространстве. Определенное количество таких записей можно рассматривать как Матрицу m х n, в которой есть m строк, для каждого объекта по одной, и n столбцов, для каждого признака по одному.

Исходя из этого напрашивается вывод, что преобразование данных и осуществление управления ими, допустимо производить с помощью стандартных матричных операций. Для большего количества статистических данных матрица является стандартным форматом.
  • Матрица разреженных данных (встречается матрица данных документа)

Характеризуется тем, что в отличие от матрицы данных, имеет ассиметричные признаки, то есть важное значение придают только ненулевым значениям.

Графы

Представляют собой данные, имеющие связь между объектами. Графы структурируются, узловые компоненты имеют определенную взаимосвязь между собой.

ТОП-30 IT-профессий
2022 года с доходом
от 200 000 ₽
Команда GeekBrains совместно с международными специалистами по развитию карьеры подготовили материалы, которые помогут вам начать путь к профессии мечты.
Подборка содержит только самые востребованные и высокооплачиваемые специальности и направления в IT-сфере. 86% наших учеников с помощью данных материалов определились с карьерной целью на ближайшее будущее!

Скачивайте и используйте уже сегодня:

Александр Сагун
Александр Сагун
Исполнительный
директор Geekbrains
pdf иконка

Топ-30 самых востребованных и высокооплачиваемых профессий 2022

Поможет разобраться в актуальной ситуации на рынке труда

doc иконка

Подборка 50+ ресурсов об IT-сфере

Только лучшие телеграм-каналы, каналы Youtube, подкасты, форумы и многое другое для того, чтобы узнавать новое про IT

pdf иконка

ТОП 50+ сервисов и приложений от Geekbrains

Безопасные и надежные программы для работы в наши дни

pdf 3,7mb
doc 1,7mb
Уже скачали 14873 pdf иконка

Упорядоченные записи

Часть данных упорядочена в пространстве или во времени. Они бывают следующими:

  • Последовательными. Эти данные образованы наборами отдельных объектов – словами или буквами, не имеют временных меток, но обладают позициями в упорядоченной последовательности.
  • Временной ряд. Разновидность данных последовательного типа, где любая запись представлена в виде временного ряда, т.е. серии изменений.
  • Пространственными. Эти данные характеризуются наличием координат.

Характеристики датасета

Основные параметры датасетов:

  • Размерность – показывает, сколько признаков имеет набор данных. Если размерность высокая, то осуществить анализ такого набора данных будет затруднительно.
  • Разреженность – показатель, характеризующийся заполненностью датасета, т.е. те ячейки, которые заполнены ненулевыми значениями. Для некоторого количества наборов данных, имеющих асимметричные функции, большое число признаков показывают нулевое значение, и только не более 1 % записей встречается с ненулевым значением.
  • Разрешение. Характеризуется возможностью обнаруживать какое-либо явление, при условии, что данные подробны ровно настолько, насколько это соответствует решению задачи. Пример, перемещение циклона можно отразить по часовому изменению давления, но в масштабе нескольких месяцев это явление незначительно.
Характеристики датасета
Характеристики датасета

Выборка для датасета

Генеральная совокупность – это первоначальный комплект исходных данных. Процесс образования выборок из генеральной совокупности является порождением данных. Конечное подмножество элементов генеральной совокупности называется выборкой.

Внимательно изучив конечное подмножество, становится понятно поведение исходного множества. В качестве примера можно привести пример, в котором генеральная совокупность сформирована из 200 тысяч посетителей сайта, но в выборке из них оказались всего 300.

Ожидаемая модель порождения данных предполагает, что выборка из генеральной совокупности генерируется случайным образом. В случае, когда все множество ее элементов одинаково случайно и независимо друг от друга распределяются по исходному множеству, то такую выборку называют простой.

Данный тип выборки представлен математической моделью серии независимых опытов, и по статистике, чаще всего применяется для обучения машинного вида. Следует иметь в виду, что на каждый этап такого образовательного процесса требуется определенный набор данных:

  • Обучающая выборка необходима для непосредственного обучения модели. По ней производят настройку и оптимизацию параметров модели.
  • Контрольная или тестовая выборка применяется в случае, когда требуется оценить качество модели. В идеале эта выборка должна быть независимой от обучающей.
  • Валидационная или проверочная выборка используется при выборе лучшей модели для машинного обучения. Также как и предыдущая выработка, эта не должна перекликаться с обучающей.
  • Интеллектуальный анализ информации, выборка, датасет, Data Peperation.

Методы, по которым формируются обучающие и оценочные выборки, зависят от класса задачи, чье решение происходит при помощи машинного обучения:

  • Для определения задач классификации, весь объем данных необходимо разделить таким образом, чтобы в образованных наборах соотношение численности объектов различных классов было аналогично исходной генеральной совокупности.
  • Для решения задачи при регрессивном анализе следует одинаково распределить целевую переменную в полученных наборах, которые в будущем применяются для обучения и контроля качества.
Выборка для датасета
Выборка для датасета

После формирования выборки приходит последовательность следующих процессов CRISP-DM: очистка данных и действия с признаками:

  • генерация;
  • трансформация;
  • нормализация и отбрасывание лишней переменной.

Все эти действия направлены на исключение мультиколлинеарности факторов и понижения размерности модели машинного обучения.

Лучшие датасеты для анализа и машинного обучения

Датасеты общего назначения

Государственные датасеты:

  • Data.gov. Тут находится информация от различных организаций США. Данные могут быть абсолютно разными, от государственного бюджета до отметок в школьном табеле.
  • Food Environment Atlas. Включает в себя сведения влиянии многообразия факторов на критерии выбора питания в США и его качества. Из показателей следует отметить расстояние до магазина или ресторана, стоимость продуктов, производителя и другие.
  • School system finances. Информация о финансовом состоянии школьной системы в США.
  • Chronic disease data. Этот датасет содержит сведения о хронических заболеваниях в США.
  • The US National Center for Education Statistics. Содержит данные об образовательных заведениях и демографии не только в США, но и по всей планете.
  • The UK Data Service. Наиболее крупное хранилище информации социальной, экономической и демографической направленности в Великобритании.
  • Data USA. Подробная визуализация данных общего доступа в США.
Только до 3.10
Как за 3 часа
разбираться в IT
лучше, чем 90%
новичков и выйти на
доход в 200 000 ₽?
Приглашаем вас на бесплатный онлайн-интенсив «Путь в IT»! За несколько часов эксперты GeekBrains разберутся, как устроена сфера информационных технологий, как в нее попасть и развиваться.
Александр Волчек CEO GeekBrains

Интенсив «Путь в IT» поможет:

  • За 3 часа разбираться в IT лучше, чем 90% новичков.
  • Понять, что действительно ждет IT-индустрию в ближайшие 10 лет.
  • Узнать как по шагам c нуля выйти на доход в 200 000 ₽ в IT.
При регистрации вы получите в подарок:
pdf иконка

«Колесо компетенций»

Тест, в котором вы оцениваете свои качества и узнаете, какая профессия в IT подходит именно вам

doc иконка

«Критические ошибки, которые могут разрушить карьеру»

Собрали 7 типичных ошибок, четвертую должен знать каждый!

pdf иконка

Тест "Есть ли у вас синдром самозванца?"

Мини-тест из 11 вопросов поможет вам увидеть своего внутреннего критика

Хотите сделать первый шаг и погрузиться в мир информационных технологий? Регистрируйтесь и смотрите интенсив:
Только до 3 октября
Осталось 17 мест

Данные о жилье:

  • Boston Housing Dataset. Здесь можно увидеть сведения о жилом фонде в Бостоне, которые собрало бюро, осуществляющее перепись населения США.

Экономика и финансы:

  • Quandi. Является неплохим источником информации экономической и финансовой направленности. Используется для строительства прогнозных моделей различных данных экономики или котировок акций.
  • Word Bank Open Data. Включает определенные информационные комплексы, в которых отражается демографическая ситуация, разнообразные экономические показатели и индикаторы развития по всему миру.
  • IMF Data. Содержит сведения международного валютного фонда о мировых финансах, долговых критериях, резервах валют, инвестиционные рекомендации и стоимость основных сырьевых товарах.
  • Financial Times Market Data. Наиболее точная информация о финансовом рынке по всему миру, в том числе индексы стоимости акций, товаров и валют.
  • Google Trends. Здесь можно узнать и проанализировать сведения по активности поисковых систем в сети.
  • American Economic Association. Неплохое место для поиска информации о макроэкономических показателях США.
Датасеты общего назначения
Датасеты общего назначения

Датасеты для машинного обучения

Компьютерное зрение:

  • xView. Является самым крупным из всех наборов воздушных снимков земли общего доступа. Здесь содержатся картинки разных сцен со всех уголков нашей планеты, которые аннотированы при помощи различных ограничений.
  • Labelme. Включает большое количество аннотированных картинок.
  • ImageNet. Датасет, где можно найти изображения для вновь созданных алгоритмов.
  • LSUN. Массив картинок, отсортированных по различным критериям.
  • MS COCO. Здесь можно найти все, что потребуется для обнаружения и сегментации объектов.
  • Visual Genome. Размеры датасета с подробно аннотированными изображениями являются самыми крупными.
  • Google’s Open Images. Включает коллекцию из более чем 9 миллионов URL-адресов, имеющих метки и охватывающих большое количество категорий под лицензией Creative Commons.
  • Labelled Faces in the Wild. Включает изображения более 10000 человеческих лиц для применения приложений, в основе которых лежит распознавание лиц.
  • Stanford Dogs Dataset. Анализ датасета позволит распознать изображения из определенных пород собак.
  • Indoor Scene Recognition. Один из наиболее больших датасетов в плане узнавания интерьеров. В нем содержится 67 категорий включающих 15 620 картинок.

Анализ тональности текста:

  • Multidomain sentiment analysis dataset. Достаточно возрастной проект, в котором содержится информация о товарах, купленных на Amazon.
  • IMDB reviews. Маленький ресурс с тематикой «отзовик к фильмам».
  • Stanford Sentiment Treebank. Проект Стенфортского университета, где анализируют тональность.
  • Sentiment140. Модный портал, в котором можно найти множество твитов с удалёнными смайликами.
  • Twitter US Airline Sentiment. Здесь находятся данные из Twitter обо всех компаниях авиаперевозчиках США.

Обработка естественного языка:

  • HotspotQA Dataset. Ресурс, в котором содержатся вопросы и ответы. С его помощью можно создать систему стандартных ответов.
  • Amazon Reviews. Здесь накопилось огромное количество отзывов с одноименного ресурса за восемнадцатилетний период. В них можно найти различные сведения и статистические данные о товаре.
  • Google Books Ngrams. Включает коллекцию слов из книги Google.
  • Wikipedia Links data. Этот проект построен из веб-страниц, причем на каждой имеется одна ссылка на Википедию и ее якорный текст аналогичен заголовку страницы.
  • Gutenberg eBooks List. Датасет с аннотированным списком электронных книг проекта «Гутенберг».
  • Jeopardy. Содержит архивные данные одноименной телевизионной викторины.
  • Rotten Tomatoes Reviews. Здесь находятся рецензии в количестве 480 тысяч штук с Rotten Tomatoes.
  • Yelp Reviews. Сведения, содержащие около 5 млн отзывов от Yelp.
  • UCI’s Spambase. Крупный датасет, в котором находятся спам-письма.
Датасеты для машинного обучения
Датасеты для машинного обучения

Автопилоты:

  • Berkeley DeepDrive BDD100k. В настоящий момент является самым большим датасетом для автопилотов. В нем содержится множество видеозаписей вождения, при разнообразных ситуациях.
  • Baidu Apolloscapes. Ресурс с функцией распознавания 26 семантически разных объектов. Это могут быть машины, велосипеды, пешеходы, здания, уличные фонари и т. д.
  • Comma.ai. Здесь содержится информация об основных параметрах машины, находящейся в движении.
  • Oxford’s Robotic Car. Проект включает около 100 повторения одного и того же маршрута, которые были запечатлены за один год в Оксфорде. На маршруте явно прослеживаются разные условия: трафик, погода, пешеходы, ремонт дороги и т.д.
  • Cityscape Dataset. Скачав этот датасет, можно найти сто записей с уличных камер из 50 городов.
  • KUL Belgium Traffic Sign Dataset. Информация, содержащая аннотации к тысячам бельгийских светофоров.

Медицинские данные:

  • MIMIC-III. Датасет содержащий обезличенную информацию о состоянии здоровья около 40 тысяч больных, которые подвергаются интенсивной терапии. Он включает карту пациента, показатели жизненной активности, принимаемые лекарства, прогноз лечения и т.д.

В настоящее время заинтересованные участники рынка принимают участие в работе различных структур по разработке и внедрению новых регуляторных норм для создания датасетов. Планируется, что это приведет к облегчению доступа к данным, которые необходимы для обучения искусственного интеллекта, а также разработке ML-сервисов на объединенных наборах данных из разнообразных источников в режиме «песочниц».

Оцените статью
Рейтинг: 5
( голосов 2 )
Поделиться статьей
Добавить комментарий

Забрать
гарантированный
подарок

Получите бесплатно подборку файлов от GeekBrains:

Осталось 17 мест

Поздравляем! Вы выиграли 2-х дневный интенсив "Путь в IT". Чтобы закрепить подарок и получить к нему доступ, заполните информацию в открывшемся окне

×
Петр Озеров
Петр Озеров печатает ...