- Понятие и задачи датасета
- Виды датасетов
- Характеристики датасета
- Выборка для датасета
- Лучшие датасеты для анализа и машинного обучения
-
Пройди тест и узнай, какая сфера тебе подходит:
айти, дизайн или маркетинг.Бесплатно от Geekbrains
Датасет представляет собой набор данных, которые используются в различных видах анализа и машинного обучения. Причем успешность последнего напрямую зависит от объема исходной информации: чем ее больше, тем качественней будет развиваться ИИ.
Очевидно, что собирать большой объем данных вручную сложно и не всегда целесообразно. В нашей статье мы расскажем, какие бывают датасеты, как они формируются, и предложим набор из лучших вариантов в различных областях.
Понятие и задачи датасета
Обработанная и структурированная информация, представленная в табличном виде, называется Dataset. В такой таблице объектами называются строки, а признаками – столбцы. Совокупность этой информации называется размеченными данными, которые являются основой для машинного обучения.
Формат представленной информации может быть разнообразным. Например, если есть необходимость добавить в приложение голосовой поиск, то достаточно предоставить нейронной сети данные, в которых имеется живая речь. Для облегчения распознавания запросов искусственным интеллектом нужно использовать как можно больше примеров. Под примером понимается фрагмент записи речи в аудио-формате, отмеченные в ней части и их перевод.
Под любые задачи имеется определенный вид разметки данных:
- выделение 2D и 3D объектов;
- сегментация объектов;
- сортировка изображений по категориям;
- классификация текстов;
- транскрипция рукописного текста;
- анализ тональности текстов;
- распознавание сущностей в тексте;
- транскрибация речи.
входят в ТОП-30 с доходом
от 210 000 ₽/мес
Скачивайте и используйте уже сегодня:
Топ-30 самых востребованных и высокооплачиваемых профессий 2023
Поможет разобраться в актуальной ситуации на рынке труда
Подборка 50+ бесплатных нейросетей для упрощения работы и увеличения заработка
Только проверенные нейросети с доступом из России и свободным использованием
ТОП-100 площадок для поиска работы от GeekBrains
Список проверенных ресурсов реальных вакансий с доходом от 210 000 ₽
Разметка данных является довольно утомительным и рутинным процессом. Например, нужно сделать так, чтобы приложение могло по фотографии распознать домашних животных. Для решения этой задачи следует произвести выделение кошек на нескольких тысячах изображений. В результате этих действий сеть определяет, присутствует ли на фотографии изображение кошки или нет.
Но в случае, если на картинке запечатлены собаки, обезьянки, хомячки или любые другие животные, то искусственный интеллект никак на них не отреагирует. Это указывает на необходимость проделать еще очень большой объем работы, результатом которого станет размещение всех животных, интересующих нас.
Решение этой же задачи усложнится в несколько раз в том случае, если потребуется определить не только вид животного, но и его породу. Тогда кроме определения классификации по виду, необходимо произвести подразделение их по породам, что влечет за собой огромное количество размеченных изображений.
Виды датасетов
С научной точки зрения существует три категории датасетов:
Простая запись
Это самая простая категория, при которой не прослеживается явная связь между строками-Наблюдениями или столбцами-Признаками, при этом для каждой строки характерен одинаковый набор характеристик. Как правило, такие записи сохраняются или в файлах формата .csv, .parquet, или в реляционных базах данных.
Простые записи имеют несколько подвидов:
- Транзакционные данные
Примером могут служить покупки в магазине. Наиболее часто встречаются двоичные признаки, по которым можно узнать была ли совершена покупка какого-либо предмета или нет.
- Матрица данных
В случае, если каждый объект коллекции имеет одинаковый фиксированный набор признаков в числовом выражении, то последние допустимо рассматривать как Векторы в многомерном пространстве. Определенное количество таких записей можно рассматривать как Матрицу m х n, в которой есть m строк, для каждого объекта по одной, и n столбцов, для каждого признака по одному.
- Матрица разреженных данных (встречается матрица данных документа)
Характеризуется тем, что в отличие от матрицы данных, имеет ассиметричные признаки, то есть важное значение придают только ненулевым значениям.
Графы
Представляют собой данные, имеющие связь между объектами. Графы структурируются, узловые компоненты имеют определенную взаимосвязь между собой.
Скачать файлУпорядоченные записи
Часть данных упорядочена в пространстве или во времени. Они бывают следующими:
- Последовательными. Эти данные образованы наборами отдельных объектов – словами или буквами, не имеют временных меток, но обладают позициями в упорядоченной последовательности.
- Временной ряд. Разновидность данных последовательного типа, где любая запись представлена в виде временного ряда, т.е. серии изменений.
- Пространственными. Эти данные характеризуются наличием координат.
Характеристики датасета
Основные параметры датасетов:
- Размерность – показывает, сколько признаков имеет набор данных. Если размерность высокая, то осуществить анализ такого набора данных будет затруднительно.
- Разреженность – показатель, характеризующийся заполненностью датасета, т.е. те ячейки, которые заполнены ненулевыми значениями. Для некоторого количества наборов данных, имеющих асимметричные функции, большое число признаков показывают нулевое значение, и только не более 1 % записей встречается с ненулевым значением.
- Разрешение. Характеризуется возможностью обнаруживать какое-либо явление, при условии, что данные подробны ровно настолько, насколько это соответствует решению задачи. Пример, перемещение циклона можно отразить по часовому изменению давления, но в масштабе нескольких месяцев это явление незначительно.
Выборка для датасета
Генеральная совокупность – это первоначальный комплект исходных данных. Процесс образования выборок из генеральной совокупности является порождением данных. Конечное подмножество элементов генеральной совокупности называется выборкой.
Внимательно изучив конечное подмножество, становится понятно поведение исходного множества. В качестве примера можно привести пример, в котором генеральная совокупность сформирована из 200 тысяч посетителей сайта, но в выборке из них оказались всего 300.
Данный тип выборки представлен математической моделью серии независимых опытов, и по статистике, чаще всего применяется для обучения машинного вида. Следует иметь в виду, что на каждый этап такого образовательного процесса требуется определенный набор данных:
- Обучающая выборка необходима для непосредственного обучения модели. По ней производят настройку и оптимизацию параметров модели.
- Контрольная или тестовая выборка применяется в случае, когда требуется оценить качество модели. В идеале эта выборка должна быть независимой от обучающей.
- Валидационная или проверочная выборка используется при выборе лучшей модели для машинного обучения. Также как и предыдущая выработка, эта не должна перекликаться с обучающей.
- Интеллектуальный анализ информации, выборка, датасет, Data Peperation.
Методы, по которым формируются обучающие и оценочные выборки, зависят от класса задачи, чье решение происходит при помощи машинного обучения:
- Для определения задач классификации, весь объем данных необходимо разделить таким образом, чтобы в образованных наборах соотношение численности объектов различных классов было аналогично исходной генеральной совокупности.
- Для решения задачи при регрессивном анализе следует одинаково распределить целевую переменную в полученных наборах, которые в будущем применяются для обучения и контроля качества.
После формирования выборки приходит последовательность следующих процессов CRISP-DM: очистка данных и действия с признаками:
- генерация;
- трансформация;
- нормализация и отбрасывание лишней переменной.
Читайте также!
Все эти действия направлены на исключение мультиколлинеарности факторов и понижения размерности модели машинного обучения.
Лучшие датасеты для анализа и машинного обучения
Датасеты общего назначения
Государственные датасеты:
- Data.gov. Тут находится информация от различных организаций США. Данные могут быть абсолютно разными, от государственного бюджета до отметок в школьном табеле.
- Food Environment Atlas. Включает в себя сведения влиянии многообразия факторов на критерии выбора питания в США и его качества. Из показателей следует отметить расстояние до магазина или ресторана, стоимость продуктов, производителя и другие.
- School system finances. Информация о финансовом состоянии школьной системы в США.
- Chronic disease data. Этот датасет содержит сведения о хронических заболеваниях в США.
- The US National Center for Education Statistics. Содержит данные об образовательных заведениях и демографии не только в США, но и по всей планете.
- The UK Data Service. Наиболее крупное хранилище информации социальной, экономической и демографической направленности в Великобритании.
- Data USA. Подробная визуализация данных общего доступа в США.
на обучение «Аналитик больших данных» до 24 ноября
Данные о жилье:
- Boston Housing Dataset. Здесь можно увидеть сведения о жилом фонде в Бостоне, которые собрало бюро, осуществляющее перепись населения США.
Экономика и финансы:
- Quandi. Является неплохим источником информации экономической и финансовой направленности. Используется для строительства прогнозных моделей различных данных экономики или котировок акций.
- Word Bank Open Data. Включает определенные информационные комплексы, в которых отражается демографическая ситуация, разнообразные экономические показатели и индикаторы развития по всему миру.
- IMF Data. Содержит сведения международного валютного фонда о мировых финансах, долговых критериях, резервах валют, инвестиционные рекомендации и стоимость основных сырьевых товарах.
- Financial Times Market Data. Наиболее точная информация о финансовом рынке по всему миру, в том числе индексы стоимости акций, товаров и валют.
- Google Trends. Здесь можно узнать и проанализировать сведения по активности поисковых систем в сети.
- American Economic Association. Неплохое место для поиска информации о макроэкономических показателях США.
Датасеты для машинного обучения
Компьютерное зрение:
- xView. Является самым крупным из всех наборов воздушных снимков земли общего доступа. Здесь содержатся картинки разных сцен со всех уголков нашей планеты, которые аннотированы при помощи различных ограничений.
- Labelme. Включает большое количество аннотированных картинок.
- ImageNet. Датасет, где можно найти изображения для вновь созданных алгоритмов.
- LSUN. Массив картинок, отсортированных по различным критериям.
- MS COCO. Здесь можно найти все, что потребуется для обнаружения и сегментации объектов.
- Visual Genome. Размеры датасета с подробно аннотированными изображениями являются самыми крупными.
- Google’s Open Images. Включает коллекцию из более чем 9 миллионов URL-адресов, имеющих метки и охватывающих большое количество категорий под лицензией Creative Commons.
- Labelled Faces in the Wild. Включает изображения более 10000 человеческих лиц для применения приложений, в основе которых лежит распознавание лиц.
- Stanford Dogs Dataset. Анализ датасета позволит распознать изображения из определенных пород собак.
- Indoor Scene Recognition. Один из наиболее больших датасетов в плане узнавания интерьеров. В нем содержится 67 категорий включающих 15 620 картинок.
Анализ тональности текста:
- Multidomain sentiment analysis dataset. Достаточно возрастной проект, в котором содержится информация о товарах, купленных на Amazon.
- IMDB reviews. Маленький ресурс с тематикой «отзовик к фильмам».
- Stanford Sentiment Treebank. Проект Стенфортского университета, где анализируют тональность.
- Sentiment140. Модный портал, в котором можно найти множество твитов с удалёнными смайликами.
- Twitter US Airline Sentiment. Здесь находятся данные из Twitter обо всех компаниях авиаперевозчиках США.
Обработка естественного языка:
- HotspotQA Dataset. Ресурс, в котором содержатся вопросы и ответы. С его помощью можно создать систему стандартных ответов.
- Amazon Reviews. Здесь накопилось огромное количество отзывов с одноименного ресурса за восемнадцатилетний период. В них можно найти различные сведения и статистические данные о товаре.
- Google Books Ngrams. Включает коллекцию слов из книги Google.
- Wikipedia Links data. Этот проект построен из веб-страниц, причем на каждой имеется одна ссылка на Википедию и ее якорный текст аналогичен заголовку страницы.
- Gutenberg eBooks List. Датасет с аннотированным списком электронных книг проекта «Гутенберг».
- Jeopardy. Содержит архивные данные одноименной телевизионной викторины.
- Rotten Tomatoes Reviews. Здесь находятся рецензии в количестве 480 тысяч штук с Rotten Tomatoes.
- Yelp Reviews. Сведения, содержащие около 5 млн отзывов от Yelp.
- UCI’s Spambase. Крупный датасет, в котором находятся спам-письма.
Автопилоты:
- Berkeley DeepDrive BDD100k. В настоящий момент является самым большим датасетом для автопилотов. В нем содержится множество видеозаписей вождения, при разнообразных ситуациях.
- Baidu Apolloscapes. Ресурс с функцией распознавания 26 семантически разных объектов. Это могут быть машины, велосипеды, пешеходы, здания, уличные фонари и т. д.
- Comma.ai. Здесь содержится информация об основных параметрах машины, находящейся в движении.
- Oxford’s Robotic Car. Проект включает около 100 повторения одного и того же маршрута, которые были запечатлены за один год в Оксфорде. На маршруте явно прослеживаются разные условия: трафик, погода, пешеходы, ремонт дороги и т.д.
- Cityscape Dataset. Скачав этот датасет, можно найти сто записей с уличных камер из 50 городов.
- KUL Belgium Traffic Sign Dataset. Информация, содержащая аннотации к тысячам бельгийских светофоров.
Медицинские данные:
- MIMIC-III. Датасет содержащий обезличенную информацию о состоянии здоровья около 40 тысяч больных, которые подвергаются интенсивной терапии. Он включает карту пациента, показатели жизненной активности, принимаемые лекарства, прогноз лечения и т.д.
Читайте также!
В настоящее время заинтересованные участники рынка принимают участие в работе различных структур по разработке и внедрению новых регуляторных норм для создания датасетов. Планируется, что это приведет к облегчению доступа к данным, которые необходимы для обучения искусственного интеллекта, а также разработке ML-сервисов на объединенных наборах данных из разнообразных источников в режиме «песочниц».