Разное

Машинное обучение: суть, принципы, задачи

Дата публикации: 19.07.2023

21 388

Время чтения: 10 минут

Дата обновления: 11.09.2023

Автор статьи:

Редакция сайта GeekBrains Шеф-редактор раздела Программирование

В статье рассказывается:

О чем речь? Машинное обучение — это способ автоматического улучшения алгоритмов благодаря опыту. Искусственный интеллект учится распознавать информацию и с каждым разом делает это все лучше и лучше, потому что учитывает предыдущие шаги. Это крайне востребовано сегодня в большинстве отраслей: от развлекательных до банковских и медицинских.

Как происходит? Есть несколько методов машинного обучения. Основаны они на том, что искусственному интеллекту предлагаются некоторые вводные данные, на базе которых он должен найти правильное решение.

В статье рассказывается:

Суть машинного обучения
Принципы машинного обучения
История машинного обучения
Где используется машинное обучение
Какие задачи решает машинное обучение
Преимущества и недостатки машинного обучения
Основные виды машинного обучения
Типы задач машинного обучения
Алгоритмы машинного обучения
Примеры применения машинного обучения в реальной жизни
Пройди тест и узнай, какая сфера тебе подходит:
айти, дизайн или маркетинг.

Бесплатно от Geekbrains

Суть машинного обучения

Машинное обучение (Machine Learning) представляет собой метод обучения компьютерных систем, основанный на статистических моделях и логических операциях. Этот способ автоматического улучшения алгоритмов предполагает отсутствие четких инструкций. Проще говоря, компьютерной системе ставится задача не в формате «сделай 2+2», а «сделай аналогично», используя входные данные.

Машину учат мыслить, как человек, только в разы быстрее. Методы машинного обучения постоянно развиваются. Сегодня компьютерные системы показывают глубокую обработку больших объемов информации.

В течение длительного времени компьютеры использовались для решения тех задач, которые посильны человеку. Относительно недавно пришло понимание, что ключевой плюс машин в скорости обработки большого объема информации и выполнения логических операций. Человеку непосильно решение многих задач, которые компьютерная система делает моментально.

Машина даст быстрый и точный результат, если задать верные входные данные в нужном объеме. Это привело к появлению искусственного интеллекта и машинного обучения, которые сейчас активно развиваются и совершенствуются.

Основой машинного обучения выступает совокупность обработанной и структурированной информации. Это датасеты. Они представляют собой примеры решения тех или иных операций человеком или компьютерной системой.

На основании датасетов разработчики обучают компьютерные системы работать с блоками информации: классифицировать, прогнозировать, разрабатывать новые алгоритмы решения стандартных задач, строить гипотезы и т.п. Датасеты растут с каждым днём, а методы искусственного интеллекта совершенствуются.

Пример развития технологий машинного обучения — Яндекс Музыка. Сервис умеет анализировать музыкальные предпочтения пользователя, находить аналоги и добавлять в плейлист те песни, которые придутся по вкусу. Авторство данной инновационной технологии принадлежит Netflix. Она кардинально изменила логику потребления цифрового контента во всем мире. Сейчас рекомендательные системы активно используются в разных сферах.

Узнай, какие ИТ - профессии
входят в ТОП-30 с доходом
от 210 000 ₽/мес

Павел Симонов

Исполнительный директор Geekbrains

Команда GeekBrains совместно с международными специалистами по развитию карьеры подготовили материалы, которые помогут вам начать путь к профессии мечты.

Подборка содержит только самые востребованные и высокооплачиваемые специальности и направления в IT-сфере. 86% наших учеников с помощью данных материалов определились с карьерной целью на ближайшее будущее!

Скачивайте и используйте уже сегодня:

Павел Симонов

Исполнительный директор Geekbrains

Топ-30 самых востребованных и высокооплачиваемых профессий 2023

Поможет разобраться в актуальной ситуации на рынке труда

Подборка 50+ бесплатных нейросетей для упрощения работы и увеличения заработка

Только проверенные нейросети с доступом из России и свободным использованием

ТОП-100 площадок для поиска работы от GeekBrains

Список проверенных ресурсов реальных вакансий с доходом от 210 000 ₽

pdf 3,7mb

doc 1,7mb

Уже скачали 34693

Ни один человек не сможет справиться с подобного рода задачами с такой же скоростью, как машина. У сервиса Яндекс.Музыка миллионы пользователей, и к каждому нереально приставить эксперта, компетентного во всех музыкальных направлениях и разнообразии соответствующего вкусу клиента контента. Для Яндекс.Музыки это элементарная задача именно благодаря использованию машинного обучения.

Принципы машинного обучения

Программист не дает компьютерной системе четкие инструкции, учитывающие все возможные комбинации и решения. Машина программируется на самостоятельный поиск и аналитику на базе входных данных. Она находит закономерности по ряду признаков, классифицирует объекты и осуществляет прогнозирование.

Машинное обучение начинается с загрузки датасета. Это исходные данные для обработки запросов. Например, фотографии кошек и собак с метками. После машинного обучения компьютерная система самостоятельно распознает животных в новой базе данных, где метки не будут проставлены. Обучение не заканчивается после выданных системой прогнозов. Чем больше данных проанализировано, тем точнее результаты.

Использование технологий машинного обучения позволяет компьютерам распознавать на изображениях не только лица, но и любые объекты, предметы и т.п. Также они эффективно используются в текстовых редакторах для проверки грамматики и орфографии. Это автоматические системы, которые способны не только проверять правописание, но и понимать контекст, смысловую нагрузку и лингвистические тонкости. Уже существуют специализированные программы, которые самостоятельно пишут статьи на различные темы (новости, экономика, спорт и т.д.).

История машинного обучения

Сначала компьютеры решали те задачи, которые доступны человеческому мозгу. Последние годы господствует понимание, что машины способны находить новые алгоритмы выполнения операций. Искусственный интеллект активно развивается и используется во многих сферах наряду с технологиями машинного обучения.

История применения метода машинного обучения началась в 1950 году с разработки программ для игры в шашки. Общий алгоритм, использованный на тот момент, актуален до сих пор. Рост вычислительных мощностей компьютеров привел к усложнению задач, которые ставятся перед машинным обучением.

Основные этапы становления машинного обучения:

В 1946 году публике была представлена инновационная для того времени разработка — первый электронный цифровой вычислитель общего назначения в рамках ЭНИАК, сверхсекретного проекта армии США. Американские военные составляли электронные таблицы для того, чтобы метко стрелять по вражеским целям. Но, помимо этого, компьютер был запрограммирован для решения широкого спектра задач.
В 1950 году британский учёный Алан Тьюринг разработал эмпирический тест, призванный определить способность компьютера мыслить, как человек.
В 1958 году американский ученый в области психологии, нейрофизиологии и искусственного интеллекта Фрэнк Розенблатт разработал Персептрон — компьютерную модель восприятия информации мозгом. Это была одна из первых моделей нейросетей. На его базе был создан нейрокомпьютер «Марк-1».
В 1959 году американский ученый в области искусственного интеллекта Марвин Минский разработал SNARC — первую искусственную нейронную сеть для решения комплексных задач.

Чтобы получить файл, укажите e-mail: Подтвердите, что вы не робот, указав номер телефона:

Я подтверждаю согласие на обработку персональных данных

В 1959 году американский исследователь Артур Самуэль создал первую самообучающуюся компьютерную игру в шашки. Именно он ввел термин «машинное обучение». Автор считал, что это процесс, в результате которого компьютер способен продемонстрировать поведение, не запрограммированное в нем изначально.
В 1967 году был разработан первый метрический алгоритм, используемый для классификации данных. Искусственный интеллект начал применять шаблоны для распознавания и обучения.
В 1997 году суперкомпьютер Deep Blue впервые выиграл матч из 6 партий у чемпиона мира по шахматам Гарри Каспарова.
В 2006 году британский ученый Джеффри Хинтон ввел термин «глубокое обучение» (deep learning). Искусственные нейронные сети обучаются на огромных объемах данных. Это направление сейчас активно развивается и является одним из самых передовых.
В 2011 году был основан Google Brain — проект работы с нейросетями.
В 2012 году в подразделении Google X Lab создали нейросетевой алгоритм распознавания котов на изображениях и видео. В этом же году был основан облачный сервис Google Prediction API, предназначенный для машинного обучения и анализа.
В 2014 году в компании Марка Цукерберга была разработана нейросеть DeepFace, умеющая распознавать лица на фото и видео с точностью до 97%.
В 2015 году компания Amazon выпустила Amazon Machine Learning. Это платформа машинного обучения. В этом же году аналог разработал Microsoft: Distributed Learning Machine Toolkit.

Где используется машинное обучение

Машинное обучение является одной из областей искусственного интеллекта. Эта прогрессивная технология базируется на алгоритмах, обучающих машины на основе входных данных разрабатывать самые эффективные решения, прогнозировать и выполнять различные сложные задачи.

Модели машинного обучения имеют широкий функционал:

Распознавание и классификация изображений. Машинное обучение способно обнаружить не только заданные объекты, но и образы, символы и т.д. Нейросети сравнивают данные с базой изображений и ищут соответствия. Это активно используется в медицинских целях для диагностики, например, онкологических заболеваний на основании рентгеновских снимков.
Анализ текста. Это метод машинного обучения, который используется для извлечения информации из неструктурированных текстовых данных. Например, для анализа отзывов клиентов о товарах или услугах бренда в социальных сетях.
Прогнозирование временных рядов. Машинное обучение активно используется для оптимизации производственных мощностей, уровня товарных запасов, курса акций на фондовом рынке и т.д.
Выявление мошенничества и кибербезопасность. Например, обнаружение незаконных банковских операций.
Рекомендательные системы. Это интеллектуальная помощь пользователю сориентироваться в многообразии продуктов, сериалов, книг и т.д. Рекомендательные системы основываются на личных предпочтениях и часто просматриваемом контенте.
Системы обработки речи. Они используются, например, для автоматического перевода на разные языки.
Разработка беспилотных автомобилей. Это системы автоматического управления электромобилями, позволяющие безопасно передвигаться без водителя. Система определяет различные препятствия (светофоры, пешеходов, бордюры), а также оптимальный маршрут и скорость.
Анализ аудиоданных. Машинное обучение позволяет создавать условия для понимания компьютером смысла речи человека.
Оптимизация всех бизнес-процессов. Машинное обучение в различных областях промышленности, производства и торговли дает возможность управлять многими ключевыми аспектами деятельности. Это контроль качества выпускаемой продукции, автоматизация рутинных процессов, частичная или полная замена человеческого ресурса, минимизация простоев, аварий и т.д.

Только до 18.08

Скачай подборку материалов, чтобы гарантированно найти работу в IT за 14 дней

Список документов:

ТОП-100 площадок для поиска работы от GeekBrains

20 профессий 2023 года, с доходом от 150 000 рублей

Чек-лист «Как успешно пройти собеседование»

Чтобы получить файл, укажите e-mail:

Введите e-mail, чтобы получить доступ к документам

Подтвердите, что вы не робот,
указав номер телефона:

Введите телефон, чтобы получить доступ к документам

Уже скачали 52300

Я подтверждаю согласие на обработку персональных данных.

Обработка медицинских данных. Машинное обучение позволяет диагностировать онкологические заболевания или диабет, анализируя медицинские данные и вычленяя заданные признаки.

Какие задачи решает машинное обучение

Современные исследования в области искусственного интеллекта нацелены на наиболее эффективное использование данных и разработку систем глубокого обучения. Сегодня компьютерные системы обладают высокой производительностью.

Искусственный интеллект благодаря машинному обучению эффективно справляется с широким спектром задач: аналитика данных, прогнозирование, выбор оптимального варианта из имеющихся, поиск аномальных операций, принятие рациональных решений и многое другое.

Дарим скидку от 60%
на обучение «Аналитик больших данных» до 17 августа

Уже через 9 месяцев сможете устроиться на работу с доходом от 150 000 рублей

Забронировать скидку

Востребованы системы машинного обучения в сферах, где выполняется большое количество вычислительных операций. Это банковский скоринг (система оценки кредитоспособности лица), аналитика в маркетинге, статистике и демографии, бизнес-анализ и планирование, выбор инвестиционных стратегий, обнаружение фейковых новостей и мошеннических операций.

Рассмотрим на примерах, какое машинное обучение применяют крупные производители.

Международная компания-ритейлер «Леруа Мерлен» использует Big Data и Machine Learning с целью определения товарных остатков на складах.
Рекомендательные системы широко используются в сфере e-commerce и маркетинге для настройки сервисов и приложений.
Стриминговый сервис Spotify использует машинное обучение для персональных подборок музыки на основе личных предпочтений.
Китайский производитель роботов-пылесосов Ecovacs Robotics благодаря технологиям машинного обучения разработал функцию интеллектуальной уборки. Пылесос распознает посторонние предметы, например, провода.
Функция автоматического распознавания улыбки и использование голосовых команд применяется в камере на базе микрокомпьютера Raspberry Pi 3B+ с помощью фреймворка TensorFlow Light.
Использование в инвестировании позволяет проводить рыночную аналитику, мониторить актуальные новости, выбирать самые выгодные на данный момент активы и оценивать риски. Также машинное обучение дает возможность прогнозировать изменение рыночной стоимости акций и корректирует данные после важных новостей.
BarclayHedge провело исследование, показавшее, что больше половины хедж-фондов используют искусственный интеллект и машинное обучение для инвестиционных решений, а 2/3 — для разработки торговых идей и максимизации доходов с одновременным снижением рисков.
Благодаря технологиям машинного обучения осуществляются даже научные открытия. Например, нейросеть AlphaFold от DeepMind, принадлежащая Google, в 2020 году расшифровала механизм сворачивания белка. К слову, ученые-биологи не могли решить эту задачу более 50 лет.

Преимущества и недостатки машинного обучения

Рассмотрим плюсы и минусы моделей машинного обучения.

Основные преимущества:

Способность выявлять закономерности, тенденции и делать наиболее вероятные прогнозы, неочевидные на первый взгляд.
Осуществление определенного функционала без вмешательства человека. Например, использование машинного обученияв целях кибербезопасности позволяет защищать системы от взломов, утечки данных, вредоносного программного обеспечения. При этом не требуется участие специалиста.
Результаты становятся точнее по мере роста объема доступных данных.
Способность обрабатывать большие объемы различных данных в динамических системах.

Основные виды машинного обучения

Существующие алгоритмы машинного обучения разделяют на 2 основных вида: обучение с учителем (supervised learning) или без него (unsupervised learning). В обоих видах обучения компьютерной системе предоставляются исходные данные для аналитики и поиска закономерностей.

Согласно терминологии машинного обучения, учитель — это необязательно программист, который осуществляет контролирующие функции над работой машины. Это любое вмешательство человека в обработку данных.

Машинное обучение с учителем

Этот вид объединяет алгоритмы и методы построения моделей, основанные на большом количестве демонстрационных примеров. В них содержатся не только входные данные, но и выходные. Алгоритм относится к машинному обучению с учителем, если имеются независимые переменные и целевое значение, которое модель выделяет после обучения.

Например, система способна распознавать написанные от руки или фигурные цифры и соотнести их с конкретным числом. Проще говоря, обучение с учителем призвано подтвердить или опровергнуть ряд гипотез. Предполагается, что есть полный набор размеченных данных для тренировки модели машинного обучения.

Среди достоинств данного вида — простота структуры. Машинное обучение с учителем идеально подходит для задач с большим объемом достоверных данных. Оно используется в основном для классификации и регрессии.

В машинном обучении маркировка данных — это процесс идентификации входных данных с конкретными выходными значениями. Размеченные данные обязательно нужны для обучения с учителем. Пример маркировки: миллионы изображений котов и собак отмечены словами «кошка» и «собака». Различные приложения машинного обучения могут применять эти датасеты для угадывания названия животного по картинке. Нужно понимать, что маркировка огромного объёма данных — это крайне трудоемкий процесс.

Машинное обучение без учителя

Алгоритмы обучения данного вида используют неразмеченные данные. Нейронная сеть самостоятельно находит корреляции в данных, извлекает полезные признаки и анализирует их. Например, машинное обучение без учителя может подбирать похожие статьи с различных сайтов и группировать их по категориям: наука, спорт, инвестиции и т.д. Используется технология обработки естественного языка для интерпретации и понимания смысла и эмоций.

Машинное обучение без учителя в торговле позволяет найти общие признаки в покупках и проанализировать эти данные. Результат может быть таким: с большой вероятностью покупатель приобретёт хлеб, если покупает сливочное масло.

Эффективен данный алгоритм обучения для подбора ряда похожих данных и их группирования, обнаружения аномалий, ассоциаций. Настройка машинного обучения без учителя является достаточно простой. Данный алгоритм применим также для автоматической очистки входных данных для разработки модели. Среди недостатков этого вида машинного обучения то, что он не способен дать четкие прогнозы и выделить конкретные типы выходных данных.

Обучение нейросети с частичным привлечением учителя

Это золотая середина. Обучающий датасет содержит как размеченные, так и неразмеченные данные. Изначально небольшое количество данных с метками используется для машинного обучения. Далее алгоритм сам ставит метки на неразмеченные датасеты. Это так называемая псевдомаркировка. На заключительном этапе модель переобучается на размеченном датасете без очевидного программирования.

Достоинство такого вида машинного обучения заключается том, что не нужно большое количество данных с метками. Это очень удобно для длинных документов, медицинских изображений и т.п.

Обучение с подкреплением

Этот алгоритм предполагает определенные значения вознаграждений, которые привязаны к шагам. Обучение с подкреплением действует по принципу видеоигры. Данная модель машинного обучения преследует цель получить максимальное количество призовых баллов. Результаты использования обучения с подкреплением в играх во многом превосходят аналоги, сделанные вручную.

В контексте бизнеса обучение с подкреплением показывает недостаточную эффективность в связи с тем, что оно ориентировано на работу с неопределенными средами данных. Также присутствует элемент предвзятости разработчиков, программирующих награды.

Типы задач машинного обучения

Стандартно выделяют следующие ключевые задачи машинного обучения: классификация, регрессия, кластеризация и обработка естественного языка.

Классификация

В искусственном интеллекте и машинном обучении представляет собой разделение множества объектов на классы на основе определенного признака. Заданы метки классов для обучающего множества. Например, классификацию используют для того, чтобы определить, относится ли электронное письмо к спаму. Машинное обучение базируется на примере писем с метками. Классификация дает категориальный ответ, основываясь на наборе признаков.

Регрессия

Этот тип задач машинного обучения, основанный на зависимости случайной величины от одной или нескольких других случайных величин. Регрессия активно используется для решения различных бизнес-задач.

Это, прежде всего, прогнозирование. Например, можно определить стоимость на недвижимость, исходя из ее ключевых характеристик (количество комнат, этаж, ремонт, инфраструктура и т. д.). Модель обучается на данных, содержащих информацию о проданных объектах, и прогнозирует цену.

Кластеризация

Кластеризация — это объединение объектов в непересекающиеся группы, основанное на определенных признаках. Пример использования кластеризации — определение целевой аудитории, покупающей определенные товары. Модель обучается на базе данных о покупках. Она может сама группировать покупателей, имеющих схожие потребности.

Обработка естественного языка

Этот тип задач машинного обучения посредством аналитики текста извлекает важные данные. Он активно используется для определения, например, положительный или отрицательный отзыв о товаре или услуге. Модель обучается на базе отзывов и умеет определять их тональность.

Алгоритмы машинного обучения

Базовые алгоритмы машинного обучения находят широкое применение при решении ряда прикладных задач. Их знание необходимо для любого специалиста, занимающегося аналитикой данных и разработкой приложений искусственного интеллекта. Профессионал сможет выбрать наиболее подходящий алгоритм для решения поставленной задачи, разбираясь в их специфике.

Линейная регрессия

Это основополагающий алгоритм машинного обучения. Линейная регрессия представляет собой модель линейной зависимости одной переменной от другой или нескольких. Это легко интерпретируемая математическая формула, которая используется для предсказательной аналитики в различных сферах.

Логистическая регрессия

Этот алгоритм используется для анализа данных и поиска взаимосвязей между двумя факторами данных. Обычно берется бинарная логистическая регрессия для решения задач классификации. Они имеют 2 возможных результата.

Регрессионное дерево

Этот алгоритм используется с целью классификации и численного предсказания. Построение деревьев решений заключается в последовательном разбиении множества на подмножества. Разбивка на подмножества продолжается, пока все узлы в конце ветвей не станут листами.

Случайный лес

Это алгоритм используется для решения задач машинного обучения, таких как классификация, кластеризация, численное предсказание, поиск аномалий и т.д. Случайный лес состоит из большого количества деревьев решений. Используется случайность признаков при построении каждого отдельного дерева. Таким образом создаётся некоррелированный лес. Прогноз «комитета» точнее прогноза каждого отдельного дерева.

Примеры применения машинного обучения в реальной жизни

Применение в медицине

С точки зрения машинного обучения, пациенты — это объекты. Симптоматика заболеваний, анализы, история болезни, лечебный протокол — это признаки. Их можно классифицировать по категориям.

Бинарные признаки: пол, наличие или отсутствие того или иного симптома. Порядковый признак: степень тяжести заболевания. Количественные признаки: возраст, вес, ключевые показатели здоровья (артериальное давление, пульс и т.п.). Все перечисленные и другие необходимые данные загружаются в компьютер. Благодаря использованию машинного обучения решается широкий спектр задач. Среди них:

выявление основных симптомов, которые присущи заболеванию;
постановка диагноза на основании вычлененных данных;
подбор самой оптимальной тактики лечебной терапии;
прогноз развития заболевания, его длительности, перспектив выздоровления или ремиссии;
расчет наиболее вероятных осложнений.

Нет такого врача, который мог бы мгновенно проанализировать большой объем информации по каждому пациенту и тут же поставить диагноз, а также назначить наиболее эффективную лечебную терапию. Именно поэтому внедрение машинного обучения в медицине является очень актуальным и востребованным направлением.

Разведка и оценка местоположения полезных ископаемых

В данном случае признаками выступают данные, полученные благодаря геологической разведке. Признак бинарного вида — наличие в конкретном месте определенных полезных ископаемых. Количественными и качественными признаками будут выступать физические и химические свойства пород.

Для машинного обучения используются 2 типа данных: места, где находятся известные месторождения полезных ископаемых и места, имеющие схожие параметры, но без обнаруженных месторождений с полезными ископаемыми. Важно учитывать особенности добычи редких ископаемых. Часто число признаков больше месторождений, а значит, стандартные статистические методы не эффективны в данном случае.

Использование машинного обучения предполагает поиск закономерностей в уже имеющихся данных. Вычленяются самые информативные признаки или их группы, которые являются наиболее характерными для ответа на вопрос — имеются ли полезные ископаемые в определенном месте.

Если сравнить поиск месторождений с медициной, то определяются «симптомы» месторождений. В этой сфере открытия, сделанные с помощью машинного обучения, являются ценными не только с практической и финансовой точки зрения. Они чрезвычайно интересны с точки зрения науки геологии.

Оценка кредитоспособности и надежности заемщика

Каждый день в банки поступает большое количество заявок на выдачу кредита. Естественно, автоматизация процесса оценки платежеспособности заемщика является актуальной уже длительно время, начиная со второй половины XX века. Тогда в США и других странах стали активно внедряться кредитные карты.

В основном банки используют скоринговую систему оценки кредитоспособности заемщика. Объектами выступают лица, запрашивающие у банка заем. У физического или юридического лица будут разные признаки, которые формируются на основании анкеты, а также по другим банковским каналам.

Эти признаки можно разделить на бинарные (пол, контактный телефон), порядковые (занимаемая должность, какое образование), количественные (сумма займа, имеющиеся кредиты в других банках, возраст, семейное положение, заработная плата и иные источники дохода и т.п.), номинальные (ФИО, место работы, адрес).

Машинное обучение использует данные лиц, чья кредитная история известна. Заемщиков делят на классы. Условно говоря, выделяют «хороших» и «плохих». Естественно, что одобрение банк даёт только категории «хороших» заемщиков.

Использование машинного обучения позволяет автоматизировать рутинные задачи, эффективно управлять имеющимися ресурсами, развивать новые направления и находить дополнительные источники дохода, экономить время. Активное внедрение машинного обучения — это отличное решение для качественного преобразования работы бизнеса за счет оптимизации и автоматизации всех процессов.

Использование программного обеспечения по обработке и аналитике данных позволяет компаниям быстрее достигать поставленных целей: количественных, качественных и финансовых.

Автор статьи:

Редакция сайта GeekBrains Шеф-редактор раздела Программирование