Разное

Что такое компьютерное зрение и какая от него польза

Дата публикации: 14.11.2022

2 644

Время чтения: 16 минут

Дата обновления: 15.12.2023

Автор статьи:

Редакция сайта GeekBrains Шеф-редактор раздела Программирование

В статье рассказывается:

Что это такое? Компьютерное зрение – это возможность анализировать видео, текст и картинки в ходе поиска по огромной базе. В роли последней может быть видеопоток с уличных камер видеонаблюдения, раздел «Яндекс.Картинки» или поисковик в целом.

Зачем нужно? Данная опция упрощает работу с огромным массивом данных. Благодаря ей можно просматривать лица прохожих на улице в поиске преступника, идентифицировать клиентов для предложения персональной скидки, сократить время на обработку данных. И это лишь малая часть того, что умеет компьютерное зрение.

В статье рассказывается:

Что такое компьютерное зрение
Задачи компьютерного зрения
Как учится компьютер распознавать
Для чего бизнесу компьютерное зрение
Пройди тест и узнай, какая сфера тебе подходит:
айти, дизайн или маркетинг.

Бесплатно от Geekbrains

Что такое компьютерное зрение

Под компьютерным зрением (Computer Vision, CV) понимается сфера искусственного интеллекта, связанная с анализом и обработкой информации в графическом виде. Другими словами, это система, позволяющая компьютеру «видеть» фото- и видеоизображения.

Входные данные поступают с камеры, и затем они распознаются и классифицируются с помощью специализированных программ. При этом стоит задача не только идентифицировать отдельные объекты, присутствующие на картинке или фотографии, но и выделять их характеристики, например, эмоции, выраженные на лицах людей.

Как и человека, компьютер можно обучать, чтобы он мог за внешними образами «видеть» их значение. Технологии машинного обучения строятся на работе с массивами данных, позволяющими отобрать ключевые признаки и их комбинации для идентификации схожих объектов.

По результатам исследования аналитического агентства TAdviser, в период с 2018 по 2023 год объем российского рынка в данной сфере должен вырасти в пять раз и достигнуть отметки 38 млрд рублей. Наиболее востребованное компьютерное зрение по областям его применения: видеонаблюдение и безопасность (32 %), промышленность (17 %), медицина (14 %), торговля (10 %).

Задачи компьютерного зрения

Рассмотрим подробнее, как компьютерное зрение позволяет решать конкретные задачи.

Например, в настоящее время общедоступными стали сервисы по поиску изображений в Интернете. В основных поисковиках мы можем вводить запросы не только в текстовом виде, но и загрузив имеющееся изображение. Система будет искать аналогичные картинки в мировой паутине, и качество обработки запросов уже сейчас довольно высоко.

Узнай, какие ИТ - профессии
входят в ТОП-30 с доходом
от 210 000 ₽/мес

Павел Симонов

Исполнительный директор Geekbrains

Команда GeekBrains совместно с международными специалистами по развитию карьеры подготовили материалы, которые помогут вам начать путь к профессии мечты.

Подборка содержит только самые востребованные и высокооплачиваемые специальности и направления в IT-сфере. 86% наших учеников с помощью данных материалов определились с карьерной целью на ближайшее будущее!

Скачивайте и используйте уже сегодня:

Павел Симонов

Исполнительный директор Geekbrains

Топ-30 самых востребованных и высокооплачиваемых профессий 2023

Поможет разобраться в актуальной ситуации на рынке труда

Подборка 50+ бесплатных нейросетей для упрощения работы и увеличения заработка

Только проверенные нейросети с доступом из России и свободным использованием

ТОП-100 площадок для поиска работы от GeekBrains

Список проверенных ресурсов реальных вакансий с доходом от 210 000 ₽

pdf 3,7mb

doc 1,7mb

Уже скачали 35788

В данном случае алгоритм работы поисковых роботов следующий. Изображения из Интернета разбиваются на элементы, каждому из которых присваивается некое цифровое значение – ключ. Точно так же обрабатывается и пользовательская картинка — она переводится в цифровую форму. После этого исходный ключ сопоставляется с тем, что есть в Интернете, и сравнения выводятся в качестве ответа на запрос пользователя.

Разумеется, нужно учитывать, что в Сети присутствуют миллиарды изображений, и для поддержания высокой производительности компьютерного зрения используются наиболее простые методы сравнения. Поэтому, если вы пытаетесь найти какое-то редкое фото, то поисковик может его не обнаружить. Но с учетом быстрого технического прогресса не вызывает сомнения, что возможности подобных систем будут расти.

Другие примеры практической пользы от компьютерного машинного зрения:

Распознавание текста

Наверняка, многим из вас уже доводилось пользоваться подобной функцией как специализированных программ, так и онлайн-сервисов. Сейчас достаточно сфотографировать текст, например, надпись на иностранном языке, и компьютер быстро преобразует информацию из графической в текстовую форму, а при необходимости выполнит и языковой перевод.

Биометрические данные

Распознавание людей может проводиться по нескольким характеристикам – дактилоскопии, идентификации по радужной оболочке глаз, по лицам. Наиболее интенсивно в последнее время развивается последнее направление.

Видеоаналитика

Число окружающих нас камер стремительно растет – на работе, в магазине, на улице и т. д. Большинство из них является элементами масштабной сети, скажем, камеры, устанавливаемые для контроля за соблюдением правил дорожного движения. Информация с них поступает в единый банк данных, после чего изображения анализируются.

Фото с дорожной камеры позволяет установить факт нарушения ПДД и идентифицировать номер автомобиля. Сходным образом работают камеры, установленные на улицах и в общественных местах, благодаря им возможна идентификация людей, попавших в объектив, даже в составе толпе.

Спутниковые снимки

Находящиеся на орбите спутники передают со своих камер информацию, с помощью которой решаются самые разнообразные задачи: улучшение карт, обнаружение природных явлений и т. п. Развивающие компьютерное зрение технологии быстро прогрессируют, и практически все процессы, связанные с обработкой спутниковой информации, теперь выполнятся автоматизированным способом.

Графические редакторы

Компьютерное зрение дает возможность не только распознавать изображение, например, фото, но и редактировать его. В наши дни применение подобных редакторов стало настолько распространенным, что базовые функции доступны даже в смартфонах – сразу после съемки вы можете подкорректировать картинку. Таким образом к сфере компьютерного зрения относятся и программы для редактирования графики.

3D-анализ

Здесь решаются более сложные задачи, чем в случае с обработкой двухмерных картинок. 3D-программы позволяют создавать объемные модели, причем исходную информацию могут давать обычные изображения, скажем, на основе фотографий здания, выполненных с разных ракурсов, конструируется его трехмерная форма.

Чтобы получить файл, укажите e-mail: Подтвердите, что вы не робот, указав номер телефона:

Я подтверждаю согласие на обработку персональных данных

Управление транспортным средством

Число датчиков, которыми оборудован современный автомобиль, растет, и, очевидно, недалек тот день, когда управление сможет осуществлять бортовой компьютер без какого-либо участия водителя. На воздушных и водных судах автопилоты с успехом используются уже давно.

Как учится компьютер распознавать

К примеру, необходимо научить компьютер находить изображения светофоров. Начинать следует с составления обучающей выборки, которая представляет собой коллекцию картинок. Выборка должна соответствовать ряду характеристик: быть довольно большой (обучение на 2-3 примерах не гарантирует надежный результат), репрезентативной (то есть отражающей природу данных, с которыми предстоит работа) и содержащей изображения как с присутствием, так и с отсутствием искомого элемента (понадобятся картинки и со светофором, и без него).

После составления и загрузки выборки начинается, собственно, машинное обучение. Система анализирует изображения в цифровом виде, определяя, какие признаки указывают на наличие данного элемента – светофора. После обучения осуществляется проверка компьютерного зрения с привлечением новых примеров. Если все прошло успешно, то можно констатировать, что компьютер научился замечать светофор и способен отыскать его на любой картинке.

Процесс обучения человека и машины отличается. Если мы оперируем визуальными образами, то компьютер получает информацию в цифровом виде. Для него картинка представляет собой набор пикселей, каждый из которых обладает значением яркости и цветности. Чтобы машина «поняла», что изображено, необходимо задействовать специальные алгоритмы.

Вначале на картинке определяются границы между предполагаемыми объектами. Для этого используются разные методы, в том числе алгоритм Difference of Gaussians (DoG, разность гауссиан). В этом случае исходная картинка несколько раз подвергается размытию по Гауссу, причем всякий раз берутся разные фильтры. Далее полученные результаты сопоставляются, чтобы выявить самые контрастные фрагменты, которые чаще всего оказываются границами между объектами.

После этого значимые места рисунка преобразуются в числовую форму. На выходе получается дескриптор – запись графического изображения в цифровом виде. Именно благодаря сравнению дескрипторов и происходит идентификация картинки с ее аналогом. Для создания дескрипторов, которыми оперирует компьютерное зрение, применяются различные алгоритмы—SIFT, SURF, HOG и другие.

Для чего бизнесу компьютерное зрение

Обеспечение безопасности. Например, компьютерное зрение использовано в системе распознавания лиц, которая позволяет вычислить преступника, находящегося в розыске. Безопасность актуальна для любой сферы: от бизнес-центров и рабочих офисов до банков и супермаркетов.
Сервисное обслуживание. Скажем, быстрая идентификация клиента дает возможность сразу предложить ему персональные услуги.
Рост человеческих возможностей. Компьютер способен заметить то, что неподвластно человеческому зрению, к примеру, рентгеновские снимки в медицине или системы обнаружения брака на производственных линиях.
Уменьшение времени на выполнение рутинных задач. Если научить компьютер видеть, например, оценивать дорожную обстановку, то стандартные ситуации будут решаться им намного быстрее, чем человеком.
Автономность. Совершенствование роботов и беспилотного транспорта невозможно без CV.

Только до 23.03

Скачай подборку материалов, чтобы гарантированно найти работу в IT за 14 дней

Список документов:

ТОП-100 площадок для поиска работы от GeekBrains

20 профессий 2023 года, с доходом от 150 000 рублей

Чек-лист «Как успешно пройти собеседование»

Чтобы получить файл, укажите e-mail:

Введите e-mail, чтобы получить доступ к документам

Подтвердите, что вы не робот,
указав номер телефона:

Введите телефон, чтобы получить доступ к документам

Уже скачали 52300

Я подтверждаю согласие на обработку персональных данных.

Одно из самых перспективных направлений развития компьютерного зрения — цифровые технологии дополненной реальности (AR). Здесь на картину из реального мира накладываются виртуальные элементы, существующие только в цифровом, а не материальном виде. Например, наведя на строение камеру смартфона, мы можем получить о нем информацию (координаты, что здесь располагается и т. п.). Самый же эффектный способ применения компьютерного зрения в виде AR – это, конечно, игры.

Даже сейчас, когда компьютерное зрение, по сути, находится в зачаточном состоянии, оно способно на многое – распознавать лица, тексты и т. п. Сложно даже представить, каковы будут его возможности через несколько лет. Хотя машины не могут «видеть», как люди, технологии перевода визуальной информации в цифровую форму уже работают, и их дальнейший прогресс расширит сферу применения компьютерного зрения.

Как воплотить идеи в инновационных проектах? Научитесь основам машинного обучения и глубокого обучения, созданию нейронных сетей и анализу данных с интенсивным курсом разработчика искусственного интеллекта. В будущем ваше умение создавать умные и интуитивно понятные решения поможет улучшить мир.

Автор статьи:

Редакция сайта GeekBrains Шеф-редактор раздела Программирование