Получите бесплатно 4 курса для лёгкого старта работы в IT
Получить курсы бесплатно
ГлавнаяБлогЧто такое компьютерное зрение и какая от него польза
Что такое компьютерное зрение
14.11.2022
1 740
Время чтения: 16 минут

Что такое компьютерное зрение и какая от него польза

14.11.2022
1 740
Время чтения: 16 минут
Сохранить статью:
Сохранить статью:

Что это такое? Компьютерное зрение – это возможность анализировать видео, текст и картинки в ходе поиска по огромной базе. В роли последней может быть видеопоток с уличных камер видеонаблюдения, раздел «Яндекс.Картинки» или поисковик в целом.

Зачем нужно? Данная опция упрощает работу с огромным массивом данных. Благодаря ей можно просматривать лица прохожих на улице в поиске преступника, идентифицировать клиентов для предложения персональной скидки, сократить время на обработку данных. И это лишь малая часть того, что умеет компьютерное зрение.

В статье рассказывается:

  1. Что такое компьютерное зрение
  2. Задачи компьютерного зрения
  3. Как учится компьютер распознавать
  4. Для чего бизнесу компьютерное зрение
  5. Пройди тест и узнай, какая сфера тебе подходит:
    айти, дизайн или маркетинг.
    Бесплатно от Geekbrains

Что такое компьютерное зрение

Под компьютерным зрением (Computer Vision, CV) понимается сфера искусственного интеллекта, связанная с анализом и обработкой информации в графическом виде. Другими словами, это система, позволяющая компьютеру «видеть» фото- и видеоизображения.

Входные данные поступают с камеры, и затем они распознаются и классифицируются с помощью специализированных программ. При этом стоит задача не только идентифицировать отдельные объекты, присутствующие на картинке или фотографии, но и выделять их характеристики, например, эмоции, выраженные на лицах людей.

Как и человека, компьютер можно обучать, чтобы он мог за внешними образами «видеть» их значение. Технологии машинного обучения строятся на работе с массивами данных, позволяющими отобрать ключевые признаки и их комбинации для идентификации схожих объектов.

По результатам исследования аналитического агентства TAdviser, в период с 2018 по 2023 год объем российского рынка в данной сфере должен вырасти в пять раз и достигнуть отметки 38 млрд рублей. Наиболее востребованное компьютерное зрение по областям его применения: видеонаблюдение и безопасность (32 %), промышленность (17 %), медицина (14 %), торговля (10 %).

Задачи компьютерного зрения

Рассмотрим подробнее, как компьютерное зрение позволяет решать конкретные задачи.

Например, в настоящее время общедоступными стали сервисы по поиску изображений в Интернете. В основных поисковиках мы можем вводить запросы не только в текстовом виде, но и загрузив имеющееся изображение. Система будет искать аналогичные картинки в мировой паутине, и качество обработки запросов уже сейчас довольно высоко.

Узнай, какие ИТ - профессии
входят в ТОП-30 с доходом
от 210 000 ₽/мес
Павел Симонов - исполнительный директор Geekbrains
Павел Симонов
Исполнительный директор Geekbrains
Команда GeekBrains совместно с международными специалистами по развитию карьеры подготовили материалы, которые помогут вам начать путь к профессии мечты.
Подборка содержит только самые востребованные и высокооплачиваемые специальности и направления в IT-сфере. 86% наших учеников с помощью данных материалов определились с карьерной целью на ближайшее будущее!

Скачивайте и используйте уже сегодня:

Павел Симонов - исполнительный директор Geekbrains
Павел Симонов
Исполнительный директор Geekbrains
pdf иконка

Топ-30 самых востребованных и высокооплачиваемых профессий 2023

Поможет разобраться в актуальной ситуации на рынке труда

doc иконка

Подборка 50+ бесплатных нейросетей для упрощения работы и увеличения заработка

Только проверенные нейросети с доступом из России и свободным использованием

pdf иконка

ТОП-100 площадок для поиска работы от GeekBrains

Список проверенных ресурсов реальных вакансий с доходом от 210 000 ₽

pdf 3,7mb
doc 1,7mb
Уже скачали 27971 pdf иконка

В данном случае алгоритм работы поисковых роботов следующий. Изображения из Интернета разбиваются на элементы, каждому из которых присваивается некое цифровое значение – ключ. Точно так же обрабатывается и пользовательская картинка — она переводится в цифровую форму. После этого исходный ключ сопоставляется с тем, что есть в Интернете, и сравнения выводятся в качестве ответа на запрос пользователя.

Разумеется, нужно учитывать, что в Сети присутствуют миллиарды изображений, и для поддержания высокой производительности компьютерного зрения используются наиболее простые методы сравнения. Поэтому, если вы пытаетесь найти какое-то редкое фото, то поисковик может его не обнаружить. Но с учетом быстрого технического прогресса не вызывает сомнения, что возможности подобных систем будут расти.

Задачи компьютерного зрения
Задачи компьютерного зрения

Другие примеры практической пользы от компьютерного машинного зрения:

Распознавание текста

Наверняка, многим из вас уже доводилось пользоваться подобной функцией как специализированных программ, так и онлайн-сервисов. Сейчас достаточно сфотографировать текст, например, надпись на иностранном языке, и компьютер быстро преобразует информацию из графической в текстовую форму, а при необходимости выполнит и языковой перевод.

Биометрические данные

Распознавание людей может проводиться по нескольким характеристикам – дактилоскопии, идентификации по радужной оболочке глаз, по лицам. Наиболее интенсивно в последнее время развивается последнее направление.

Видеоаналитика

Число окружающих нас камер стремительно растет – на работе, в магазине, на улице и т. д. Большинство из них является элементами масштабной сети, скажем, камеры, устанавливаемые для контроля за соблюдением правил дорожного движения. Информация с них поступает в единый банк данных, после чего изображения анализируются.

Фото с дорожной камеры позволяет установить факт нарушения ПДД и идентифицировать номер автомобиля. Сходным образом работают камеры, установленные на улицах и в общественных местах, благодаря им возможна идентификация людей, попавших в объектив, даже в составе толпе.

Спутниковые снимки

Находящиеся на орбите спутники передают со своих камер информацию, с помощью которой решаются самые разнообразные задачи: улучшение карт, обнаружение природных явлений и т. п. Развивающие компьютерное зрение технологии быстро прогрессируют, и практически все процессы, связанные с обработкой спутниковой информации, теперь выполнятся автоматизированным способом.

Графические редакторы

Компьютерное зрение дает возможность не только распознавать изображение, например, фото, но и редактировать его. В наши дни применение подобных редакторов стало настолько распространенным, что базовые функции доступны даже в смартфонах – сразу после съемки вы можете подкорректировать картинку. Таким образом к сфере компьютерного зрения относятся и программы для редактирования графики.

3D-анализ

Здесь решаются более сложные задачи, чем в случае с обработкой двухмерных картинок. 3D-программы позволяют создавать объемные модели, причем исходную информацию могут давать обычные изображения, скажем, на основе фотографий здания, выполненных с разных ракурсов, конструируется его трехмерная форма.

Управление транспортным средством

Число датчиков, которыми оборудован современный автомобиль, растет, и, очевидно, недалек тот день, когда управление сможет осуществлять бортовой компьютер без какого-либо участия водителя. На воздушных и водных судах автопилоты с успехом используются уже давно.

Как учится компьютер распознавать

К примеру, необходимо научить компьютер находить изображения светофоров. Начинать следует с составления обучающей выборки, которая представляет собой коллекцию картинок. Выборка должна соответствовать ряду характеристик: быть довольно большой (обучение на 2-3 примерах не гарантирует надежный результат), репрезентативной (то есть отражающей природу данных, с которыми предстоит работа) и содержащей изображения как с присутствием, так и с отсутствием искомого элемента (понадобятся картинки и со светофором, и без него).

После составления и загрузки выборки начинается, собственно, машинное обучение. Система анализирует изображения в цифровом виде, определяя, какие признаки указывают на наличие данного элемента – светофора. После обучения осуществляется проверка компьютерного зрения с привлечением новых примеров. Если все прошло успешно, то можно констатировать, что компьютер научился замечать светофор и способен отыскать его на любой картинке.

Процесс обучения человека и машины отличается. Если мы оперируем визуальными образами, то компьютер получает информацию в цифровом виде. Для него картинка представляет собой набор пикселей, каждый из которых обладает значением яркости и цветности. Чтобы машина «поняла», что изображено, необходимо задействовать специальные алгоритмы.

Вначале на картинке определяются границы между предполагаемыми объектами. Для этого используются разные методы, в том числе алгоритм Difference of Gaussians (DoG, разность гауссиан). В этом случае исходная картинка несколько раз подвергается размытию по Гауссу, причем всякий раз берутся разные фильтры. Далее полученные результаты сопоставляются, чтобы выявить самые контрастные фрагменты, которые чаще всего оказываются границами между объектами.

После этого значимые места рисунка преобразуются в числовую форму. На выходе получается дескриптор – запись графического изображения в цифровом виде. Именно благодаря сравнению дескрипторов и происходит идентификация картинки с ее аналогом. Для создания дескрипторов, которыми оперирует компьютерное зрение, применяются различные алгоритмы—SIFT, SURF, HOG и другие.

Дескриптор изображения выражается большим рядом чисел, и если использовать полную запись, то сопоставление цифровых форм потребует значительных программных ресурсов. Поэтому для ускорения вычислений дескрипторы делятся на кластеры – группы. Эта операция носит называние кластеризация.

Дарим скидку от 60%
на курсы от GeekBrains до 05 мая
Уже через 9 месяцев сможете устроиться на работу с доходом от 150 000 рублей
Забронировать скидку

После кластеризации основная работа переносится на кластерный уровень, и этот переход от дескриптора к кластерам именуется квантованием. Сам же номер кластера обозначается как квантованный дескриптор. Квантование существенно ускоряет обработку данных.

Обращаясь к имеющимся в его распоряжении квантованным дескрипторам, компьютер распознает объекты и получает возможность сравнивать изображения. В описанном выше примере машина определяет, какие кластеры являются признаком присутствия заданного объекта – светофора.

После того как ключевые маркеры обнаружены, дальнейшая идентификация изображений не будет представлять для компьютерного зрения каких-либо проблем. Точно так же происходит поиск дубликатов на основании кластеров загруженной картинки.

Как учится компьютер распознавать
Как учится компьютер распознавать

Данный подход к обработке изображения является отнюдь не единственным, есть и другие технологии компьютерного зрения, использующие тот или иной алгоритм функционирования системы. К примеру, распознавание возможно путем применения нейронных сетей. Они выводят классифицирующие признаки графических объектов в ходе обучения. Есть специализированные методы для работы с отдельными разновидностями изображений, скажем, для чтения штрихкодов.

Для чего бизнесу компьютерное зрение

  • Обеспечение безопасности. Например, компьютерное зрение использовано в системе распознавания лиц, которая позволяет вычислить преступника, находящегося в розыске. Безопасность актуальна для любой сферы: от бизнес-центров и рабочих офисов до банков и супермаркетов.
  • Сервисное обслуживание. Скажем, быстрая идентификация клиента дает возможность сразу предложить ему персональные услуги.
  • Рост человеческих возможностей. Компьютер способен заметить то, что неподвластно человеческому зрению, к примеру, рентгеновские снимки в медицине или системы обнаружения брака на производственных линиях.
  • Уменьшение времени на выполнение рутинных задач. Если научить компьютер видеть, например, оценивать дорожную обстановку, то стандартные ситуации будут решаться им намного быстрее, чем человеком.
  • Автономность. Совершенствование роботов и беспилотного транспорта невозможно без CV.
Только до 6.05
Скачай подборку материалов, чтобы гарантированно найти работу в IT за 14 дней
Список документов:
ТОП-100 площадок для поиска работы от GeekBrains
20 профессий 2023 года, с доходом от 150 000 рублей
Чек-лист «Как успешно пройти собеседование»
Чтобы получить файл, укажите e-mail:
Введите e-mail, чтобы получить доступ к документам
Подтвердите, что вы не робот,
указав номер телефона:
Введите телефон, чтобы получить доступ к документам
Уже скачали 52300

Одно из самых перспективных направлений развития компьютерного зрения — цифровые технологии дополненной реальности (AR). Здесь на картину из реального мира накладываются виртуальные элементы, существующие только в цифровом, а не материальном виде. Например, наведя на строение камеру смартфона, мы можем получить о нем информацию (координаты, что здесь располагается и т. п.). Самый же эффектный способ применения компьютерного зрения в виде AR – это, конечно, игры.

Даже сейчас, когда компьютерное зрение, по сути, находится в зачаточном состоянии, оно способно на многое – распознавать лица, тексты и т. п. Сложно даже представить, каковы будут его возможности через несколько лет. Хотя машины не могут «видеть», как люди, технологии перевода визуальной информации в цифровую форму уже работают, и их дальнейший прогресс расширит сферу применения компьютерного зрения.

Как воплотить идеи в инновационных проектах? Научитесь основам машинного обучения и глубокого обучения, созданию нейронных сетей и анализу данных с интенсивным курсом разработчика искусственного интеллекта. В будущем ваше умение создавать умные и интуитивно понятные решения поможет улучшить мир.
Оцените статью
Рейтинг: 5
( голосов 1 )
Поделиться статьей
Добавить комментарий

Сортировать:
По дате публикации
По рейтингу
До конца акции осталось
0 дней 00:00:00
Получите бесплатно 3 курса для лёгкого старта работы в IT
  • Начни зарабатывать от 210 000 ₽ в ИТ-сфере
  • Работай там, где ты хочешь: дома, на море, и даже на концерте
Получить бесплатно
Забрать подарок

Получите подробную стратегию для новичков на 2023 год, как с нуля выйти на доход 200 000 ₽ за 7 месяцев

Подарки от Geekbrains из закрытой базы:
Осталось 17 мест

Поздравляем!
Вы выиграли 4 курса по IT-профессиям.
Дождитесь звонка нашего менеджера для уточнения деталей

Иван Степанин
Иван Степанин печатает ...