Что это такое? Компьютерное зрение – это возможность анализировать видео, текст и картинки в ходе поиска по огромной базе. В роли последней может быть видеопоток с уличных камер видеонаблюдения, раздел «Яндекс.Картинки» или поисковик в целом.
Зачем нужно? Данная опция упрощает работу с огромным массивом данных. Благодаря ей можно просматривать лица прохожих на улице в поиске преступника, идентифицировать клиентов для предложения персональной скидки, сократить время на обработку данных. И это лишь малая часть того, что умеет компьютерное зрение.
В статье рассказывается:
- Что такое компьютерное зрение
- Задачи компьютерного зрения
- Как учится компьютер распознавать
- Для чего бизнесу компьютерное зрение
-
Пройди тест и узнай, какая сфера тебе подходит:
айти, дизайн или маркетинг.Бесплатно от Geekbrains
Что такое компьютерное зрение
Под компьютерным зрением (Computer Vision, CV) понимается сфера искусственного интеллекта, связанная с анализом и обработкой информации в графическом виде. Другими словами, это система, позволяющая компьютеру «видеть» фото- и видеоизображения.
Входные данные поступают с камеры, и затем они распознаются и классифицируются с помощью специализированных программ. При этом стоит задача не только идентифицировать отдельные объекты, присутствующие на картинке или фотографии, но и выделять их характеристики, например, эмоции, выраженные на лицах людей.
По результатам исследования аналитического агентства TAdviser, в период с 2018 по 2023 год объем российского рынка в данной сфере должен вырасти в пять раз и достигнуть отметки 38 млрд рублей. Наиболее востребованное компьютерное зрение по областям его применения: видеонаблюдение и безопасность (32 %), промышленность (17 %), медицина (14 %), торговля (10 %).
Задачи компьютерного зрения
Рассмотрим подробнее, как компьютерное зрение позволяет решать конкретные задачи.
Например, в настоящее время общедоступными стали сервисы по поиску изображений в Интернете. В основных поисковиках мы можем вводить запросы не только в текстовом виде, но и загрузив имеющееся изображение. Система будет искать аналогичные картинки в мировой паутине, и качество обработки запросов уже сейчас довольно высоко.
входят в ТОП-30 с доходом
от 210 000 ₽/мес
Скачивайте и используйте уже сегодня:
Топ-30 самых востребованных и высокооплачиваемых профессий 2023
Поможет разобраться в актуальной ситуации на рынке труда
Подборка 50+ бесплатных нейросетей для упрощения работы и увеличения заработка
Только проверенные нейросети с доступом из России и свободным использованием
ТОП-100 площадок для поиска работы от GeekBrains
Список проверенных ресурсов реальных вакансий с доходом от 210 000 ₽
В данном случае алгоритм работы поисковых роботов следующий. Изображения из Интернета разбиваются на элементы, каждому из которых присваивается некое цифровое значение – ключ. Точно так же обрабатывается и пользовательская картинка — она переводится в цифровую форму. После этого исходный ключ сопоставляется с тем, что есть в Интернете, и сравнения выводятся в качестве ответа на запрос пользователя.
Разумеется, нужно учитывать, что в Сети присутствуют миллиарды изображений, и для поддержания высокой производительности компьютерного зрения используются наиболее простые методы сравнения. Поэтому, если вы пытаетесь найти какое-то редкое фото, то поисковик может его не обнаружить. Но с учетом быстрого технического прогресса не вызывает сомнения, что возможности подобных систем будут расти.
Другие примеры практической пользы от компьютерного машинного зрения:
Распознавание текста
Наверняка, многим из вас уже доводилось пользоваться подобной функцией как специализированных программ, так и онлайн-сервисов. Сейчас достаточно сфотографировать текст, например, надпись на иностранном языке, и компьютер быстро преобразует информацию из графической в текстовую форму, а при необходимости выполнит и языковой перевод.
Читайте также!
Биометрические данные
Распознавание людей может проводиться по нескольким характеристикам – дактилоскопии, идентификации по радужной оболочке глаз, по лицам. Наиболее интенсивно в последнее время развивается последнее направление.
Видеоаналитика
Число окружающих нас камер стремительно растет – на работе, в магазине, на улице и т. д. Большинство из них является элементами масштабной сети, скажем, камеры, устанавливаемые для контроля за соблюдением правил дорожного движения. Информация с них поступает в единый банк данных, после чего изображения анализируются.
Фото с дорожной камеры позволяет установить факт нарушения ПДД и идентифицировать номер автомобиля. Сходным образом работают камеры, установленные на улицах и в общественных местах, благодаря им возможна идентификация людей, попавших в объектив, даже в составе толпе.
Спутниковые снимки
Находящиеся на орбите спутники передают со своих камер информацию, с помощью которой решаются самые разнообразные задачи: улучшение карт, обнаружение природных явлений и т. п. Развивающие компьютерное зрение технологии быстро прогрессируют, и практически все процессы, связанные с обработкой спутниковой информации, теперь выполнятся автоматизированным способом.
Графические редакторы
Компьютерное зрение дает возможность не только распознавать изображение, например, фото, но и редактировать его. В наши дни применение подобных редакторов стало настолько распространенным, что базовые функции доступны даже в смартфонах – сразу после съемки вы можете подкорректировать картинку. Таким образом к сфере компьютерного зрения относятся и программы для редактирования графики.
3D-анализ
Здесь решаются более сложные задачи, чем в случае с обработкой двухмерных картинок. 3D-программы позволяют создавать объемные модели, причем исходную информацию могут давать обычные изображения, скажем, на основе фотографий здания, выполненных с разных ракурсов, конструируется его трехмерная форма.
Скачать файлУправление транспортным средством
Число датчиков, которыми оборудован современный автомобиль, растет, и, очевидно, недалек тот день, когда управление сможет осуществлять бортовой компьютер без какого-либо участия водителя. На воздушных и водных судах автопилоты с успехом используются уже давно.
Как учится компьютер распознавать
К примеру, необходимо научить компьютер находить изображения светофоров. Начинать следует с составления обучающей выборки, которая представляет собой коллекцию картинок. Выборка должна соответствовать ряду характеристик: быть довольно большой (обучение на 2-3 примерах не гарантирует надежный результат), репрезентативной (то есть отражающей природу данных, с которыми предстоит работа) и содержащей изображения как с присутствием, так и с отсутствием искомого элемента (понадобятся картинки и со светофором, и без него).
После составления и загрузки выборки начинается, собственно, машинное обучение. Система анализирует изображения в цифровом виде, определяя, какие признаки указывают на наличие данного элемента – светофора. После обучения осуществляется проверка компьютерного зрения с привлечением новых примеров. Если все прошло успешно, то можно констатировать, что компьютер научился замечать светофор и способен отыскать его на любой картинке.
Вначале на картинке определяются границы между предполагаемыми объектами. Для этого используются разные методы, в том числе алгоритм Difference of Gaussians (DoG, разность гауссиан). В этом случае исходная картинка несколько раз подвергается размытию по Гауссу, причем всякий раз берутся разные фильтры. Далее полученные результаты сопоставляются, чтобы выявить самые контрастные фрагменты, которые чаще всего оказываются границами между объектами.
После этого значимые места рисунка преобразуются в числовую форму. На выходе получается дескриптор – запись графического изображения в цифровом виде. Именно благодаря сравнению дескрипторов и происходит идентификация картинки с ее аналогом. Для создания дескрипторов, которыми оперирует компьютерное зрение, применяются различные алгоритмы—SIFT, SURF, HOG и другие.
Читайте также!
Дескриптор изображения выражается большим рядом чисел, и если использовать полную запись, то сопоставление цифровых форм потребует значительных программных ресурсов. Поэтому для ускорения вычислений дескрипторы делятся на кластеры – группы. Эта операция носит называние кластеризация.
на курсы от GeekBrains до 24 ноября
После кластеризации основная работа переносится на кластерный уровень, и этот переход от дескриптора к кластерам именуется квантованием. Сам же номер кластера обозначается как квантованный дескриптор. Квантование существенно ускоряет обработку данных.
После того как ключевые маркеры обнаружены, дальнейшая идентификация изображений не будет представлять для компьютерного зрения каких-либо проблем. Точно так же происходит поиск дубликатов на основании кластеров загруженной картинки.
Данный подход к обработке изображения является отнюдь не единственным, есть и другие технологии компьютерного зрения, использующие тот или иной алгоритм функционирования системы. К примеру, распознавание возможно путем применения нейронных сетей. Они выводят классифицирующие признаки графических объектов в ходе обучения. Есть специализированные методы для работы с отдельными разновидностями изображений, скажем, для чтения штрихкодов.
Для чего бизнесу компьютерное зрение
- Обеспечение безопасности. Например, компьютерное зрение использовано в системе распознавания лиц, которая позволяет вычислить преступника, находящегося в розыске. Безопасность актуальна для любой сферы: от бизнес-центров и рабочих офисов до банков и супермаркетов.
- Сервисное обслуживание. Скажем, быстрая идентификация клиента дает возможность сразу предложить ему персональные услуги.
- Рост человеческих возможностей. Компьютер способен заметить то, что неподвластно человеческому зрению, к примеру, рентгеновские снимки в медицине или системы обнаружения брака на производственных линиях.
- Уменьшение времени на выполнение рутинных задач. Если научить компьютер видеть, например, оценивать дорожную обстановку, то стандартные ситуации будут решаться им намного быстрее, чем человеком.
- Автономность. Совершенствование роботов и беспилотного транспорта невозможно без CV.
Одно из самых перспективных направлений развития компьютерного зрения — цифровые технологии дополненной реальности (AR). Здесь на картину из реального мира накладываются виртуальные элементы, существующие только в цифровом, а не материальном виде. Например, наведя на строение камеру смартфона, мы можем получить о нем информацию (координаты, что здесь располагается и т. п.). Самый же эффектный способ применения компьютерного зрения в виде AR – это, конечно, игры.
Даже сейчас, когда компьютерное зрение, по сути, находится в зачаточном состоянии, оно способно на многое – распознавать лица, тексты и т. п. Сложно даже представить, каковы будут его возможности через несколько лет. Хотя машины не могут «видеть», как люди, технологии перевода визуальной информации в цифровую форму уже работают, и их дальнейший прогресс расширит сферу применения компьютерного зрения.