Как мы разрабатывали систему для распознавания 700 тысяч человек — кейс российской компании

Полина Константинова

Фарид Нигматуллин, генеральный директор «ВидеоМатрикс», рассказал, как его компания разрабатывала решение для учета и идентификации более 700 тысяч человек, и поделился, с какими сложностями они столкнулись в процессе.

Как мы разрабатывали систему для распознавания 700 тысяч человек — кейс российской компании

Фарид Нигматуллин

Один раз в году город, что находится в 80 километрах от Красного моря, наполняется сотнями тысяч людей. Плотный поток прибывших следует определенному маршруту. Речь о Мекке и хадже — известном паломничестве мусульман к главной святыне ислама.

В прошлом году к нам поступил запрос на разработку системы учета и верификации людей в местах массовых мероприятий. Иными словами, нужна недорогая и четко работающая автоматизация на основе искусственного интеллекта и видеоаналитики, которая посчитает всех участников и проследит за их передвижением. 

Если быть точнее, необходимо проконтролировать, что все зашедшие в Запретную Мечеть паломники из нее вышли. В Мечеть аль-Харам обязательно стекаются все, совершающие хадж, чтобы помолиться и семь раз обойти Каабу — мусульманскую святыню в виде кубической постройки во внутреннем дворе мечети.

Узнайте, как повысить продажи с помощью таргетированной SMS-рекламы, в нашем материале.

С чем имеем дело?

Уточним немного контекста для понимания уровня сложности решаемой задачи. 

Хадж — это порядка 700 тысяч людей одновременно. Паломничество включает в себя строгие правила. В частности, одежда мусульман во время хаджа — ихрам — строго регламентирована. 

Мужчины надевают два простых белых покрывала: одно закрывает ноги от бедер до колен, а другое накидывается на левое плечо. Женщины надевают просторные белые одеяния и покрывают голову платком, чтобы видимыми остались только лицо, кисти рук и ступни ног. На практике ортодоксальные мусульманки могут оставлять открытыми только глаза, а мужчины —  добавлять элементы европейской одежды, солнечные очки и различные головные уборы. 

Мечеть имеет 48 входов: четыре главных с воротами и 44 второстепенных. Именно в мечети находится начальная и конечная точки обязательного маршрута паломника.  

Как это выглядит с точки зрения нейронной сети? Сотни тысяч однотипных, схожих между собой геометрических фигур, которые находятся в движении очень плотно друг к другу, не задерживающихся на прикладывании пальцев к считывателю отпечатков и тем более не использующие RFID-пропуски. Часть объектов — без лица, еще часть могут иметь физические недостатки. 

Напоминаем задачу для нейронной сети: точно увидеть на картинке объект, отделить его от других тысяч рядом, определить, проследить за ним в двух точках — идентифицировать на входе и узнать на выходе. Раздача средств учета вроде карт доступа или номеров неприемлема как в силу замедления движения и снижения комфорта человека, так и в силу высокой стоимости решения. 

Если бы искусственный интеллект был школьником, то учет и верификация паломников во время хаджа стали бы его олимпиадным заданием.

Технологии идентификации, их достоинства и недостатки

Чтобы идентифицировать и верифицировать — узнать человека с высокой достоверностью по набору атрибутов — необходимо использовать биометрическую аутентификацию. Каким из многочисленных способов биометрии с использованием видеоаналитики можно достичь желаемого результата? Рассмотрим наиболее популярные и примерим их на наш случай.

Ключевыми формальными показателями качества биометрических систем считаются два взаимосвязанных параметра. Для точности распознавания объекта, чем меньше процент — тем лучше:

    FRR (False Rejection Rate) — чувствительность, ложное отрицание («ошибка первого порядка»), вероятность, что будет исключен нужный человек. Иванова не признали за Иванова.

    FAR (False Acceptance Rate) — специфичность, ложное одобрение («ошибка второго порядка»), вероятность, что будет выбран другой человек. Иванова признали как Сидорова. 

Исключим сразу биометрическую аутентификацию по ДНК, голосу, почерку — их просто невозможно применить для верификации людей в потоке.

Более детально рассмотрим оставшиеся:

    Отпечатки пальцев. Очень точный метод, но контактный, а значит требующий дисциплины от паломников, а это непросто. Изящный папиллярный узор легко повредить и испортить порезами, шрамами и даже просто царапинами. Более того, он ухудшается с возрастом, не очень хорошо читается у некоторых этнических групп. Ухудшают качество считывания сухость кожи, нюансы температуры тела и даже незначительное  воздействие химических реактивов. FAR 0,001% и FRR 0,6%.

    Сетчатка глаза. Статистическая надежность этого метода также находится на высоком уровне с показателями FAR 0,001% и FRR 0,4%. Нюанс заключается в процессе сканирования — человек должен достаточно долго находиться неподвижно, а сложная оптическая система для сканирования стоит немалых денег.

    Акустические характеристики уха. Технология основана на резонировании звука в полости человеческого уха. Измерение акустических характеристик производится мгновенно. Метод имеет высокую скорость и точность распознавания. Характеристика является уникальной для каждого человека. Но работает с помощью наушников со встроенным микрофоном. Система вычисляет, как звук резонирует в ухе, — то есть акустике каждого уха. Метод не применим для потока.

    Рисунок вен на ладони. Любая из двух сторон руки снимается специальной инфракрасной камерой. Сам венозный рисунок формируется за счет поглощения ИК излучения гемоглобином. Надежность этой технологии сопоставима с той, что задействует радужную оболочку глаза. Имеет отличные показатели — FAR 0,0008% при FRR 0.01%. Метод  бесконтактный, но вновь требует дисциплины от паломников.  А часть возрастных заболеваний вроде артрита сильно ухудшают FAR и FRR. Для применения этого метода нужно исключить засветку сканера солнечными лучами.

    Геометрия кисти руки. В этом методе рассчитываются геометрические данные для рук типа длины пальцев или ширины ладони. Показатели FAR и FRR невысоки и доходят до единиц %%. Время обработки занимает от 2-х до 20-ти секунд, да и признаки руки меняются с возрастом. Метод контактен и требует дисциплины от паломников.

    Термограмма лица. В основе метода — рисунок лица, создаваемый тепловым излучением кровеносных сосудов и фиксируемый камерой. Кровоток имеет динамическую природу, могут появляться и пропадать вторичные кровеносные сосуды. Термограмма лица может изменяться под воздействием температурных условий окружающей среды, а также алкоголя. Метод нельзя отнести к хорошему качеству аутентификации, он применим скорее для оценки состояния человека, чем для верификации.

    Радужная оболочка глаза. Один из флагманов статистической надежности среди методов биометрии: FAR 10-7 при FRR 10-2.  Понадобится монохромная CCD-камера с небольшой подсветкой и чувствительностью к ИК-излучению — ближний ИК-диапазон с активной подсветкой. Зрачок под воздействием света меняет свой размер, поэтому делается серия фотографий. Съемка радужной оболочки производится на расстоянии от нескольких сантиметров до пяти метров. Метод обладает существенным преимуществом: у него единственного на максимальном уровне находятся такие параметры, как всеобщность, уникальность и стабильность. Радужная оболочка защищена от повреждений и неизменна во времени. Ее можно увидеть в ближнем ИК-диапазоне, а текстура не зависит от генома, что подтверждают эксперименты с однояйцевыми близнецами. 
    Однако есть и недостатки: время съема данных —  до 2-х секунд, не получится снять радужку у человека в солнцезащитных очках. В идеальных условиях для потока в 700 тысяч паломников можно достичь нулевых ошибок распознавания с FAR 10-10. Однако при некооперативных условиях, когда радужная оболочка видна под углом, вероятность ошибки возрастает до FAR 0,1% при FRR 0,1%.

    2D-распознавание лица. С применением глубоких нейронных сетей в течение последних двух лет достоверность результата растет. К счастью, отличается от методов-собратьев тем, что не нуждается в оборудовании высокой стоимости. Ориентировочные показатели FAR и RAR — 0,1% и 2,5% соответственно. Многое зависит от ракурса, разрешения, освещения, действий человека для маскирования данных лица. При качественном оборудовании можно распознавать на больших расстояниях от камеры. Сегодня алгоритмы уже устойчивы к изменениям мимики лица и даже наличию очков, бороды, вспомогательных маскирующих элементов. Идентификация возможна,  даже если часть лица закрыта накладной бородой, платком, медицинской повязкой или очками. Технологии для работы достаточно 14 ключевых точек: 10 маркеров для частей брови и области вокруг глаз, 1 маркер для носа и 3 маркера для губ.

    3D-распознавание лица производится целым ворохом разных способов. Переходным от 2D к 3D методом является тот, что собирает информацию о лице всего одной камерой. Один из методов — проецирование шаблона: камерой делаются кадры со скоростью десяток снимков в секунду. Затем над изображениями работает специальная программа. 3D-модель лица выстраивается по данным из снимка за минусов выделенных и удаленных помех вроде очков, бороды и прически. Антропометрические данные модели, выявленные в результате анализа, записываются в уникальный код для базы данных. При FAR 0.0047% FRR составляет 0,1%. Метод надежен примерно настолько же, насколько биометрия по отпечаткам, обладает низкой чувствительностью к сторонним факторам — борода, очки, освещение, поворот головы. Однако в числе недостатков числятся высокая цена оборудования и время обработки — в лучшем случае около 2 секунд.

    Походка. Позволяет идентифицировать человека, даже если его лицо будет скрыто. При этом для работы системы нужна камера, находящаяся не далее 50 метров от паломника. Решение основывается на уникальном «рисунке» походки: ритм, скорость и другие особенности передвижения. Сверточные нейронные сети позволяют построить модель скелета человека из порядка 19 элементов и контролировать их векторы перемещений. Скорость распознавания не превышает 200 миллисекунд. В нашем случае радует и то, что алгоритм способен идентифицировать до тысячи людей на площади в 1000 кв. м. Отличное дополнение к другим биометрическим методам.

Готовое решение

Что в итоге использовать для учета и верификации людей в таком огромном количестве на массовом мероприятии? Выбрать единый способ и надеяться на высокую достоверность затруднительно. А ведь еще необходимо учесть стоимость решения, его приемлемость и возможность технического применения на месте. 

Проанализировав все нюансы, «за» и «против» мы остановились на комплексе взаимодополняющих методов. Каскадное решение выполняет последовательную фильтрацию возможных вариантов, используя 2D-распознавание лица, радужную оболочку глаз, походку и контроль соотношения геометрических параметров тела по следующей схеме: 

На каждом этапе каскада из последовательного применения алгоритмов идет сужение выборки претендентов. Порог чувствительности распознавания выбирается для каждого этапа так, чтобы исключить ошибку первого рода — FRR. Указаны два сценария:  

пессимистичный — худшие из возможных показателей работы алгоритма;

оптимистичный — лучшие из возможных показателей. 

Пунктиром выделены этапы, которые в случае оптимистичного сценария не выполняются. Слева обозначено количество камер на участке. Всего их шесть: по три для входа для формирования шаблонных дескрипторов, по три для выхода для верификации.

Геометрические пропорции рассчитываются на основании параметров скелета: рост, ширина плеч, длина плеч, предплечий, размер талии. Также формируется набор из дополнительных признаков: цвета на одежде паломника, геометрия одежды, обуви и головных уборов. 

Дескриптор одежды при необходимости позволяет сократить возможные варианты. Обработка ведется централизованно, вся информация записывается в единой базе данных — это позволяет учесть вход и выход в любом месте. Общее число необходимых камер для решения 48*2*3 = 288.

***

Каждая задача, приходящая к нам в компанию, по-своему интересна. В каждом случае детально прорабатываем нюансы, анализируем контекст и разрабатываем кастомизированные улучшения для базовых продуктов видеоаналитики Vmx. И хотя разработанная концепция системы учета и верификации паломников на хадже не пошла в фактическую реализацию, расчет концепта, пожалуй, стал одним из самых увлекательных. На то оно и олимпиадное задание. 

Фото на обложке: Unsplash

Источник: rb.ru

Добавить комментарий