2.Распознавание динамических жестов - (1) 30-я КОНФЕРЕНЦИЯ МОЛОДЫХ УЧЕНЫХ И СПЕЦИАЛИСТОВ ИППИ Р

Современные тенденции принятия управляющих решений на основе

жеста может быть определено как процесс установления сходства вновь выполненных жестов, которые называют распознаваемыми, со структурой (моделями) известных жестов, называемых обычно эталонными. Каждый эталонный жест отражает какие-то характерные черты класса схожих жестов.

Считая, что жест – это не только совокупность прошлых положений и позиций руки, но и информация об их изменении, жесты могут быть разделены на статические и динамические. То есть, в отличии от статических, динамические жесты выполняются путем перемещения какой-либо части тела человека во времени и пространстве.

Системы распознавания статических жестов строятся на основе: проверки совпадения с шаблоном, оценки геометрических характеристик, простых нейронных сетей.

Системы распознавания динамических жестов учитывают временные значения, обычно с помощью моделей оптического потока, Скрытых Марковских моделей, динамических нейронных сетей, байесовских сетей.

В данной работе будут рассматриваться только динамические системы распознавания жеста. Так как, с помощью динамического жеста можно более естественно передать многие команды управления интерфейсом компьютера или робота, такие как: вверх, вниз, левее, поворот. Динамические жесты легче распознать при неоднородной текстуре фона и различном освещении. Кроме того, поскольку динамические жесты осуществляются во времени, то появляется возможность наблюдать за параметрами жеста как функциями времени, что дает дополнительную информацию, увеличивающую точность и надежность распознавания.

В общих чертах все системы распознавания жестов содержат компоненты, функциональное назначение которых можно представить как [24,2]:

1.Предварительная обработка изображения (захват): для захвата кадра изображения, используются цифровые видеокамеры. На этом этапе также решается задача подготовки видео кадров для дальнейшего анализа, подавление шума, извлечение важных значений о позиции рук и перевод их символьную форму. Этот шаг часто называется выделение первых признаков.

2.Отслеживание: На основе предварительной обработки, позиция и возможно другие атрибуты рук, прослеживаются от кадра к кадру. Этот шаг нужен для отделения движущейся руки от фона и от других движущихся объектов, и для извлечения информации о движении для распознавания динамических жестов.

3.Распознавание жеста: Обычно основывается на наборе позиций, перемещений и ключевых позах руки, чтобы решить, выполнил человек значимое движение или нет. И совпадает ли это движение с жестами на которых система обучалась.

3. Современные системы распознавания жестов

Рассмотрим основные программные приложения распознавания жестов отражающие тенденции принятия решения на основе анализа жестов.

Система компьютерного зрения “Симон Говорит” создает интерактивное окружение для детей [9]. Распознавание жестов в ней основывается на модели оптического потока и позволяет достичь распознавания в реальном времени. Оптическим потоком называется двумерное векторное поле вычисленное из двух или более последовательных кадров изображения, которое отражает актуальное или наиболее вероятное смещение точек изображения от кадра к кадру[7].

Система обрабатывает 15 кадр/сек, каждый кадр размером 160x120 пикселей. Различные параметры жеста, например частота, оценивается из контекстной информации. В данном случае это знания о движении других частей тела. Части тела представлены в виде эллипсов, движение которых отслеживается в разных направлениях.

Основные жесты представлены на рисунке 1. Для улучшения работы программы входные изображения переводятся в цветовое пространство YUV(Y - яркость; U - цветность синего; V - цветность красного).

Увеличение скорости обработки входного видеопотока достигается наложением маски.

Например, M’(x,y,t+1)=M(x,y,t-1) M(x,y,t).

Положение руки (x,y) в момент времени t+1 может быть предсказана, зная положение руки в моменты t и t-1.

Рис. 1. Основные жесты: а) колебание б) вверх вниз в) марш г) аплодисменты д)

барабан е) крылья

К недостаткам системы можно отнести требование к относительно статическому фону и медленно изменяющимся уровню освещения.

Распознаваемые жесты представляют собой простые движения вверх/вниз, вправо/влево.

Следующая работа основывается на предыдущей, но преодолевает указанные недостатки [5].

Предложен метод одновременной локализации и распознавания жестов руки. По сути, это метод динамической пространственно-временной трансформации, который выравнивает векторы движения по определенным временным сериям.

Метод может предоставлять многочисленные векторы движения на каждом временном шаге.

Для каждого кадра последовательности, генерируется множество областей, где предположительно находится рука (рисунок

2(а)). Метод использует динамическое

программирование чтобы вычислить: во-первых, оценку совпадения, которая используется для распознавания выполненного жеста, и во-вторых, деформированную траекторию жеста, с помощью которой выравниваются векторы движения по времени и в каждом кадре находятся области изображения, которые скорее всего содержат руку человека выполняющего жест.

(а)

(б)

Рис. 2. а) определение кандидатов позиции руки б) гибкость распознавания

Приложение тестировалось разными людьми, в том числе одетых в короткие рубашки. Жесты представляли собой цифры. Цифры рисовались рукой на фоне, содержащем объекты не являющимися руками, но по цвету схожими с цветом кожи (рисунок 2(б)).

Предлагаемая система для распознавания жеста может использовать алгоритмы захвата и отслеживания руки не только по движению, но и по цвету кожи. Жест может выполняться в любой части изображения, в отличие от Скрытых Марковских моделей не требуется большая обучающая выборка. Данные свойства обеспечивают гибкость, желательную в программах обеспечивающих интерфейс человек-компьютер. Но к недостаткам системы относятся: требование нахождения пользователя фронтально и сидя перед камерой. Система должна знать о стартовой и конечной точке

выполнения каждого жеста, что конечно не приемлемо в реальных системах.

Интересным направлением развития систем распознающих жесты человека является автоматическое распознавание жестов глухонемых. В работе [19] описывается система, основанная на Скрытых Марковских моделях, распознающая сорок слов американского языка глухонемых в реальном времени. Скрытую Марковскую модель λ=(^A,^B,π) можно представить в виде графа, где вершины графа – это набор N состояний S=

{

S₁,S₂,S₃,...SN

}

, соединенные дугами - возможными переходами, A – матрица вероятностей переходов между состояниями, B – распределение вероятностей соответствующей наблюдениями для каждого состояния, – начальное распределение вероятностей [26].

Жесты “захватываются” используя единственную цветную камеру установленную на столе. Информация о движении рук извлекается на основе определения цвета. Распознаваемые сорок слов рассматриваются в некотором контексте. В этом случае, слово соответствует форме личного местоимения или форме глагола, существительного, прилагательного. Проведены два эксперимента, в первом случае на пользователе были надеты перчатки определенного цвета, точность распознавания достигла 99%. Во втором эксперименте перчатки не использовались и точность достигла 92%. Но ошибка возрастала при попытке расширить число распознаваемых слов.

В [22] распознавание языка глухонемых с использованием Скрытых Марковских моделей было построено на основе нескольких видеокамер, позволяющих получать трехмерную информацию о сцене. Словарный запас содержит пятьдесят три символа. Данные эксперименты доказывают, что используя трехмерную информацию можно расширить словарный запас системы и увеличить точность распознавания. Для разных типов движения достаточно двухмерной информации (классификация), а трехмерные данные как бы заполняют пропущенные промежутки (интерполяция). Эту идею развивают в работе по распознаванию жестов основанном на методе главных компонент [20]. Огромное внимание уделяется движению каждого пальца и установлению зависимости позиции этого пальца с положением кисти в целом. Например, при переходе из одного символа языка глухонемых в другой пальцы всегда будут двигаться в строго определенной последовательности (рисунок 3).

Рис. 3 Последовательный переход начинается с большого пальца

Но одной из важнейших проблем распознавания языка глухонемых является создание обучающей выборки. Проблема заключается в том что, при обучении универсальной, высокоуровневой модели распознавания, она “зацикливается” на конкретного пользователя. Система успешно распознает жесты пользователя, который ее обучал, но при тестировании новыми пользователями выдает ошибки.

Часто для увеличения выборки используются зеркально отражённые по вертикали изображения. Это позволяет учесть более широкий диапазон ракурсов. В качестве начальной инициализации модели используются все изображения из тренировочного набора. А информацию о цвете, расширяют формированием выборки на основе собранной информации о движении и представляемой в виде последовательности дискретных символов.

Динамическая нейронная сеть распознавания японского языка глухонемых состоит из четырехсот нейронов [16]. Искусственные нейронные сети — совокупность моделей биологических нейронных сетей. Они представляют собой сеть элементов — искусственных нейронов — связанных между собой синоптическими соединениями. Сеть обрабатывает входную информацию и в процессе изменения своего состояния во времени формирует совокупность выходных сигналов.

Классическая архитектура многослойной нейронной сети состоит из последовательно соединённых слоёв, где нейрон каждого слоя своими входами связан со всеми нейронами предыдущего слоя, а выходами - следующего.

Для распознавания жестов используются рекуррентные нейронные сети или динамические нейронные сети, получающие на вход данные в момент времени t0 и t1 [3].

Система распознает сорок символов и достигает точности в 96% для людей которые обучали сеть и 77% процентов для пользователей не входящих в обучающую выборку. Не всегда используются такие большие сети, одним из вариантов является несколько маленьких нейронных сетей, по двадцать нейронов, для каждого жеста.

Многие классы изображений имеют статические зависимости значений пикселей в определенной части изображения. Эти данные

позволяют построить классификатор учитывающий эти прямые зависимости. В работе [23] используются байсовские сети. Байесовые сети — это инструмент для решения проблем неопределенности, в которых регулируются информационные потоки, они представляют собой графовые модели вероятностных и причинно-следственных отношений между переменными в статистическом информационном моделировании [10]. Другими словами, байесовые сети это ациклический граф, вершины представляют собой случайные переменные, а дуги – вероятностные зависимости, которые определяются через таблицы условных вероятностей и правило Байеса. Таблица условных вероятностей каждой вершины содержит вероятности состояний этой вершины при условии состояний её “родителей”.

Подобрана архитектура сети и сделаны попытки уменьшить сложность обучения. Но для распознавания жестов в реальном времени приложение работает медленно, более эффективно удалось использовать данную модель для нахождения лиц на изображении [11].

Кроме рассмотренных, список основных систем распознавания жестов приведен в таблице 1.

Подводя итог, современные тенденции принятия решений на основе распознавания жестов человека можно классифицировать на три группы:

1.Естественный интерфейс человек-

компьютер.

Сюда можно отнести управление не только курсором мыши на экране монитора, но и различные виды виртуальной клавиатуры, управление роботами посредством мультимодальных интерфейсов, дополняющих жесты речевыми командами.

2.Автоматичесий перевод жестов глухонемых.

Коммуникация как между людьми, возможно иностранцами, так и перевод компьютером выполненных пользователем жестов в обучающих программах.

3.Различные приложения виртуальной

реальности.

В игровых приложениях для детей и взрослых, приложениях позволяющих увидеть, почувствовать и манипулировать с объектами несуществующей реальности.

4. Заключение

В данной статье рассмотрены основные системы распознавания динамических жестов с учетом использующихся моделей распознавания.

Хотя, многие системы уже сегодня нашли практическое применение в разных областях индустрии информационных технологий, анализ

современных систем распознавания жестов и тенденций принятия решений на основе распознавания жестов выявил следующие недостатки систем:

1.Алгоритмы захвата и отслеживания

руки/кисти человека в видеопотоке требуют специальных маркеров на теле человека, сенсорных перчаток. Работают с простым фоном и фиксированным освещением.

2.Сложность обучения. Необходимо

подобрать множество параметров и сформировать корректную, полную обучающую выборку. Обучающая выборка должна учесть все возможные значения параметров окружающей среды. Не всегда есть возможность создать такую выборку, в частности очень сложно для систем, имеющих широкую коммерческую реализацию на рынке.

3.Высокая сложность вычислений, иногда не позволяющая проводить распознавание в

реальном времени, требующая больших затрат процессорного времени и памяти персонального компьютера. Требует приобретения дополнительного оборудования для правильного функционирования.

Поэтому необходимо отметить, что распознавание жестов это не тривиальная задача, здесь используются различные алгоритмы искусственного интеллекта и машинного обучения. Но можно предположить, что дальнейшее развитие этих систем распознавания будет связано с распознаванием групп жестов как последовательностных процессов, выявление и описание логических отношений между жестами. А также будут учитываться новые достижения в области кинесики, физиолингвистики, дактилологии.

Таблица 1

Современные системы распознавания жестов Название системы Автор /

год разработки

Модель распознавания/

замечания

Словарный запас Пространственный

Интерфейс [17]

Сеген/

1998

Конечные автоматы/ отслеживались позиция и положение пальцев

3 жеста: указание, щелчок, захват Говард [18] Сискинд/

1998 Скрытые Марковские модели/ руки и объекты рассматривались как эллипсы

манипулятивных жестов

Виртуальная манипуляция [21]

Утсуми/

1999

Трехмерная модель/ реконструкция объекта, отслеживались по совпадению формы

8 жестов

Распознавание жестов рук

[25] Ву/

2000 Мультидискриминантный

анализ/Описание внешней формы, байесовский классификатор

14 жестов

Виртуальная панель [28] Жанг/

2001 Состояния/ отслеживаются пальцы, рассчитывается продолжительность жеста

2 жеста:

захватить, перетащить Жесты [12] Малассиотис/

2002

k-ближайших соседей/несколько камер, глубина изображения

20 жестов греческого языка глухонемых

Ханой [13] Миннен/

2003

Стохастическая грамматика/ игровое приложение, объекты и руки в виде эллипсов

3 жеста: взять, положить, двигаться Непрерывные знаки [27] Ю/

2004

Скрытые Марковские модели и нейронные сети/ несколько камер, специальные сенсоры, высокая степень распознавания

6 основных жестов

Жестовые слова [8] Корсо/

2005

Скрытые Марковские модели / объединение статических и динамических жестов

10 жестов

Жестовой язык коммуникации [14]

Онг/

2006 Байесовские сети/

Эксперименты по уменьшению обучающей выборки и адаптации к новым пользователям

20 жестов корейского языка глухонемых

5. Список литературы

[1] Григорьева Е.В., “Обучение невербальным компонентам иноязычного общения (жестовый комплекс)”, Университетские чтения. Симпозиум 1. Сек. № 1-20. Актуальные проблемы языкознания и литературы, 2006.-с. 1-3.

[2] Девятков В.В., Алфимцев А.Н., “Распознавание манипулятивных жестов”, Вестник МГТУ им.

Н.Э.Баумана, Серия “Приборостроение”,№ 3, 2007.

[3] Уоссерман Ф., “Нейрокомпьютерная техника:

теория и практика”, Пер. с английского Ю.А. Зуева и В.А. Точенова. – М.: Мир, 1992. – с.

3-54.

[4] Форсайт Д., Понс Ж., “Компьютерное зрение.

Современный подход”: Пер. с англ.- М.:

Издательский дом “Вильямс”, 2004.- 928 с.

[5] Alon J., Athistos V., Yuan Q. and Sclaroff S.,

“Simultaneous Localization and Recognition of Dynamic Hand Gestures”, In Proc. WACV, 2005.

[6] Bobick A.F., Wilson A.D., “A State-Based Approach to the Representation and Recognition of Gesture”, Proc. IEEE Transactions on pattern analysis and machine intelligence , vol. 19, No. 12, December 1997.

[7] Camus T., “Real-time quantized optical flow”.

Journal of Real-Time Imaging, vol. 3, 1997, pp. 71- 86.

[8] Corso J., Ye G., Hager G., “Analysis of Composite Gestures with a Coherent Probabilistic Graphical Model”, Computational Interaction and Robotics Lab., The Johns Hopkins University, 2005.

[9] Cutler R., Turk M., “View-based Interpretation of Real-time Optical Flow for Gesture Recognition”, Third IEEE International Conference on Automatic Face and Gesture Recognition, Japan, April 14-16, 1998, pp. 1-3.

[10] Heckerman D., “A tutorial on learning with Bayesian networks”, Microsoft Research tech. report, MSR- TR-95-06. , 1996, pp. 70-90.

[11] Liu F., Lin X.,“Multi-modal face tracking using Bayesian network”, IEEE International Workshop on Analysis and modeling of Faces and Gestures, 2003, pp. 135-142.

[12] Malassiotis S., Aifanti N., and Strintzis M., “A Gesture Recognition System Using 3D Data”, In Proc. First Int. Symposium on 3D Data Processing Visualization and Transmisssion, 2002, pp. 190–193.

[13] Minnen D., Essa I., and Starner T.,“Expectation Grammars: Leveraging High-Level Expectations for Activity Recognition”, In Proc. IEEE Conf. Computer Vision and Pattern Recognition, vol. 2, 2003, pp.

626–632.

[14] Ong C.W., Ranganath S., Venkatesh Y.V.,

“Understanding gestures with systematic variations inmovement dynamics”, Department of Electrical and Computer Engineering, National University of Singapore, 2006.

[15] Rivière J.B., Guitton P., “Model–based video tracking for gestural interaction”, In journal “Virtual Reality”, London, vol. 8, September, 2005, pp. 213-221.

[16] Sandberg A.,“Gesture Recognition using Neural Networks”,

http://citeseer.nj.nec.com/sandberg97gesture.html, 1997.

[17] Segen J. and Kumar S.,“Gesture VR: Vision-based 3D Hand Interace for Spatial Interaction”, In Proc.

ACM Int. Conf. Multimedia, 1998, pp. 455–464.

[18] Siskind J.,“Visual Event Perception”, In Proc. of the NEC Research Symposium,1998.

[19] Starner T., Weaver J., and Pentland A., “Real-Time American Sign Language Recognition Using Desk and Wearable Computer Based Video”, IEEE Trans.

Pattern Analysis and Machine Intelligence, vol. 20, 1998, pp. 1371–1375.

[20] Tomasi C., Petrov S., and Sastry A., “3D Tracking = Classification + Interpolation”, In Proc. Int. Conf.

Computer Vision, 2003, pp. 1441–1448.

[21] Utsumi A. and Ohya J.,“Multiple-Hand-Gesture Tracking Using Multiple Cameras”, In Proc. IEEE Conf. Computer Vision and Pattern Recognition, vol.

1, 1999, pp. 473–478.

[22] Vidal E., Thollard F., Higuera C., Casacuberta F., and Carrasco R., “Probabilistic Finite-State Machines” , IEEE Trans. Pattern Analysis and Machine Intelligence, vol. 27, 2005, pp. 1026–1039.

[23] Wong Shu-Fai, Cipolla, R.,“Continuous Gesture Recognition using a Sparse Bayesian Classifier”, 18th International Conference on Pattern Recognition, 2006, pp. 1084-1087.

[24] Wu Y. and Huang T.,“Vision-based gesture recognition: A review”, In Lecture Notes in Computer Science, Gesture Workshop, 1999.

[25] Wu Y. and Huang T.,“View-independent Recognition of Hand Postures”, In Proc. IEEE Conf.

Computer Vision and Pattern Recognition, vol. 2, 2000, pp. 88–94.

[26] Yamato J., Ohya J. , and Ishii K., “Recognizing Human Action in Time-Sequential Images Using Hidden Markov Model”, Proc.Comp. Vis. and Pattern Rec., 1992, pp. 379–385.

[27] Ye G., Corso J., Hager G. “Gesture Recognition Using 3D Appearance and Motion Features”, Computational Interaction and Robotics Laboratory, The Johns Hopkins University, 2004.

[28] Zhang Z., Wu Y., Shan Y., and Shafer S.,“Visual Panel: Virtual Mouse Keyboard and 3D Controller with an Ordinary Piece of Paper”, In Proc. Workshop on Perceptive User Interfaces, 2001.

Создание прикладной партнерской системы методом проецирования

No documento (1) 30-я КОНФЕРЕНЦИЯ МОЛОДЫХ УЧЕНЫХ И СПЕЦИАЛИСТОВ ИППИ РАН Информационные технологии и системы ИТиС ’07 С Б О Р Н И К Т Р У Д О В К О Н Ф Е Р Е Н Ц И И г (páginas 172-178)