• Nenhum resultado encontrado

Resultados usando a base de dados LIBRAS

No documento Edwin Jonathan Escobedo C´ (páginas 98-115)

5.4 Experimentos

6.4.3 Resultados usando a base de dados LIBRAS

Usando a base de dados LIBRAS, tamb´em foram realizados trˆes experimentos: usando s´o as caracter´ısticas temporais, usando as caracter´ısticas globais e usando ambas (temporais e globais).

Os resultados obtidos nos trˆes experimentos s˜ao mostrados com detalhe na Tabela 6.4 onde os resultados m´edios s˜ao apresentados. Os resultados para cada experimento ser˜ao apresentados em formato de uma matriz de confus˜ao m´edia onde a diagonal principal da matriz representa os sinais corretamente classificados.

Como a base de dados LIBRAS contem gestos com movimentos estruturados, espera- se conseguir uma boa acur´acia nos experimentos, o qual ser´a corroborado ao momento de obter os resultados. Al´em, nessa base de dados, testou-se o comportamento de nosso m´etodo em sinais com as configura¸c˜oes da Se¸c˜ao 4.2.6 e ser˜ao analisados os resultados obtidos em gestos similares.

Resultados usando caracter´ısticas Temporais

A classifica¸c˜ao foi feita usando s´o as caracter´ısticas temporais extra´ıdas dos pontos das trajet´orias dos quadros principais. A acur´acia media obtida neste experimento foi de 95.77% e um desvio padr˜ao SDgf de 0.0340. A matriz de confus˜ao ´e encontrada na

Tabela 6.5. Nesta tabela, pode-se observar que os sinais comemorar, empregado e justo tˆem as acur´acias medias mais baixas (87%, 88% e 91%) e o sinal espalhar tem a acur´acia media mais alta (100%).

Experimentos para o Modelo de Gestos Dinˆamicos 71

Tabela 6.4: Resultados gerais com a base de dados LIBRAS para diferentes valores de K.

Temporal Global Temporal + Global

Acc K Acc K Acc

0.9577 120 0.8924 120 0.9828

- 100 0.8328 100 0.9782

- 80 0.8683 80 0.9803

- 60 0.8519 60 0.9748

- 40 0.8483 40 0.9776

Isso mostra uma diferencia do 13% entre o melhor e o pior dos resultados, significa que existe confus˜ao nos dados espaciais pois existem sinais com trajet´oria similares como ´e no caso dos sinais empregado e televis˜ao. Neste caso, a taxa de erro ´e de 10%, pois para ambos os gestos usam-se as duas m˜aos e seus movimentos s˜ao muito similares. O mesmo acontece com os sinais comemorar e verdade, onde a taxa de erro ´e de 6%.

Finalmente, pode-se concluir que a classifica¸c˜ao usando s´o caracter´ısticas temporais em geral apresenta bons resultados, mas com alguns erros na classifica¸c˜ao devido `a similaridade de trajet´orias de diferentes sinais.

Tabela 6.5: Matriz de confus˜ao media dos 18 sinais da base de dados LIBRAS usando caracter´ısticas temporais.

pegar brilhar comemorar comparar copiar empregado espalhar esperto esquecer gritar justi¸ca justo olhar pessoa pris˜ao rancor televis˜ao verdade pegar 0.93 0.03 0.00 0.00 0.00 0.00 0.00 0.00 0.02 0.02 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 brilhar 0.05 0.94 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.01 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 comemorar 0.00 0.00 0.87 0.00 0.00 0.00 0.00 0.05 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.02 0.06 comparar 0.00 0.00 0.01 0.99 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 copiar 0.00 0.02 0.00 0.00 0.93 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.05 0.00 0.00 0.00 empregado 0.00 0.00 0.00 0.00 0.00 0.88 0.00 0.00 0.00 0.00 0.00 0.02 0.00 0.00 0.00 0.00 0.00 0.10 espalhar 0.00 0.00 0.00 0.00 0.00 0.00 1.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 esperto 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.94 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.06 esquecer 0.00 0.00 0.00 0.00 0.00 0.00 0.02 0.00 0.94 0.00 0.00 0.00 0.00 0.02 0.00 0.00 0.00 0.00 gritar 0.00 0.00 0.00 0.00 0.04 0.00 0.00 0.00 0.00 0.92 0.00 0.00 0.00 0.00 0.04 0.00 0.00 0.00 justi¸ca 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.04 0.00 0.01 0.93 0.06 0.00 0.00 0.00 0.00 0.00 0.00 justo 0.00 0.00 0.00 0.00 0.00 0.07 0.00 0.00 0.00 0.00 0.00 0.91 0.02 0.00 0.00 0.00 0.00 0.00 olhar 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.02 0.00 0.00 0.00 0.02 0.92 0.00 0.00 0.00 0.00 0.04 pessoa 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.02 0.00 0.00 0.00 0.00 0.98 0.00 0.00 0.00 0.02 pris˜ao 0.00 0.00 0.00 0.00 0.07 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.93 0.00 0.00 0.00 rancor 0.00 0.00 0.05 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.95 0.00 0.00 televis˜ao 0.00 0.00 0.02 0.01 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.97 0.00 verdade 0.00 0.00 0.02 0.00 0.00 0.00 0.00 0.02 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.96

Resultados usando caracter´ısticas globais

Usando s´o as caracter´ısticas globais extra´ıdas mediante os histogramas de palavras visu- ais aplicados nas imagens de intensidade e profundidade, obteve-se uma acur´acia media de 89.24% e um desvio padr˜ao SDlf de 0.1007. A matriz de confus˜ao ´e encontrada na

Tabela 6.6. Nesta tabela, pode-se observar que os sinais esquecer, copiar e pegar tˆem as acur´acias medias mais baixas (62%, 70% e 84%) e o sinais verdade, espalhar e comparar tˆem a acur´acia media mais altas (100%), obtendo uma diferencia do 38% entre o me- lhor e o pior dos resultados o que significa que existe muita confus˜ao nas caracter´ısticas globais pois diversos sinais possuem configura¸c˜oes das m˜aos muito similares, como ´e no caso dos sinais justi¸ca e gritar que possuem uma confus˜ao do 20% devido `a similaridade na forma das m˜aos. Outro exemplo acontece com os sinais copiar e pris˜ao que possuem 25% de confus˜ao, esquecer e pessoa com 25%, etc.

Finalmente, pode-se concluir que a classifica¸c˜ao usando s´o caracter´ısticas globais em geral apresenta resultados baixos pois uma parte importante de um gesto dinˆamico s˜ao os movimentos das m˜aos al´em de suas configura¸c˜oes.

Resultados usando caracter´ısticas temporais e globais

Usando a fus˜ao das caracter´ısticas temporais e globais, obteve-se uma acur´acia media do 98.28% e um desvio padr˜ao SDlgf de 0.0212. A matriz de confus˜ao ´e encontrada na

Tabela 6.6. Nesta tabela, pode-se observar que os sinais esquecer, gritar e pris˜ao tˆem as acur´acias medias mais baixas (94%, 95% e 95%) e a metade dos sinais apresentaram uma acur´acia media do 100%. A diferencia entre o melhor e o pior dos resultados foi de 6%, isso mostra um melhor desempenho do m´etodo proposto pois ao combinar ambas caracter´ısticas, a taxa de reconhecimento aumentou notoriamente.

No caso dos gestos esquecer, copiar e pegar, os quais apresentaram as acur´acias mais baixas no experimento anterior, suas taxas aumentaram at´e 94%, 98% e 100% respectivamente. O mesmo aconteceu com os gestos comemorar, empregado e justo do primeiro experimento (97%, 97% e 100%).

Finalmente, pode-se concluir que a classifica¸c˜ao combinando (fusionando) as carac- ter´ısticas temporais e globais apresenta bons resultados diminuindo o erro nos gestos, pois proporciona informa¸c˜ao suficiente para diferenciar gestos similares.

Experimentos para o Modelo de Gestos Dinˆamicos 73

Tabela 6.6: Matriz de confus˜ao media dos 18 sinais da base de dados LIBRAS usando caracter´ısticas globais.

pegar brilhar comemorar comparar copiar empregado espalhar esperto esquecer gritar justi¸ca justo olhar pessoa pris˜ao rancor televis˜ao verdade pegar 0.84 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.04 0.12 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 brilhar 0.03 0.97 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 comemorar 0.00 0.00 0.85 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.11 0.04 comparar 0.00 0.00 0.00 1.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 copiar 0.00 0.00 0.00 0.00 0.70 0.00 0.05 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.25 0.00 0.00 0.00 empregado 0.00 0.00 0.00 0.00 0.00 0.93 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.07 espalhar 0.00 0.00 0.00 0.00 0.00 0.00 1.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 esperto 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.92 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.08 esquecer 0.00 0.00 0.00 0.00 0.00 0.00 0.10 0.00 0.62 0.00 0.00 0.00 0.00 0.28 0.00 0.00 0.00 0.00 gritar 0.00 0.00 0.00 0.00 0.11 0.00 0.00 0.00 0.00 0.89 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 justi¸ca 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.20 0.88 0.01 0.00 0.00 0.00 0.00 0.00 0.00 justo 0.00 0.00 0.00 0.00 0.00 0.09 0.00 0.00 0.00 0.00 0.00 0.91 0.00 0.00 0.00 0.00 0.00 0.00 olhar 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.05 0.00 0.00 0.00 0.00 0.90 0.00 0.00 0.00 0.00 0.05 pessoa 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.03 0.00 0.00 0.00 0.01 0.96 0.00 0.00 0.00 0.00 pris˜ao 0.00 0.00 0.00 0.00 0.12 0.00 0.00 0.00 0.00 0.00 0.00 0.05 0.00 0.00 0.83 0.00 0.00 0.00 rancor 0.00 0.00 0.00 0.11 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.89 0.00 0.00 televis˜ao 0.00 0.00 0.00 0.02 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.02 0.00 0.00 0.00 0.00 0.96 0.00 verdade 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 1.00

Tabela 6.7: Matriz de confus˜ao media dos 18 sinais da base de dados LIBRAS usando caracter´ısticas temporais e globais.

pegar brilhar comemorar comparar copiar empregado espalhar esperto esquecer gritar justi¸ca justo olhar pessoa pris˜ao rancor televis˜ao verdade pegar 1.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 brilhar 0.00 1.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 comemorar 0.00 0.00 0.97 0.00 0.00 0.00 0.00 0.03 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 comparar 0.00 0.00 0.00 1.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 copiar 0.00 0.00 0.00 0.00 0.98 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.02 0.00 0.00 0.00 empregado 0.00 0.00 0.00 0.00 0.00 0.97 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.03 espalhar 0.00 0.00 0.00 0.00 0.00 0.00 1.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 esperto 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.96 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.04 esquecer 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.94 0.00 0.06 0.00 0.00 0.00 0.00 0.00 0.00 0.00 gritar 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.95 0.00 0.00 0.00 0.00 0.05 0.00 0.00 0.00 justi¸ca 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.97 0.03 0.00 0.00 0.00 0.00 0.00 0.00 justo 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 1.00 0.00 0.00 0.00 0.00 0.00 0.00 olhar 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 1.00 0.00 0.00 0.00 0.00 0.00 pessoa 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.02 0.00 0.00 0.00 0.00 0.98 0.00 0.00 0.00 0.00 pris˜ao 0.00 0.00 0.00 0.00 0.05 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.95 0.00 0.00 0.00 rancor 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 1.00 0.00 0.00 televis˜ao 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 1.00 0.00 verdade 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 1.00

6.5

Considera¸c˜oes Finais

Neste capitulo, as bases de dados usadas nos experimentos foram descritas detalhada- mente. Al´em, foram realizados diferentes experimentos dependendo da base de dados. No caso da base SDUSign, avaliaram-se unicamente as caracter´ısticas temporais obtendo uma taxa de 100% no reconhecimento. Para as bases ChaLearn e LIBRAS, avaliaram-se as caracter´ısticas temporais, globais e a combina¸c˜ao de ambas. Os resultados obtidos foram mostrados e analisados para cada experimento. Finalmente obtiveram-se os me- lhores resultados ao combinar as informa¸c˜oes temporais e globais (88.38% e 98.28% respectivamente).

Cap´ıtulo 7

Conclus˜oes

Nesta disserta¸c˜ao, dois modelos foram desenvolvidos para o reconhecimento de gestos manuais aproveitando as novas informa¸c˜oes de profundidade e das posi¸c˜oes das arti- cula¸c˜oes do corpo, fornecidas pelo sensor KinectT M.

O primeiro m´etodo foi proposto para o reconhecimento de gestos est´aticos explo- rando a informa¸c˜ao de profundidade. A diferen¸ca entre o m´etodo proposto e os outros m´etodos da literatura, foi a convers˜ao dos dados de profundidade em uma nuvem de pontos P Cdepth. Logo baseados na teoria de cossenos de dire¸c˜ao, gerou-se um vetor de

histogramas de magnitudes acumuladas, o qual representa as novas caracter´ısticas lo- cais da m˜ao. O processo para a gera¸c˜ao do vetor usa opera¸c˜oes simples ´e r´apidas de processar, o que faz ao m´etodo proposto vi´avel para ser executado em tempo real.

Para avaliar o m´etodo, usaram-se dois protocolos diferentes. No primeiro, foi utili- zado o 10% da base de dados para o treinamento, gerando uma taxa de reconhecimento de 97.29%, superando aos outros m´etodos propostos que trabalharam com a mesma per- centagem. No segundo, utilizou-se o 50% da base de dados para o treinamento, obtendo uma acur´acia de 99.21%, superando novamente aos outros m´etodos da literatura. Al´em disso, o m´etodo atinge uma melhor diferencia¸c˜ao dos gestos semelhantes, como no caso das letras N, R, A, T, S e E, pois o m´etodo proposto ´e capaz de detectar as m´ınimas varia¸c˜oes entre os gestos similares, alcan¸cando uma alta taxa de reconhecimento. Os resultados obtidos nos experimentos mostraram que o uso da informa¸c˜ao de profundi- dade para mapear a m˜ao no espa¸co, permite a obten¸c˜ao de novas caracter´ısticas as quais n˜ao podem ser obtidas a partir dos dados de intensidade, permitindo a obten¸c˜ao de resultados com altas acur´acias.

O segundo m´etodo, foi proposto para o reconhecimento de gestos dinˆamicos combi- nando caracter´ısticas temporais e globais. A diferen¸ca entre o m´etodo proposto e outros trabalhos da literatura, foi a extra¸c˜ao dos N quadros principais, a fim de evitar o uso de m´etodos baseados em series de tempo para a classifica¸c˜ao. Tamb´em, a trajet´oria do gesto, ´e representada mediante trˆes vetores principais: o vetor de informa¸c˜ao espacial VSI, o vetor de informa¸c˜ao temporal VT I e o vetor de mudan¸cas da posi¸c˜ao da m˜ao VHC,

sendo os dois primeiros vetores representados em coordenadas esf´ericas. A uni˜ao dos trˆes vetores formam as caracter´ısticas temporais, fornecendo a informa¸c˜ao necess´aria para reconhecer o gesto.

Al´em das caracter´ısticas temporais geradas, usou-se o modelo Bag-of-visual-Words (BOW) para a obten¸c˜ao de informa¸c˜ao semˆantica da m˜ao. Primeiro, o descritor SIFT foi usado para extrair pontos caracter´ısticos das imagens de intensidade e profundidade. Esses pontos obtidos foram utilizados para a gera¸c˜ao do vocabul´ario visual e posterior- mente o histograma de palavras visuais. O uso de BOW ´e importante porque ajuda na obten¸c˜ao de caracter´ısticas globais mais robustas, permitindo assim ao classificador fazer uma melhor e mais r´apida diferencia¸c˜ao entre os gestos, sobretudo quando se trabalha com gestos manuais n˜ao-estruturados.

Para avaliar o m´etodo, foram utilizadas trˆes bases de dados, na primeira obteve- se uma acur´acia do 100% usando somente a informa¸c˜ao global. Na segunda, a taxa de reconhecimento foi de 88.38% ao combinar as caracter´ısticas globais e locais. Na terceira base de dados, obteve-se uma taxa de 98.28% de reconhecimento. Para todos os casos, nossos resultados superaram aos m´etodos propostos na literatura.

Tamb´em, foi proposta uma nova base de dados de gestos dinˆamicos da L´ıngua Brasi- leira de Sinais (LIBRAS), constitu´ıda por sinais desafiantes, a qual ser´a disponibilizada para os futuros trabalhos dos pesquisadores.

Finalmente, nossa abordagem fornece um m´etodo r´apido para o reconhecimento de gesto manuais usando um vetor de caracter´ısticas de tamanho de 36N + 2KN = N (36 + 2K), onde N ´e o n´umero do quadros principais e K o tamanho do dicion´ario visual. Com base nos experimentos, se pode demonstrar a robustez do m´etodo proposto.

Conclus˜oes 77

7.1

Trabalhos Futuros

Em consequˆencia deste trabalho de disserta¸c˜ao, consideramos os seguintes trabalhos futuros:

• Avaliar e validar o m´etodo de extra¸c˜ao de caracter´ısticas locais proposto para gestos est´aticos em combina¸c˜ao com o as caracter´ısticas globais extra´ıdas para o segundo m´etodo.

• Desenvolver um algoritmo para obter os valores dos limiares T θ, T ϕ e T r de forma autom´atica e independente da base usada.

• Gerar uma base de dados mais desafiante para testar a robustez dos m´etodos

propostos, incluindo um maior numero de gestos e incrementando o n´umero de

Referˆencias Bibliogr´aficas

Al-Jarrah, O. and Halawani, A.: 2001, Recognition of gestures in arabic sign language using neuro-fuzzy systems, Artificial Intelligence 133(1), 117–138.

Argyros, A. A. and Lourakis, M. I.: 2004, Real-time tracking of multiple skin-colored ob- jects with a possibly moving camera, Computer Vision-ECCV 2004, Springer, pp. 368– 379.

Argyros, A., Lourakis, M. I. et al.: 2006, Binocular hand tracking and reconstruction ba- sed on 2d shape matching, Pattern Recognition, 2006. ICPR 2006. 18th International

Conference on, Vol. 1, IEEE, pp. 207–210.

Binh, N. D. and Ejima, T.: 2005, Hand gesture recognition using fuzzy neural network,

Proc. ICGST Conf. Graphics, Vision and Image Proces (Cairo, 2005), pp. 1–6.

Biswas, K. K. and Basu, S. K.: 2011, Gesture recognition using microsoft kinect ,R

Automation, Robotics and Applications (ICARA), 2011 5th International Conference on, IEEE, pp. 100–103.

Bretzner, L., Laptev, I. and Lindeberg, T.: 2002, Hand gesture recognition using multi-scale colour features, hierarchical models and particle filtering, Automatic Face

and Gesture Recognition, 2002. Proceedings. Fifth IEEE International Conference on,

IEEE, pp. 423–428.

Budiman, A., Fanany, M. I. and Basaruddin, C.: 2014, Constructive, robust and adaptive os-elm in human action recognition, Industrial Automation, Information

and Communications Technology (IAICT), 2014 International Conference on, IEEE,

pp. 39–45.

Byun, H. and Lee, S.-W.: 2003, A survey on pattern recognition applications of support vector machines, International Journal of Pattern Recognition and Artificial Intelli-

gence 17(03), 459–486.

Celebi, S., Aydin, A. S., Temiz, T. T. and Arici, T.: 2013, Gesture recognition using skeleton data with weighted dynamic time warping., VISAPP (1), pp. 620–625. Chai, D. and Ngan, K. N.: 1998, Locating facial region of a head-and-shoulders co-

lor image, Automatic Face and Gesture Recognition, 1998. Proceedings. Third IEEE

International Conference on, IEEE, pp. 124–129.

Chang, C.-C. and Lin, C.-J.: 2011, Libsvm: a library for support vector machines, ACM

Transactions on Intelligent Systems and Technology (TIST) 2(3), 27.

Chen, X. and Koskela, M.: 2014, Using appearance-based hand features for dynamic rgb-d gesture recognition, Pattern Recognition (ICPR), 2014 22nd International Con-

ference on, IEEE, pp. 411–416.

Cortes, C. and Vapnik, V.: 1995, Support-vector networks, Machine learning 20(3), 273– 297.

Crowley, J., Berard, F., Coutaz, J. et al.: 1995, Finger tracking as an input device for augmented reality, International Workshop on Gesture and Face Recognition, pp. 195– 200.

Cui, Y. and Weng, J. J.: 1996, Hand sign recognition from intensity image sequences with complex backgrounds, Automatic Face and Gesture Recognition, 1996., Proceedings

of the Second International Conference on, IEEE, pp. 259–264.

Darrell, T. J., Essa, L., Pentland, A. P. et al.: 1996, Task-specific gesture analysis in real-time using interpolated views, Pattern Analysis and Machine Intelligence, IEEE

Transactions on 18(12), 1236–1242.

Derpanis, K. G.: 2004, A review of vision-based hand gestures, Unpublished. Feb . Dipietro, L., Sabatini, A. M. and Dario, P.: 2008, A survey of glove-based systems and

their applications, Systems, Man, and Cybernetics, Part C: Applications and Reviews,

IEEE Transactions on 38(4), 461–482.

Dutta, T.: 2012, Evaluation of the kinectTM sensor for 3-d kinematic measurement in

the workplace, Applied ergonomics 43(4), 645–649.

Elmezain, M., Al-Hamadi, A., Appenrodt, J. and Michaelis, B.: 2008, A hidden markov model-based continuous gesture recognition system for hand motion trajectory, Pat-

REFERˆENCIAS BIBLIOGR ´AFICAS 81

Escalera, S., Gonz`alez, J., Bar´o, X., Reyes, M., Lopes, O., Guyon, I., Athitsos, V. and Escalante, H.: 2013, Multi-modal gesture recognition challenge 2013: Dataset and results, Proceedings of the 15th ACM on International conference on multimodal

interaction, ACM, pp. 445–452.

Estrela, B., C´amara-Ch´avez, G., Campos, M. F., Schwartz, W. R. and Nascimento, E. R.: 2013, Sign language recognition using partial least squares and rgb-d informa- tion, Proceedings of the IX Workshop de Vis˜ao Computacional, WVC.

Faria, D. R. and Dias, J.: 2009, 3d hand trajectory segmentation by curvatures and hand orientation for classification through a probabilistic approach, Intelligent Robots and

Systems, 2009. IROS 2009. IEEE/RSJ International Conference on, IEEE, pp. 1284–

1289.

Felipe, T. and Monteiro, M.: 2007, Libras em contexto: Curso b´asico (libras in context: Basic course), WalPrint Gr´afica e Editora, Rio de Janeiro, Brasil, .

Feng, K.-p. and Yuan, F.: 2013, Static hand gesture recognition based on hog characters and support vector machines, Instrumentation and Measurement, Sensor Network and

Automation (IMSNA), 2013 2nd International Symposium on, IEEE, pp. 936–938.

Frati, V. and Prattichizzo, D.: 2011, Using Kinect for hand tracking and rendering in wearable haptics, Proceedings of the IEEE World Haptics Conference (WHC), IEEE, pp. 317–321.

Geetha, M., Manjusha, C., Unnikrishnan, P. and Harikrishnan, R.: 2013, A vision based dynamic gesture recognition of indian sign language on kinect based depth images, Emerging Trends in Communication, Control, Signal Processing & Computing

Applications (C2SPCA), 2013 International Conference on, IEEE, pp. 1–7.

Geng, L., Ma, X., Xue, B., Wu, H., Gu, J. and Li, Y.: 2014, Combining features for chinese sign language recognition with kinect, Control & Automation (ICCA), 11th

IEEE International Conference on, IEEE, pp. 1393–1398.

Gupta, S., Jaafar, J. and Ahmad, W. F. W.: 2012, Static hand gesture recognition using local gabor filter, Procedia Engineering 41, 827–832.

Han, J., Shao, L., Xu, D. and Shotton, J.: 2013, Enhanced computer vision with micro- soft kinect sensor: A review, Cybernetics, IEEE Transactions on 43(5), 1318–1334.

Hern´andez-Vela, A., Bautista, M. ´A., Perez-Sala, X., Ponce-L´opez, V., Escalera, S., Bar´o, X., Pujol, O. and Angulo, C.: 2013, Probability-based dynamic time warping and bag-of-visual-and-depth-words for human gesture recognition in rgb-d, Pattern

Recognition Letters .

Kalman, R. E.: 1960, A new approach to linear filtering and prediction problems, Journal

of Fluids Engineering 82(1), 35–45.

Kurakin, A., Zhang, Z. and Liu, Z.: 2012, A real time system for dynamic hand ges- ture recognition with a depth sensor, Signal Processing Conference (EUSIPCO), 2012

Proceedings of the 20th European, IEEE, pp. 1975–1979.

Kurata, T., Okuma, T., Kourogi, M. and Sakaue, K.: 2001, The hand mouse: Gmm hand-color classification and mean shift tracking, Recognition, Analysis, and Trac-

king of Faces and Gestures in Real-Time Systems, 2001. Proceedings. IEEE ICCV Workshop on, IEEE, pp. 119–124.

Lamberti, L. and Camastra, F.: 2011, Real-time hand gesture recognition using a color glove, Image Analysis and Processing–ICIAP 2011, Springer, pp. 365–373.

Laptev, I. and Lindeberg, T.: 2001, Tracking of multi-state hand models using particle filtering and a hierarchy of multi-scale image features, Scale-space and morphology in

computer vision, Springer, pp. 63–74.

Li, S.-Z., Yu, B., Wu, W., Su, S.-Z. and Ji, R.-R.: 2015, Feature learning based on sae– pca network for human gesture recognition in rgbd images, Neurocomputing 151, 565– 573.

Li, Y.: 2012, Hand gesture recognition using Kinect, Proceedings of the 3rd IEEE Inter-

national Conference on Software Engineering and Service Science (ICSESS), IEEE,

pp. 196–199.

Liu, X. and Fujimura, K.: 2004, Hand gesture recognition using depth data, Automatic

Face and Gesture Recognition, 2004. Proceedings. Sixth IEEE International Confe- rence on, IEEE, pp. 529–534.

Lowe, D. G.: 1999, Object recognition from local scale-invariant features, Computer

vision, 1999. The proceedings of the seventh IEEE international conference on, Vol. 2,

REFERˆENCIAS BIBLIOGR ´AFICAS 83

Lowe, D. G.: 2004, Distinctive image features from scale-invariant keypoints, Internati-

onal journal of computer vision 60(2), 91–110.

MacQueen, J. et al.: 1967, Some methods for classification and analysis of multivariate observations, Proceedings of the fifth Berkeley symposium on mathematical statistics

and probability, Vol. 1, Oakland, CA, USA., pp. 281–297.

Mammen, J. P., Chaudhuri, S. and Agrawal, T.: 2001, Simultaneous tracking of both hands by estimation of erroneous observations., BMVC, Citeseer, pp. 1–10.

Masood, S., Parvez Qureshi, M., Shah, M. B., Ashraf, S., Halim, Z. and Abbas, G.: 2014, Dynamic time wrapping based gesture recognition, Robotics and Emerging Allied

Technologies in Engineering (iCREATE), 2014 International Conference on, IEEE,

pp. 205–210.

Mitra, S. and Acharya, T.: 2007, Gesture recognition: A survey, Systems, Man, and

Cybernetics, Part C: Applications and Reviews, IEEE Transactions on 37(3), 311–

324.

Mo, Z. and Neumann, U.: 2006, Real-time hand pose recognition using low-resolution depth images, Proceedings of the IEEE Computer Society Conference on Computer

Vision and Pattern Recognition, Vol. 2, IEEE, pp. 1499–1505.

Mukherjee, J., Mukhopadhyay, J. and Mitra, P.: 2014, A survey on image retrieval performance of different bag of visual words indexing techniques, Students’ Technology

Symposium (TechSym), 2014 IEEE, IEEE, pp. 99–104.

Murthy, G. and Jadon, R.: 2009, A review of vision based hand gestures recognition, In-

ternational Journal of Information Technology and Knowledge Management 2(2), 405–

410.

Nicolas Pugeault, R. B.: n.d., ASL finger spelling dataset. http:

//personal.ee.surrey.ac.uk/Personal/N.Pugeault/index.php?section= FingerSpellingDataset, last visit: April 29, 2013.

Oprisescu, S., Rasche, C. and Su, B.: 2012, Automatic static hand gesture recognition using tof cameras, Signal Processing Conference (EUSIPCO), 2012 Proceedings of the

20th European, IEEE, pp. 2748–2751.

Otiniano Rodriguez, K. and Camara Chavez, G.: 2013, Finger spelling recognition from rgb-d information using kernel descriptor, Graphics, Patterns and Images (SIB-

Peterfreund, N.: 1999, Robust tracking of position and velocity with kalman snakes,

Pattern Analysis and Machine Intelligence, IEEE Transactions on 21(6), 564–569.

Pizzolato, E. B., dos Santos Anjo, M. and Pedroso, G. C.: 2010, Automatic recognition of finger spelling for libras based on a two-layer architecture, Proceedings of the 2010

ACM Symposium on Applied Computing, ACM, pp. 969–973.

Pugeault, N. and Bowden, R.: 2011a, Spelling it out: Real-time asl fingerspelling re- cognition, Computer Vision Workshops (ICCV Workshops), 2011 IEEE International

Conference on, IEEE, pp. 1114–1119.

Pugeault, N. and Bowden, R.: 2011b, Spelling it out: Real-time ASL fingerspelling recognition., Proceedings of the IEEE International Conference on Computer Vision

Workshops (ICCV Workshops), IEEE, pp. 1114–1119.

Rakun, E., Andriani, M., Danniswara, K., Tjandra, A. et al.: 2013, Combining depth image and skeleton data from kinect for recognizing words in the sign system for indonesian language (sibi [sistem isyarat bahasa indonesia]), Advanced Computer Sci-

ence and Information Systems (ICACSIS), 2013 International Conference on, IEEE,

pp. 387–392.

Ramamoorthy, A., Vaswani, N., Chaudhury, S. and Banerjee, S.: 2003, Recognition of dynamic hand gestures, Pattern Recognition 36(9), 2069–2081.

Rautaray, S. S. and Agrawal, A.: 2010, A novel human computer interface based on hand gesture recognition using computer vision techniques, Proceedings of the First Inter-

national Conference on Intelligent Interactive Technologies and Multimedia, ACM,

pp. 292–296.

Rautaray, S. S. and Agrawal, A.: 2015, Vision based hand gesture recognition for human computer interaction: a survey, Artificial Intelligence Review 43(1), 1–54.

Ren, Z., Yuan, J. and Zhang, Z.: 2011, Robust hand gesture recognition based on finger- earth mover’s distance with a commodity depth camera, Proceedings of the 19th ACM

International Conference on Multimedia, ACM, pp. 1093–1096.

No documento Edwin Jonathan Escobedo C´ (páginas 98-115)

Documentos relacionados