Capítulo 7 Conclusões e Trabalho Futuro

7.2 Trabalho Futuro

O primeiro aspeto a melhorar, no protótipo desenvolvido, tem a ver com as técnicas de coarticulação. A existência de validações repetidas para a mesma pose, poderia ser parcialmente resolvida com a aplicação das regras de construção de palavras da língua portuguesa, que filtrariam um grande número delas. Pensamos, no entanto, que o melhor caminho será a utilização de técnicas de data mining probabilísticas, onde os classificadores atribuem um valor de previsão para cada letra, sendo as poses classificadas como sendo a letra com o maior valor de previsão. Poderíamos instituir um valor limiar abaixo do qual a pose não seria reconhecida como letra do alfabeto. Isso permitiria filtrar todas as poses que correspondessem a transições entre letras que seriam classificadas como não letras. A técnica de coarticulação n_iguais revelou ser limitada, uma vez que classifica sempre qualquer pose como sendo uma letra, independentemente de ser realmente semelhante a ela. Por exemplo, o IB1 devolve sempre a letra correspondente ao padrão vizinho mais próximo, independentemente de poder estar muito distante da letra em questão (a ser executada). De qualquer forma, estas técnicas poderiam não ser suficientes e teriam que ser investigadas e estudadas juntamente com outras técnicas.

Um segundo aspeto a melhorar seria uma exploração de novas características que poderiam ser mais eficazes para o reconhecimento e classificação corretos das poses estáticas, complementando as 11 características existentes, seja com informação vinda apenas da profundidade do Kinect, ou até mesmo com as imagens capturadas a nível de câmara RGB (adicionando outro tipo de características). No caso das imagens capturadas teriam que se adicionar outro tipo de algoritmos de reconhecimento de imagem e fazer a sua combinação com os classificadores já utilizados.

Uma outra forma de melhorar o reconhecimento do alfabeto em LGP poderia ser adicionando o reconhecimento do esqueleto da mão, conseguindo detetar e identificar os dedos e a posição relativa das mãos. Para a LGP existem muitas outras nuances a considerar. No caso particular das palavras (simbólicas, icónicas e arbitrárias) teria que ser implementado um reconhecimento de gestos dinâmicos (movimentos), bem como algumas formas de interpretação e gravação dos mesmos, que poderia ter em conta as posições relativas do esqueleto do utilizador em diversas frames seguidas durante alguns segundos. Para isso teria de se fazer uma base de dados dinâmica com todos os gestos constituintes da LGP para que pudessem ser reconhecidos. No entanto, a LGP também considera as expressões faciais, movimento dos ombros e corpo, e alguns sons. O reconhecimento de todos estes aspetos deve ser tido em conta, no entanto, exigiria

recursos de equipamento e velocidade de processamento, ainda não disponíveis. Alguns destes aspetos podem ser reconhecidos fazendo uso do esqueleto humano já desenvolvido para o Kinect. Note que o próprio dispositivo Kinect se encontra, ainda, em fase de melhoramentos, sendo que, com um dispositivo mais avançado se conseguiria uma melhor deteção dos dedos, e todos os movimentos e expressões bem como sons utilizados em LGP. No entanto, também este reconhecimento de gestos dinâmicos, apenas com referências do esqueleto, seria insuficiente e teria de ser complementado. Para fazer este tipo de reconhecimento seria necessário recorrer, por exemplo, à triangulação de três Kinect’s de forma a poder identificar todos os componentes da LGP associando algoritmos de profundidade, reconhecimento de gestos, imagens ou vídeos, e som.

Outra melhoria possível a este protótipo seria o facto de conseguir detetar o “silêncio” de um utilizador ou uma “pausa” entre palavras, sem necessidade de utilizar interativamente o espaço que integra o protótipo. De notar que, o facto de um utilizador se encontrar estático em frente ao Kinect, não significa necessariamente que seja um "silêncio” ou uma “pausa”.

A ideia de complementar a aplicação de reconhecimento de LGP com uma aplicação que faça o inverso, isto é, que traduza a língua portuguesa escrita para a LGP, utilizando, por exemplo, um avatar, também seria importante, permitindo a comunicação bilateral.

Sendo a LGP uma língua bastante complexa e com um léxico de mais de cinco mil palavras, e uma vez que, mesmo para este modelo estático, o computador se revela lento em relação ao desempenho de um humano, para fazer o reconhecimento de gestos em movimento, seriam necessárias máquinas com capacidade de processamento suficiente para o tratamento de toda a informação em tempo real.


