Classifica¸c˜ ao 2D - ANDRES JESSÉ PORFIRIO

As imagens utilizadas no processo de reconstru¸cão por silhueta (segmentadas e sem ru´ıdos) são utilizadas como entrada para a classifica¸cão baseada em caracter´ısticas 2D. O objetivo desta etapa é verificar o poder de reconhecimento das configura¸cões de mão da LIBRAS a partir de imagens 2D.

O propósito destes testes é verificar as taxas de reconhecimento das configura¸cões de mão a partir de imagens 2D (como faz a maioria dos autores) na base de dados formada por 1220 imagens segmentadas e sem ru´ıdos (as mesmas utilizadas no processo de ger¸cão de malhas pelo método da silhueta).

São avaliados quatro conjuntos de caracter´ısticas: os 7 momentos invariantes de Hu [21], as 8 dire¸cões de Freeman [17] e as proje¸cões horizontal e vertical de cada imagem [11]. Para fins de normaliza¸cão as imagens foram redimensionadas para 50x50 pixels antes do cálculo das proje¸cões.

Em 1962 Hu [21] introduziu o uso de momentos invariantes como caracter´ısticas para o reconhecimento de padões visuais. Através do uso de métricas estat´ısticas Hu definiu caracter´ısticas capazes de discriminar padrões geométricos de maneira invariante à posi¸cão, orienta¸cão e escala. O cálculo desde descritor pode ser efetuado com o uso da fun¸cão getHuMoments, da biblioteca OpenCV9_{. A aplica¸c˜}_{ao da fun¸c˜}_{ao retorna um vetor de sete}

posi¸c˜oes, que representa a assinatura da imagem.

Herbert Freeman [17] propôs em 1974 uma técnica de descri¸cão de imagens baseada em contornos. A técnica consiste em, dado um pixel inicial do contorno, percorrer todo o objeto rotulando os pixels pertencentes a ele. Por fim, um vetor de oito posi¸cões representa a assinatura da imagem, sendo cada ´ındice do vetor correspondente à somatória de todos os

9_Biblioteca _livre _para _{processamento} _gr´_afico _e _vis˜_ao _{computacional,} _{dispon´ıvel} _em

pixels rotulados com uma determinada dire¸cão. A Figura 4.14(a) representa as dire¸cões de Freeman e a Figura 4.14(b) apresenta um contorno rotulado de acordo com esta técnica.

(a) (b)

Figura 4.14: Dire¸c˜oes de Freeman (a) e Exemplo de contorno rotulado (b).

As proje¸c˜oes de histograma foram introduzidas em 1956 por Glauberman apud Trier [47] e s˜ao calculadas da seguinte maneira:

Dada uma imagem B, de dimensões x × y, é gerado um vetor P rojH, de tamanho x, onde cada termo é dado por:

P rojHi = x

i=1

pp (4.7)

em que i é cada linha da imagem B e pp é o valor de cada pixel contido na linha i. O vetor P rojH representa a proje¸cão horizontal da imagem B.

A proje¸c˜ao vertical da imagem B ´e dada por:

P rojVi = y

i=1

pp (4.8)

em que i é cada coluna da imagem B e pp é o valor de cada pixel contido na coluna i. O vetor P rojV , de tamanho y, representa a proje¸cão vertical da imagem B.

A Figura 4.15 apresenta proje¸cões criadas a partir de uma imagem do caractere ”5”. Os vetores de caracter´ısticas gerados por esta técnica não são invariantes à escala, rota¸cão e posi¸cão [47].

CAP´ITULO 5

RESULTADOS

Os resultados atingidos com este trabalho são apresentados neste cap´ıtulo. A seguir são apresentados os resultados referentes à cada uma das etapas citadas no cap´ıtulo 4. Por fim, a se¸cão 5.5 apresenta uma compara¸cão de resultados com o método mais similar encontrado na literatura considera¸cões gerais sobre o trabalho.

5.1 Aquisi¸c˜ao da Base de Dados

A base de dados foi capturada com êxito, fornecendo um conjunto de v´ıdeos do Kinect das 61 configura¸cões de mão da LIBRAS em várias orienta¸cões. Foram necessárias duas tentativas de captura para atingir o resultado esperado, a primeira captura foi realizada com o sensor localizado à uma distância muito grande do ator, com isso a resolu¸cão do sensor não foi suficiente para distinguir a configura¸cão de mão em cada v´ıdeo.

Em seguida, com o protocolo de captura atualizado, a base de dados foi capturada novamente, gerando resultados condizentes com a proposta de identificar a configura¸cão de mão. Além disso, na segunda captura foram armazenados os esqueletos 3D juntamente com o v´ıdeo, este processo fornece acesso imediato às jun¸cões do corpo em qualquer quadro do v´ıdeo, sem a necessidade de calibra¸cão ou rastreamento.

Com rela¸cão às bases de dados encontradas na literatura foi observado que nenhuma delas atendia às configura¸cões de mão da LIBRAS com malhas 3D, sendo assim este trabalho acrescenta recursos (como a própria base de dados, os softwares e protocolo de captura) para que novos trabalhos possam ser desenvolvidos.

As principais dificuldades encontradas na captura da base de dados foram: especi- fica¸cão do protocolo de captura, disponibilidade de usuários para as grava¸cões e, principalmente, organiza¸cão das capturas de modo garantir que todos os usuários executem todas as configura¸cões de mão de modo correto, pois existem muitas poses que se diferem

apenas em pequenos detalhes, podendo ser confundidas facilmente.

Os principais problemas a serem melhorados na base de dados são: rota¸cão incorreta da mão do usuário em algumas capturas (problema da rota¸cão apresentado na Figura 4.9), aparecimento de artefatos como a manga da blusa e, principalmente, a baixa resolu¸cão do sensor Kinect (solu¸cão apenas com o uso de um sensor melhor).

Para cada v´ıdeo da base HC-LIBRAS-RGBDS-2011 foram selecionados os quadros de interesse: visão frontal e lateral da mão. Os quadros selecionados foram convertidos em imagens 2D no formato jpeg armazenados em um diretório separado, favorecendo a organiza¸cão da base de dados.

Através da sele¸cão de dois quadros por v´ıdeo obteve-se ao final um conjunto de 1220 imagens, sendo 610 correspondentes às visões frontais e 610 correspondentes às visões laterais.

Todas as imagens foram analisadas e preparadas para a execu¸cão do método de reconstru¸cão por silhueta. Artefatos como a manga da blusa foram removidos de todas as imagens onde existiam, imagens com rota¸cão incorreta foram corrigidas e demais ru´ıdos que poderiam causar problemas na reconstru¸cão por silhueta foram corrigidos.

Dado que o dispositivo de captura não fornece uma malha 3D completa e as imagens apresentaram ru´ıdos esta etapa foi crucial para a gera¸cão de uma boa base de objetos 3D e, consequentemente, na classifica¸cão.

Os principais erros encontrados nas malhas foram apresentados na Se¸cão 4.1, este processo foi bastante intrusivo, porém necessário para a gera¸cão de boas malhas 3D. A maior parte das imagens precisou de tratamento devido aos diversos tipos de ru´ıdos encontrados. Este processo pode ser evitado com a utiliza¸cão de meios de captura de imagens mais precisos.

Exemplos de imagens corrigidas para cada configura¸cão de mão são apresentados no Apêndice A. São exibidas as visões frontal e lateral da mão, a sele¸cão das imagens foi feita de forma aleatória respeitando-se a seguinte restri¸cão: uma configura¸cão de mão deve sempre conter duas imagens de um mesmo usuário na mesma tomada.

fornecerão meios de obten¸cão de malhas tridimensionais em tempo real que possibilitarão a classifica¸cão direta de malhas 3D, sem a necessidade de reconstru¸cão. Como citado no cap´ıtulo 2, um sensor bastante promissor é o LeapMotion.

5.2 Reconstru¸c˜ao por Silhueta

Para cada dupla de imagens frontal/lateral foi gerada uma malha 3D, totalizando 610 reconstru¸c˜oes. Todas as malhas foram submetidas ao filtro de suaviza¸c˜ao, deste modo a qualidade das mesmas foi melhorada.

As malhas suavizadas foram armazenadas em dois formatos: formato nativo do Blender 3D (.blend) e Stanford (.ply), os arquivos .ply são utilizados na etapa seguinte (cálculo do descritor Spherical Harmonics), e os arquivos .blend foram armazenados para permitir futuras aplica¸cões de novos filtros de pré-processamento caso necessário.

O método de reconstru¸cão por silhueta se mostrou eficaz na gera¸cão das malhas 3D, porém certos detalhes das mãos, como concavidades, não puderam ser reproduzidos. É poss´ıvel que a ausência destes detalhes interfira negativamente no processo de classifica¸cão e, além disso, é importante ressaltar que sua aplica¸cão em tempo real não é poss´ıvel nas condi¸cões testadas neste trabalho (devido ao fato de se precisar de duas visões da mão, obtidas em instantes de tempo diferentes).

Exemplos de malhas geradas pelo método da silhueta para cada configura¸cão de mão são apresentados no Apêndice B. Os exemplos de cada classe foram escolhidos aleatori- amente e renderizados com o software Blender 3D.

5.3 Computa¸c˜ao do Descritor Spherical Harmonics

O uso de scripts python e o Software Blender facilitaram a aplica¸cão da ferramenta de extra¸cão do Spherical Harmonics, tornando poss´ıvel a cria¸cão de um procedimento au- tomático onde o software é responsável pela gera¸cão da malha em formato Stanford (.ply) e, logo em seguida, a ferramenta atua calculando as assinaturas.

(.sig), ao todo foram gerados 610 arquivos de assinatura, um para cada malha 3D. A Figura 5.1 apresenta um exemplo de matriz transposta1 _{das caracter´ısticas extra´ıdas de}

uma malha 3D referente à configura¸cão de mão 7.

Figura 5.1: Matriz transposta das caracter´ısticas de uma malha 3D referente à configura¸cão de mão 7.

No documento ANDRES JESSÉ PORFIRIO (páginas 55-61)