Detecção da região de interesse - Extração de características em reconhecimento de parâmetros f

A extração de características realizada nesta tese deve ser aplicada aos quadros dos vídeos sumarizados após a detecção da região de interesse (ROI). Há três regiões de interesse possíveis: a mão direita, a mão esquerda e o rosto. É por meio da análise da trajetória das mãos e da sua forma que os elementos fonológicos Ponto de articulação, Configuração de mão, Movimento e Orientação da palma da mão são detectados. Já para o elemento Expressões não-manuais é imprescindível a detecção do rosto.

Como a análise neste trabalho é realizada para os elementos fonológicos es- paciais, a região de interesse é constituída pela região da mão direita e pela região da mão esquerda. O rosto também é detectado sempre que o sinal é realizado à sua frente, pois ele identifica a posição das mãos para alguns sinais.

Faz-se a descrição da extração desta região de interesse a partir do vídeo gravado pelo sensor Kinect operado por meio do software nuiCaptureAnalyze e já sumarizado.

As informações existentes para cada sinal, após a sumarização de seu vídeo RGB, são:

• 5 imagens da intensidade no padrão RGB; • 5 imagens da profundidade;

• 5 imagens do esqueleto com os pontos das mãos, punhos, cabeça e ombros do corpo marcados.

A partir destas imagens as seguintes etapas são implementadas para que a detecção efetiva das mãos nas imagens seja possível.

1. Binarizar a imagem da profundidade: nesta imagem, o corpo humano fica em evidência em relação ao fundo gravado. O corpo fica gravado com as cores ma- genta, vermelho, verde e azul. O fundo é gravado em cinza, conforme Figura 16 (b). Assim, a binarização é realizada de tal forma que os pixels das cores citadas sejam representados pelo valor “1” e os pixels da cor cinza são representados pelo valor “0”.

2. Retirar o fundo da imagem: faz-se a operação de multiplicação entre a imagem RGB convertida para escala de cinza e a imagem binarizada da profundidade. 3. A partir do vídeo do esqueleto, representado na Figura 16 (c), são calculadas

Capítulo 4. Sumarização de vídeos 77

cálculo é realizado por meio das médias dos valores das posições dos pixels, de acordo com o Algoritmo 1. A mão direita é marcada pela cor azul na figura do esqueleto e a mão esquerda pela cor alaranjada na mesma figura.

4. Duas segmentações são realizadas na imagem RGB tendo como ponto central estes valores de posições calculados. Para que toda a mão esteja incluída na imagem, o valor empírico de tamanho do quadro segmentado foi 141x141 pixels. Este valor permitiu que a mão segmentada de maior tamanho fosse visível. As- sim, a imagem com a ROI tem este tamanho e pode ser vista na Figura 16 (e) e Figura 16 (f) para as mãos direita e esquerda, respectivamente.

5. Finalmente utiliza-se um algoritmo para detecção da cor da pele para garantir que somente as mãos sejam detectadas. Esta imagem é, então, convertida para o formato Preto & Branco, conforme visto na Figura 16 (g) e Figura 16 (h), tam- bém para as mãos direita e esquerda, respectivamente.

Na Figura 16 apresenta-se o fluxograma do procedimento de detecção da re- gião de interesse a partir das imagens gravadas pelo sensor RGB-D.

O algoritmo para o cálculo das posições (xd, yd) e (xe, ye) da região de interesse é descrito em Algoritmo 1.

Algoritmo 1: Cálculo das posições (xd, yd) e (xe, ye)

xd⇐ 0 yd ⇐ 0 xe⇐ 0 ye ⇐ 0 tamanhoX ⇐ 640 tamanhoY ⇐ 480 for i = 1 to tamanhoX do for j = 1 to tamanhoY do

if cor == ’azul’ then xd ⇐ xd+ 1 yd⇐ yd+ 1 end if

if cor == ’alaranjado’ then xe ⇐ xe+ 1 ye ⇐ ye+ 1 end if end for end for xd⇐ media (xd) yd ⇐ media (yd) xe⇐ media (xe) ye ⇐ media (ye)

Capítulo 4. Sumarização de vídeos 78

Figura 16: Detecção da região de interesse - mãos direita e esquerda para o sinal “Comemorar”. Vídeos gravados utilizando o software nuiCaptureAnalyze operando o sensor Kinect. Em (a), vê-se um quadro colorido no formato RGB do vídeo gravado; em (b) um quadro de profundidade do vídeo de profundidade; em (c) um quadro do esqueleto do vídeo do esqueleto. Em (d) estão os quadros selecionados pela suma- rização de vídeos por meio da solução do Problema da Diversidade Máxima. Já em (e) e (f) tem-se as regiões de interesse em RGB, detectada para as mãos direita e esquerda, respectivamente. Em (g) e (h) estas regiões de interesse estão detectadas em Preto & Branco por meio do algoritmo de detecção de cor da pele.

A detecção e extração da região de interesse representa a etapa final de pro- cessamento da imagem na abordagem para extração de características apresentada neste trabalho. São estas imagens que terão as características extraídas. No próximo capítulo, estas características e as técnicas empregadas para obtê-las são descritas.

4.5 Considerações finais

A maioria dos sinais em Língua Brasileira de Sinais possui movimento, o que permite sua gravação em vídeo. Como a gravação acontece a uma taxa de 30 quadros por segundo, em geral há quadros no vídeo que possuem informações muito próximas umas das outras. Estas informações tornam-se redundantes devido a esta

Capítulo 4. Sumarização de vídeos 79

pouca distinção. Reduzir estes vídeos dos sinais a poucos quadros que representem as informações de parâmetro linguístico tornou-se uma necessidade para melhorar o desempenho da extração de característica em termos de eficiência computacional e em termos de informação real útil contida em cada vídeo.

Tratar o problema da sumarização neste trabalho como um problema de diversidade máxima e solucionar este problema por meio de um algoritmo evolucionário mostrou ser bastante efetivo. Uma alternativa utilizada é amostrar uma certa quan- tidade de quadros a cada período estabelecido. Entretanto, um sinal tem dinâmicas distintas entre si e pode possuir grande parte dos movimentos em qualquer momento ao longo da sua execução. Assim, o uso das métricas de tempo e diferença de cor para o cálculo da matriz de diversidade no problema da diversidade máxima considera as maiores diferenças entre quadros independente do momento em que estas acontecem.

5 Extração de características

O presente capítulo concentra a descrição e análise de cada uma das carac- terísticas extraídas dos sinais. Ao todo são sete características, apresentadas em se- ções próprias. Cada uma destas sete características possui relação com um ou mais parâmetros fonológicos da Língua Brasileira de Sinais. Descritas cada uma das ca- racterísticas nas seções 5.2 a 5.8, a construção do vetor de características para cada sinal, que é a concatenação das características extraídas, é apresentada e discutida na seção 5.9 ao final do capítulo. Ressalta-se que as características aqui citadas são extraídas posteriormente à sumarização dos vídeos e para cada um dos cinco quadros representativos selecionados nesta sumarização.

5.1 Introdução

Na análise de diversas características que pudessem ser extraídas de sinais, foi dada especial atenção àquelas que apresentassem relação com a estrutura fonológica da Língua Brasileira de Sinais. Esta relação é apresentada, de forma resumida, na Tabela 17.

Seção Características extraídas Parâmetros em Libras

5.2 Distância bidimensional Ponto de articulação

5.3 Distância tridimensional Ponto de articulação

5.4 Velocidade Movimento, Orientação da palma da mão

No documento Extração de características em reconhecimento de parâmetros fonológicos da Língua Brasileira de Sinais utilizando sensores RGB-D (páginas 77-81)