• Nenhum resultado encontrado

Descrição de Características Locais

Ambiente Simulado

4.5 Representação das Percepções Visuais a Partir de Imagens

4.5.2 Descrição de Características Locais

Uma vez detectados os pontos de interesse, o próximo passo é a extração de características de cada um desses pontos. Para que seja possível reconhecer objetos contidos nas imagens de maneira confiável, é importante que as características extraídas da imagem sejam reconhecíveis mesmo em situações de mudanças de escala e orientação, e mudanças de iluminação.

O descritor SIFT, do inglês “Scale-invariant Feature Transform” (Lowe,1999), possui cada uma destas propriedades em alguma extensão, e tem sido amplamente utilizado para descoberta não-supervisionada de objetos (Weber et al.,2000; Tuytelaars et al.,2010; Kinnunen et al.,

2012).

O descritor SIFT pode ser visto como um histograma da direção e magnitude dos gradientes locais em torno do ponto de interesse. O tamanho dessa área em torno do ponto de interesse

(a) Imagem original (b) Imagem rotacionada

Figura 4.5 Exemplo de aplicação do detector Hessiano afim. Os pontos identificados pelo método em cada imagem estão indicados em amarelo.

é determinado como uma constante vezes a escala de detecção s do ponto de interesse. A invariância a escala é obtida normalizando-se o tamanho dessa vizinhança em função da escala de detecção. Para obter invariância de rotação, a orientação dominante na vizinhança é determinada e utilizada como referência para definir a orientação da grade sobre a qual o histograma de posição é calculado. Para obter invariância a mudanças de iluminação o vetor de características é normalizado para a unidade.

Uma vez determinada a escala e a orientação da grade, para cada ponto da grade é computado um histograma das direções dos gradientes locais na escala do ponto de interesse, quantizado em 8 direções distintas.

Para dar pesos para orientações mais próximas do ponto de interesse, as entradas no histo- grama também são ponderadas por uma janela Gaussiana centrada no ponto de interesse e com o seu tamanho proporcional à escala de detecção do ponto de interesse. Tomados em conjunto, os histogramas locais computados para todos os pontos de grade, em geral 4x4, e quantizados em 8 direções. Isto produz um descritor com 4 x 4 x 8 = 128 dimensões para cada ponto de interesse, que neste trabalho é considerado como sendo um elemento perceptivo extraído da imagem, o qual será enviado para o Módulo II, que por sua vez, compõe diversos elementos perceptivos deste tipo para criar uma representação mais completa dos elementos contidos na imagem.

Figura 4.6 Ilustração de como o descritor SIFT é calculado a partir de amostras da orientação e da magnitude do gradiente sobre uma grade 2x2 adaptada localmente em torno de cada ponto de interesse. O fator de escala é determinado a partir da escala de detecção do ponto de interesse e a orientação é determinada a partir do pico dominante no histograma de orientação do gradiente em torno do ponto de interesse. Distribuído pela Scholarpedia sob a licença Creative Commons.

mos definidos acima e a maneira como funciona a visão em mamíferos. Estudos neurofisiológi- cos recentes (Lindeberg,2011,2013) apontam que existem perfis de campos receptivos na retina, no LGN e no córtex visual de mamíferos, que podem ser modelados adequadamente pelos operadores derivativos Gaussianos, em alguns casos, também complementados por modelos espaço-escala afim não isotrópicos ou por modelos de escala espaço-temporais, ou combinações não lineares de ambos. Isso aponta que o tipo de mapeamento escolhido para representar as percepções de imagens conta com certa plausibilidade biológica, estando, portanto, em linha com os objetivos gerais desta Tese.

4.6

Validação dos Mapeamentos Propostos

Para validar os mapeamentos propostos, é necessário verificar se a representação produzida por eles possui as propriedades definidas no início deste capítulo. Ou seja, se é verdade que (1) percepções distintas possuem representações distintas; (2) percepções semelhantes possuem representações semelhantes; e (3) se todos os atributos variam dentro de um mesmo intervalo de valores.

As percepções auditivas e as percepções do ambiente simulado possuem essas propriedades devido ao seu desenho. Considerando que cada um dos componentes dos vetores perceptivos possui o mesmo peso na comparação entre duas percepções e são definidos de forma que possuam: (a) valores distintos para propriedades distintas; (b) valores próximos para representar propriedades semelhantes e (c), todas as propriedades variam de forma proporcional e dentro de uma mesma escala ([0,1] no caso das percepções do ambiente simulado e [-1,1] para as percepções auditivas). Assim, decorre de (a) que a representação proposta possui a propriedade

(1). E decorre de (b) e (c) que a representação possui as propriedades (2) e (3).

No caso das percepções extraídas a partir das imagens, não é possível garantir a propriedade (1), pois, devido à compressão de informação realizada pela extração de características adotada, apesar de improvável, é possível que objetos distintos, porém parecidos, acabem sendo represen- tados por um mesmo vetor de características. Neste caso, o agente não seria capaz de distinguir estes objetos, assim como pode ocorrer com seres humanos. Porém, é improvável que objetos muito diferentes possuam a mesma representação, pois os pontos de interesse identificados em objetos diferente serão distintos, e os respectivos histogramas dos gradientes de regiões distintas regiões também serão provavelmente distintos.

Por outro lado, a propriedade (2) faz parte da motivação dos métodos utilizados para representar imagens. Ou seja, a reprodutibilidade, alvo principal da detecção de pontos de interesse, faz com que pontos semelhantes sejam identificados em imagens semelhantes. E as propriedades de invariância do descritor SIFT garantem que pontos de interesse semelhantes irão produzir representações semelhantes.

Por fim, se cada pixel das imagens de entrada for representado na escala de 0 a 255, então cada componente dos histogramas computados também irão variar nesta faixa, o que garante a propriedade (3).

4.7

Conclusão

Neste capítulo, foi apresentado o módulo de mapeamento sensório-perceptivo. Os dois tipos de mapeamentos apresentados aqui cumprem papeis distintos na validação do modelo. O mapeamento dos estímulos do ambiente simulado irá permitir avaliar o comportamento dos módulos na formação dos conceitos incorporados ao integrar tipos diferentes de estímulos. O ambiente definido será utilizado posteriormente para validar os demais módulos propostos. Neste ambiente simulado, as operações necessárias para produzir o vetor de percepções são simples. No entanto, para um agente incorporado atuando em um ambiente real, as percepções devem ser extraídas por rotinas de processamento mais complexas, ou até mesmo auto-adaptativas.

Já o mapeamento das percepções a partir das imagens irá permitir avaliar o modelo com en- tradas mais próximas das disponíveis no mundo real. É importante ressaltar que a representação escolhida das percepções não captura todos os elementos perceptivos contidos em imagens reais. Elementos tais como cor e profundidade não são capturados por esta representação. Porém, se espera que este mapeamento extraia informações suficientes para reconhecer uma ampla gama de objetos, úteis para diversas aplicações e atendendo aos objetivos de avaliação do modelo.

Foi também proposta uma representação das percepções para linguagem natural, a qual pode ser obtida a partir de entrada sonora ou textual, o que traz facilidades práticas para os

experimentos que serão apresentados em seguida. A representação das percepções linguísticas proposta captura com mais detalhes as informações contidas nos fonemas do que as previamente disponíveis na literatura. Foi mostrado também que as representações propostas possuem as propriedades necessárias para que sejam criados agrupamentos coerentes.

No entanto, vale lembra que nem todos os elementos comunicativos expressos pela lin- guagem oral são capturados por esta representação, que desconsidera a entonação e a emoção contidas no discurso. Além disso, no caso das percepções auditivas, a análise realizada é válida para comparação entre fonemas, mas não entre palavras, já que palavras podem ter representa- ções de tamanhos distintos e suas partes semelhantes podem estar deslocadas, como no caso da ocorrência de prefixos e sufixos (ex.: carregar e descarregar). A representação de palavras será alcançada com o Módulo de Representação (II). Ainda assim, as propriedades avaliadas acima serão necessárias para que a comparação entre palavras apresente resultados coerentes. O mesmo vale para as percepções extraídas a partir das imagens. O Módulo II, descrito no Capítulo seguinte, fará a composição destas percepções para permitir o reconhecimento de objetos completos a partir do reconhecimento de suas partes.

5