Multifoveamento em multirresolução com fóveas móveis

Texto

(1)UNIVERSIDADE FEDERAL DO RIO GRANDE DO NORTE. U NIVERSIDADE F EDERAL DO R IO G RANDE DO N ORTE C ENTRO DE T ECNOLOGIA P ROGRAMA DE P ÓS -G RADUAÇÃO EM E NGENHARIA E LÉTRICA E DE C OMPUTAÇÃO. Multifoveamento em Multirresolução com Fóveas Móveis. Petrúcio Ricardo Tavares de Medeiros. Orientador: Prof. Dr. Rafael Beserra Gomes Co-orientador: Prof. Dr. Luiz Marcos Garcia Gonçalves. Dissertação de Mestrado apresentada ao Programa de Pós-Graduação em Engenharia Elétrica e de Computação da UFRN (área de concentração: Engenharia de Computação) como parte dos requisitos para obtenção do título de Mestre em Ciências.. Número de ordem PPgEEC: M469 Natal, RN, junho de 2016.

(2) Catalogação da Publicação na Fonte Universidade Federal do Rio Grande do Norte - Sistema de Bibliotecas Biblioteca Central Zila Mamede / Setor de Informação e Referência Medeiros, Petrúcio Ricardo Tavares de. Multifoveamento em multirresolução com fóveas móveis / Petrúcio Ricardo Tavares de Medeiros. - 2016. 100 f. : il. Dissertação (mestrado) - Universidade Federal do Rio Grande do Norte, Centro de Tecnologia, Programa de Pós-Graduação em Engenharia Elétrica e de Computação. Natal, RN, 2016. Orientador: Prof. Dr. Rafael Beserra Gomes. Coorientador: Prof. Dr. Luiz Marcos Garcia Gonçalves. 1. Visão computacional - Dissertação. 2. Multirresolução Dissertação. 3. Multifoveamento - Dissertação. 4. Feature Dissertação. 5. SURF (Feature) - Dissertação. I. Gomes, Rafael Beserra. II. Gonçalves, Luiz Marcos Garcia. III. Título. RN/UF/BCZM. CDU 004.932.

(3)

(4)

(5) A todos que contribuiram para o desenvolvimento deste trabalho..

(6)

(7) Agradecimentos. Ao meu orientador e ao meu co-orientador, professores Rafael Beserra e Luiz Marcos, sou grato pela orientação. À Ana Karoline pela paciência e por toda contribuição. À minha família pelo apoio durante esta jornada. À CAPES, pelo apoio financeiro..

(8)

(9) Resumo. O foveamento é uma técnica de visão computacional capaz de promover a redução da informação visual através de uma transformação da imagem, em domínio espacial, para o domínio de multirresolução. Entretanto, esta técnica se limita a uma única fóvea com mobilidade dependente do contexto. Neste trabalho são propostas a definição e a construção de um modelo multifoveado denominado MMMF (multifoveamento em multirresolução com fóveas móveis) baseado em um modelo anterior denominado MMF (multirresolução com fóvea móvel). Em um contexto de múltiplas fóveas, a aplicação de várias estruturas MMF, uma para cada fóvea, resulta em um considerável aumento de processamento, uma vez que há interseções entre regiões de estruturas distintas, as quais são processadas múltiplas vezes. Dadas as estruturas de fóveas MMF, propomos um algoritmo para obter regiões disjuntas que devem ser processadas, evitando regiões redundantes e, portanto, reduzindo o tempo de processamento. Experimentos são propostos para validar o modelo e verificar a sua aplicabilidade no contexto de visão computacional. Resultados demonstram o ganho em termos de tempo de processamento do modelo proposto em relação ao uso de múltiplas fóveas do modelo MMF. Palavras-chave: Visão computacional, multirresolução, multifoveamento, features, SURF..

(10)

(11) Abstract. Foveation is a computer vision technique for visual information reduction obtained by applying an image transformation in the spatial domain to the multiresolution domain. However, this technique is limited to a single fovea context-dependent mobility. This work proposes the definition and the construction of a multifoveated model called MMMF (Multiresolution Multifoveation using Mobile Foveae) based on an earlier model called MMF (Multiresolution with Moving Fovea). In the context of multiple foveae, the application of various MMF structures, one for each fovea, results in an increase in processing time, since there are intersections between regions of different structures, which are processed multiple times. Given MMF structures, an algorithm in order to get disjoint regions which are to be processed is proposed, avoiding redundant regions and thereby reducing the processing time. Experiments are proposed to validate the model and to verify its applicability in the computer vision context. Results show the gain in processing time of the proposed model compared to the use of multiple MMF structures. Keywords: computer vision, multiresolution, multifoveation, features, SURF..

(12)

(13) Sumário. Sumário. i. Lista de Figuras. v. Lista de Tabelas. ix. Lista de Símbolos e Abreviaturas. xi. 1. Introdução. 1. 1.1. Metodologia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 3. 1.2. Motivação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 4. 1.3. Contribuição . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 5. 1.4. Aplicações . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 6. 1.5. Organização do Texto . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 9. 2. Embasamento Teórico. 11. 2.1. Abstração de Dados (Features) . . . . . . . . . . . . . . . . . . . . . . .. 12. 2.2. Pré-processamento Usando Imagens em Multirresolução . . . . . . . . .. 13. 2.2.1. Pirâmides Gaussiana e Laplaciana . . . . . . . . . . . . . . . . .. 14. 2.2.2. Espaço de Escalas . . . . . . . . . . . . . . . . . . . . . . . . .. 16. 2.2.3. A Representação Log-polar . . . . . . . . . . . . . . . . . . . .. 16. 2.2.4. A Transformada Wavelet . . . . . . . . . . . . . . . . . . . . . .. 18. 2.2.5. Pirâmide com Filtros Direcionais . . . . . . . . . . . . . . . . .. 20. i.

(14) 2.2.6. Multicaracterísticas (ou Múltiplas Features) em Multirresolução (MRMF) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 21. 2.2.7. Multirresolução com Fóvea Móvel (MMF) . . . . . . . . . . . .. 24. 2.2.8. Movimento da fóvea . . . . . . . . . . . . . . . . . . . . . . . .. 26. 3. Trabalhos relacionados. 29. 4. Problemática. 35. 4.1. Região de interseção entre níveis . . . . . . . . . . . . . . . . . . . . . .. 35. 4.2. Disposição das interseções . . . . . . . . . . . . . . . . . . . . . . . . .. 37. 4.3. Identificação do vértice de interseção . . . . . . . . . . . . . . . . . . . .. 39. 4.3.1. Formalismo matemático . . . . . . . . . . . . . . . . . . . . . .. 40. 4.4. Vetor de direção das regiões . . . . . . . . . . . . . . . . . . . . . . . .. 45. 4.5. Conjunto de regiões sem interseção . . . . . . . . . . . . . . . . . . . .. 46. 4.6. Extração multifoveada de features . . . . . . . . . . . . . . . . . . . . .. 47. 5. Implementação. 53. 5.1. Biblioteca de visão computacional e reuso de códigos . . . . . . . . . . .. 53. 5.2. A estrutura multifoveada . . . . . . . . . . . . . . . . . . . . . . . . . .. 54. 5.2.1. Configuração das estruturas do sistema multifoveado . . . . . . .. 55. 5.2.2. Incorporação ao método MMF . . . . . . . . . . . . . . . . . . .. 56. Operações de inserção e remoção de estruturas . . . . . . . . . . . . . .. 58. 5.3.1. 59. 5.3. 6. Precedência entre estruturas . . . . . . . . . . . . . . . . . . . .. Experimentos e Resultados. 61. 6.1. Processamento em relação à distância entre fóveas . . . . . . . . . . . .. 61. 6.2. Comparação entre os métodos . . . . . . . . . . . . . . . . . . . . . . .. 66. 6.2.1. Disposição nos extremos da imagem . . . . . . . . . . . . . . . .. 67. 6.2.2. Disposição ao redor da origem . . . . . . . . . . . . . . . . . . .. 68.

(15) 6.2.3 7. Disposição das fóveas na origem . . . . . . . . . . . . . . . . . .. Conclusão. Referências bibliográficas. 69 71 73.

(16)

(17) Lista de Figuras. 1.1. Representação de duas estruturas foveadas em pirâmide. . . . . . . . . .. 4. 1.2. Figura panorâmica construída a partir de um conjunto de imagens . . . .. 7. 1.3. Imagens utilizadas para confeccionar a imagem panorâmica . . . . . . . .. 7. 1.4. Rastreamento de pessoas em uma faixa de pedestres . . . . . . . . . . . .. 8. 2.1. Função gaussiana bidimensional e sua curva de nível. . . . . . . . . . . .. 15. 2.2. Pirâmide gaussiana. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 15. 2.3. Pirâmide laplaciana. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 16. 2.4. Espaço de escalas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 17. 2.5. Representação da imagem no domínio log-polar (imagem esquerda) e sua reconstrução no domínio cartesiano (imagem direita). . . . . . . . . . . .. 2.6. 18. Decomposição da imagem utilizando a transformada wavelet (imagem esquerda) e equalização da decomposição (imagem direita). . . . . . . . .. 19. 2.7. Filtros direcionais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 21. 2.8. Pirâmide com filtros direcionais . . . . . . . . . . . . . . . . . . . . . .. 21. 2.9. Reconstrução da pirâmide com filtros direcionais . . . . . . . . . . . . .. 21. 2.10 Construção do domínio de multirresolução com MCMR . . . . . . . . . .. 23. 2.11 Construção das camadas . . . . . . . . . . . . . . . . . . . . . . . . . .. 25. 2.12 Construção dos níveis com o MMF. . . . . . . . . . . . . . . . . . . . .. 25. 2.13 Vetor de mobilidade da fóvea . . . . . . . . . . . . . . . . . . . . . . . .. 27. 4.1. Intersecção entre elementos de P2 . . . . . . . . . . . . . . . . . . . . . .. 37. 4.2. Disposições das regiões de interseção entre duas fóveas . . . . . . . . . .. 38. v.

(18) 4.3. Interseção entre duas estruturas fóveadas com o MMF. . . . . . . . . . .. 4.4. Projeção (linhas em azul) dos vértices das regiões no plano yz. Cada. 40. vértice, ao longo dos níveis, projeta um segmento de reta. . . . . . . . . .. 40. 4.5. Disposições de duas fóveas projetadas no plano xz. . . . . . . . . . . . .. 41. 4.6. Vetor que define a direção da região eliminada, sendo esta construída a partir das informações centrais de cada região. . . . . . . . . . . . . . . .. 46. 4.7. Exemplo de distribuição de vértices de interseção dentro de uma imagem.. 49. 4.8. Exemplo de direção das regiões que devem ser eliminadas. . . . . . . . .. 49. 4.9. Exemplo de divisão do nível em regiões verticais. . . . . . . . . . . . . .. 49. 4.10 Exemplo de nível com regiões de interseção eliminadas. . . . . . . . . .. 50. 5.1. Organização das fóveas na interface multifoveada. . . . . . . . . . . . . .. 54. 5.2. Inserção de fóveas na lista. . . . . . . . . . . . . . . . . . . . . . . . . .. 58. 5.3. Remoção de fóveas a lista. . . . . . . . . . . . . . . . . . . . . . . . . .. 59. 6.1. Disposição das Fóveas f (azul) e g (verde) para o deslocamento diagonal.. 62. 6.2. Gráfico do número de pixels processados no último nível da fóvea g com uma variação na distância entre as fóveas realizado a partir de um deslocamento diagonal. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 6.3. 62. Gráfico do número de pixels processados em todos os níveis da fóvea g com uma variação na distância entre as fóveas realizado a partir de um deslocamento diagonal. . . . . . . . . . . . . . . . . . . . . . . . . . . .. 63. 6.4. Disposição das Fóveas f (azul) e g (verde) para o deslocamento vertical. .. 64. 6.5. Gráfico do número de pixels processados no último nível da fóvea g com uma variação na distância entre as fóveas realizado a partir de um deslocamento vertical. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 65.

(19) 6.6. Gráfico do número de pixels processados em todos os níveis da fóvea g com uma variação na distância entre as fóveas realizado a partir de um deslocamento vertical. . . . . . . . . . . . . . . . . . . . . . . . . . . .. 6.7. 65. Imagem em forma de tabuleiro de xadrez utilizada para realizar os testes referentes ao posicionamento de 4 fóveas. . . . . . . . . . . . . . . . . .. 66.

(20)

(21) Lista de Tabelas. 3.1. Trabalhos relacionados à técnica de multifoveamento . . . . . . . . . . .. 4.1. Tabela de exemplo da definição do vetor de direção entre as regiões, levando em consideração a variação nas coordenadas x e y. . . . . . . . . .. 6.1. 34. 47. Tempo médio (milissegundos) e desvio padrão para a obtenção dos keypoints, considerando as poses (−95, −95), (95, 95), (95, −95) e (−95, 95). 67. 6.2. Tempo médio (milissegundos) e desvio padrão para a obtenção dos descritores, considerando as poses (−95, −95), (95, 95), (95, −95) e (−95, 95). 67. 6.3. Tempo médio (milissegundos) e desvio padrão para a obtenção dos keypoints, considerando as poses (-30,-30), (30,30), (30,-30) e (-30,30). . . .. 6.4. Tempo médio (milissegundos) e desvio padrão para a obtenção dos descritores, considerando as poses (-30,-30), (30,30), (30,-30) e (-30,30). . .. 6.5. 68. Tempo médio (milissegundos) e desvio padrão para a obtenção dos keypoints, considerando que todas as fóveas estão posicionadas na origem. .. 6.6. 68. 69. Tempo médio (milissegundos) e desvio padrão para a obtenção dos descritores, considerando que todas as fóveas estão posicionadas na origem. .. ix. 69.

(22)

(23) Lista de Símbolos e Abreviaturas. AV D :. Absolute Value of Differences. CPU :. Central Processing Unit. CT :. Contrast Threshold. CV R :. Cartesian Variable Resolution. DCT :. Discrete Cosine Transform. FPGA : Field Programmable Gate Array MMF :. Multiresolution with Moving Fovea. MMMF : Multiresolution Multifoveation using Mobile Foveae MRMF : Multiresolution Multifeatures OpenCV : Open Source Computer Vision PSNR :. Peak Signal-to-Noise Ratio. SAD :. Sum of Absolute Differences. SFMG : Shifted Fovea Multiresolution Geometry SSIM :. Structural Similarity Index Measure. fc :. Cut-off frequency. xi.

(24)

(25) Capítulo 1 Introdução. O desenvolvimento de sistemas robóticos eficientes está diretamente associado ao aperfeiçoamento dos atuadores, cuja finalidade é proporcionar a interação com o ambiente, e dos sensores, os quais possibilitam a extração de dados que são mapeados em informação sobre o ambiente útil aos robôs no desempenho de tarefas. Em robôs, câmeras são geralmente utilizadas como sensores visuais, que são capazes de extrair uma vasta quantidade de informação. As imagens adquiridas por câmeras passam por um processamento, a fim de se extrair características (ou features), que servem como entrada para algum processo de decisão (reasoning). Em se tratando de Robótica, o processamento da informação deve ser realizado, geralmente, obedecendo a alguma restrição de tempo real, visando garantir que os atuadores possam executar alguma tarefa em tempo hábil. Porém, é sabido que processar imagens é uma tarefa bastante custosa, computacionalmente falando. Então, a ideia é reduzir a quantidade de processamento, o que pode ser feito tanto pela redução da quantidade de dados a serem processados quanto pela abstração de features (feature selection) a partir desses dados. Através dessas duas abordagens podemos garantir o processamento de informação visual em tempo real (Gomes et al. 2010). Reduzir a quantidade de dados a serem processados é a abordagem a ser estudada no presente trabalho. Uma proposta para isso, que tem inspiração no sistema de visão biológico, é a aplicação da técnica conhecida como foveamento (Gomes et al. 2010). A ideia dessa técnica é manter a resolução má-.

(26) 2. CAPÍTULO 1. INTRODUÇÃO. xima possível em uma porção pequena da imagem, denominada de fóvea, similar à região de mesmo nome existente na retina do olho biológico, e diminuir a resolução da imagem à medida que se afasta da fóvea (região central da imagem). Não obstante vários estudos de neurobiologia terem confirmado a existência dessa estrutura de sensores em multirresolução, na retina do olho biológico, a sua existência é percebida facilmente quando fixamos nossos olhos em algum objeto e tentamos prestar atenção em partes variadas do campo de visão. Pode-se verificar a existência de uma região aproximadamente central (no centro do campo de visão) com maior acuidade visual, projetada diretamente na fóvea, e uma perda de acuidade visual de forma logarítmica com relação à distância para a fóvea (Traver & Bernardino 2009). A técnica de foveamento, ao se inspirar no sistema de visão biológico, incorpora uma limitação inerente que pode ser observada durante as tarefas de atenção visual. Esta limitação decorre da impossibilidade da aplicação de vários pontos de atenção visual em uma cena de uma única vez. Além disso, outro problema é definir qual o ponto em que a fóvea deve ser posicionada. Por exemplo, se durante a execução de uma tarefa de atenção do tipo top-down, em que o cérebro diz onde a atenção deve ser posta (como na leitura de um texto, por exemplo), for ativada, por algum motivo (uma interrupção por alguma pessoa passando no campo visual, por exemplo), a atenção do tipo bottom-up, então deve-se definir qual tarefa (continuar a leitura ou voltar atenção à pessoa) deverá conter a fóvea. Para resolver este tipo de problema, se quisermos um sistema que possa executar as duas ao mesmo tempo, é essencial mover a fóvea entre as duas tarefas (ou que se tenha duas fóveas), a fim de garantir que a meta proposta pela atenção top-down seja alcançada e que o sistema esteja preparado para reagir a qualquer ocorrência que foge da normalidade, ou seja, que requer a atenção bottom-up. Convém ressaltar que o paralelismo da fóvea (duas fóveas) não é possível biologicamente, mas é possível alternar a posição dela, com a realização de movimentos sacádicos. Então, notamos que a percepção visual biológica é bastante complexa e eficiente para.

(27) 1.1. METODOLOGIA. 3. garantir com precisão que a fóvea esteja em apenas um objeto (ou região de atenção) por vez. A fim de contornar esta limitação em termos computacionais, a literatura sugere a utilização da técnica de multifoveamento, que se caracteriza pela aplicação de várias fóveas na imagem. Podemos conseguir isso através da replicação de algum algoritmo de foveamento, porém esta metodologia deve provocar o processamento de informações redundantes. Em outras palavras, o aumento de estruturas foveadas na imagem provocaria um aumento significativo na extração de features visuais. Então, neste trabalho, propomos uma nova abordagem de multifoveamento, que é uma técnica que determina várias regiões de maior acuidade visual possível na imagem, diferentemente do conceito da fóvea biológica, acima, com intuito de fornecer maior capacidade de atenção visual aos sistemas robóticos. Para isso, estendemos o trabalho de foveamento com mobilidade dependente do contexto proposto por Gomes (Gomes 2013), onde é realizada uma transformação de uma imagem no domínio de espaço para o domínio de multirresolução. Após esta transformação, a imagem original passa a ser representada por várias imagens de tamanho reduzido, diminuindo assim o tempo de processamento para extração de features, ou pontos que se destacam na região. Através da extração de features, pode-se inferir algum conhecimento sobre uma determinada região da imagem (Gomes 2013), em tempo real (Gomes et al. 2008).. 1.1. Metodologia. Utilizamos a formalização matemática do método de Multirresolução com Fóvea Móvel (MMF, sigla em inglês), que delimita regiões no domínio de espaço que deverão ser transformadas para o domínio de multirresolução (Gomes 2013), com a finalidade de introduzir uma metodologia capaz de detectar as regiões de interseções no esquema de multirresolução. Para isso, é necessário compreender as estruturas MMF como sendo pirâmides que.

(28) 4. CAPÍTULO 1. INTRODUÇÃO. se interceptam no espaço. Essas pirâmides são construídas posicionando cada porção, do domínio de espaço, no plano xy de tal forma que o eixo z represente o nível de escala da estrutura MMF. A Figura 1.1 apresenta a interseção entre duas estruturas no domínio MMF, com suas fóveas tendo a dimensão de um pixel. z f2 f1. y O x. Figura 1.1: Representação de duas estruturas foveadas em pirâmide. Fazendo uso da transformação linear de projeção ortogonal nos planos xz e yz podemos inferir algebricamente as posições de interseções entre duas fóveas. Consequentemente, podemos delimitar as regiões de interseção em cada nível do modelo MMF. A partir desta metodologia, é possível eliminar o processamento redundante decorrente da sobreposição no espaço da estrutura de multirresolução. Ademais, foram realizadas novas formulações matemáticas para garantir que o método comporte a técnica de multifoveamento.. 1.2. Motivação. A motivação desta pesquisa advém do trabalho iniciado durante a tese de doutorado de Gonçalves (Gonçalves 1999) em 1999, que propôs um método de Multicaracterística em.

(29) 1.3. CONTRIBUIÇÃO. 5. Multirresolução (MRMF, sigla em inglês) implementado em um sistema computacional com processador dedicado. Esse aparato computacional processa as imagens adquiridas por câmeras montadas em uma cabeça (estéreo), articulada, com 4 graus de liberdade. Após aplicação do método MRMF em questão, são extraídas características já no domínio de multirresolução. Neste domínio, a estrutura MRMF é composta por imagens com pixels em diferentes resoluções espaciais, mas tendo todas elas o mesmo tamanho (digamos 20 × 15 pixels, em caso de 5 níveis de escalas diferentes), bem reduzido em relação à imagem original (digamos 640 × 480). O MRMF foi melhor formalizado matematicamente no trabalho de mestrado de Gomes (Gomes 2013), que ainda contribuiu, no seu doutorado, dando mobilidade à estrutura de multirresolução, a qual passou a ser conhecida como MMF. Gomes pôde comprovar durante a análise dos resultados de sua tese que a extração de features na imagem foveada ocorre em maior quantidade na fóvea. Podemos perceber que todo o avanço desta linha de pesquisa busca contribuir para o desenvolvimento da visão computacional para aplicações de tempo real, especialmente na extração de features. Com esta intenção, a proposta deste trabalho é estender o método MMF para que este seja capaz de suportar múltiplas fóveas móveis e assim fornecer a capacidade de manter a atenção visual em diversos contextos ao mesmo tempo, por exemplo, em diversos objetos que se movem no campo de visão.. 1.3. Contribuição. A contribuição deste trabalho é a extensão da técnica MMF com o propósito de garantir o suporte à criação de múltiplas fóveas, cujas posições podem ser modificadas em tempo de execução, no decorrer da aplicação, se necessário. Uma maneira trivial de fazer isso seria a simples reexecução do método MMF várias vezes para construção da estrutura multifoveada. Porém, queremos evitar isso porque uma parte significativa da informação.

(30) 6. CAPÍTULO 1. INTRODUÇÃO. seria reprocessada várias vezes. Por exemplo, o nível de resolução mais grosseiro seria o mesmo, sendo recalculado para todas as fóveas. Desta forma, o processamento de features nessa estrutura terminaria sendo elevado devido à quantidade de redundâncias. Por esta razão, propomos um método capaz de garantir que não ocorra nenhuma redundância de processamento durante a extração de features, ou seja, que nas regiões de interseção entre as imagens no domínio de multirresolução não ocorra a extração repetitiva de features, a cada nova fóvea inserida, caso esta já tenha sido calculada para uma das fóveas anteriores. Para isso, basta definir os limites dessas regiões de interseção, e nessas evitar o reprocessamento. Esta tarefa não é tão simples, principalmente se o número de estruturas for elevado, mas há todo um formalismo que permite a sua implementação que foi desenvolvido neste trabalho.. 1.4. Aplicações. O multifoveamento pode ser aplicado durante a confecção de uma imagem panorâmica, como na Figura 1.2, construída a partir de um conjunto de imagens. No caso, foram utilizadas as seis primeiras imagens do dataset cvc01passadis para a construção da imagem panorâmica a partir do benchmark de visão computacional, disponível no sítio link: http://www.iiia.csic.es/ãramisa/datasets/iiiapanos.html (acessado em 22 de junho de 2016), que contém sobreposições (vide Figura 1.3). Nesta tarefa, ocorre a necessidade de se identificar features semelhantes entre as imagens para realizar uma colagem perfeita entre imagens adjacentes (com certa sobreposição). Podemos aplicar várias fóveas, em diferentes posições, a cada imagem do conjunto e para cada uma das fóveas definir extrações de features distintas, tais como cores, arestas ou bordas, cantos (corners), e blobs. Consequentemente, é possível realizar a colagem com melhor perfeição, para a criação da imagem panorâmica, pois não se usará apenas a correlação entre um mesmo grupo de features, mas sim um conjunto de correlações entre.

(31) 1.4. APLICAÇÕES. 7. Figura 1.2: Figura panorâmica construída a partir de um conjunto de imagens (Ramisa et al. 2008).. Figura 1.3: Imagens utilizadas para confeccionar a imagem panorâmica (Ramisa et al. 2008).. múltiplos grupos de features distintas. No processo de atenção visual, é indiscutível a importância de múltiplas fóveas (Dhavale & Itti 2003), visto que o foveamento não consegue manter com precisão a atenção em todo o campo de visão, ou seja, é possível que um robô não consiga desviar de dez objetos jo-.

(32) 8. CAPÍTULO 1. INTRODUÇÃO. gados ao mesmo tempo em sua direção. Enquanto que, durante o uso de multifoveamento poderia ser adicionada uma fóvea a cada estímulo detectado e o robô poderia estabelecer um controle para reagir diante desta situação. Ainda, outra aplicação é em atenção top-down, na busca por um determinado objeto ou padrão em meio a outros objetos distraidores. Usando algum método grosseiro de verificação, podem ser determinadas várias posições para fóveas, para vários candidatos (incluindo distraidores), e depois percorridas essas fóveas com mais detalhes para confirmar a presença (ou não) do objeto em questão na mesma, descartando objetos meramente distraidores da atenção.. Figura 1.4: Rastreamento de pessoas em uma faixa de pedestres (Yang et al. 2016). A aplicação que mais justifica a utilização de multifoveamento é o rastreamento de múltiplos alvos, como observado na Figura 1.4, porque é impossível com uma única fóvea rastrear vários objetos a cada frame. A Figura 1.4 foi extraída em 3 momentos do dataset TUD-Crossing disponível no sítio: https://motchallenge.net/tracker/NOMTwSDP (acessado em 22 de junho de 2016). O olho humano consegue extrair várias features em todo o campo de visão e através dessas podemos inferir a posição dos objetos na cena, mas sem garantir precisão. Para garantir o rastreamento com precisão de todos os objetos é necessário aplicar uma fóvea a cada objeto ou realizar o movimento da estrutura foveada.

(33) 1.5. ORGANIZAÇÃO DO TEXTO. 9. para cada objeto. Porém, este último procedimento só pode ser realizado em tempo real se houver poucos objetos a serem rastreados.. 1.5. Organização do Texto. No Capítulo 2, é apresentado um apanhado dos métodos mais relevantes sobre as técnicas de foveamento e multifoveamento, ressaltando-se como estas foram desenvolvidas e para o que se propõem. No Capítulo 3, são mostrados os vários trabalhos relacionados ao tema, com ênfase na metodologia escolhida, sendo feita uma discussão dos resultados obtidos na literatura. O Capítulo 4 formaliza matematicamente o problema de multifoveamento e apresenta uma solução sem redundância de cálculos. Em sequência, no Capítulo 5, mostramos as implementações do método de Multifoveamento em Multirresolução com Fóveas Móveis (MMMF) e no Capítulo 6 nos dedicamos aos experimentos para verificação da técnica e discussão dos resultados obtidos após a aplicação do algoritmo MMMF. Por fim, o Capítulo 7 é destinado a expor as considerações deste trabalho, indicando possibilidades de trabalhos futuros..

(34) 10. CAPÍTULO 1. INTRODUÇÃO.

(35) Capítulo 2 Embasamento Teórico. Neste capítulo, é apresentada a base teórica envolvendo os métodos de multirresolução, tais como o espaço de escalas, log-polar, wavelets, pirâmides com filtros direcionais, MRMF e MMF, bem como os conceitos teóricos por detrás da extração de características ou features. Para motivar a leitura, tratemos primeiro dos dois problemas relevantes citados no Capítulo 1, ainda em aberto, que são formulados pela comunidade científica, a respeito da extração de features. O primeiro deles diz respeito à definição de quais são as características relevantes a serem extraídas de um conjunto de dados (em nosso caso, uma imagem). Note que um conjunto muito grande de features pode ser oneroso ao sistema computacional, principalmente quando se tem restrições de tempo real. Por exemplo, se for necessário aplicar vários filtros (implementados por correlação) em uma imagem, isso pode ser muito caro computacionalmente. O segundo problema diz respeito a quais features devem ser escolhidas desse conjunto, que sejam úteis para que uma tarefa em execução possa ser completada com eficácia. Este também é um problema não trivial, dependendo muito do contexto em que a tarefa se encontra inserida. Se for um contexto em que se deseja localizar objetos em forma de planos, por exemplo, locais amplos de intensidade constante (gradiente zero ou bem próximo disso) dão indícios da existência de planos, portanto o filtro gradiente é uma feature relevante. Porém, no caso de objetos com forma de elipses ou círculos,.

(36) 12. CAPÍTULO 2. EMBASAMENTO TEÓRICO. ou ainda portas, janelas e outros objetos representados por figuras geométricas mais bem comportadas, a transformada Hough (primeiro caso) ou features baseadas no filtro de Harris (detector de cantos para os outros casos) podem ser usados. Note que ter todas essas características disponíveis a todo quadro processado (a 30 fps) pode ser oneroso, ou até não factível. Então, parece natural ter apenas um conjunto delas sendo calculado a um dado tempo. Ou então prover uma técnica que as calcule sobre alguma estrutura com menos informação, porém preservando a informação em alguma região da imagem que seja essencial à tarefa em questão. Aqui a ideia de foveamento se encaixa como uma luva. De fato, se usarmos esta estrutura, como será visto, é possível acelerar o processamento em muitas vezes na extração de features. 2.1. Abstração de Dados (Features). Formalmente, a cena pode ser representada em uma imagem por meio de uma matriz bidimensional, onde cada célula, ou pixel, dessa matriz guarda um valor de cor que descreve a tonalidade do raio de luz que foi refletido pela superfície dos objetos. A manipulação computacional desses pixels possibilita a extração das features dos objetos, tais como: textura, forma e posição (a um nível de abstração mais alto). As features descrevem de forma abstrata os objetos da cena e por esta razão são bastante exploradas nos algoritmos de matching, identificação e classificação de objetos, controle de atenção e sistemas de navegação robótico. Na prática, são valores calculados, com posições (espacial) bem definidas na imagem. Essas duas características são essenciais para que se tenha uma feature: poder ser medida de algum modo e ter uma posição espacial bem definida na imagem (ou na cena)..

(37) 2.2. PRÉ-PROCESSAMENTO USANDO IMAGENS EM MULTIRRESOLUÇÃO 13. 2.2. Pré-processamento Usando Imagens em Multirresolução. Durante a evolução da pesquisa, voltamos nossos esforços para extrair o melhor desempenho da estrutura. É por este motivo que cientistas buscam compreender e imitar o sistema humano e, consequentemente, transferir estes conhecimentos para os robôs (Traver & Bernardino 2009). A robótica sempre se inspirou nas características dos seres humanos para a construção de robôs, visto que o ser humano estaria mais apto a se relacionar com máquinas que possuíssem suas feições. Desta forma, muitos dos aspectos e sentidos humanos foram e estão sendo incorporados aos sistemas robóticos, tais como: forma de andar, falar e ver. O sistema de visão é o mais complexo e completo entre todos e isso vale também na Robótica, onde o sistema visual exige muito mais processamento para ser imitado por um sistema computacional. Para resolver este problema, Uhr propõe aproximá-lo a um cone de reconhecimento, onde, quanto mais próximo do pico menor qualidade encontramos (Uhr 1972). Esta forma de representação, de certa forma, simula o inverso do comportamento da visão biológica, pois na visão biológica é oferecida maior qualidade de resolução à região que se encontra no centro da retina, ou próxima dessa. Esta região, denominada fóvea, é composta por uma pequena área na parte central da retina, bem no fundo do olho, que apresenta a maior acuidade visual (Oxford dictionary of english 2010) que diminui de acordo com a aproximação à periferia do campo visual (ou da retina). O funcionamento do olho humano é de certa forma similar ao de uma câmera, quer dizer, seria mais correto dizer o oposto. Na visão biológica, raios de luz filtrados pelas lentes, passam através da córnea, que é membrana que protege o olho, entrando pela pupila, que é o orifício central da íris que altera de diâmetro de acordo com a maior ou menor intensidade de luz. O cristalino direciona então os raios de luz para a retina, no fundo do olho, onde estão efetivamente localizados os sensores. Encontramos na retina.

(38) 14. CAPÍTULO 2. EMBASAMENTO TEÓRICO. dois tipos de células fotoreceptoras: os cones, sensíveis a todo o espectro de cores visível, e os bastonetes, que são células com sensibilidade à iluminação. Os bastonetes são distribuídos mais uniformemente na retina, enquanto que os cones são mais concentrados na região que apresenta a maior acuidade visual, conhecida como fóvea. Os fotoreceptores convertem os dados visuais em estímulos que são interpretados pelo cérebro, e assim a informação visual é processada. A partir dos estudos de Uhr, outros métodos foram propostos posteriormente, tais como, por exemplo, as pirâmides gaussiana e laplaciana, os espaços de escalas, a representação log-polar, a transformada wavelets, o modelo de pirâmide com filtros direcionais e multirresolução com fóvea móvel. Estes modelos buscam, assim como proposto por Uhr, facilitar o processo de extração de feature ou diminuir a complexidade computacional exigida em tarefas como a extração e descrição de features.. 2.2.1. Pirâmides Gaussiana e Laplaciana. O procedimento para gerar a pirâmide gaussiana é aplicar um filtro gaussiano (vide Figura 2.1) na imagem original e realizar uma reamostragem da imagem suavizada. Geralmente são usadas amostragens com fator 2, ou seja, para construir o primeiro nível da pirâmide gaussiana os pixels são reamostrados saltando de dois em dois na imagem suavizada (horizontal e verticalmente), sendo este processo repetido para a criação de novos níveis. Consequentemente, o tamanho de cada nível é metade da dimensão do anterior como pode ser visto na Figura 2.2. A construção da pirâmide laplaciana é realizada usando os níveis da pirâmide gaussiana. O primeiro nível da pirâmide laplaciana é dado pela diferença entre a imagem original e sua resposta à filtragem gaussiana. No segundo, nível usamos a imagem relativa ao segundo nível da pirâmide gaussiana e realizamos a diferença com a filtragem gaussiana dela mesma, e assim sucessivamente. Quando chega ao topo da pirâmide laplaciana, não tem mais como calcular a diferença porque a pirâmide gaussiana não tem.

(39) 2.2. PRÉ-PROCESSAMENTO USANDO IMAGENS EM MULTIRRESOLUÇÃO 15 0.2. 1. µ. 0.4. 0.2 0.4. 0.6. 0.8. 4 0.. 0.2. 0.6. 0 0. 2. 4. −3 6 −5. 1. 0.4 0.2. 0.2. 0. 0.4. 0. 8. 0.2. −2 0 −2. µ 0.6. −1 0.5. 0.2. 0. 1. 0.6. 2. 3. 4. Figura 2.1: Função gaussiana bidimensional e sua curva de nível.. Figura 2.2: Pirâmide gaussiana.. mais camadas superiores. Isso indica o final da transformação, então, o nível de topo da laplaciana recebe o topo da gaussiana. A Figura 2.3 apresenta uma transformação para o espaço de pirâmide laplaciana. A partir desta figura, percebemos o destaque de bordas (ou arestas) nos níveis da pirâmide laplaciana. Isso acontece devido à formalização matemática do operador laplaciano, cuja função é dar destaque as mudanças de intensidade do sinal fazendo uso da segunda derivada..

(40) 16. CAPÍTULO 2. EMBASAMENTO TEÓRICO. Figura 2.3: Pirâmide laplaciana.. 2.2.2. Espaço de Escalas. A teoria de espaço de escalas nasceu da observação da representação dos objetos do mundo real em imagens. É percebido que estes objetos aparecem em diversos níveis de escalas. Este pensamento foi incorporado em um sistema de representação multiescala, onde o parâmetro que determina a escala (σ) é inversamente proporcional à nitidez da imagem. Pode ser verificado na Figura 2.4 que todas as imagens, após a transformação, mantêm a dimensão original, mas os elementos se espalham com o aumento do valor do parâmetro σ. De acordo com Lindeberg (Lindeberg 1989), dentre as transformações lineares, o núcleo gaussiano é o único capaz de gerar o espaço de escalas. O formalismo matemático para esta técnica é apresentado em sua tese de doutorado (Lindeberg 1991).. 2.2.3. A Representação Log-polar. Na década de 70, foram realizadas várias pesquisas usando animais como coelhos, gatos, e macacos, com intuito de estudar o sistema de visão desses mamíferos. Com o.

(41) 2.2. PRÉ-PROCESSAMENTO USANDO IMAGENS EM MULTIRRESOLUÇÃO 17. (a) σ = 1.0. (b) σ = 1.5. (c) σ = 2.0. (d) σ = 2.5. Figura 2.4: Espaço de escalas. resultado desses estudos, cientistas perceberam que a transmissão da informação entre a retina e o córtex visual obedece, de certa forma, à lei logarítmica-polar. A definição deste modelo representa os planos da retina e do córtex cerebral pelas variáveis z = x + jy e w = ξ + jη, respectivamente. O mapeamento complexo log-polar é feito de acordo com a Equação 2.1 (Traver & Bernardino 2009).. w = log(z). (2.1).

(42) 18. CAPÍTULO 2. EMBASAMENTO TEÓRICO. e as coordenadas de excentricidade e ângulo são obtidas pelas Equações 2.2 e 2.3, respectivamente.. p ξ = log(|z|) = log( x2 + y2 ). (2.2). η = arg(z) = atan2(y, x). (2.3). O resultado da aplicação da técnica log-polar pode ser verificado na Figura 2.5. A Figura 2.5 mostra a representação no domínio log-polar e a reconstrução da imagem no domínio do espaço, sendo esta última bastante semelhante as imagens geradas pelo nosso sistema de visão, motivando cada vez mais seu uso na literatura.. Figura 2.5: Representação da imagem no domínio log-polar (imagem esquerda) e sua reconstrução no domínio cartesiano (imagem direita).. 2.2.4. A Transformada Wavelet. A decomposição (ou transformada) wavelet distingue-se dos outros modelos apresentados devido à mudança do sinal bidimensional para o domínio de frequência. Por definição, determinar a transformada discreta de wavelets consiste em identificar os parâmetros.

(43) 2.2. PRÉ-PROCESSAMENTO USANDO IMAGENS EM MULTIRRESOLUÇÃO 19 ck e d j,k na Equação 2.4, com k e j pertencentes ao conjunto dos números inteiros. ∞. f (t) =. ∑. ∞. ck φ(t − k) +. k=−∞. ∞. ∑ ∑ dk, j Ψ(2 jt − k),. (2.4). k=−∞ j=0. Na Equação 2.4, φ(t) e Ψ(t) são as funções wavelets que representam o detalhe e a escala. A partir delas podemos calcular filtros passa-alta e passa-baixa, respectivamente. Através da combinação destes filtros podemos especificar a faixa de frequência do sinal bidimensional (Mallat 1989). A base da transformada wavelet de Haar é a mais simples, geralmente usada, mas outras bases, como por exemplo o laplaciano do gaussiano e a base de Morlet, mais complexas, podem ser derivadas e aplicadas, desde que sejam atendidas as restrições de ortonormalidade da base. Ou seja, as funções de base devem possuir norma 1 (sua integral) e devem ser ortogonais entre si, quer dizer, como o produto interno entre cada par de funções componentes igual a zero. A Figura 2.6 mostra um exemplo da transformada wavelet com 3 decomposições utilizando a transformada discreta de wavelet (DWT, da sigla em inglês). Na Figura 2.6 são apresentadas a imagem real da decomposição e uma imagem equalizada (para efeitos de visualização) com o resultado da decomposição, respectivamente.. Figura 2.6: Decomposição da imagem utilizando a transformada wavelet (imagem esquerda) e equalização da decomposição (imagem direita)..

(44) 20. CAPÍTULO 2. EMBASAMENTO TEÓRICO Na Figura 2.6 da direita, pode ser observado que durante a primeira decomposição do. método, são geradas 4 imagens: a imagem original comprimida e as imagens de features horizontais, diagonais e verticais. Para a segunda decomposição, a imagem comprimida será decomposta em mais 4 novas imagens e assim sucessivamente, até que um nível desejado seja atingido. Este método é bastante explorado na compressão de vídeos, devido à facilidade de reconstrução da imagem original fornecida pelos coeficientes de decomposição. A compressão pode ser observada no resultado da decomposição, dado que a imagem original passa a ser representada por 4 imagens de 1/4 do seu tamanho. No entanto, três dessas imagens, as formadas pelas features, podem ser eficientemente comprimidas por possuírem um range menor na determinação do valor do sinal, portanto usando menos bits para representação dos valores.. 2.2.5. Pirâmide com Filtros Direcionais. A pirâmide com filtros direcionais é proposta por Freeman e Adelson (Freeman & Adelson 1991) e assemelha-se a uma variação da transformada wavelet. Neste modelo, em cada nível, são utilizados filtros direcionais com orientações de 0, 45, 90 e 135 graus (vide Figura 2.7). A aplicação desses filtros na imagem gera 4 novas imagens nas quais aparecem ressaltados os contornos horizontais, diagonais de 45 graus, verticais e diagonais de 135 graus, como pode ser observado na Figura 2.8. Este método também é bastante utilizado para compressão de imagens (Adelson & Simoncelli 1987), pois as imagens comprimidas podem ser combinadas com os 4 filtros para restaurar a imagem original (veja a Figura 2.9)..

(45) 2.2. PRÉ-PROCESSAMENTO USANDO IMAGENS EM MULTIRRESOLUÇÃO 21. (a) 0 graus. (b) 45 graus. (c) 90 graus. (d) 135 graus. Figura 2.7: Filtros direcionais (Freeman & Adelson 1991, p. 16).. Figura 2.8: Pirâmide com filtros direcionais (Freeman & Adelson 1991, p. 16).. (a) Imagem original. (b) Imagem reconstruída. Figura 2.9: Reconstrução da pirâmide com filtros direcionais (Freeman & Adelson 1991, p. 16).. 2.2.6. Multicaracterísticas (ou Múltiplas Features) em Multirresolução (MRMF). O método MRMF original, que serviu de base para o método MMF, é também inspirado pela abordagem piramidal, usando a mesma ideia de que em um espaço de escalas.

(46) 22. CAPÍTULO 2. EMBASAMENTO TEÓRICO. as características aparecem melhor realçadas em um determinado nível. Assim, a ideia é também produzir uma estrutura em níveis de escala para facilitar a extração (abstração) de features. Porém, distingue-se deste modelo no que diz respeito à dimensão dos dados resultantes do seu processamento, pois gera imagens todas com exatamente o mesmo tamanho, no domínio de multirresolução. A Figura 2.10 mostra que o limite das regiões em um nível no domínio do espaço são variantes, ao passo que as imagens no domínio de multirresolução têm todas a mesma dimensão que a fóvea (nível de maior resolução). São várias as abordagens para este esquema, sendo as principais descritas a seguir. A ideia do esquema MRMF é mapear uma região inicialmente pequena da imagem original, mas com a maior resolução possível, no nível de maior resolução da estrutura transformada, a fóvea. No caso, a maior resolução possível é a mesma resolução da imagem original, então, digamos, os 20 × 15 pixels centrais da imagem original compõem este nível (se for usada uma fóvea com 20 × 15). Em seguida, deve-se tomar uma região maior da imagem original, digamos, com o dobro das dimensões (se for usada a escala 2), ou 40 × 30, porém reduzindo a imagem resultante por algum processo de filtragem, de forma que o resultado é uma imagem que tenha o mesmo tamanho da primeira (fóvea), no caso de 20 × 15. Este processo é repetido aumentando-se o escopo da região na imagem original até que no nível mais grosseiro da estrutura se tenha a imagem original toda (digamos de tamanho 640 × 480, para o caso ilustrado) transformada (reduzida) para uma imagem também de 20 × 15 pixels (resultando na resolução mais grosseira possível, mas abrangendo toda a imagem original). Note que este processo acarreta em perda de informação na periferia da imagem, uma vez que a região de maior resolução abrange sempre a parte central da imagem, diminuindo a resolução para a periferia, o que seria de certa forma similar ao sistema visual biológico. Assim, um robô com esse sistema de visão deve mover seus sensores visuais (câmeras), realizando movimentos sacádicos, se desejar manter um objeto de interesse na região de maior resolução. Para objetos que se movem no campo de visão, o processa-.

(47) 2.2. PRÉ-PROCESSAMENTO USANDO IMAGENS EM MULTIRRESOLUÇÃO 23 mento em tempo real não é possível usando este modelo, pois a movimentação dos recursos é onerosa, computacionalmente, e também biologicamente, uma vez que levamos cerca de 80 a 200 milisegundos para realizar um movimento sacádico. Um movimento sacádico em uma cabeça estéreo pode demorar até 500 milisegundos (Gomes et al. 2010). Com o intuito de minimizar ou até resolver este problema, a inovação proporcionada por Gomes, Carvalho & Gonçalves (2013) com o método MMF, como o próprio nome já diz, justamente tenta evitar a realização de movimentos sacádicos, provendo mobilidade à fóvea e economizando assim movimentos do sensor enquanto o objeto de interesse se encontra na imagem (Bezerra 2006). Claro, isto só é possível de se realizar até que a fóvea chegue a um limite dentro da imagem. Após isso o movimento deve ser realizado, de qualquer maneira, para manter o objeto em questão na imagem.. Figura 2.10: Construção do domínio de multirresolução com MCMR (Bezerra 2006, p. 35)..

(48) 24. CAPÍTULO 2. EMBASAMENTO TEÓRICO. 2.2.7. Multirresolução com Fóvea Móvel (MMF). O modelo de multirresolução com fóvea móvel (MMF) formalizado por Gomes et al. (2008) pode ser compreendido fazendo-se uma analogia com uma pirâmide, onde o pico, móvel, apresenta maior acuidade e a base uma resolução mais grosseira. Com esta abordagem, é possível obter uma acuidade visual com boa resolução em qualquer parte da imagem, desde que a fóvea seja posicionada (movida) para esta região. Gomes (2013) demonstra que é possível reduzir o tempo de processamento utilizando o modelo MMF sem prejudicar a eficácia das tarefas, desde que a fóvea seja propriamente controlada. As subseções a seguir apresentam melhor a formalização dessa proposta.. Construção das camadas A construção das camadas da pirâmide é o início do pré-processamento necessário para a construção da estrutura MMF. Nesta construção de camadas, a imagem é mapeada para um conjunto de k níveis, de tamanho W , com índices de 0 até m, onde m é o nível da fóvea (vide Figura 2.12). Consideramos uma imagem I de tamanho U = (Ux ,Uy ), e para cada nível k, delimitamos uma porção de tamanho S = (Sx , Sy ) de I que será mapeada para o domínio de multirresolução. Define-se que S0 = U e Sm = W , enquanto que os níveis intermediários são obtidos através de interpolação, conforme a Equação 2.5. A Figura 2.11 apresenta as regiões da imagem no domínio espacial que serão transformadas para o domínio de multirresolução. Uma vantagem é que o armazenamento dos valores de um pixel no domínio de multirresolução não precisa ser necessariamente realizado. De fato, na tese de Gomes, as regiões determinam apenas onde e em quais escalas as features devem ser extraídas (Gomes 2013). Durante a implementação desta estrutura, não ocorre o armazenamento do domínio de multirresolução, ou seja, durante a extração ou descrição das features não é feita alocação de memória para as k imagens de tamanho W , porque a equação 2.5 já informa, em I, a dimensão da porção que será processada..

(49) 2.2. PRÉ-PROCESSAMENTO USANDO IMAGENS EM MULTIRRESOLUÇÃO 25. Figura 2.11: Construção das camadas, adaptado de (Gomes et al. 2008, p. 20).. Figura 2.12: Construção dos níveis com o MMF..

(50) 26. CAPÍTULO 2. EMBASAMENTO TEÓRICO. Sk =. 2.2.8. mU +W k − kU m. (2.5). Movimento da fóvea. Em seu trabalho, Gomes define que a mobilidade da fóvea pode ser controlada através de um vetor da fóvea F e que esta mobilidade pode ser realizada somente entre os limites da imagem (Gomes 2013). Portanto, podemos definir que o vetor F, com origem no centro da imagem I, está entre (W − U)/2 e (U − W )/2. Consequentemente, F = (0, 0) quando a fóvea é posicionada no centro de I. Fazendo uso do vetor F, podemos definir a Equação 2.6, que indica a posição de início de cada região, no domínio de espaço, que deve ser transformada. O nível em destaque na Figura 2.13 mostra a escala que está sendo mapeada para o domínio de multirresolução, e, como foi dito anteriormente, o vetor fóvea F sai do centro da imagem e aponta agora para a região onde se encontra a fóvea.. δk =. k(U −W + 2F) 2m. (2.6). É mostrado no trabalho que o método MMF pode ser aplicado para rastreamento de objetos, visão estéreo, matching entre duas imagens, reconhecimento e atenção visual, provendo compressão da informação e garantindo a execução em tempo real. Além disso, este modelo também foi estendido para o domínio 3D, para realização de reconhecimento baseado no foveamento em nuvem de pontos (Gomes, Silva, Rocha, Aroca, Velho & Gonçalves 2013)..

(51) 2.2. PRÉ-PROCESSAMENTO USANDO IMAGENS EM MULTIRRESOLUÇÃO 27. Figura 2.13: Vetor de mobilidade da fóvea, adaptado de (Gomes et al. 2008, p.21)..

(52) 28. CAPÍTULO 2. EMBASAMENTO TEÓRICO.

(53) Capítulo 3 Trabalhos relacionados. Do que pudemos verificar extensivamente, são encontrados poucos trabalhos na literatura implementando a técnica de multifoveamento. A Tabela 3.1 organiza esses estudos de acordo com o ano de publicação, realçando detalhes de cada um deles. No trabalho de Dario, a técnica de multifoveamento é explorada para a análise da disposição de sensores piroelétricos e piezoelétricos em um sistema tátil (Dario et al. 1986). Para a realização do trabalho, é empregada uma estrutura que inclui plataforma estática, emissor de infravermelho e um dedo explorador. O sistema eletromecânico infere a posição e orientação de um objeto posicionado na plataforma a partir de uma imagem binária gerada pelos sensores. A pesquisa em questão busca analisar a precisão dos sensores distribuídos de forma regular (ortogonal e hexagonal) e de forma não regular (fóvea e multifóvea), considerando que todos os sensores tem o formato circular. O resultado da configuração multifóvea mostra que os erros de cálculos de posição e orientação dos padrões não aumentam significativamente em relação às outras abordagens, porém não apresenta maior precisão em relação às outras disposições. O mapeamento log-polar foi utilizado por Lim para rastrear múltiplos objetos (Lim et al. 1996). Nesse trabalho, a identificação do objeto é realizada através da divisão da imagem log-polar em 4 regiões: região guardada, ativa, passiva e semi-visível. A região guardada contém 4 pixels de raio no domínio cartesiano e serve para garantir que o objeto rastreado não seja perdido, enquanto que a região ativa possui 97 pixels de raio, em do-.

(54) 30. CAPÍTULO 3. TRABALHOS RELACIONADOS. mínio cartesiano, para detectar o tamanho, distância e o movimento dos objetos, e assim definir qual objeto será foveado na próxima iteração. Após a detecção, a câmera é posicionada de tal forma que o centro do objeto esteja no centro da imagem. Além disso, este objeto é identificado com uma tag que o distingue na cena. De acordo com os autores, as regiões passiva e semi-visível, no domínio log-polar, não recebem nenhum processamento porque suas informações não agregam desempenho ao método, ou seja, não há detecção de features . Para realizar o reconhecimento de objetos com diversas dimensões e singularidades, Camacho implementou um algoritmo em Field Programmable Gate Array (FPGA) baseado em pirâmide gaussiana, que suporta múltiplas fóveas (Camacho et al. 1998). Para isso, são definidos fatores de subdivisão em cada lado da fóvea para a construção dos níveis da estrutura . Os níveis são referenciados pela origem ou canto superior esquerdo e são delimitados através de uma relação entre a mínima subdivisão do nível e a subdivisão em cada lado da fóvea. Com a fóvea definida, são realizados os cálculos dos fatores de subdivisão laterais necessários para criação dos níveis inferiores da pirâmide. De acordo com Camacho, o multifoveamento é realizado pela reexecução deste procedimento e apresenta como vantagem a possibilidade de processamento paralelo para as várias regiões de interesse . Em seu trabalho, é exposta uma aplicação que relaciona os últimos níveis de diferentes regiões de interesse, antes de serem gravados em memória, através do algoritmo temporal de diferenças de valores absolutos (AV D) para gerar uma máscara contendo as regiões de movimento detectadas. Em estudos sobre a atenção visual, é realizada a extração de features de baixo nível, como cores, movimento, orientações e intensidade, para a criação de um mapa de saliências, semelhante aos dados de movimentações dos olhos humanos, explorando a abordagem multifoveada de compressão de vídeo (Dhavale & Itti 2003). No trabalho em questão, são avaliadas duas abordagens de foveamento, a primeira é baseada em objeto e a segunda em localização. A metodologia empregada nesse trabalho é a replicação do.

(55) 31 método de pirâmide gaussiana para cada fóvea. Através da ponderação do valor da menor saliência e da menor distância do ponto ao objeto, é gerado um valor que define qual saída da pirâmide será utilizada para compor a imagem multifoveada. É apontado no artigo que o grande defeito dessa metodologia é que os frames são calculados e após a mudança da fóvea aparecem suavizados. Os resultados apresentam uma taxa de compressão de 1,8 sem uma deterioração perceptível da qualidade. Também é verificado que a abordagem de localização apresenta maior compressão do que a baseada em objetos. A compressão com perdas de dados pode ser implementada considerando a técnica de resolução variável cartesiana (CV R, da sigla em inglês) (Basu & Wiebe 1998). O CV R é capaz de manipular o formato da fóvea pela variação dos fatores de escala horizontal e vertical, dependendo da posição da fóvea. Quando é realizada a inserção de mais regiões de interesse, é necessário definir quando se deve reduzir a resolução ao redor da fóvea para compensar ou se deve reter a informação adicional reduzindo a taxa de compressão. Para resolver este problema, Basu e Wiebe propõem duas abordagens, sendo a primeira cooperativa e a segunda competitiva. Na abordagem cooperativa, todas as fóveas contribuem para calcular a localização do ponto na imagem transformada. O problema dessa estratégia é que são geradas linhas visuais entre as fóveas com a mesma resolução da fóvea, enquanto que na abordagem competitiva as fóveas competem para calcular a posição de um ponto da imagem. A fóvea mais próxima do ponto em análise determinará a sua localização. Esta técnica é incorporada a uma aplicação de videoconferência e obtém valores de taxa de compressão acima de 98% com a codificação entre frames. Em aplicações como rastreamento, segurança e supervisão de tráfego, é necessário prover qualidade da informação em um amplo campo de visão, porém, isso requer maior recurso de rede. Rodríguez et al. (2002) propôs realizar a compressão das informações estáticas do vídeo e realizar a transmissão a taxas diferentes para resoluções distintas (Rodríguez et al. 2002). Para isso, foi usado o método cartesiano exponencial (SFMG) com estimadores de deslocamento, com a intenção de escolher as regiões de interesse e.

(56) 32. CAPÍTULO 3. TRABALHOS RELACIONADOS. relacioná-las entre os frames. O multifoveamento é conseguido pela sobreposição das estruturas, separadamente. A transmissão da estrutura é realizada garantindo maior prioridade para os níveis próximos da fóvea. Na recepção da informação visual, as regiões que não foram recebidas são reaproveitadas de pacotes anteriores podendo acarretar num problema, quando o deslocamento é grande e a banda da rede é limitada à região da fóvea. Neste caso, a fóvea apresenta uma parte da informação da camada anterior. Uma proposta para solucionar este problema é enviar uma fóvea que englobe todo o movimento. De acordo com os autores a principal vantagem do método é garantir a qualidade do alvo mesmo com uma banda de rede variável. O modelo de foveamento que utiliza a variação espacial do sistema de visão humano nasceu por meio da definição de um limiar de contraste (CT ) encontrado pela função da frequência espacial e da excentricidade retinal. Através deste CT é possível definir uma frequência de corte ( fc ), ou seja, uma frequência que delimita o que é visível. A ideia deste método proposto por Sankaran é filtrar as imagens de acordo com a frequência fc previamente definida (Sankara et al. 2005). A extensão do modelo foveado para o multifoveamento é realizada incorporando mais fc ao sistema. O algoritmo proposto extrai sequencialmente cada frame do vídeo, realiza uma subtração com o background da cena e aplica um limiar (threshold) para encontrar a posição aproximada do objeto, divide o frame em vários blocos de mesmo tamanho e para cada bloco define uma flag de existência do objeto, realiza o foveamento no centro de cada bloco com a flag setada e mistura todos os blocos foveados baseados na seletividade da frequência. Este método pode ser implementado no domínio espacial com complexidade O(n2 ) e no domínio DCT com complexidade O(1), onde n é o número de possíveis distâncias de visualização. O estudo sobre a combinação da utilização do foveamento adaptativo de multipontos definido por Sankaran (Sankara et al. 2005) com o reuso da informação de alta resolução com o objetivo de produzir vídeos com uma qualidade comparável ou superior aos demais métodos de compressão (Pioppo et al. 2006). A qualidade é avaliada por meio da métrica.

(57) 33 do índice de similaridade estrutural (SSIM) bem como pela relação sinal-ruído de pico tradicional (PSNR). Porém, o PSNR não é uma boa métrica, porque o multifoveamento apresenta distorções nos frames. Os autores notam que a qualidade da informação diminui quando a fóvea se afasta. Então, a ideia é reutilizar as informações de qualidade do frame anterior ao movimento. Para aplicar esta estratégia, são definidos dois limiares, o primeiro é responsável por detectar o movimento e o segundo por detectar ausência de mudanças do background da cena. Se a soma de diferenças absolutas (SAD) entre os frames anterior e atual exceder o limiar de movimento, ele é foveado e se for menor que o segundo limiar ou da média entre o SAD anterior e atual, então o bloco não é foveado. Este método apresenta um ganho de compressão de 2,25 a 11% sem degradar a qualidade de forma perceptível. Após a análise da literatura, constatamos que o multifoveamento pode ser aplicado em diversos contextos através da replicação de uma estrutura de multirresolução. Todos os trabalhos citados, desenvolvidos em software, utilizam a extração de features de movimento para inferir conhecimento sobre o contexto. Dentre esses trabalhos, existem alguns que realizam o multifoveamento em tempo real, mas para fazer isso utilizam hardware dedicado (uma FPGA) para permitir o processamento paralelo. A replicação provoca uma interseção entre os níveis das fóveas se não forem tratadas anteriormente e os únicos trabalhos da literatura que tratam essa redundância de informação são Camacho (Camacho et al. 1998) e Rodríguez (Rodríguez et al. 2002). Nos dois trabalhos, as fóveas são processadas separadamente dos anéis, níveis da estrutura foveada sem a fóvea, para eliminar o processamento redundante. A solução proposta por Camacho (Camacho et al. 1998), de separar a fóvea da estrutura acaba sendo paliativa, porque entre os anéis ainda existe redundância de informação. O diferencial a mais do método proposto nessa dissertação é a identificação de toda a redundância existente para replicação da estrutura foveada..

(58) Metodologia Espaço variante Log-polar Pirâmide Gaussiana Resolução Variável Cartesiana Cartesiano exponencial Pirâmide Gaussiana. Contexto Reconhecimento Tracking Tracking Compressão Compressão Atenção visual. Implementação Hardware Software Software Software Software Software. Multifóveas Sim Sim Sim Sim Sim Sim. Features Sim Sim Sim Sim Sim Sim. (Sankara et al. 2005). Multipontos Adaptativo. Compressão. Software. Sim. Sim. (Pioppo et al. 2006). Multipontos Adaptativo. Compressão. Software. Sim. Sim. Real-time Não Sim Sim Sim Não Não Não Sim Não Sim. Domínio Espacial Espacial Espacial Espacial Espacial Espacial Espacial Frequência Espacial Frequência. 34. Trabalho (Dario et al. 1986) (Lim et al. 1996) (Camacho et al. 1998) (Basu & Wiebe 1998) (Rodríguez et al. 2002) (Dhavale & Itti 2003). Tabela 3.1: Trabalhos relacionados à técnica de multifoveamento CAPÍTULO 3. TRABALHOS RELACIONADOS.