Geração de superpixels pela Floresta Geradora Iterativa usando informação de objeto

(1)

Felipe de Castro Belém

Geração de Superpixels pela Floresta Geradora

Iterativa usando Informação de Objeto

CAMPINAS

2020

(2)

Geração de Superpixels pela Floresta Geradora Iterativa usando

Informação de Objeto

Dissertação apresentada ao Instituto de Computação da Universidade Estadual de Campinas como parte dos requisitos para a obtenção do título de Mestre em Ciência da Computação.

Orientador: Prof. Dr. Alexandre Xavier Falcão

Coorientador: Prof. Dr. Silvio Jamil Ferzoli Guimarães

Este exemplar corresponde à versão final da Dissertação defendida por Felipe de Castro Belém e orientada pelo Prof. Dr. Alexandre Xavier Falcão.

CAMPINAS

2020

(3)

Ana Regina Machado - CRB 8/5467

Belém, Felipe de Castro,

B411g BelGeração de superpixels pela Floresta Geradora Iterativa usando informação de objeto / Felipe de Castro Belém. – Campinas, SP : [s.n.], 2020.

BelOrientador: Alexandre Xavier Falcão.

BelCoorientador: Silvio Jamil Ferzoli Guimarães.

BelDissertação (mestrado) – Universidade Estadual de Campinas, Instituto de Computação.

Bel1. Análise de imagem. 2. Segmentação de imagens. 3. Processamento de imagens. I. Falcão, Alexandre Xavier, 1966-. II. Guimarães, Silvio Jamil Ferzoli. III. Universidade Estadual de Campinas. Instituto de Computação. IV. Título.

Informações para Biblioteca Digital

Título em outro idioma: Superpixel generation by the Iterative Spanning Forest using

object information

Palavras-chave em inglês:

Image analysis Image segmentation Image processing

Área de concentração: Ciência da Computação Titulação: Mestre em Ciência da Computação Banca examinadora:

Alexandre Xavier Falcão [Orientador] Hélio Pedrini

Paulo André Vechiatto de Miranda

Data de defesa: 23-04-2020

Programa de Pós-Graduação: Ciência da Computação

Identificação e informações acadêmicas do(a) aluno(a)

- ORCID do autor: https://orcid.org/0000-0002-6037-5977 - Currículo Lattes do autor: http://lattes.cnpq.br/0187395671366646

(4)

Felipe de Castro Belém

Geração de Superpixels pela Floresta Geradora Iterativa usando

Informação de Objeto

Banca Examinadora:

• Prof. Dr. Alexandre Xavier Falcão (Orientador)

Instituto de Computação - Universidade Estadual de Campinas • Prof. Dr. Hélio Pedrini

Instituto de Computação - Universidade Estadual de Campinas • Profa. Dr. Paulo André Vechiatto de Miranda

Instituto de Matemática e Estatística - Universidade de São Paulo

A ata da defesa, assinada pelos membros da Comissão Examinadora, consta no SIGA/Sistema de Fluxo de Dissertação/Tese e na Secretaria do Programa da Unidade.

(5)

A minha história no programa de Mestrado do Instituto de Computação (IC) da Univer-sidade Estadual de Campinas (UNICAMP) começou pelos incentivos e oportunidades que meus orientadores, Silvio e Alexandre, puderam me proporcionar. O apoio incondicional do meus pais, Lúcio e Leninha; do meu irmão, Gustavo; e da minha namorada, Natália; possibilitaram a minha mudança e me serviram de inspiração para conseguir me adaptar à nova rotina.

Por todas as dificuldades e dúvidas que tive sobre as burocracias do instituto, também sou grato a todos os funcionários, em especial a Denise e Wilson, que prontamente me auxiliaram e não mediram esforços em me ajudar. Gostaria de agradecer, também, a todos do laboratório, principalmente à Bárbara, Leonardo e Samuel, por me ensinarem tanto, e pelos momentos aleatórios de descontração.

Finalmente, devido ao contexto histórico em que vivemos, sinto um dever cívico de dei-xar aqui meus agradecimentos às instituições que possibilitaram o meu desenvolvimento como pesquisador e educador. O presente trabalho foi realizado com apoio da Coorde-nação de Aperfeiçoamento de Pessoal de Nível Superior - Brasil (CAPES) - Código de Financiamento 001, e Processos 88887.475496/2020-00 e 88887.191730/2018-00. Também, este foi auxiliado, identificado pelo processo no _{2014/12236-1, pela Fundação de Amparo}

à Pesquisa do Estado de São Paulo (FAPESP). Sou profundamente grato ao Conselho Nacional de Desenvolvimento Científico e Tecnológico (CNPq, Processo 131000/2018-7), por me agraciar com uma bolsa de pesquisa. O suporte financeiro que tive durante o meu mestrado acadêmico é um direito basilar que, infelizmente, não é estendido para os demais aspirantes à pesquisa. Anseio pelo dia em que a distribuição de recursos não seja refém de uma ideologia austera, e que sejam acessíveis a todos e todas.

(6)

Métodos de segmentação de imagem em superpixels almejam particionar a imagem em regiões conexas (i.e., superpixels) de forma que os objetos de interesse sejam representa-dos pela união de seus superpixels. Tal resultado é de extrema importância para inúmeras aplicações, aumentando o desempenho computacional e permitindo explorar informações de nível intermediário sobre os objetos envolvidos na análise da imagem. Dependendo do algoritmo, o desempenho da segmentação de superpixels pode ser proporcional ao número de regiões geradas. Entretanto, a falta de informação sobre os objetos de interesse, faz com que resultados eficazes estejam quase sempre relacionados a uma super-segmentação desnecessária, afetando negativamente os propósitos supramencionados. Tendo em vista o desenvolvimento de métodos eficientes para segmentação em superpixels, cujos objetos sejam representados de forma eficaz com poucos superpixels, este trabalho incorpora a informação de objeto no arcabouço da Floresta Geradora Iterativa (ISF, do inglês Itera-tive Spanning Forest). O arcabouço resultante, denominado Floresta Geradora Iterativa baseada em informação de objeto (OISF, do inglês Object-Based ISF ) é composto por três etapas independentes, similarmente ao ISF: (i) amostragem inicial de pixels sementes; (ii) delineamento de superpixels a partir das sementes usando o algoritmo da Transformada Imagem-Floresta (IFT, do inglês Image Foresting Transform) para uma dada função de conexidade (i.e., custo de caminho em um grafo imagem); e (iii) recômputo das semen-tes, seguido de execução iterativa das etapas (ii) e (iii) para melhorar a localização das sementes e, consequentemente, o delineamento dos superpixels. A informação de objeto provém de um mapa de saliências, o qual é previamente gerado e utilizado para incorporar informação de objeto nas três etapas do OISF. Os resultados incluem maior eficácia no delineamento com um número significativamente menor de superpixels e flexibilidade na adaptação do arcabouço para diferentes aplicações. Esses resultados são demonstrados em comparação com diversos outros métodos do estado-da-arte, inclusive métodos baseados no ISF, usando duas bases de imagens naturais e uma base de imagens médicas.

(7)

Image segmentation through superpixel methods aims partitioning the image in connected regions (i.e., superpixels) such that the objects of interest can be represented by the union of its superpixels. Such result is crucial for many applications, improving the computa-tional performance and allowing to explore mid-level information of the objects involved in the image analysis. Depending of the algorithm, the superpixel segmentation performance may be proportional to the number of regions generated. However, the lack of information of the objects of interest leads efficient results to be often related to an unnecessary over-segmentation, causing a negative impact over the aforementioned objectives. Given the development of efficient methods for superpixel segmentation – whose objects can be effi-caciously represented with a low quantity of superpixels –, this work incorporates object information into the Iterative Spanning Forest (ISF) framework. Like ISF, the resulting framework, named Object-based Iterative Spanning Forest (OISF), is composed of three independent steps: (i) initial seed pixels sampling; (ii) superpixel delineation through the Image Foresting Transform (IFT) restricted to the sampled seeds, for a given connectivity function (i.e., path-cost in an image graph); and (iii) seed recomputation, followed by iter-ative executions of steps (ii) and (iii) for a better displacement of seeds and, consequently, better superpixel delineation. The object information is obtained through a previously generated saliency map, and it is used for incorporating object information in all three steps of OISF. Results indicates a higher efficacy for lower quantities of superpixels, and flexibility in adapting the framework for different applications. Such results are demon-strated in comparison with many different state-of-the-art methods, including ISF-based ones, for two natural image datasets, and one medical.

(8)

BP Boundary Precision BR Boundary Recall CEN Centróide

DBSCAN Density-based Spatial Clustering of Applications with Noise DIFT Differential Image Foresting Transform

DISF Dynamic and Iterative Spanning Forest ERGC Eikonal Region-Growing Clustering ERS Entropy Rate Superpixels

FIFO First-In First-Out

FLIC Fast Linear Iterative Clustering GMM Gaussian Mixture Model

GRID Grid sampling

IFT Image Foresting Transform

IMSLIC Intrinsic Manifold Simple Linear Iterative Clustering ISF Iterative Spanning Forest

LIFO Last-In First-Out

LSC Linear Spectral Clustering

MED Medóide

MIX Mixed Sampling NC Normalized Cuts NS Número de Superpixels

OGRID Object Geodesic Grid Sampling

OISF Object-based Iterative Spanning Forest OPF Optimum-Path Forest

OSMOX Object Saliency Map sampling by Ordered eXtraction PAN Pixel-Affinity Network

PFA Pyramid Feature Attention

RISF Recursive Iterative Spanning Forest SEAL Segmentation-Aware Loss

SEEDS Superpixels Extracted via Energy-Driven Sampling SH Superpixel Hierarchy

SLIC Simple Linear Iterative Clustering SNIC Simple Non-Iterative Clustering SSN Superpixel Sampling Networks SUP Supervised

(9)

1 Introdução 11 1.1 Motivação . . . 12 1.2 Objetivos . . . 13 1.3 Contribuições . . . 14 1.4 Organização . . . 15 2 Referencial Teórico 17 2.1 Notações e Definições . . . 17 2.2 Transformada Imagem-Floresta . . . 19

2.2.1 Floresta de Caminhos Ótimos . . . 19

2.2.2 Algoritmo . . . 21

2.3 Floresta Geradora Iterativa . . . 23

2.3.1 Seleção de Sementes . . . 23

2.3.2 Amostragem em Grade . . . 24

2.3.3 Amostragem Mesclada . . . 24

2.3.4 Geração dos Superpixels . . . 26

2.3.5 Recômputo de Sementes . . . 27

2.3.6 Algoritmo ISF . . . 28

3 Trabalhos Relacionados 30 3.1 Métodos Clássicos . . . 31

3.1.1 Métodos baseados em Agrupamento . . . 31

3.1.2 Métodos por Inserção e Remoção de Arestas em Grafo . . . 32

3.1.3 Métodos baseados em Otimização de Energia . . . 33

3.1.4 Métodos baseados em Conexidade em Grafo . . . 33

3.2 Redes Neurais Profundas e Superpixels . . . 34

3.3 Saliências e Superpixels . . . 35

3.4 Considerações Finais . . . 35

4 Floresta Geradora Iterativa baseada em Informação de Objeto 37 4.1 Seleção de Sementes . . . 38

4.1.1 Amostragem Equidistante e Geodésica em Objeto . . . 39

4.1.2 Amostragem do Mapa de Saliências do Objeto por Extração Ordenada 43 4.1.3 Comparação entre OSMOX e OGRID . . . 47

4.2 Geração dos Superpixels . . . 48

4.3 Recômputo de Sementes . . . 49

(10)

5.1.2 Métricas de Avaliação . . . 55

5.1.3 Otimização de Parâmetros . . . 56

5.2 Mapas para Problemas Não-controlados . . . 56

5.3 Mapas para Problemas Controlados . . . 58

5.4 Discussão . . . 59

6 Conclusão e Trabalhos Futuros 63

(11)

Capítulo 1

Introdução

Este capítulo introduz os pontos estruturantes da pesquisa realizada. Primeiramente, a tarefa de segmentação de imagens será abordada sob um nível razoável de abstração. Em seguida, a motivação e os principais desafios são apresentados. Após esta contextualização, indicamos o objetivo e as nossas contribuições, nesta ordem, para solucionar os problemas levantados. Este capítulo finda com a apresentação da organização desta dissertação.

Para os seres humanos, a tarefa de identificar um objeto em uma cena é de fácil realização, pois estes possuem modelos mentais dos objetos, previamente construídos. Tais modelos são construídos a partir de padrões visuais característicos — quando os objetos são conhecidos de antemão —, ou a partir de descontinuidades entre regiões da imagem — possivelmente representando os limites físicos de um objeto desconhecido.

Já para as máquinas, a identificação de objetos é mais complexa de ser realizada. Padrões visuais podem ser construídos através de tarefas de aprendizado de máquina a partir do agrupamento dos elementos atômicos da imagem (i.e., pixels, do inglês picture elements). Esta tarefa normalmente requer um número desconhecido de exemplos de cada objeto — podendo ser um recurso escasso —, em diferentes cenários. Ademais, espera-se que tais exemplos apresentem um delineamento ideal do objeto, certificado por um ou mais especialistas.

Por outro lado, as máquinas são capazes de executar algoritmos de delineamento de partes dos objetos em questão, de forma mais precisa — que o delineamento manual do ser humano —, e requerendo uma quantidade irrisória de dados — em contraste com abor-dagens baseadas em aprendizado. Uma classe de algoritmos realizam tal tarefa através do agrupamento de pixels conexos, interpretados como similares através de um critério matemático que promova a homogeneidade — em termos de cor e textura, por exemplo — entre seus pares. Estas regiões são denominadas superpixels e a tarefa é popularmente conhecida por segmentação em superpixels.

A premissa fundamental de métodos de segmentação em superpixels consiste em defi-nir, de maneira precisa, os objetos presentes na cena, pela união dos superpixels que os compõem. Logo, a dificuldade apresentada na tarefa de delimitá-los na imagem é reduzida, devido à mudança da grandeza — i.e., pixels para superpixels. Entretanto, transmuta-se o desafio para a representação exata do objeto (vide Figura 1.1), com o menor número possível de superpixels, de tal sorte a reduzir a carga de trabalho da aplicação na qual estes métodos se inserem [33].

(12)

(a) (b) (c)

Figura 1.1: (a) Imagem original com 400 × 300 pixels, cujo objeto de interesse é a parte visível do cavalo. (b) Segmentação em superpixels usando o método de Achanta et al. [1]. (c) Representação do objeto pela união de seus superpixels. Fora requisitado uma quantia aproximada de 300 superpixels.

1.1 Motivação

A tarefa de se definir um objeto através da união de seus pixels, ou superpixels, é deno-minada segmentação semântica, e diversos trabalhos foram propostos utilizando esta técnica [39, 15, 42]. Quando baseada em pixels, e sem possuir algum modelo de conhe-cimento prévio acerca do(s) objeto(s) de interesse, duas dificuldades adicionais surgem. Primeiramente, um número maior de elementos serão avaliados para delimitar a exten-são espacial destes na imagem. Em segundo lugar, a informação de baixo nível dos pixels pode não representar de maneira fidedigna as características do objeto — ao qual pertence —, sendo insuficiente para a determinação do seu pertencimento. Como consequência, a detecção das bordas internas e externas dos objetos (i.e., delineamento) se torna mais complexa.

Em contraste, a segmentação em superpixels costuma apresentar um delineamento preciso das bordas dos objetos, para uma quantidade significativamente baixa quando comparada ao número total de pixels em uma imagem — e.g., 300 superpixels em relação a 120 mil pixels, na Figura 1.1. Além disso, por definição, superpixels fornecem uma informação de nível intermediário sobre o objeto no qual pertencem, a citar: padrões de cor e textura de partes do objeto, ou de suas bordas. Devido à essas características, tais métodos são recorrentemente utilizados para aumentar a eficácia e eficiência de aplicações, como a supracitada segmentação semântica. Existem diversas outras aplicações que se utilizam destes como tarefas intermediárias da solução proposta: detecção de lesões da pele [30], detecção de câncer de mama [69], segmentação dos pulmões [32], detecção de plantas [66], detecção de pedestres [65], estimação de profundidade [70], seguimento de alvo [63], e detecção de saliências [35].

Métodos de segmentação de superpixels visam normalmente definir regiões cujos pixels apresentam cores similares. Este critério de homogeneidade apenas, sem informação sobre o objeto de interesse, faz com que frequentemente o superpixel contenha pixels de mútiplos objetos com cores similares (nesta discussão o fundo pode ser visto como um objeto). Ao mesmo tempo, um objeto com partes compostas por cores dissimilares será subdividido em múltiplos superpixels. Quando superpixels apresentam pixels de um objeto de interesse misturados com os de outros objetos (ou fundo), dois tipos de erro ocorrem: (1) um erro

(13)

(a) (b) (c)

Figura 1.2: (a) Segmentação semântica de um ovo de Ascaris lumbricoides em imagem de microscopia óptica (delineamento em verde). (b) Segmentação de 50 superpixels usando o método de Li e Chen [31]. (c) Região de (b) ampliada, indicando os erros de delineamento (verde) e vazamento (magenta).

de delineamentoda borda do objeto de interesse e (2) um erro de vazamento do rótulo de um superpixel de fundo dentro do objeto de interesse, ou vice-versa (Figura 1.2).

Para um dado problema, podem existir ainda múltiplos objetos de interesse. Por exemplo, a contagem de ovos de Schistosoma mansoni em imagens de campos de uma lâmina de microscopia óptica. O delineamento de um único superpixel por objeto de interesse neste caso é fundamental para facilitar a identificação dos superpixels delinea-dos como ovo de Schistosoma mansoni ou fundo. No entanto, técnicas de segmentação de superpixels são normalmente avaliadas para números bem mais altos de regiões (e.g., acima de 500), o que não só vai na direção oposta do objetivo de aumentar a eficiência das aplicações de mais alto nível como reduz a diferença de eficácia entre vários métodos comparados. Ademais, retomando ao exemplo da contagem de ovos de Schistosoma man-soni, um número excessivo de superpixels de fundo não contribui nada para a solução do problema. Ao mesmo tempo, uma redução drástica do número de superpixels faz com que esses métodos gerem erros bem mais altos de delineamento e vazamento.

Uma alternativa para melhorar a representação de objetos de interesse com menos superpixels é incorporar ao método de segmentação de superpixels informações sobre esses objetos. Esta é a principal hipótese do presente estudo.

1.2 Objetivos

Esta dissertação apresenta um estudo sobre técnicas de segmentação de superpixels com os objetivos de

• identificar um arcabouço adequado e incorporar a seu modelo a informação de objeto de interesse na forma de um mapa de saliências;

• desenvolver estratégias baseadas no mapa de saliências para reduzir o número de superpixels sem comprometer a representação do objeto;

(14)

• aumentar o controle do usuário sobre a distribuição dos superpixels entre objeto e fundo; e

• avaliar os métodos propostos neste arcabouço para diferentes tipos de mapas de saliência, mais especificamente mapas gerados por procedimentos supervisionados e não supervisionados.

1.3 Contribuições

Um mapa de saliências pode ser visto como uma imagem cinza, onde os valores dos pixels representam graus de similaridade com propriedades de um objeto de interesse. Esses mapas são comumente explorados para localizar objetos de interesse em uma imagem ou vídeo [12, 29, 25, 24]. Mapas de saliências podem ser gerados a partir de classificação supervisionada, em que os valores associados são probabilidades (ou grau de certeza) da pertinência dos pixels com o objeto [68, 26, 40], ou por procedimentos não supervisionados, como por exemplo, por técnicas baseadas em segmentação de superpixels [53, 11, 48, 61, 62].

Várias técnicas de segmentação de superpixels dividem o problema em três etapas [1, 31, 56]: (1) seleção de pixels sementes, (2) partição da imagem em superpixels represen-tados por essas sementes, e (3) recômputo das sementes, visando melhorar a segmentação de superpixels por múltiplas execuções das etapas (3) seguida de (2). No entanto, a inter-dependência de parâmetros usados nessas etapas faz com que a maioria dessas abordagens não seja vista como um arcabouço.

Em [56], Vargas-Muñoz et al. propuseram um arcabouço para o desenvolvimento de métodos de segmentação de superpixels, no qual as etapas acima são componentes independentes. O arcabouço proposto, denominado Floresta Geradora Iterativa (ISF, do inglês Iterative Spanning Forest), apresenta várias opções para (1) estimação de sementes; (2) cômputo de superpixels conexos a partir da definição de um grafo imagem e uma função de conexidade entre pixels; e (3) opções de reestimar as sementes. Do ponto de vista de eficácia, o ISF e as demais abordagens se diferenciam principalmente devido ao algoritmo usado para segmentar a imagem em superpixels. No caso do ISF, os autores usam o algoritmo da Transformada Imagem-Floresta (IFT, do inglês Image Foresting Transform), em que superpixels são definidos como árvores de caminhos ótimos enraizadas no conjunto de sementes [19]. O algoritmo da IFT é uma generalização do algoritmo de Dijkstra para múltiplas fontes e funções mais gerais de conexidade [13]. No contexto de segmentação de superpixels, as funções mais eficazes podem não garantir uma floresta de caminhos ótimos, mas será sempre uma floresta geradora.

Este trabalho selecionou o ISF como arcabouço para incorporar o mapa de saliência de um objeto ao modelo de geração dos superpixels. Como contribuições, o trabalho apresenta métodos que exploram a informação do objeto em cada uma das etapas (1)-(3) do processo. O arcabouço resultante é então denominado Floresta Geradora Iterativa baseada em Objeto (OISF, do inglês Object-based ISF) [6, 7]. A principal diferença entre esses trabalhos relacionados ao OISF está na etapa (1) método de estimação (amostragem) de sementes a partir de um mapa de saliências.

(15)

O método Amostragem Equidistante e Geodésica em Objeto (OGRID, do inglês Object Geodesic GRID sampling) [6] realiza uma seleção equidistante de sementes, com propor-ções dadas em regiões de objeto e fundo, como definidas por uma limiarização do mapa. Visando garantir o número desejado de sementes e a ordem de prioridade entre elas com relação aos valores de saliência, a Amostragem do Mapa de Saliências do Objeto por Extra-ção Ordenada (OSMOX, do inglês Object Saliency Map sampling by Ordered eXtraction) consegue distribuir melhor as sementes dentro do objeto (ou fundo), por não estar res-trita ao critério de equidistância entre sementes, impactando positivamente no resultado da segmentação de superpixels [7].

Como mencionado anteriormente, o ISF permite modificações em cada um de seus componentes independentes visando aplicações específicas, tais como a segmentação de supervoxels simétricos em hemisférios cerebrais, na detecção de assimetrias anormais em imagem de resonância magnética [38], e a segmentação de superpixels por classe de objeto na construção de dicionários visuais de forma supervisionada [10]. Execuções recursivas do ISF em grafos de superpixels também permitem gerar uma segmentação hierárquica esparsa da imagem [21], a qual pode ser útil em diversas aplicações futuras (e.g., segmen-tação semântica, aprendizado ativo, compressão de imagem). De forma similar, o OISF tem potencial para beneficiar diversas aplicações.

A Figura 1.3 ilustra a possibilidade do usuário obter com o OISF representações acu-radas do objeto com maior ou menor resolução de regiões, para um mesmo número de superpixels.

(a) (b) (c)

Figura 1.3: (a) Mapa de saliências gerado pelo método em [50], de modo que o classificador é treinado em uma imagem e aplicado para gerar o mapa de saliências de várias outras. Segmentação por OISF [6], com distribuições de (a) 10% e (b) 90% dos superpixels em regiões mais claras do mapa, respectivamente. Ambos resultados mostram 50 superpixels.

1.4 Organização

Esta dissertação está organizada da seguinte forma. O Capítulo 3 apresenta métodos do estado-da-arte em segmentação de superpixels, incluindo trabalhos mais recentes que usam aprendizado de máquina para gerar superpixels. No Capítulo 2 são apresentadas

(16)

as definições necessárias para o completo entendimento dos métodos propostos, os quais são descritos no Capítulo 4 e avaliados no Capítulo 5 de acordo com as métricas clássicas em segmentação de superpixels. Finalmente, o Capítulo 6 apresenta a conclusão desta dissertação e sugere trabalhos futuros.

(17)

Capítulo 2

Referencial Teórico

Neste capítulo, o arcabouço teórico necessário para o entendimento da nossa proposta é apresentado e matematicamente definido. Para fins de simplicidade, a descrição parte de um nível mais baixo de abstração (e.g., imagens e grafos), para, então, ser possível de se explicar os algoritmos centrais para segmentação em superpixels.

Métodos de segmentação em superpixels baseados em Floresta Geradora Iterativa (ISF do inglês Iterative Spanning Forest) [56] utilizam o algoritmo da Transformada Imagem-Floresta (IFT, do inglês Image Foresting Transform) [19] para particionar a imagem em um conjunto de superpixels fortemente conexos com sementes representativas das regiões presentes na imagem. A partir de um conjunto inicial de pixels sementes, a IFT interpreta uma imagem como um grafo e busca minimizar um mapa de custos (maximizar um mapa de conexidade) de modo a particionar o grafo em uma floresta de caminhos ótimos enraizada no conjunto de sementes — i.e., cada superpixel é uma árvore da floresta com raiz na semente mais fortemente conexa com os seus pixels. Para algumas funções de conexidade, a restrição de otimalidade da floresta é relaxada de modo que a partição é simplesmente uma floresta geradora. Como a estimação das sementes é um problema a parte, esses métodos baseados no ISF se dividem em três etapas: (a) a estimação do conjunto inicial de sementes, (b) a geração de superpixels por IFT, e (c) o refinamento do conjunto de sementes, com múltiplas iterações das etapas (c) e (b).

Este capítulo está dividido, portanto, nas seguintes seções. A Seção 2.1 introduz a terminologia; a Seção 2.2 descreve a IFT; e a Seção 2.2 apresenta o ISF.

2.1 Notações e Definições

Uma imagem I pode ser definida como um par (P, I), onde n, m ∈ N∗_{, P ⊂ Z}n _{é o}

do-mínio da imagem, composto por elementos espaciais denominados spels (do inglês spatial elements), e I : P → Rmassocia a cada spel um conjunto de características (ou atributos)

locais da imagem. Neste trabalho, todas as imagens são originalmente bidimensionais e coloridas. Portanto, cada pixel p = (xp, yp), xp, yp ∈ Z, é um vetor de posição e I(p) é um

vetor de m características locais (I1(p), . . . , Im(p)) – e.g., o valor Ii(p) ∈ R, i ∈ {1, 2, 3},

(18)

A norma k · ki, i ∈ N∗, de um vetor m-dimensional v = (x1, . . . , xm) é definida por kvki = m X j=0 (xj)i !1_i . (2.1)

Assim, as notações kp − qk1 e kp − qk2 referem-se à distância de Manhattan e distância

Euclideana, respectivamente, entre as coordenadas de dois pixels p, q ∈ P. A mesma notação aplica-se aos vetores de características locais da imagem – i.e., kI(p) − I(q)k1 e

kI(p) − I(q)k2.

Uma imagem I pode ser interpretada como um grafo direcionado (P, A) no qual os vértices correspondem aos pixels de I e as arestas são definidas por uma relação binária irreflexiva A ⊆ P × P (i.e., uma relação de adjacência). Assim, dois pixels p, q ∈ P são considerados adjacentes se o par (p, q) ∈ A.

Pode-se estabelecer uma relação de adjacência de inúmeras formas [19], sendo a relação de adjacência Euclideana Ar, de raio r, o principal caso adotado neste trabalho. A

Figura 2.1 ilustra alguns exemplos para diferentes valores de r. Mais especificamente, Ar _{: {(p, q) ∈ P × P | kq − pk}

2 ≤ r} (2.2)

(a) (b) (c)

Figura 2.1: Relações de adjacência Euclideanas de raios (a) 1, (b)√2e (c) 2, respectiva-mente.

Um caminho π é definido como uma sequência finita de pixels adjacentes distintos no grafo imagem – i.e., π = hp1, . . . , pni, no qual (pi, pi+1) ∈ Apara 1 ≤ i < n. Um caminho

é trivial se n = 1, e simples no caso contrário. Denominamos os pixels p1 e pn como

origem e término, respectivamente, do caminho π, e podemos explicitar tal informação por πp1;pn ou πpn com raiz R(pn) = p1 . Se existir um caminho πp;p simples (não trivial),

este caminho será um ciclo. Seja Π o conjunto de todos os caminhos possíveis no grafo imagem, então um pixel q é dito conexo a um pixel p 6= q se existir um caminho πp;q ∈ Π.

Ademais, a concatenação entre dois caminhos πp ∈ Π e τp;q ∈ Πé denotada por πp· τp;q

com as duas instâncias de p combinadas em uma única.

Um subgrafo é um par (P0_{, A}0₎ _{no qual P}0 _{⊆ P} _{e A}0 _{⊆ A}_{. Um subgrafo é dito}

conexo se ∀p, q ∈ P0 existe πp;q onde os pixels subsequentes satisfazem a relação A0.

(19)

árvore e o seu coletivo é chamado de floresta. Um componente C é um subgrafo conexo. Uma partição (ou segmentação) do grafo imagem é um conjunto de componentes C, tais que Sn i=1P 0 i = P, T n i=1P 0 i = ∅, e C 0 i = (P 0

i, A0i) para 1 ≤ i ≤ n. Neste trabalho, um

superpixel é uma árvore com raiz em um conjunto de pixels sementes.

2.2 Transformada Imagem-Floresta

A Transformada Imagem-Floresta (IFT) [19] é um arcabouço para o desenvolvimento de operadores baseados em conexidade entre pixels. A IFT reduz operadores de processa-mento de imagem baseados em partição ao cálculo de caminhos de custo mínimo em um grafo imagem. Para a maioria das aplicações, o algoritmo da IFT pode ainda ser execu-tado em tempo proporcional ao número de vértices do grafo [19]. Para um dado grafo imagem (P, A) e função de custo de caminho f(πq) definida para todo q ∈ P e πq ∈ Π, o

algoritmo da IFT minimiza um mapa de custos C : P → R, C(q) = min

∀πq∈Π

{f (πq)} (2.3)

Neste trabalho, estamos interessados em funções de custo de caminho que são finitas apenas para caminhos com início em um conjunto S ⊂ P de pixels sementes.

A IFT é uma ferramenta elegante, cujas eficiência e aplicabilidade foram extensamente comprovadas, visto a quantidade de soluções propostas que a utiliza. No trabalho de Sousa et al. [49], por exemplo, vários operadores baseados na IFT são combinados de forma eficiente para segmentar os pulmões esquerdo e direito, e a traquéia e brônquios como um terceiro objeto. Outro exemplo é a representação de formas por esqueletos em múltiplas escalas, conexos e com um pixel de espessura [18]. Outros tipos de operadores para processamento de imagens são exemplificados no trabalho de Falcão et al. [17].

2.2.1 Floresta de Caminhos Ótimos

A IFT requer a definição de uma função de custo de caminho adequada ao problema de interesse. Em segmentação de imagem, por exemplo, espera-se que pixels em uma região de mesma textura de um dado objeto na imagem sejam fortemente conexos através de caminhos ótimos no grafo imagem dado.

Uma função de custo de caminho (função de conexidade) f deve ser definida para qualquer caminho π ∈ Π. O algoritmo da IFT inicia sempre com caminhos triviais, para os quais o custo f(hqi), ∀q ∈ P, pode ser obtido de uma função de inicialização h : P → R. Neste trabalho, a função h é sempre definida como

h(q) = (

0, se q ∈ S

+∞, no caso contrário, (2.4)

onde S ⊂ P é um conjunto de pixels sementes. Durante o algoritmo da IFT, os caminhos triviais e, subsequentemente os caminhos simples, são estendidos pela seguinte regra: se f (πq) > f (πp · hp, qi) para (p, q) ∈ A, então o caminho πq é substituído pelo caminho

(20)

πp· hp, qie o mapa de custos C(q) é atualizado para f(πp· hp, qi). Consequentemente, os

caminhos com custo finito partem de S e as sementes serão as raízes da floresta.

A similaridade de textura (cor) entre pixels adjacentes pode ser definida por uma fun-ção w∗ : A → R não-negativa. Por exemplo, as funções w1e w2 abaixo determinam pesos

para um arco (p, q) ∈ A usando distâncias de Manhattan e Euclideana, respectivamente, entre os vetores de características locais.

w1(p, q) = kI(p) − I(q)k1

w2(p, q) = kI(p) − I(q)k2

(2.5)

Uma função de conexidade f∗ : Π → R pode então atribuir um custo para qualquer

π ∈ Πde maneira recursiva. Um exemplo popular é a função fmaxdescrita na Equação 2.6:

fmax(hqi) = h(q),

fmax(πp· hp, qi) = max{fmax(πp), w∗(p, q)}.

(2.6)

Um caminho πp é dito ótimo se, para qualquer outro caminho τp ∈ Π, f∗(πp) ≤ f∗(τp). Ao

minimizar o mapa de custos C(q) = min∀πq∈Π{f∗(q)} através da regra acima de extensão

de caminhos ótimos, o algoritmo da IFT particiona o grafo em uma floresta de caminhos ótimos (OPF, do inglês Optimum-Path Forest). Isto é, ele constrói um mapa acíclico de predecessores P : P → P ∪ {_{} que associa a cada pixel p ∈ P um predecessor P(p) ∈ P} no caminho ótimo πp, quando πp é simples, ou P(p) = , quando p é uma raiz do mapa

— no nosso caso, p ∈ S. Um mapa de raízes R : P → P da floresta também pode ser construído de forma recursiva a partir do mapa de predecessores ou de forma iterativa durante o algoritmo.

R(q) = (

q, se P(q) =

R(p), se P(q) = p 6= (2.7)

Se a função de conexidade não satisfizer as condições estabelecidas em [13], a floresta em P não será de caminhos ótimos, mas será uma floresta geradora, na qual toda árvore T = (PT_{, A}T₎_{, de raiz p ∈ P, define seus vértices, e seus adjacentes, pela Equação 2.8:}

PT : {q ∈ P | R(q) = p},

AT _{: {(P(q), q) ∈ A | p 6= q ∈ P}.} (2.8)

Esta floresta geradora, por outro lado, apresenta outras propriedades interessantes para a segmentação de imagem [36]. Neste trabalho, portanto, um superpixel é uma árvore T da floresta geradora P cujos pixels p ∈ PT _{possuem uma mesma raiz R(p) ∈ S.}

Da mesma forma que o mapa de raízes, um rótulo distinto λ(p) ∈ {1, . . . , |S|} pode ser atribuído a toda semente p ∈ S e então propagado para os demais pixels da árvore enraizada em p durante o algoritmo ou através do mapa de raízes, gerando um mapa de rótulos L : S → {1, 2, . . . , |S|}através da fórmula:

L(q) = (

λ(q), se q ∈ S

(21)

2.2.2 Algoritmo

(a) (b) (c)

(d) (e) (f)

Figura 2.2: Ilustração da execução de passos da IFT, considerando duas sementes, em vermelho e amarelo. (a) Cômputo do peso dos arcos. (b) Inicialização dos mapas de custo, raízes, rótulos, e predecessores. (c-e) Iterações não-subsequentes da IFT. (f) Floresta de caminhos ótimos resultante.

A IFT é a generalização do algoritmo de Dijkstra para funções de conexidade menos restritivas [13]. Com o auxílio de uma fila de prioridades Q ⊆ P, a IFT computa uma floresta geradora P enraizada nas sementes definidas por S, em respeito a uma função de conexidade f∗. No findar do procedimento, o algoritmo gera um mapa de raízes R e

um mapa de rótulos L, o qual representa a segmentação da imagem em superpixels. Um exemplo gráfico da execução da IFT é apresentado na Figura 2.2, no qual considera-se a função de conexidade fmax e pesos dos arcos previamente calculados pela função w1.

O pseudocódigo da IFT é devidamente apresentado no Algoritmo 1, com otimizações apresentadas no trabalho original [19] que não afetam a sua corretude. As linhas 2 a 7 realizam a inicialização das estruturas auxiliares — incluindo a inserção das sementes na fila de prioridades (i.e., linha 6) —, enquanto as linhas restantes são responsáveis pela geração dos superpixels. Um pixel é conquistado quando o algoritmo executa as linhas 14 a 18 — ilustrado pela definição do predecessor e da raiz (linha 16) —, e a concretização desta somente ocorre quando tal pixel conquistado é removido da fila, pelo seu custo (i.e., linha 9). Após todos os pixels terem sido conquistados por uma semente, tem-se o particionamento pela árvores de caminhos ótimos.

(22)

Algoritmo 1: Transformada Imagem-Floresta

Entrada:Imagem I = (P, I), relação de adjacência A, função de conexidade f∗,

e conjunto de sementes S com λ : S → {1, 2, . . . , |S|}.

Saída :Floresta geradora P, mapa de raízes R, mapa de custos C, e mapa de rótulos L.

Auxiliar:Fila de prioridades Q e variável tmp.

1 Q ← ∅

2 para cada q ∈ P faça 3 R(q) ← q , P(q) ← 4 C(q) ← h(q), L(q) ← 0 5 se q ∈ S então 6 Q ← Q ∪ {q} com prioridade C(q) 7 L(q) ← λ(q) 8 enquanto Q 6= ∅ faça 9 p ← arg min_v∈Q{C(v)} 10 Q ← Q \ {p}

11 para cada (p, q) ∈ A | C(p) < C(q) faça 12 tmp ← f∗(πp· hp, qi) 13 se tmp < C(q) então 14 se C(q) 6= +∞ então 15 Q ← Q \ {q} 16 R(q) ← R(p), P(q) ← p 17 C(q) ← tmp, L(q) ← L(p) 18 Q ← Q ∪ {q} com prioridade C(q)

(23)

2.3 Floresta Geradora Iterativa

Inspirado em diversos trabalhos sobre segmentação em superpixels, Vargas-Muñoz et al. propuseram um arcabouço denominado Floresta Geradora Iterativa (ISF, do inglês Ite-rative Spanning Forest) [56], composto por três etapas independentes (ilustradas na Fi-gura 2.3). Para um conjunto inicial de sementes, obtido por uma dada estratégia. Estas são consideradas e atualizadas, respectivamente, em uma sequência de execuções da IFT e de um método de recômputo das sementes, ao longo de um certo número de itera-ções. Tal arcabouço possibilita combinar diferentes estratégias de estimação de sementes, recômputo de sementes, e cálculo de peso de arco em uma dada função de conexidade.

Figura 2.3: Fluxograma do arcabouço ISF

Devido a sua flexibilidade e o seu desempenho, o ISF tem sido estendido e utilizado em diversas aplicações. No trabalho de Castelo-Fernandez e Falcão [10], o ISF foi es-tendido para gerar superpixels por classe de objetos, visando à construção de dicionários visuais específicos para cada classe. Martins et al. [38] estenderam o ISF para calcular supervoxels simétricos entre hemisférios cerebrais e usaram esta extensão para a detecção de anomalias baseadas em assimetrias cerebrais, de maneira não supervisionada. O ISF também foi estendido para a construção de hierarquias esparsas de segmentação de super-pixels [21], com resultados que superam os métodos do estado-da-arte sem comprometer a eficiência do método-base. Nossa proposta, primeiramente publicada no trabalho de Belém et al. [6], também é uma extensão do ISF e que será devidamente detalhada no Capítulo 4.

2.3.1 Seleção de Sementes

Uma vez que métodos de segmentação em superpixels normalmente não requerem a inter-venção do usuário, é necessário estabelecer estratégias automáticas e não supervisionadas para a definição do conjunto S. O maior desafio consiste em dispersar as sementes de tal forma que elas localizem os objetos de interesse e ao mesmo tempo o delineamento dos superpixels a partir delas seja exato (i.e., ao crescer uma região de pixels a partir de uma semente, este crescimento de regiões não “vaze” pela borda do objeto). Como a IFT deli-neia os superpixels por competição ótima entre sementes, um certo número de sementes,

(24)

normalmente bem maior do que o número de objetos, é necessário garantir sementes em todos os objetos, incluindo o fundo.

2.3.2 Amostragem em Grade

Uma estratégia clássica de geração de sementes é ilustrada na Figura 2.3. A amostragem em grade (GRID, do inglês Grid sampling) [1] distribui uma quantidade aproximada de sementes de maneira equidistante na imagem, de tal forma a promover tanto uma regularidade sobre o tamanho dos superpixels, como a almejar a garantia da presença de sementes dentro dos objetos de interesse – visto que, nenhuma informação prévia é dada sobre a localização desses objetos. Um grupo diverso e significativamente grande de métodos utilizam esta estratégia [1, 31, 34, 59, 2], a qual funciona da seguinte forma.

Para uma quantia k ∈ N∗ _{de sementes a serem amostradas, o método GRID estima}

a área aproximada z dos superpixels a serem computados, em respeito ao tamanho da imagem I:

z = |P|

k (2.10)

Portanto, para respeitar tal critério de tamanho, cada semente deve estar a uma distân-cia d = √z entre seus pares, favorecendo uma distribuição equidistante no domínio da imagem I. Entretanto, este critério apenas não evita que sementes caiam em regiões de borda, o que prejudicaria a definição de um superpixel como uma região homogênea [1]. Assim, toda semente s estimada pelo critério acima é realocada para a região de menor variabilidade (i.e., menor magnitude de gradiente) de cor em uma adjacência A1_.

O Algoritmo 2 apresenta o pseudo-código do método GRID, para uma função de gradiente ∇I, sobre as cores dos pixels em P, definida previamente. A linha 1, computa a distância d necessária entre as sementes — para garantir a equidistância —, e entre as linhas 3 a 11, a amostragem é realizada. Para cada ponto p definido na linha 6, a semente a ser devidamente selecionada será o ponto de menor gradiente dentro da adjacência A1

(linhas 6 a 9).

2.3.3 Amostragem Mesclada

Devido às características dos objetos e fundo, imagens naturais podem apresentar uma alta variação das cores em algumas regiões e cores homogêneas em outras. O método de amostragem mesclada (MIX, do inglês Mixed sampling) [56] visa capturar essas dife-renças amostrando mais sementes em regiões de maior entropia, mas ao mesmo tempo distribuindo em grade as sementes por região, de modo a favorecer a regularidade na forma dos superpixels. Em algumas bases, o uso desta estratégia pode acarretar uma maior aderência às bordas dos objetos após o delineamento dos superpixels.

Uma árvore quaternária Q (do inglês, quad-tree) é uma hierarquia de partições do domínio de uma imagem em quatro nós por nível da hierarquia. Cada nó é um quadrante Q ⊂ P que possui exatamente nenhum (nó folha) ou quatro (nó interno) nós filhos.

Definindo uma árvore quaternária de dois níveis, a função MIX computa a heteroge-neidade em cada quadrante Q através da Equação 2.11, denominada entropia normalizada

(25)

Algoritmo 2: Amostragem em grade

Entrada: Imagem I = (P, I) de dimensões nx× ny pixels, função de gradiente

∇I, e número de superpixels k.

Saída :Conjunto de sementes S, inicialmente vazio.

1 z ← |P|_k , d ← √ z 2 x ← d₂ 3 enquanto x < nx faça 4 y ← d₂ 5 enquanto y < n_y faça 6 p ← (x, y) 7 se p ∈ P então

8 s ← arg min_q∈A1_(p){k∇I(q)k₂}

9 S ← S ∪ {s} 10 y ← y +d₂ 11 x ← x + d₂ de Shannon E :Q → R: E(Q) = − Pn

i=1p(i) log2(p(i))

log₂(n) (2.11)

onde p : R → [0, 1] estima a probabilidade de ocorrência de uma intensidade i, dentre n presentes no quadrante Q. Após computado E para todo Q, é calculada a média µ(E) e o desvio-padrão σ(E) dos quatro quadrantes de cada nível da hierarquia (vide Equação 2.12)

µ(E) = P4 i=1E(Qi) 4 σ(E) = s P4

i=1(E(Qi) − µ(E)) 2

3

(2.12)

Para gerar o próximo nível da hierarquia, todo quadrante no qual kE(Q)−µ(E)k1 > σ(E)

gera outros quatro quadrantes filhos, e seus valores de entropia são calculados. Após a definição do segundo nível, seja Q o conjunto de nós folhas da hierarquia Q. Uma quantia k0 de sementes diretamente proporcional a entropia de cada folha Q ∈ Q é obtida pela Equação 2.13

k0 = k_P E(Q)

Q0_∈QE(Q0)

. (2.13)

As k0 _{sementes em cada quadrante folha Q são então amostradas utilizando a estratégia}

GRID e a união dessas sementes forma o conjunto S. O pseudo-código do método MIX é apresentado no Algoritmo 3. O primeiro nível de Q é definido na linha 1, e a entropia de cada quadrante é determinada nas linhas 2 e 3. As linhas 6 a 12 calculam a necessidade de se particionar um quadrante Qu (i.e., linha 8), para compôr o segundo nível de Q

(i.e., linha 11). Finalmente, após a construção de Q, a quantidade de sementes de cada quadrante, e a respectiva operação de amostragem, são executados entre as linhas 13 a 15.

(26)

Algoritmo 3: Amostragem mesclada

Entrada: Imagem I = (P, I), função gradiente ∇I, e número de superpixels k. Saída :Conjunto de sementes S, inicialmente vazio.

1 Particione P em quatro quadrantes Q ← {Q₁, Q₂, Q₃, Q₄}. 2 para cada u ← 1, 2, 3, 4 faça

3 calcule E(Qu) ← − Pn

i=1p(i) log2(p(i))

log2(n) usando as intensidades i em (Qu, I). 4 µ(E) ← P4 u=1E(Qu) 4 5 σ(E) ← qP4

u=1(E(Qu)−µ(E))2 3

6 para cada u ← 1, 2, 3, 4 faça

7 se kE(Q_u) − µ(E)k₁ > σ(E) então

8 particione Qu em quatro quadrantes Qu,1, Qu,2, Qu,3, Qu,4 9 Q ← Q \ Q_u

10 para cada v ← 1, 2, 3, 4 faça

11 Q ← Q ∪ Qu,v

12 E(Q_u,v) ← −

Pn

i=1p(i) log2(p(i))

log2(n) usando as intensidades i em (Qu,v, I) 13 para cada Q ∈ Q faça

14 k0 ← k ·P E(Q) Q0∈QE(Q0)

15 S ← S ∪ Algoritmo 2((Q, I), ∇I, k0)

2.3.4 Geração dos Superpixels

No trabalho de Vargas-Muñoz et al. [56], foi apresentada uma função de conexidade aditiva, com diferentes funções de peso de arco para controle da regularidade dos super-pixels e aderência às bordas dos objetos. Uma segunda função, que garante uma floresta de caminhos ótimos, também foi apresentada, mas a performance de métodos ISF que a consideram foi inferior. Portanto, este trabalho foca na função aditiva.

Dado um conjunto S de sementes amostradas na etapa anterior, pode-se definir uma função de conexidade, fsum, pela seguinte fórmula:

fsum(q) = h(q)

fsum(πp· hp, qi) = fsum(πp) + w∗(p, q)

(2.14)

onde (p, q) ∈ A. Além disto, considere si _{∈ S} _{uma semente em uma iteração i ≥ 1, e}

µ(T )a função que computa o vetor de características médio de uma árvore T = (PT_{, A}T₎

pela Equação 2.15.

µ(T ) = P

p∈PTI(p)

|PT_| (2.15)

Logo, podemos definir uma função M : S → Rm _{que mapeia cada semente s}i _{a um vetor}

(27)

árvore Tsi−1 gerada na iteração anterior – pela fórmula:

M(si) = (

I(si),se i = 1,

µ(T_si−1),no caso contrário.

(2.16)

Com isto, define-se duas formas de apresentar fsum com funções de peso de arco w∗

distintas,

w3(p, q) = (αkI(R(p)) − I(q)k2)β + kp − qk2

w4(p, q) = (αkM(R(p)) − I(q)k2)β+ kp − qk2

(2.17) onde fsum com w3 será denominada froot; fsum com w4 será denominada fmean; e α ≥ 0

e β ≥ 1 controlam o compromisso entre regularização e aderência às bordas. O fator α pondera a importância do termo baseado na diferença de cor em relação ao termo geodésico. Então, quanto menor for α, mais regular fica o superpixel, comprometendo a sua aderência às bordas. Para um valor adequado de α, quanto maior for o valor de β, mais será a aderência às bordas.

2.3.5 Recômputo de Sementes

Após a geração dos superpixels, a função de recômputo r∗ : S → P busca determinar o

conjunto de sementes S0 _{⊆ P} _{que corresponde às sementes da iteração seguinte, de tal}

sorte a melhorar a representatividade de seus respectivos superpixels – i.e., selecionar aquelas que possivelmente fornecerão caminhos ótimos de menor custo, em comparação às anteriores. Assim, obter superpixels mais homogêneos.

Uma abordagem intuitiva para a determinação de S0 _{se dá pela seleção do centro de}

massa, nomeado por centróide (CEN), de cada superpixel. De maneira mais detalhada, seja a árvore Ts = (PTs, ATs) enraizada em s ∈ S, gerada na iteração anterior. Então, a

nova semente é obtida através da função rcen, explicitada na Equação 2.18:

rcen(s) = arg min

p∈PTs{kp − ck2}, (2.18)

onde c = 1 |PTs|

P

p∈PTsp.

Apesar de intuitiva, esta estratégia não considera como os vetores de característi-cas dos pixels se agrupam em Ts. Logo, outra maneira de se obter S0 usa a função de

recômputo rmed, que seleciona o pixel cujos atributos melhor se assemelham ao vetor de

características médio da árvore a qual ele se insere – i.e., medóide (MED). Formalmente, rmed é definida pela Equação 2.19:

rmed(s) = arg min

p∈PTs{kI(p) − µ(Ts)k2}. (2.19)

Pequenas variações nas posições das sementes si _{e s}i+1 _{entre iterações subsequentes}

podem não gerar diferenças significativas no delineamento dos respectivos superpixels. Vi-sando acelerar o processo de convergência, o qual é provado em [56], um critério adicional é aplicado para determinar quando uma nova semente será gerada para um dado super-pixel. Sejam mc, ms ∈ R limiares computados em respeito ao espaço de características e

(28)

ao espaço de coordenadas dos pixels, respectivamente, através da Equação 2.20. mc= P p∈PkI(p) − I(R(p))k2 |P| , ms= P p∈Pkp − R(p)k2 |P| . (2.20)

Com isto, o recômputo de uma semente s para uma semente r∗(s) em um dado

su-perpixel será concretizado se pelo menos uma das duas condições – apresentadas pela Equação 2.21 – forem satisfeitas.

√

mc< kI(s) − I(r∗(s))k2

√

ms < ks − r∗(s)k2

(2.21)

O pseudo-código para o recômputo das sementes em S é apresentado no Algoritmo 4. As linhas 1 e 2 calculam os limiares, enquanto as linhas 4 a 8, determinam as sementes da próxima iteração. Pode-se notar que, na linha 6, a respectiva semente será recomputada e, portanto, redefinida. Já para a linha 8, a semente se manterá inalterada.

Algoritmo 4: Recômputo de sementes

Entrada: Imagem I = (P, I), conjunto de sementes S, função de recômputo r∗,

mapa de raízes R, floresta geradora P e mapa de custos C Saída :Conjunto de sementes S0

1 m_c← P p∈PkI(p)−I(R(p))k2 |P| 2 ms ← P p∈Pkp−R(p)k2 |P| 3 S0 ← ∅

4 para cada s ∈ S faça

5 se √mc< kI(s) − I(r∗(s))k2 ou √ ms < ks − r∗(s)k2 então 6 S0 ← S0∪ {r∗(s)} 7 senão 8 S0 ← S0∪ {s}

2.3.6 Algoritmo ISF

Nota-se que cada execução da IFT tem complexidade O(|P| log(|P|)), se a fila de priori-dade Q for implementada utilizando um heap binário. Ademais, a cada iteração, novas sementes podem não oferecer custos menores para pixels em regiões já conquistadas por outras sementes em iterações anteriores. Desta forma, variantes do algoritmo da IFT, propostos nos trabalhos [16, 14], denominados Transformada Imagem Floresta Diferen-cial (DIFT do inglês Diferential IFT ) podem ser utilizados para recômputo incremental da floresta geradora, reduzindo a complexidade acima ao conjunto de pixels efetivamente modificados na atualização da floresta geradora.

(29)

No entanto, para os variantes froot e fmean da função de conexidade fsum, o algoritmo

proposto em [14] é necessário, visto que o algoritmo em [16] só se aplica para funções de conexidade monotonicamente incrementais e a dependência da função de conexidade com qualquer atributo da raiz da floresta viola esta condição.

No trabalho de Vargas-Muñoz et al. [56], foram apresentados alguns variantes do ISF, definidos através da combinação das propostas de cada etapa. Apesar do número de combinações possíveis, dois métodos em específico se destacaram: (i) ISF-GRID-ROOT; e (ii) ISF-MIX-MEAN. Mais detalhadamente, o primeiro considera a amostragem em GRID, a função de custo froot e o recômputo rmed. Em contraste, o segundo método amostra

as sementes através da abordagem MIX, computa os superpixels considerando a função fmean, e recomputa as sementes através da abordagem rcen. O Algoritmo 5 apresenta

um pseudo-código do algoritmo ISF, para uma quantia total de l ∈ N∗ _{iterações. Visto}

que o ISF consiste em um arcabouço, era de se esperar um pseudo-algoritmo, com um significativo nível de abstração.

Algoritmo 5: Floresta Geradora Iterativa

Entrada:Imagem I = (P, I), relação de adjacência A, função de conectividade f∗, função de recômputo r∗, número de superpixels k, e número

máximo de iterações l

Saída :Floresta geradora P, mapa de raízes R, mapa de custos C, e mapa de rótulos L

Auxiliar:Conjunto de sementes S0

1 S0 ← SelecionarSementes(I, ∇I, k) 2 para i ← 1 até l faça

3 S ← S0

4 (P, R, C, L) = IF T (I, A, f∗, S)

(30)

Capítulo 3

Trabalhos Relacionados

Neste capítulo, serão apresentados diversos métodos na literatura que realizam a segmen-tação em superpixels de uma imagem. Iniciando a partir daqueles que não consideram nenhuma informação de objeto, até métodos que usam um conceito particular deste úl-timo — seja advindo de aprendizado de máquina, ou de uma heurística —, os pontos positivos e negativos de cada um serão discorridos.

O termo “superpixel” apareceu primeiro no trabalho de Ren e Malik, em 2003 [44], sendo definido como um agrupamento de pixels com semelhança perceptível, e com a vantagem de reduzir a quantidade de primitivas (i.e., de pixel para superpixel) para tarefas subsequentes no processamento de imagem. Por diversos anos, algoritmos de segmentação de imagem em superpixels têm sido propostos, e também utilizados em uma variedade ampla de aplicações [51].

Enquanto métodos de segmentação semântica visam uma representação exata da ex-tensão espacial dos objetos de interesse na imagem, técnicas de segmentação de superpixels visam apenas representar os objetos de interesse pela união de seus superpixels — i.e., regiões conexas. Métodos de segmentação de imagem em regiões conexas já existiam independente do termo superpixels [20, 51] e, portanto, as diferenças entre essas abor-dagens são muito sutís. Tipicamente, métodos de segmentação em superpixels requerem uma quantidade razoavelmente alta de regiões para obterem uma representação eficaz (e.g., 500 ou mais) [45]. Por outro lado, esses métodos permitem controlar o número de superpixels desejados. Ainda, diversos autores elencam propriedades desejáveis para métodos de segmentação em superpixels [1, 33, 31, 22, 55], sendo consenso as seguintes propriedades:

• superpixels devem ser disjuntos e, portanto, todo pixel deve estar associado a um único superpixel;

• um superpixel deve ser uma região conexa de pixels;

• as bordas mais relevantes em uma imagem devem ser detectadas pelas fronteiras dos superpixels;

• a geração dos superpixels deve ser eficiente para não impactar as operações subse-quentes baseados em superpixels; e

(31)

• métodos de segmentação em superpixels devem permitir o controle do usuário sobre a quantidade de superpixels a serem gerados.

Como Liu et al. [33] discorrem, tais propriedades devem ser alcançadas com um número mínimo de superpixels, a fim de não promoverem um aumento do custo computacional para as tarefas subsequentes. Outros trabalhos listam a regularidade (em tamanho), a compacidade, e a suavidade das bordas dos superpixels como de extrema importância [46, 55, 22]. Entretanto, tal relevância é questionável visto que são justificados por um critério subjetivo (i.e., estética) [46, 51].

A Seção 3.1 apresenta métodos clássicos de segmentação em superpixels conforme a estratégia usada para particionar a imagem. Em seguida, trabalhos recentes que com-binam redes neurais profundas e métodos de segmentação em superpixels são discutidos na Seção 3.2. Na Seção 3.3), discorre-se sobre trabalhos que combinam segmentação em superpixels e mapas de saliência de objetos. Por fim, na Seção 3.4, indica-se alguns pon-tos em aberto na literatura, no qual podem se tornar linhas de pesquisa futura, para o aprimoramento de métodos de segmentação em superpixels.

3.1 Métodos Clássicos

Existem diversos trabalhos formidáveis que cobrem a literatura de métodos de segmenta-ção em superpixels: (i) Stutz et al. [51]; (ii) Schick et al. [46]; e (iii) Wan et al. [57]. Entretanto, como esta dissertação não visa ser uma revisão da literatura, os algoritmos descritos nesta seção estão entre os de melhor performance.

Vários métodos do estado-da-arte apresentam resultados eficazes de delineamento, mas a maioria realiza uma segmentação “às cega” – i.e., sem nenhuma informação sobre os objetos de interesse. Neste caso, as bordas delineadas são tratadas como de mesma relevância independente de representarem ou não bordas de um objeto de interesse. Ade-mais, mesmo que existisse uma informação sobre tal objeto, a alteração nesses métodos para explorar essa informação não é necessariamente intuitiva.

3.1.1 Métodos baseados em Agrupamento

Recentemente, diversos algoritmos propostos consideram técnicas não-supervisionadas de agrupamento para a geração de superpixels, como as técnicas: médias (do inglês K-means) [1, 31, 34, 59, 2]; modelo de mistura de Gaussianas (GMMs, do inglês Gaussian Mixture Models) [5]; e aglomeração espacial baseada em densidade de aplicações com ruí-dos (DBSCAN, do inglês Density-based Spatial Clustering of Applications with Noise) [47]. Porém, tais algoritmos de segmentação são geralmente baseados em representantes de grupo e não garantem a conexidade dos superpixels com esses representantes; requerendo, portanto, a realização de um pós-processamento a fim de eliminar superpixels “órfãos” [51]. O método baseado em aglomeração (ou clusterização) mais popular é a Clusterização Iterativa e Linear Simples (SLIC, do inglês Simple Linear Iterative Clustering) [1]. Este algoritmo é, ao mesmo tempo, simples e eficiente para a obtenção dos superpixels. Pri-meiramente, é realizada uma amostragem equidistante das sementes na imagem. Então,

(32)

até que os critérios de parada sejam satisfeitos – e.g., , número de iterações ou taxa de erro –, são executadas multiplas instâncias do método K-médias adaptado, e as sementes são recomputadas em respeito aos atributos médios de seu respectivo superpixel. Nestas últimas etapas, um pixel qualquer é composto de cinco características – i.e., as cores mapeadas no espaço CIELAB, e as coordenadas espaciais.

Devido às suas características, o método SLIC é amplamente utilizado em inúmeras aplicações, e diversas extensões foram propostas. Uma destas, a SLIC com Variedade Intrínseca (IMSLIC, do inglês Intrinsic Manifold SLIC ) [34], mapeia cada pixel da ima-gem para uma representação bidimensional na variedade e, utilizando a área das células de Voronoi como métrica de densidade de conteúdo, gera-se os superpixels por meio de execuções do método K-médias adaptado – tal qual o método SLIC original. Diferente-mente do método SLIC, este consegue garantir tanto a quantidade desejada de superpixels gerados, como a sua conexidade.

Outro método eficiente baseado em aglomeração é a Clusterização Espectral Linear (LSC, do inglês Linear Spectral Clustering) [31]. Devido à equivalência teórica entre o método de Cortes Normalizados (NC, do inglês Normalized Cuts) [44] no espaço original de cores, e a execução do método K-médias ponderado no espaço 10-dimensional delibe-radamente ajustado, este método é capaz de obter segmentações com alta aderência às bordas. Entretanto, tal qual SLIC, este requer um pós-processamento para garantir a conectividade dos superpixels gerados.

O método Clusterização por Crescimento de Regiões baseado em Equação Eikonal (ERGC, do inglês Eikonal-based Region Growing Clustering) [8], utiliza da estratégia de crescimento de regiões, considerando um subconjunto de 90% das sementes, e realiza o refinamento da primeira segmentação com as sementes restantes. Este formula a tarefa de segmentação em superpixels como uma solução de uma equação Eikonal, e apresenta um custo computacional baixo. Ainda que apresente uma performance no páreo com outros métodos do estado-da-arte, o ERGC não permite, por definição, a fácil incorporação de uma informação prévia de objeto.

3.1.2 Métodos por Inserção e Remoção de Arestas em Grafo

Existe um grande grupo de métodos de segmentação em superpixels que modelam a ima-gem como um grafo não-direcionado e ponderado, para então obter os superpixels através de estratégias baseadas em inserção e remoção de arestas. Um dos métodos mais proe-minentes desta categoria é o Superpixels pela Taxa de Entropia (ERS, do inglês Entropy Rate Superpixels) [33]. Tal algoritmo elabora a tarefa de segmentação em superpixels como um problema de otimização sobre a topologia do grafo, utilizando uma fórmula que une a entropia de um caminho aleatório com um termo de regularização – para promover a regularidade. Apesar de apresentar uma boa performance de delineamento, o método ERS possui um custo computacional relativamente alto para segmentar uma imagem, mesmo utilizando estratégias gulosas.

O método Hierarquia de Superpixels (SH, do inglês Superpixel Hierarchy) [58], pro-posto por Wei et al. , gera uma floresta geradora mínima utilizando o algoritmo de Borůkva, e obtém a quantidade desejada de superpixels por meio da remoção das arestas

(33)

do grafo. O método de Borůkva é executado em tempo linear e pode ser facilmente para-lelizável, sendo uma das principais razões do SH ser um método hierárquico de extrema eficiência – normalmente, tais métodos são dispendiosos de serem executados.

3.1.3 Métodos baseados em Otimização de Energia

Até recentemente, uma abordagem não-convencional fora pouco estudada por diversos pesquisadores. Em vez de realizar uma estratégia incremental (e.g., cortes no grafo ou por crescimento dos superpixels), alguns métodos, como a Extração de Superpixels via Amostragem direcionada por Energia(SEEDS, do inglês Superpixels Extracted via Energy-Driven Sampling. Superpixel) [55], iniciam seu cômputo a partir de uma partição rude por superpixels, que é refinada iterativamente. Em respeito a uma função objetivo somada a um termo aditivo, o algoritmo SEEDS desloca as fronteiras dos superpixels de tal sorte a obter uma distribuição homogênea de cor destes, enquanto favorece – devido ao termo aditivo – a geração de bordas mais suaves.

3.1.4 Métodos baseados em Conexidade em Grafo

Uma categoria de métodos de segmentação em superpixels computa estes por meio de con-catenações de caminhos em um grafo, a partir de um conjunto de sementes, respeitando uma coleção de critérios. No trabalho de Achanta e Süsstrunk [2], os autores propuseram uma versão aprimorada do SLIC, denominada por Simples Clusterização Não-Iterativa (SNIC, do inglês Simple Non-Iterative Clustering), no qual garante-se a conexidade dos superpixels desde o princípio, e requer uma única iteração para obter os superpixels. Com a utilização de uma fila de prioridades, o método SNIC gera superpixels através do agru-pamento de pixels vizinhos, e atualiza o vetor médio de características do superpixel a cada novo elemento incorporado a este. Os resultados obtidos pelo SNIC são significati-vamente melhores que os apresentados pelo SLIC. Todavia, tal qual seu predecessor, a sua performance é severamente impactada à medida que o número de superpixels desejados é reduzido.

Recentemente, Vargas-Muñoz et al. propuseram um arcabouço (i.e., framework) para o desenvolvimento de métodos de segmentação em superpixels baseados em conexidade. A Floresta Geradora Iterativa (ISF, do inglês Iterative Spanning Forest) [56] consiste em um pipeline – i.e., uma divisão de tarefas subsequentes – de três partes, na qual cada uma pode ser definida de maneira independente. Com isto, o usuário tem a habilidade para escolher a melhor metodologia direcionada para a solução do problema, sem requerer complexas modificações na estrutura do arcabouço. Assim, dado um conjunto inicial de sementes, o ISF computa os superpixels utilizando a Transformada Imagem-Floresta (IFT, do inglês Image Foresting Transform) [19] e, posteriormente, atualiza estas em respeito aos superpixels gerados, até que o número máximo de iterações seja atingido. Por definição, todos os superpixels gerados por métodos baseados no ISF garantem superpixels conexos. Como a nossa contribuição é baseada neste arcabouço, ela será devidamente detalhada no Capítulo 2.

(34)

com capacidade de gerar uma hierarquia de superpixels. Ao realizar múltiplas segmen-tações – utilizando o ISF – em diferentes escalas em grafos de adjacência de regiões, o método RISF é capaz de obter uma performance de delineamento superior sem compro-meter a eficiência e a eficácia de seu precursor. Além disso, o RISF também carrega consigo a possibilidade de definir cada componente do pipeline de maneira independente.

3.2 Redes Neurais Profundas e Superpixels

Com os recentes avanços na área de aprendizado de máquina, diversos trabalhos busca-ram a unificação de métodos de segmentação em superpixels e redes neurais profundas, visando a melhora da performance, e permitindo uma maior capacidade de generalização para a solução do problema. O trabalho de Awaisu et al. [4] é um exemplo de tal obje-tivo. O método proposto é uma extensão de um método de segmentação em superpixels, denominado Rápida Clusterização Iterativa e Linear (FLIC, do inglês Fast Linear Itera-tive Clustering) [67], no qual permite-se incorporar características extraídas por uma rede neural profunda (do inglês, deep features), juntamente com caracteristicas espaciais (i.e., coordenadas), para a obtenção dos superpixels. Em contraste às conclusões desenhadas pelos autores, os resultados do método Deep-FLIC não apresentaram uma melhora signi-ficativa às técnicas baseadas em características manuais (e.g., cor), nas métricas clássicas para avaliação de superpixels.

Diferentemente do trabalho anterior, Tu et al. [54] ilustraram que a simples incorpora-ção de características profundas e segmentaincorpora-ção por superpixels, ocasionalmente não impli-cam em melhorias nos resultados. Contrariamente, os autores propuseram uma nova rede neural profunda, nomeada Rede de Afinidade entre Pixels (PAN, do inglês Pixel-Affinity Network), para mensurar se dois superpixels pertencem ao mesmo objeto. Computadas tais afinidades, é utilizado um método de segmentação baseado em grafos (i.e., ERS) para a geração de superpixels, e quaisquer erros resultantes desta operação são computa-dos pela função de Perda Atenta à Segmentação (SEAL, do inglês Segmentation-Aware Loss). Estes, então, são propagados pela PAN para que os parâmetros sejam ajustados na rede. Entretanto, a performance da combinação SEAL-ERS apresenta uma melhora significativa – em relação ao seu respectivo método clássico e em termos de delineamento – com quantidades superiores a 800 superpixels. Sendo um resultado indesejável para os devidos fins elencados.

A Rede de Amostragem de Superpixels (SSN, do inglês Superpixel Sampling Network) [27] é, até onde se sabe, a primeira rede neural para geração de superpixels, em que todos os seus componentes são treináveis. Visto que métodos de segmentação em superpixels não são diferenciáveis – i.e., não podem ser treinados via retropropagação –, Jampani et al. propuseram uma versão modificada do algoritmo SLIC na qual as restrições de vizinhos mais próximos são amenizadas, permitindo a sua inclusão e treino na rede. Apesar de ser uma estratégia inovadora, resultados experimentais não indicam uma melhora da per-formance de delineamento sobre métodos clássicos baseados em atributos manuais. Além disso, o método SSN ainda requer uma operação de pós-processamento para garantir a conectividade dos superpixels gerados.

(35)

Apesar de que todos os três trabalhos mencionados anteriormente concluem que o uso de características profundas, em comparação com as manuais, podem aprimorar significa-tivamente a performance da segmentação, tal afirmação carece de mais evidências. Além disto, como todos estes métodos são baseados em aprendizado de máquina, existe a neces-sidade de se ter uma quantia significativamente grande de dados para que possam, então, se adaptar ao problema. É possível de se perceber que, em muitos casos, a ausência de dados anotados – especialmente em problemas do âmbito da medicina – impõe um grave desafio a ser solucionado.

Todos os três trabalhos se classificam como métodos de geração de superpixels. En-tretanto, somente o algoritmo SSN pode ser classificado como desta forma. Os métodos SEAL-ERS e Deep-FLIC, como o nome bem sugere, propõem soluções visando a melhora da performance de algoritmos específicos (i.e., ERS e FLIC, respectivamente) através da engenharia de características – i.e., através do desenvolvimento de características as quais favorecem os respectivos métodos. Uma vez que o modelo matemático estruturante para geração de superpixels se manteve intacto, para ambos trabalhos – logo, não houve modi-ficação da estratégia de cômputo –, é incorreto qualificá-los como métodos de segmentação em superpixels.

3.3 Saliências e Superpixels

Uma estratégia comumente utilizada consiste em combinar mapas de saliência e super-pixels para obter uma representação minimal do objeto e, posteriormente, gerar uma segmentação binária (i.e., objeto e fundo) [64, 3]. É possível de se notar que o resultado obtido por tal abordagem difere do objetivo desta pesquisa. Entretanto, no trabalho de Xu et al. [60], os autores propuseram um método de segmentação em superpixels que se utiliza de uma estratégia bottom-up de aglutinação, de forma a obter superpixels basea-dos em saliência. Ao realizar uma super-segmentação da imagem, a tática para obter a quantidade desejada de superpixels consiste em unir superpixels de maneira iterativa, até que não existam superpixels a serem unidos, ou a quantidade total seja satisfeita. Dois superpixels vizinhos se fundem em um só, se o resultante apresentar uma maior saliência em comparação aos dois, separados. Apesar de considerar a saliência durante o cômputo dos superpixels, o método de Xu et al. não permite qualquer controle sobre a distribuição destes na imagem. Ademais, quaisquer erros provenientes do resultado do método de super-segmentação são propagados para o resultado final deste método.

3.4 Considerações Finais

É possível de se notar que diversos métodos conseguem obter um delineamento eficiente dos objetos presentes em uma imagem. Entretanto, como fora abordado aqui, seu aprimo-ramento é limitado à uma nova concepção de algoritmo, ao invés de uma simples modifica-ção em sua estrutura. Métodos clássicos, ao não facilitarem a incorporamodifica-ção de informamodifica-ção prévia de objeto, ficam sujeitos à interpretações dúbias resultantes de um transição suave de cores, possibilitando o surgimento de vazamentos nos superpixels gerados.