CONCLUSÃO - A influência dos modelos de cor para algoritmos de detecção de bordas baseados em r

para as três arquiteturas mais recentes, sendo diferenciadas pelo dígito da terceira casa decimal no valor do ODS (medida mais difundida), mas mostra um avanço no valor do OIS para a arquitetura COB. Essa característica se deve à baixa quantidade de imagens e ao método como o padrão ouro foi desenvolvido (mais detalhes na seção 4.3.1)

A Tabela 3.14, além exibir os resultados sobre a base NYUD quando a imagem de entrada está no modelo RGB, para algumas arquiteturas, são considerados outros formatos de entrada, como o HHA (GUPTA et al., 2014) e a concatenação do modelo RGB com o HHA. Por mais que os resultados não mostrem um aumento significativamente grande, eles já sugerem que alguma manipulação manual no formato da entrada pode prover melhores resultados para uma arquitetura. As mudanças nos valores do ODS já são mais relevantes em relação a base BSDS500.

A base PASCAL Context foi utilizada apenas pelas arquiteturas HED e COB e com divisão de imagens distintas. Para via de comparação, os autores da arquitetura COB re-avaliaram a HED e CEDN com a mesma divisão de dados utilizada por eles (Tabela 3.15). Os resultados mostram uma evolução cada vez maior em uma base com mais de 10.000 imagens, na qual os padrões ouro captam apenas as bordas externas (contornos) de cada objeto.

Por fim, segue a base PASCAL VOC 2012, constituída por mais de 10.000 imagens, mas com apenas 2.913 tendo padrão ouro que possibilite a avaliação da detecção de bordas. Essa característica fez com que a arquitetura CEDN incrementasse a quantidade de imagens de treinamento, ao usar os padrões ouro da base SBD (HARIHARAN et al., 2011) (base com todas imagens oriundas da PASCAL VOC). Outro ponto importante é que os padrões ouro da base PASCAL VOC 2012 foram refinados para remoção de regiões de incerteza na geração dos padrões ouro. Dessa forma, os autores da arquitetura COB, mais uma vez, padronizaram a divisão de dados utilizando apenas a divisão proposta pela própria base PASCAL VOC 2012 e avaliaram a arquitetura CEDN. O valor reportado para a arquitetura HED é proveniente de terceiros. Os resultados dispostos na Tabela 3.16 exibem avanços substanciais, mas é perceptível o valor mais modesto de cada arquitetura sabendo que cada medida varia no intervalo [0, 1].

Embora não detalhado nas explicações das arquiteturas, com exceção da COB, todas utilizam o algoritmo Non-Maximum Suppression para afinamento dos mapas de bordas resultantes. Isso é uma prática comum para utilização do benchmark BSDS, uma vez que o método avaliador penaliza bordas grossas.

3.9 CONCLUSÃO

O presente capítulo abordou o estado da arte do processo de detecção de bordas para abordagens que têm como base o uso de Redes Neurais Convolucionais (RNC). No total, sete arquiteturas foram apresentadas, evidenciando o avanço desde o uso da RNC como geradora de características, até a total extração do mapa de bordas por parte da RNC.

3.9. CONCLUSÃO 59 Todas as arquiteturas apresentadas utilizam o modelo RGB para representação da imagem em quase todas as bases de imagens avaliadas. Apenas duas arquiteturas se destacam pela utilização de outra representação da imagem de entrada (HED e COB). As arquiteturas HED e COB, ao avaliarem suas arquiteturas sobre a base NYUD, utilizaram a componente de profundidade, provida pela base, para geração da característica HHA. O uso dessa característica, juntamente com o modelo RGB, produziram para as duas arquiteturas resultados superiores a uso apenas do modelo RGB ou da característica HHA. Esse comportamento evidencia que a manipulação do formato de entrada da imagem pode trazer ganho para o processo de detecção de bordas que tem como base o uso de RNC.

Dado a falta de exploração de modelos de cor diferentes do RGB, por parte do estado da arte, para descrever as imagens de entradas de arquiteturas de detecção de bordas baseadas em RNC, a análise proposta por essa dissertação busca realizar essa exploração.

Nesse cenário, o presente capítulo buscou descrever cada uma das principais arquiteturas, tendo como objetivo permitir o entendimento das características de cada uma e, por consequência, permitir a compreensão das motivações que levaram a escolha das arquiteturas HED e CEDN para compor a análise proposta nesta dissertação. Além de evidenciar a não exploração de modelos de cor distintos do RGB, o que motiva a análise proposta.

60 60 60

4

METODOLOGIA

No presente capítulo, são abordados cada um dos componentes necessários para a realização da análise proposta nesta dissertação, sendo eles: os modelos de cor utilizados para codificar as cores nas imagens de entrada, o método avaliador dos resultados das detecções de borda, as bases de imagens utilizadas e as arquiteturas de detecção de bordas que utilizem Redes Neurais Convolucionais como parte da sua solução.

4.1 MODELOS DE COR

Os modelos de cor RGB, LAB, LUV, HSV, YO1O2 e dRdGdB (descritos no Capítulo 2) são os escolhidos para serem usados na presente análise. A escolha do modelo RGB (GONZA- LEZ; WOODS, 2006) (KOSCHAN; ABIDI, 2008) (VELHO; FRERY; GOMES, 2014) é uma escolha padrão, uma vez que todas as arquiteturas descritas no Capítulo 3 utilizam o modelo.

Os modelos perceptualmente uniformes LAB e LUV (CHEN; CRANTON; FIHN, 2012) (KOSCHAN; ABIDI, 2008) (VELHO; FRERY; GOMES, 2014) foram selecionados pela sua característica de uniformidade com a percepção humana e pela importância desempenhada em alguns trabalhos (MARTIN; FOWLKES; MALIK, 2004) (COMANICIU; MEER, 2002). Embora existam outros modelos perceptualmente uniformes como o RLAB (CORREA-TOME; SANCHEZ-YANEZ; AYALA-RAMIREZ, 2011) e UVW (GEVERS; SMEULDERS, 1999), os modelos LAB e LUV são os mais conhecidos e utilizados.

Embora existam diversos modelos de interface como o HSI (GONZALEZ; WOODS, 2006), HSL (VELHO; FRERY; GOMES, 2014) e HSV (KOSCHAN; ABIDI, 2008), é inviável que todos participem da análise proposta, desse modo, o modelo HSV foi selecionado dentre os modelos de interface.

O modelo YO1O2 (SANTILLAN; TEROL-VILLALOBOS; HERRERA-RUIZ, 2008) é um dos modelos mais recentes e foi criado para uso em algoritmo de segmentação de regiões, o que motiva ainda mais o uso desse modelo, embora o foco da dissertação seja segmentação por detecção de bordas.

Por fim, o dRdGdB é outro modelo recente; criado especificamente para uso em detecção de bordas, a escolha do dRdGdB se deve, principalmente, ao fato de ter sido criado para melhorar a detecção de bordas em COSTA; MELLO; SANTOS (2013).

Ainda existem diversas outras classes de modelos de cor como, os modelos de vídeo componente e vídeo composto que são amplamente utilizados para transmissão cabeada e por irradiação, respectivamente. Os principais exemplos para essas classes de modelos de cor são os modelos YPbPr e YCbCr (POYNTON, 2003) (VELHO; FRERY; GOMES, 2014), para vídeo componente, e YUV e YIQ (POYNTON, 2003) (KOSCHAN; ABIDI, 2008) para vídeo composto. Esses e vários outros modelos de cor, como I1I2I3 (OHTA; KANADE; SAKAI, 1980)

4.2. BENCHMARK 61 e l1l2l3 (GEVERS; SMEULDERS, 1999), não foram analisados devido ao custo computacional no retreinamento das Redes Neurais Convolucionais, obrigando o uso de um número restrito de modelos de cor.

4.2 BENCHMARK

O Berkeley Segmentation Data Set and Benchmarks (BSDS) é a escolha para método avaliador quantitativo para o presente trabalho. Ele funciona tanto como benchmark de detecção de bordas como de segmentação de regiões. Nesta seção, tendo em vista o foco da dissertação, é abordado apenas a funcionalidade de avaliação do resultado de detecção de bordas por parte do BSDS. A seleção do BSDS como método avaliador é uma escolha prática, dado a importância histórica do benchmark e a flexibilidade de uso de qualquer base de dados com padrão ouro de detecção de bordas ou de segmentação de regiões. Outro ponto que corrobora para escolha do BSDS é o fato de todas as arquiteturas, citadas no Capítulo 3, o utilizarem como um método avaliador.

4.2.1 Parâmetros

De maneira resumida, para realizar a avaliação, o BSDS necessita do mapa de bordas a ser avaliado, os padrões ouro da imagem de onde foi extraído o mapa de bordas, o número de limiarizações realizadas sobre o mapa de bordas, o multiplicador (dmax) do raio de busca para casamento de um ponto de borda predito (mapa de bordas) com o padrão ouro e, por fim, uma flag que determina se o mapa de bordas limiarizado sofrerá o processo de afinamento morfológico ou não.

O mapa de bordas deve ser uma imagem em tons de cinza no qual a cor branca (255 para uma codificação de 8 bits) representa a total certeza de que um pixel pertence a um ponto de borda; ao contrário da cor preta (0 para uma codificação de 8 bits) que representa a certeza de que um pixel pertence ao plano de fundo.

Em relação ao padrão ouro, pode existir mais de um para um único mapa de bordas. Essa característica se deve ao fato de mais de uma pessoa ter anotado as bordas da imagem original. Essa entrada é passada como várias (em caso de mais de um padrão ouro) imagens de tons de cinza com valores binários, representando a anotação de ponto de borda ou de plano de fundo. No caso de X padrões ouro para o mesmo mapa de bordas, para fins de cálculos das medidas, considera-se a comparação do mapa de bordas de entrada com os X padrões ouro como se fossem mapas de bordas distintos.

A entrada do benchmark é um mapa de bordas em tons de cinza, mas o problema de detecção de bordas é, no geral, de interesse binário, no qual se classifica cada pixel como pertencente a uma borda ou ao plano de fundo. Essa característica binária faz com que seja necessário realizar uma limiarização no mapa de bordas de entrada. O BSDS tem, como um dos

4.2. BENCHMARK 62 parâmetros, a quantidade de limiarizações a serem realizadas no mapa de bordas para análise e obtenção das medidas. O valor padrão para esse parâmetro é de 99 limiarizações.

O padrão ouro busca definir o local da ocorrência de uma borda. Um processo automático de detecção de bordas pode acabar detectando uma borda interna ou externa, mas paralela a presente no padrão ouro. Em um casamento exato, por mais que a diferença seja de um pixel, a borda externa ou interna seria considerada um erro. O parâmetro dmax visa estabelecer uma distância máxima para a borda predita (mapa de bordas) e a anotada (padrão ouro). O parâmetro dmaxvisa estabelecer uma fração da diagonal da imagem como sendo essa distância máxima, ou seja, se a imagem possui dimensões de 481 × 321 pixels sua diagonal é 578 '√4812_{+ 321}2_. Logo, com um valor de dmax= 0, 0075, a distância máxima seria de 5 = d0, 0075 × 578e pixels. O valor padrão para esse parâmetro é 0, 0075

O último parâmetro é a flag que determina se o mapa de bordas, já limiarizado, deve ser submetido ao processo de afinamento morfológico. Esse parâmetro tem valor padrão true. A importância do uso do afinamento está no fato da diminuição de falsos positivos (predições de borda para pontos pertencentes ao plano de fundo), uma vez que as bordas anotadas no padrão ouro possuem a espessura de um pixel.

4.2.2 Avaliação

O BSDS retorna um conjunto de três medidas (ODS, OIS e AP) como resultado da avaliação de Nmb mapas de borda, com seus respectivos padrões ouro e valores dos parâmetros de entrada. Para o entendimento de cada medida retornada pelo BSDS, é necessário a compreensão de conceitos básicos como as medidas Precision, Recall e F-measure (GREEN; SWETS, 1966).

Em um problema binário como a detecção de borda (ou o pixel é um ponto de borda ou do plano de fundo), pode-se definir um ponto de borda como pertencendo à classe positiva e um ponto do plano de fundo como pertencendo à classe negativa. Dada essa definição, um ponto de borda predito como sendo um ponto de borda é um Verdadeiro Positivo (VP), já um ponto de borda predito como sendo um ponto de plano de fundo é um Falso Negativo (FN). Por sua vez, um ponto de plano de fundo predito como um ponto de borda é um Falso Positivo (FP) e, por fim, um ponto de plano de fundo predito como um ponto de plano de fundo é um verdadeiro negativo (VN). Um resumo dessas definições é fornecido na Tabela 4.1.

Tabela 4.1: Resumo explicativo para Verdadeiro Positivo, Falso Positivo, Falso Negativo e Verdadeiro Negativo, conforme adotado nesta dissertação.

Padrão Ouro (Realidade)

Ponto de borda Plano de fundo

Mapa de bordas (Predição)

Ponto de borda Verdadeiro Positivo (VP) Falso Positivo (FP)

Plano de fundo Falso Negativo (FN) Verdadeiro Negativo (VN)

A medida Precision é definida pela fração de VPs em relação aos pontos preditos como pertencentes a uma borda (VP + FP), conforme Equação 4.1. Por outo lado, a medida Recall

4.3. BASES DE DADOS 63 traz a fração de VPs em relação aos pontos anotados, no padrão ouro, como pontos de borda (VP + FN), conforme Equação 4.2. O F-measure é dado pela média harmônica entre as medidas Precisione Recall, conforme Equação 4.3.

Precision= VP VP + FP 4.1 Recall= VP VP + FN 4.2 F-measure= 2 1 Precision+ 1 Recall = 2Precision× Recall Precision+ Recall 4.3 A primeira medida retornada pelo BSDS é a ODS (do inglês Optimal Dataset Scale) que é o valor do F-measure de toda a base, quando se fixa um valor lα de limiarização para todos os N_mbmapas de borda de entrada. O benchmark calcula, para cada mapa de borda i e valor de limiarização l, o numerador e o denominador das medidas Precision e Recall, acumulando cada valor separadamente. O valor da Precision e Recall para o l-ésimo valor de limiarização é dado, respectivamente, pela Equação 4.4 e pela Equação 4.5. A obtenção do valor da medida ODS é dado pela Equação 4.6, no qual lα = argmax

F-measure_base,l.

Precision_base,l = ∑ Nmb

i=1VPi,l ∑N_i=1mb VPi,l+ FPi,l

4.4 Recall_base,l = ∑ Nmb i=1VPi,l ∑N_i=1mb VPi,l+ FNi,l

4.5

ODS= F-measurebase, l_α = 2

Precision_{base, l} α× Recallbase, lα Precision_{base, l} α+ Recallbase, lα 4.6 A segunda medida é a OIS (do inglês Optimal Image Scale) e representa o valor do F-measurede toda a base, quando se utiliza um valor de limiarização para cada mapa de borda de entrada. O valor da limiarização é o que maximiza o F-measure do mapa de bordas, ou seja, os numeradores e denominadores (conforme a medida ODS, são acumulados para posterior cálculo do F-measure da base) das medidas Precision e Recall maximizam a F-measure do mapa de bordas de entrada. Essa forma de calcular a F-measure da base maximiza o seu valor de modo que OIS ≥ ODS.

Por fim, a última medida retornada é a AP (do inglês Average Precision) que, como a própria definição diz, é o valor médio para a medida Precision.

4.3 BASES DE DADOS

Para realização da análise, proposta pelo presente trabalho, duas bases de imagens são utilizadas: BSDS500 (ARBELAEZ et al., 2011) e PASCAL Context (MOTTAGHI et al., 2014).

4.3. BASES DE DADOS 64 Ambas as bases são discutidas, respectivamente, nas seções 4.3.1 e 4.3.2. Outras bases de imagens foram citadas no decorrer do Capítulo 3: DRIVE (STAAL et al., 2004), Multicue (MÉLY et al., 2016), PASCAL VOC 2012 (EVERINGHAM et al., 2010) e NYUD (SILBERMAN; FERGUS, 2011), mas elas não são relevantes para a presente análise.

A base DRIVE traz um contexto bem específico (retinas humanas) o que restringe bastante os tipos das imagens e a diversidade de cores. A base Multicue, embora seja uma base de cenas reais, a quantidade de imagens é de apenas 100 unidades. A base PASCAL VOC de 2012 tem, em relação ao total da base, apenas um conjunto restrito de imagens com rótulos que possibilitem a avaliação do processo de detecção de bordas. Esse conjunto restrito está, em grande parte, contido na base PASCAL Context. A base NYUD é uma base de cenas de interiores, o que restringe um pouco a diversidade de imagens e cores, quando comparado às imagens de cenas reais. Para trabalhos futuros, a base NYUD pode ser uma opção, principalmente pelo diferencial de possuir um mapa de profundidade.

4.3.1 BSDS500

A BSDS500 é a base do benchmark BSDS. Ela é uma evolução da base BSDS300 (MARTIN et al., 2001) e é composta por 200 imagens de treinamento, 200 de teste e 100 de validação. Todas as imagens são coloridas de cenas reais com dimensões 481 × 321 pixels no formato paisagem e 321 × 481 pixels no formato retrato.

Todas as imagens possuem cinco padrões ouro rotulados por diferentes pessoas, sendo a rotulação binária, no qual branco representa a presença de um ponto de borda e preto um ponto de plano de fundo. A rotulação foi realizada de forma livre, de modo que existe discordância entre os próprios rotuladores em relação ao que deve, ou não, ser rotulado como borda e plano de fundo.

A base BSDS500 avaliou seus padrões ouro no BSDS fazendo um padrão ouro ser o mapa de bordas de entrada e os outros quatro a referência de avaliação. Dessa forma, o valor médio obtido para a medida F-measure foi de 0,80 (MARTIN; FOWLKES; MALIK, 2004).

A escolha da base BSDS500, para a presente avaliação, deve-se à importância histórica da base na avaliação de detecção automática de bordas, juntamente com o benchmark BSDS, onde durante muitos anos foi a base referência para esse tipo de tarefa. Outro ponto importante está na diversidade da base ao trazer imagens coloridas de animais, prédios, objetos, pessoas, dentre outros.

Na Figura 4.1, são exibidos três exemplos de imagens da base BSDS500 (primeira linha) com os três primeiros, dos cinco, padrões ouro (segunda, terceira e quarta linha) e a composição dos cinco padrões ouro (última linha). As imagens dos padrões ouro foram complementadas (branco virou preto e preto virou branco) para melhor visualização das bordas anotadas. Na composição dos padrões ouro (última linha da Figura 4.1), quanto mais concordância, entre os cincos rotuladores, de que um pixel é um ponto de borda, mais escuro é esse pixel.

4.3. BASES DE DADOS 65

Figura 4.1: Exemplos da base BSDS500: Primeira linha apresenta três imagens da base (21077, 145086, 160068); da segunda à quarta linha são apresentados três dos cinco padrões ouro que cada imagem possui e, na última linha, é apresentado a sobreposição

dos cinco padrões ouro.

4.3.2 PASCAL Context

A base PASCAL Context (MOTTAGHI et al., 2014) é uma extensão da base PASCAL VOC de 2010. O conjunto de treinamento e validação (10.103 imagens) da base PASCAL VOC de 2010 foi rotulado em regiões com 540 categorias, incluindo as 20 categorias presentes na base

4.4. ARQUITETURAS 66 original. Dessa forma, a base PASCAL Context provê apenas os padrões ouro para as imagens de treinamento e validação da base PASCAL VOC de 2010.

A divisão das 540 categorias é resumida em três grandes classes caracterizadas pela possibilidade de definição de um formato. A primeira classe traz objetos com formato bem definidos como um copo, talher ou avião. Já a segunda classe é dada por matérias amorfas como o céu e água. Por último, vem o que é chamado de classe mista que se situa, conceitualmente, entre as duas primeiras classes.

A escolha da base PASCAL Context para a presente avaliação traz como motivo, além da diversidade de imagens coloridas de cenas reais, o fato de ser uma base com grande quantidade de imagens e indicada (MANINIS et al., 2016) como a nova base para exploração de tarefas como a detecção automática de bordas. A divisão (treinamento, validação e testes) das imagens da PASCAL Context, utilizada na presente análise, é a mesma usada por MANINIS et al. (2016).

Na Figura 4.2, são exibidos três exemplos de imagens da base PASCAL VOC de 2010 (primeira linha) com os respectivos padrões ouro que compõem a base PASCAL Context (segunda linha). Para uso da base PASCAL Context, neste trabalho, foi necessário a criação de um segundo formato de padrão ouro, no qual só existam anotações de pontos de borda e de plano de fundo, conforme última linha da Figura 4.2. Para melhorar a visualização, as regiões dos padrões ouro (segunda linha da Figura 4.2) foram coloridas artificialmente, assim como as imagens dos padrões ouro, dispostas na última linha da Figura 4.2, foram complementadas (branco virou preto e preto virou branco).

4.4 ARQUITETURAS

As arquiteturas de detecção automática de bordas que tenham como base o uso de Redes Neurais Convolucionais (RNC) devem obedecer a dois critérios básicos para serem utilizadas na presente análise: (1) A entrada da RNC deve ser uma imagem e a saída deve ser uma predição final; (2) o pós processamento sobre os mapas de bordas resultantes deve ser mínimo.

O critério (1) é motivado pela dependência, que determinadas arquiteturas possuem, de outro componente para compor o mapa de bordas final. No caso de arquiteturas em que a RNC é utilizada como extratora de características, para posterior predição por meio de classificadores, há uma grande dependência da capacidade discriminativa das características aprendidas, dada a forma de otimização da RNC. Outro aspecto importante está na capacidade e qualidade do treinamento do classificador utilizado. É importante que a única informação de entrada seja a imagem colorida, possibilitando o uso de diferentes modelos de cor, e que a saída seja a predição de toda a imagem ou pixel a pixel.

O critério (2) é dado pelo fato de um pós-processamento complexo ser um dos pontos cruciais para o resultado final e não apenas o par entrada e modelo da RNC.

Baseado nesses dois critérios, duas das arquiteturas descritas no Capítulo 3 se sobressaem e são as selecionadas: a Holistically-Nested Edge Detection (HED) (MANINIS et al., 2016)

4.5. CONCLUSÃO 67

Figura 4.2: Exemplos da base PASCAL Context: Primeira linha apresenta três imagens da base (2009_001419, 2008_000075, 2008_000149); a segunda apresenta o padrão ouro de cada imagem e, na terceira linha, o padrão ouro para detecção de bordas, extraído do

padrão ouro original.

(MANINIS et al., 2017) e a Convolutional Encoder Decoder Network (CEDN) (YANG et al., 2016). Outra opção seria a arquitetura DeepEdge (BERTASIUS; SHI; TORRESANI, 2015), mas o fato de possuir um grande custo computacional dificulta a escolha da arquitetura para este

No documento A influência dos modelos de cor para algoritmos de detecção de bordas baseados em redes neurais convolucionais (páginas 59-70)