HED HOLISTICALLY-NESTED EDGE DETECTION - A influência dos modelos de cor para algoritmos de det

Embora o treinamento da RNC, na arquitetura DeepContour, aconteça com o papel de classificação, como mencionado anteriormente, o objetivo final é a obtenção do vetor de características gerado pela camada FC1. Para cada pixel do pedaço da imagem é gerado um vetor de características, esses vetores são concatenados e submetidos a um classificador Structured Forest (DOLLÁR; ZITNICK, 2013) (DOLLÁR; ZITNICK, 2015).

3.4.2 Detalhes de Implementação

Desenvolvida através do framework Caffe (JIA et al., 2014), a arquitetura DeepContour utilizou partes de imagens de tamanho 45 × 45 pixels (N = 45). A classe positiva foi dividida em 50 grupos (K = 50). Para o fator de regularização λ , utilizado na modificação da Softmax, o valor adotado foi λ = 1. Quando o valor de λ tende a zero a função de perda tende a Softmax padrão; por outro lado, quanto mais o valor de λ vai aumentando, mais o efeito da partição fica mais fraco tendendo a uma função para resolução de um problema de duas classes.

3.4.3 Resultados

Os testes da arquitetura DeepContour foram conduzidos sobre duas bases de dados: BSDS500 (ARBELAEZ et al., 2011) e NYU-RGBD (SILBERMAN; FERGUS, 2011); sendo avaliados através do uso do benchmark BSDS (ARBELAEZ et al., 2011). Do conjunto de treinamento da base BSDS500, 2.000.000 partes de imagens foram utilizadas para o treinamento da arquitetura com uma divisão de metade das partes para cada classe (componentes de borda e do plano de fundo). Com a finalidade de explorar a capacidade de generalização da arquitetura, os autores conduziram os testes sobre a base NYU-RGB com a RNC treinada sobre a base BSDS500. Os resultados, relatados em SHEN et al. (2015) são exibidos na Tabela3.5.

Tabela 3.5: Avaliação da arquitetura DeepContour sobre as bases BSDS500 e NYU-RGBD.

Base ODS OIS AP

BSDS500 0,76 0,78 0,80

NYU-RGBD 0,55 0,57 0,49

O uso da RNC treinada na base BSDS500 para avaliar arquitetura sobre a base NYU- RGBD não se mostrou vantajoso, uma vez que os resultados reportados pela arquitetura N4-Fields, na Tabela 3.1b, são superiores, significativamente, em todas as medidas.

3.5 HED - HOLISTICALLY-NESTED EDGE DETECTION

A arquitetura Holistically-Nested Edge Detection (HED) (XIE; TU, 2015) (XIE; TU, 2017) busca tratar o problema de detecção de bordas de forma holística, tendo como entrada uma

3.5. HED - HOLISTICALLY-NESTED EDGE DETECTION 44 imagem e como saída um mapa de bordas. Com refinamento aninhado, a obtenção do mapa de bordas é dada pela combinação de saídas laterais nas camadas escondidas da RNC.

3.5.1 Arquitetura

A HED é uma arquitetura que pode ser dividida em duas etapas: obtenção das saídas com os mapas de bordas, cada qual com o seu nível de granularidade, e a composição dessas saídas para obtenção de um resultado final. A geração dos mapas de bordas segue dois princípios básicos que compõem o nome da arquitetura: o holismo (Holistially) e o aninhamento do resultado (Nested).

O princípio holístico, inspirado pelo trabalho LONG; SHELHAMER; DARRELL (2015), busca tratamento da imagem inteira por parte da RNC. Dessa forma, a entrada da RNC é a imagem de tamanho M × N e a saída é um mapa de bordas de tamanho M × N. Para que as dimensões (x e y) da saída sejam iguais às da entrada, camadas de deconvolução são utilizadas. No cenário da arquitetura HED, essas camadas de deconvolução desempenham o papel de aumento de escala através de interpolação bilinear.

O princípio do aninhamento do resultado é dado pelo uso do método Deeply-Supervised Nets(DSN) (LEE et al., 2015). O método propõe o uso de saídas laterais nas camadas escondidas da rede neural, com a finalidade de melhorar o aprendizado dessas camadas e ser uma forma de regularização. Na arquitetura HED, o método DSN provê o aprendizado aninhado de características em escalas múltiplas, de modo que cada saída consegue prover um mapa de bordas com cada vez menos granularidade.

A RNC arquitetura HED (Figura 3.4) utiliza as 13 camadas convolucionais da VGG-16 (SIMONYAN; ZISSERMAN, 2015) como base, adicionando 6 saídas laterais (DSN) e uma camada de fusão que visa aprender como unir as saídas laterais.

Imagem M x N conv 1 conv 2 max-pool conv 3 conv 4 max-pool conv 5 conv 6 conv 7 max-pool conv 8 conv 9 conv 10 max-pool conv 11 conv 12 conv 13 conv 1 x 1; stride 1 padding 0; 1 saída Aumento de escala (Bilinear) - Saída M x N Sigmoid (Saída DNS 1) conv 1 x 1; stride 1 padding 0; 1 saída Aumento de escala (Bilinear) - Saída M x N conv 1 x 1; stride 1 padding 0; 1 saída Aumento de escala (Bilinear) - Saída M x N conv 1 x 1; stride 1 padding 0; 1 saída Aumento de escala (Bilinear) - Saída M x N conv 1 x 1; stride 1 padding 0; 1 saída Aumento de escala (Bilinear) - Saída M x N Concatenar conv 1 x 1; stride 1 padding 0; 1 saída Sigmoid (Saída DNS 2) Sigmoid (Saída DNS 3) Sigmoid (Saída DNS 4) Sigmoid (Saída DNS 5) Sigmoid (Saída fusão)

Figura 3.4: Modelo da RNC utilizada na arquitetura HED.

Dadas M saídas laterais, considerando W a coleção de todos os parâmetros das camadas da RNC, w =

w(1), ..., w(M)os pesos de cada camada de saída lateral e h =

h(1), ..., h(M) os pesos utilizados para fundir as saídas laterais, a minimização da função objetivo, utilizada no treinamento da RNC da arquitetura HED, é definida pela Equação 3.7.

(W, w, h)∗= argmin Llateral(W, w) + Lf usao˜ (W, w, h) 3.7

3.5. HED - HOLISTICALLY-NESTED EDGE DETECTION 45 A parcela L_lateral(W, w) da Equação 3.7 traz a parte da função objetivo que trata as saídas laterais da RNC da arquitetura HED. Essa parcela é definida pela Equação 3.8, sendo l(m)_lateral a função de custo e αmo fator de influência da m-ésima saída lateral na composição da função objetivo (utilizado em todos os testes com o valor 1).

Lside(W, w) = M

∑

m=1 αml (m) lateral W, w(m) 3.8

Dado o conjunto de treinamento S = {(Xn,Yn) , n = 1, ..., N}, no qual a n-ésima imagem de entrada é representada por Xn=

x(n)_j , j = 1, ..., |Xn| o

, a imagem padrão ouro correspondente é representada por Yn=

y(n)_j , j = 1, ..., |Xn| o

, sendo y(n)_j ∈ {0, 1}, e o conjunto de pixel da imagem padrão ouro da classe positiva (componentes de borda - y(n)_j = 1) e negativa (componentes de plano de fundo - y(n)_j = 0) são, respectivamente, representados por Y_n+ e Y_n−, a função custo l(m)_lateral é definida pela Equação 3.9, chamada de Class-Balanced Cross-Entropy.

l_lateral(m) W, w(m)= −|Y − n | |Yn| _j∈Y

∑

+ n log Pr y(n)_j = 1|Xn; W, w(m) −|Y + n | |Yn| _j∈Y

∑

− n log Pr y(n)_j = 0|Xn; W, w(m) 3.9

Em geral, 90% dos pixels da imagem padrão ouro são pontos do plano de fundo (classe negativa - Y_n−) (XIE; TU, 2015); dessa forma, os fatores |Yn−|

|Yn| e

|Y+ n |

|Yn| da Equação 3.9 visam

balancear a função custo entre a classe negativa e positiva. A função Pr = σa(m)_j ∈ [0, 1] é calculada utilizando a função Sigmoid (σ (∗)) sobre a ativação a(m)do pixel j. Assim, cada mapa de bordas resultante das saídas laterais é dado por ˆY_lateral(m) = σ

ˆ A(m)_lateral , no qual ˆA(m)_lateral≡ n a(m)_j , j = 1, ..., |Yn| o .

A camada de fusão, como detalhada na Figura 3.4, visa prover uma saída que seja a composição das saídas laterais, conforme Equação 3.10. Sua função é definida pela parcela Lf us˜ao(W, w, h) (Equação 3.11), que é dada pela distância (Dist(∗, ∗)) entre a imagem padrão ouro (Yn) e o resultado da camada de fusão ( ˆYf usao˜ ). Essa distância é calculada através da função de custo Class-Balanced Cross-Entropy.

ˆ Y_{f us}_ao_˜ ≡ σ M

∑

m=1 h_mAˆ(m)_lateral ! 3.10 L_{f us˜}_ao(W, w, h) = Dist Y_n, ˆY_{f us}_ao_˜ 3.11 O resultado final da arquitetura HED é dado pela combinação das saídas laterais com a saída de fusão, conforme Equação 3.12.

3.5. HED - HOLISTICALLY-NESTED EDGE DETECTION 46 ˆ Y_hed = b0Yˆf us˜ao+ M

∑

m=1 bmYˆ_lateral(m) 3.12

3.5.2 Detalhes de Implementação

A arquitetura HED foi desenvolvida utilizando o framework Caffe (JIA et al., 2014) com sua RNC sendo treinada de forma supervisionada através do método do gradiente descendente estocástico. Os hiperparâmetros são: taxa de aprendizado de 10−6, momentum de 9 × 10−1, decaimento dos pesos de 2 × 10−4e 10.000 iterações. Após 5.000 iterações a taxa de aprendizado é dividia por 10.

No primeiro trabalho (XIE; TU, 2015), os autores utilizaram minibatch de tamanho 10 sendo necessário redimensionar as imagens para um tamanho fixo (N × N). No trabalho XIE; TU (2017) o uso de minibatch foi descartado e as imagens de entrada não sofreram redimensionamento.

A inicialização dos pesos das camadas convolucionais oriundas da VGG-16 ocorre com o uso de pesos pré-treinados. As camadas de saídas laterais são inicializadas com a constante 0 e a camada de fusão é inicializada com a constante 0,2. Com exceção das camadas deconvolucionais, que desempenham o papel fixo de aumento de escala através do método bilinear, todas as camadas participam do treinamento, inclusive as camadas inicializadas com pesos da VGG-16 pré-treinada.

3.5.3 Resultados

No primeiro trabalho (XIE; TU, 2015) a arquitetura HED é avaliada sobre duas bases: BSDS500 (ARBELAEZ et al., 2011) e NYU-RGBD (SILBERMAN; FERGUS, 2011), tendo como método avaliador o benchmark BSDS (ARBELAEZ et al., 2011).

Na base BSDS500, pela sua restrita quantidade de imagens de treinamento, foi realizado um aumento sintético de dados, rotacionando as imagens da base em 16 ângulos diferentes (×16) e espelhando cada imagem (×2). Dessa forma, a quantidade de imagens de treinamento aumentou 32 vezes. Três especificações de ˆY_hed (Equação 3.12) são apontadas pelos autores: o mapa de bordas da saída de fusão ( ˆY_hed = ˆY_{f us}_ao_˜ ); o mapa de bordas resultante da média entre as saídas laterais ( ˆY_hed= _M1 ∑M_m=1Yˆ_lateral(m) ) e o mapa de bordas resultante da mesclagem entre as saídas laterais e a saída de fusão ( ˆY_hed = _M+11 Yˆ_{f us}_ao_˜ +_M+11 ∑M_m=1Yˆ_lateral(m) ). Contudo, no código fonte fornecido pelos autores, a mesclagem entre a saída de fusão e as saídas laterais é definida pela média entre a saída de fusão e a média das saídas laterais ( ˆY_hed =1₂Yˆ_{f us˜}_ao+_2M1 ∑Mm=1Yˆ

(m) lateral). Os resultados, reportados pelos autores em XIE; TU (2015), seguem na Tabela 3.6.

Mesmo que a mesclagem entre as saídas laterais e de fusão gere o melhor resultado, é visível a capacidade da RNC da arquitetura em aprender como unir as saídas laterias (saída de fusão), visto que a diferença relevante se encontra apenas na medida AP.

3.5. HED - HOLISTICALLY-NESTED EDGE DETECTION 47

Tabela 3.6: Avaliação da arquitetura HED sobre a base BSDS500 no trabalho de 2015.

Saída ODS OIS AP

Saída de fusão 0,782 0,802 0,787

Média das saídas laterais 0,774 0,797 0,822

Mesclagem entre saídas laterais e de fusão 0,782 0,804 0,833

Na base NYU-RGBD, as imagens foram divididas em 381 de treinamento, 414 de validação e 654 de teste. O mesmo processo de aumento de imagens, utilizado na base BSDS500, foi realizado. Nessa avaliação, a especificação ˆY_hed (Equação 3.12) utilizada foi a caracterizada por ˆY_hed= 1₃Yˆ_lateral(2) + ˆY_lateral(3) + ˆY_lateral(4)

. A componente D (depth - profundidade) foi codificada no formato HHA (GUPTA et al., 2014) que fornece a disparidade horizontal, a altura acima do chão e o ângulo entre a superfície normal e a direção da gravidade inferida. Para avaliação, os autores aumentaram o valor do parâmetro do BSDS que determina a tolerância máxima do casamento entre as bordas preditas e o padrão ouro (mais detalhes na seção 4.2). O valor foi aumentado de 7, 5 × 10−4 para 1, 1 × 10−3. Os resultados, reportados pelos autores em XIE; TU (2015), seguem na Tabela 3.7.

Tabela 3.7: Avaliação da arquitetura HED sobre a base NYU-RGBD no trabalho de 2015.

Modelo ODS OIS AP

RGB 0,720 0,734 0,734

HHA 0,682 0,695 0,702

RGB-HHA 0,746 0,761 0,786

Os resultados sugerem o quão benéfico pode ser a modificação do formato de entrada da imagem, dado que a união entre RGB e HHA superou, em todas as medidas, o uso isolado do RGB e HHA.

Em XIE; TU (2017), os autores avaliaram a arquitetura HED sobre duas novas bases de imagens: PASCAL Context (MOTTAGHI et al., 2014) Multicue (MÉLY et al., 2016). Também foi apresentado uma melhora dos resultados sobre a base BSDS500.

A melhora nos resultados da arquitetura HED sobre a base BSDS500, reportada em XIE; TU (2017), é decorrente do aumento sintético da quantidade de imagens de treinamento ao adicionar 3 níveis de escala (50%, 100% e 150%) alterando o fator de aumento da base de treinamento de 32 para 96. Outro ponto, reportado como contribuinte para a melhora dos resultados, foi o uso da imagem no seu tamanho original descartando o redimensionamento. Os resultados, reportados pelos autores em XIE; TU (2017), seguem na Tabela 3.8.

Tabela 3.8: Avaliação da arquitetura HED sobre a base BSDS500 no trabalho de 2017.

Saída ODS OIS AP

Saída de fusão 0,790 0,808 0,811

3.6. CEDN - CONVOLUTIONAL ENCODER DECODER NETWORK 48

No documento A influência dos modelos de cor para algoritmos de detecção de bordas baseados em redes neurais convolucionais (páginas 44-49)