E STADO DA A RTE NA UBIRIS V - Fully Convolutional Neural Network for Occular Iris Semantic Seg

Fully Convolutional Neural Network for Occular Iris Semantic Segmentation

II. E STADO DA A RTE NA UBIRIS V

O método proposto será comparado com alguns métodos do estado-da-arte em segmentação de ´ıris. Dentre esses métodos, estão os 3 melhores resultados da competição de segmentação de ´ıris Noisy Iris Challenge Evaluation - Part I1_{(NICE.I), sub-}

conjunto da UBIRIS.v2 [30]–[32]. Recomenda-se a leitura dos mesmos para maiores informac¸˜oes sobre suas metodologias.

O método vencedor da NICE.I foi proposto por [30] e consiste em remover os pontos de reflexo usando limiarização adaptativa e interpolação bi-linear. A ´ıris é segmentada por agrupamento de regiões e modelada pelo operador integro- differential constellation[12].

No segundo lugar da NICE.I [31], a localização dos reflexos ocorre na imagem convertida para escala de cinza com base em luminance in-phase quadrature. Os limites internos e externos da ´ıris são encontrados pelo operador de Daugman [2], no componente de cor vermelho do RGB. As palpebras inferior e superior, são localizadas pelo detector de bordas (horizontais) de Sobel. As transições de intensidade entre a esclera e a pele são usadas para delimitar as partes da ´ıris oclu´ıdas pela pálpebra.

Em terceiro lugar [32], os reflexos são localizados com base no valor de intensidade (tons de cinza) dos pixels acima de 250. Em seguida, um aumento de contraste destaca os pontos pretos da pupila, para facilitar sua detecção. Ambas ´ıris e pupila são localizadas ao varrer a imagem com alguns retângulos e “sementes”. As pálpebras são detectadas com base na mudança de contraste entre a esclera e a pele (nos componentes de cor verde e azul) usando segmentos de arcos. Outro método estado-da-arte [33], comparado com o método proposto, utiliza o operador de Daugman [2] para localizar a ´ıris. As pálpebras são removidas na imagem normalizada, por meio de um polinômio de terceira ordem e estimativa de média e desvio padrão. Os reflexos são detectados, por meio da combinação entre limiarização adaptativa e modelos de textura Markovianos [34]. O método [33] foi comparado com os oito melhores resultados da competição NICE.I seguindo os mesmos critérios de avaliação (Eq. 2) e alcançou um erro E menor que o primeiro colocado. Por isso, essa abordagem passou a ser utilizada para segmentar as imagens da competição Mobile Iris CHallenge Evaluation II2 (MICHE-II), que é voltada apenas para o reconhecimento de ´ıris.

A Tabela I representa a comparação dos métodos estado-da- arte que serão utilizados para comparar o método proposto. É

1_{http://nice1.di.ubi.pt/} 2_{http://biplab.unisa.it/MICHE/}

Tabela I: Comparação do erro de segmentação E dos métodos estado-da-arte.

M´etodo E

Haindl & Krupiˇcka [33] 0, 0124 Tan et al., 2010 [30] 0, 0131 Sankowski et al. [31] 0, 0162 Almeida [32] 0, 0180

poss´ıvel observar que o m´etodo [33], com E = 0, 0124, supera o m´etodo vencedor da NICE.I [30] com E = 0, 0131.

III. METODOLOGIA

A metodologia proposta foi inspirada no uso de uma abordagem de aprendizado profundo, voltada para segmentação semântica, classificação e detecção chamada MultiNet [27]. As técnicas de transferência de aprendizagem e fine-tunning foram utilizadas, visando ajustar o modelo da rede para o problema de segmentação de ´ıris ocular. Portanto, nenhuma alteração nas configurações da rede foi realizada.

A. Arquitetura da Rede

A arquitetura da rede baseia-se em um codificador único e um decodificador para cada tarefa (segmentação, classificação e detecção). O codificador utiliza as caracter´ısticas ex- tra´ıdas da 5o _{camada de pooling (13 primeiras camadas) da}

rede VGG16 [35], que são usadas pelos decodificadores de segmentação, classificação e detecção [27]. O foco deste artigo será apenas voltado para o decodificador de segmentação. Esse decodificador segue a arquitetura da Fully Convolutional Network- FCN [26]. A Figura 1 representa a junção das duas arquiteturas, na qual recebe, em sua entrada, uma imagem com dimensões de 400x300 pixels e três canais de cor (RGB), e gera uma imagem de sa´ıda com as mesmas dimensões.

As camadas de convolução totalmente conectadas da VGG16 produzem uma sa´ıda de baixa resolução. Três camadas de convolução transposta, entre a VGG16 e a FCN, fazem a reconstrução das convoluções de forma bilinear, aumentando (up-sampling) a resolução da sa´ıda [27].

A função de custo da segmentaçao é dada pela cross- entropy, conforme a (Eq. 1).

loss(p, q) = − 1 |I| X i∈I X c∈C qi(c) log pi(c) (1)

onde p é a predição, q é o ground-truth e C é a classe. O codificador e o decodificador de segmentação são inicializados de acordo com os pesos pré-treinados da ImageNet [24]. O treinamento é feito com taxa de aprendizagem de 1e − 5 e o algoritmo de otimização Adam optimizer, visando minimizar o erro da função de custo, com base em descida de gradiente. B. Protocolos de Avaliação

A avaliação do método proposto será realizada por meio dos protocolos de avaliação da competição NICE.I [36]. Essa avaliação é feita por meio da comparação pixel-a-pixel entre

as máscaras binárias originais (ground-truth produzidas ma- nualmente pelos organizadores) e as máscaras geradas pelos algoritmos dos competidores. O erro médio de segmentação E é calculado pela divergência, dada pelo operador ⊗ (XOR), dos pixels conforme a (Eq. 2).

E = 1 k × h × w X i X j M (i, j) ⊗ GT (i, j) ∈ [0, 1] (2) onde i e j são as coordenadas da máscara binária M gerada pelo algoritmo competidor, GT é o ground-truth, h e w são as linhas e colunas da imagem respectivamente, k é a quantidade de imagens e [0, 1] representa melhor e pior E respectivamente.

Outras métricas de avaliação comumente utilizadas em segmentação semântica são: precision (Eq. 3), recall (Eq. 4), F1-measure (F1-score) (Eq. 5), acurácia média (Eq. 6) e Intersecção pela União (IoU) (Eq. 7) [37], [38]. Essas métricas também serão utilizadas para avaliar o desempenho do método proposto. prec = T P T P + F P ∈ [0, 1] (3) rec = T P T P + F N ∈ [0, 1] (4) F 1 = (1 + β2) prec · rec β2_{prec + rec} ∈ [0, 1] (5) M acc = T P + T N T P + F P + T N + F N ∈ [0, 1] (6) IoU = 1 k k X i=0 |GT(i,j)∩ M(i,j)| |GT(i,j)∪ M(i,j)| ∈ [0, 1] (7) onde β = 1, T P , F P e F N são respectivamente True Positive, False Positivee False Negative. Ao contrário da (Eq. 2), [0, 1] representa pior e melhor valor respectivamente.

C. Base de Dados

A base de dados utilizada na competição NICE.I é um subconjunto da UBIRIS.v2, que possui um total de 11.102 imagens, de 261 pessoas e em formato RGB, com 400x300 pixelsobtidas de forma não controlada, ou seja, com variações de luminosidade, foco, contraste e presença de reflexos [39], [40]. Entretanto, apenas 1.000 imagens (com os respectivos ground-truth) são utilizadas na competição NICE.I, sendo 500 para treinamento e 500 para teste. A Figura 2 ilustra algumas imagens dessa base de dados.

Segmentation Decoder CNN Encoder Conv: 1x1 Input 400x300x3 VGG16 13 Conv. Layers max pol Encoded Features 12x9x512 FCN8 3 Upsampling Layers Prediction 400x300x2 Conv: 1x1

Fig. 1: Arquitetura da rede utilizando apenas o codificador único e o decodificador de segmentação da MultiNet. Fonte: adaptado de [27].

Fig. 2: Exemplos da base de dados UBIRIS.v2 com seus respectivos ground-truth da esquerda para a direita.

No documento XIII Workshop de Visão Computacional: anais do 13º Workshop de Visão Computacional realizado na UFRN (páginas 147-149)