REDES NEURAIS CONVOLUCIONAIS - Estimação de idade e reconhecimento de pele em Imagens digitais

As redes neurais convolucionais, conhecidas pela sigla CNN (do inglês Convolutional Neural Networks) são classes especiais de perceptrons multicamadas aplicadas principalmente na área de processamento de imagens digitais com o objetivo de reconhecer padrões (HAYKIN, 2008). Essa eficácia na classificação de imagens é uma das principais razões do reconhecimento que o mundo deu ao poder do deep learning (HOPE et al., 2017).

A criação das CNN’s teve inspiração biológica no córtex visual dos animais. As células que compõe essa estrutura são extremamente sens´ıveis a pequenas regiões de entrada, dispostas lado a lado com o propósito de cobrir todo o campo visual. Esse conjunto de células atua como um filtro coletando informações espaciais das imagens processadas pelo cérebro identificando formas e padrões. É devido à essa inspiração que as CNN’s são fortemente usadas quando a base de dados são imagens (PATTERSON; GIBSON, 2017).

Na Seção 3.2 foram descritas as redes neurais feedforward e como são estruturadas as ligações entre os neurônios de suas camadas. É importante comparar esse modelo à CNN pois as principais caracter´ısticas da convolução surgem através da otimização de tarefas que, em redes multicamadas feedforward, requisitaria grande quantidade de processamento (RASCHKA, 2015). Tarefas, essas, associadas com a utilização de imagens como dados de entrada. Uma simples imagem de 32 p´ıxeis de largura por 32 p´ıxeis de altura, contendo três canais de informação RGB produz um total de 3.072 (três mil e setenta e dois) pesos por neurônio em uma camada oculta. Considerando que há diversos neurônios presentes na camada, esse resultado seria multiplicado pelo total de neurônios presentes. Essa imensa gama de conexões existentes em redes neurais feedforward tradicionais exige um certo custo de processamento inviável para este tipo de dado (PATTERSON; GIBSON, 2017).

A estrutura de uma CNN possui camadas com neurônios arranjados em três dimensões: largura, altura e profundidade. Essa configuração se encaixa perfeitamente no tratamento de imagens, considerando os p´ıxeis como altura e largura e a informação RGB como profundidade (RASCHKA, 2015; GOODFELLOW et al., 2016; PATTERSON; GIBSON, 2017). Como demonstrado na Figura 14, os neurônios em uma camada convolucional se conectam à pequenas regiões locais das camadas anteriores, abstendo-se do desperd´ıcio de uma conexão completa entre os mesmos, como ocorre em redes feedforward. Pode-se resumir que a função de uma camada convolucional é receber e processar informações tridimensionais produzindo resultados de mesma dimensão (BUDUMA; LACASCIO, 2017).

Figura 14 – Representac¸˜ao de largura, altura e profundidade de camadas convolucionais. Fonte: (BUDUMA; LACASCIO, 2017).

As camadas convolucionais possuem, entre si, as chamadas interações esparsas (conectividade esparsa ou pesos esparsos), arranjos que tornam o kernel menor que a entrada (HAYKIN, 2008). Durante o processamento de uma imagem com milhões ou milhares de p´ıxeis, por exemplo, a convolução é capaz de coletar informações que ocupem somente centenas ou dezenas de p´ıxeis. Além de eficiência, reduz os cálculos de sa´ıda (HAYKIN, 2008; GOODFELLOW et al., 2016). A Figura 15 demonstra a comparação entre a conectividade esparsa e a conectividade completa presente nas redes multicamadas tradicionais. A camada de sa´ıda s é formada por convolução e as unidades x afetam esses neurônios. Com a camada de sa´ıda formada por convolução de kernel 3, apenas três unidades são afetadas por x3(Figura

15(a)). Por outro lado, a utilização de multiplicação de matrizes faz com que todos os neurônios sejam afetados por x3(Figura 15(b)) (GOODFELLOW et al., 2016).

Figura 15 – Representação comparativa entre convolução e multiplicação de matrizes em camadas de redes neurais.

Fonte: Adaptado (GOODFELLOW et al., 2016).

As CNN’s possuem diversas variações de estrutura interna, entretanto, são baseadas em uma sequência padronizada de camadas (PATTERSON; GIBSON, 2017). São elas, respectivamente:

1. Camada de entrada;

2. Camadas de extração de caracter´ıstica; 3. Camadas de classificação.

Para realizar a extração de recursos, a CNN se organiza em um padrão de repetição composto por camadas convolucionais seguidas de camadas de pooling (também denominadas camadas de agrupamento) (RASCHKA, 2015; HOPE et al., 2017). Essa organização é responsável por extrair as caracter´ısticas nas imagens e construir recursos de ordem superior. As camadas de classificação são completamente conectadas aos neurônios da camada anterior, encarregadas de produzir as probabilidades e pontuações apontando as classes pertencentes. O resultado produzido na sa´ıda possui dimensão [axN], ou seja, a relação entre o número de amostras (a) pelo número de classes existentes (N) (PATTERSON; GIBSON, 2017). As camadas convolucionais são consideradas os blocos estruturais mais importantes na construção de uma CNN, sendo responsáveis por transformar os dados de entrada (RASCHKA, 2015; GOODFELLOW et al., 2016). Para tal, se utilizam de um conjunto de neurônios

conectados localmente à camada anterior. Por conseguinte, ocorre o cálculo dos pontos entre a região dos neurônios na camada de entrada e seus pesos associados localmente na camada de sa´ıda (PATTERSON; GIBSON, 2017).

Segundo Haykin (2008) e Patterson e Gibson (2017) as camadas convolucionais são compostas de parâmetros e hiperparâmetros usados para realizar o treinamento e gerar as pontuações nas respectivas classes. Os principais componentes são:

• Filtros (kernel); • Mapas de ativac¸˜ao;

• Compartilhamento de parˆametros; • Hiperparˆametros espec´ıficos.

E por meio de uma operação matemática fundamental chamada convolução que todo o processo de transformação ocorre (GOODFELLOW et al., 2016). A convolução pode ser basicamente definida como uma regra capaz de mesclar dois conjuntos de informação, ou seja, um detector de recursos (PATTERSON; GIBSON, 2017). Como essas camadas podem se repetir através da estrutura de uma CNN, os dados recebidos podem ser brutos ou simplesmente informações vindas de outras convoluções. Essa caracter´ıstica introduz o conceito de filtro à convolução, já que o kernel seleciona determinados tipos de informação. Por exemplo, uma CNN que utiliza um kernel no processamento de uma imagem digital para obter informações de borda (RASCHKA, 2015; PATTERSON; GIBSON, 2017).

Um exemplo de como o filtro se comporta é ilustrado na Figura 16. A cada iteração, o kernel é multiplicado pelos valores recebidos da camada de entrada criando uma única referência numa estrutura bidimensional denominada mapa de caracter´ısticas, também conhecido como mapa de ativação. Recebe esse nome pois a ação de “ativar” do kernel permite que as informações transloquem do volume de entrada para o de sa´ıda. Nesse mapa estão armazenados todos os valores resultantes da aplicação do kernel (HOPE et al., 2017; PATTERSON; GIBSON, 2017). Como cada valor de entrada possui seus respectivos pesos e viés, a geração do mapa de ativação pode ser resultada da Equação 9, onde k representa a caracter´ıstica no mapa de ativação, W se refere aos pesos e b ao viés (BUDUMA; LACASCIO, 2017).

mk_{i j} = f ((W ∗ x)i j+ bk) (9)

O kernel não é utilizado apenas em um único mapa de recursos. Sua operação ocorre em todo conjunto de mapas de caracter´ısticas gerados por uma certa camada. Para reconhecimento de faces durante um processamento de imagem, por exemplo, é preciso acumular mapas de ativação para os olhos, nariz e boca. A face é reconhecida quando os

locais correspondentes nos mapas de ativação primitivos possuem os recursos apropriados, ou seja, dois olhos, um nariz e uma boca. Concluindo, as decisões tomadas pela camada de sa´ıda devem levar em consideração a combinação de vários mapas de caracter´ısticas (BUDUMA; LACASCIO, 2017).

Figura 16 – Operação de convolução por meio de um kernel. Fonte: Adaptado (PATTERSON; GIBSON, 2017).

Sabe-se que uma CNN possui conexão local entre os neurônios e suas camadas. Essa conectividade é controlada por um hiperparâmetro denominado campo receptivo, encarregado de coordenar o quanto de largura e altura o filtro irá mapear (GOODFELLOW et al., 2016; PATTERSON; GIBSON, 2017).

O terceiro item citado no in´ıcio é o compartilhamento de parâmetros. Esse esquema é utilizado pelas CNN’s para administrar o total de parâmetros, procedimento determinante no tempo de treinamento levado pela rede neural (HAYKIN, 2008). O método ocorre selecionando partes menores das camadas de convolução, em que cada neurônio utilizará os mesmos pesos e viés. Isso reduz o número de parâmetros referenciados pela camada. A ação de compartilhar resulta na invariância da CNN à tradução e posição, ou seja, a classificação convolucional independe da posição de uma caracter´ıstica na imagem de entrada. (GOODFELLOW et al., 2016).

Algumas estruturas convolucionais utilizam camadas espec´ıficas para a utilização da função de ativação ReLu, apresentada na Seção 3.3. O uso dessa função, aplicado no elemento de entrada, muda os valores dos p´ıxeis sem alterar a dimensão dos dados que chegam à sa´ıda. É um fator interessante, já que a função ReLu não possui parâmetros e hiperparâmetros adicionais (PATTERSON; GIBSON, 2017).

Por fim, tem-se os hiperparâmetros espec´ıficos. São componentes que fornecem o escopo espacial e determina o tamanho do conjunto de informações na sa´ıda da camada convolucional. Compostos pelo tamanho do filtro, a profundidade de sa´ıda, passo (comumente referenciado no inglês stride) e o preenchimento de zero (PATTERSON; GIBSON, 2017).

O primeiro se define pela representação numérica do filtro, ou seja, dizer que um filtro é de tamanho 5 x 5 x 3 significa que possui 5 p´ıxeis de altura por 5 p´ıxeis de largura, com o 3 representando os canais de cores RGB. A profundidade coordena a contagem de neurônios conectados à camada convolucional na região do volume de entrada, onde esse conjunto de neurônios se denomina coluna de profundidade. O passo diz à camada convolucional o número de vezes que o filtro deve ser aplicado, ou seja, define a quantidade de colunas de profundidade que a sa´ıda terá. Por último, o preenchimento de zero é utilizado quando se quer administrar o tamanho espacial da camada de sa´ıda, exemplificado quando os volumes de entrada permanecem com o mesmo tamanho espacial ao chegar à sa´ıda (BUDUMA; LACASCIO, 2017; PATTERSON; GIBSON, 2017).

Para reduzir drasticamente a dimensionalidade dos mapas de caracter´ısticas e aprimorá-los, é necessário incluir uma camada de agrupamento máximo na sequência de uma camada convolucional, as chamadas camadas de pooling (BUDUMA; LACASCIO, 2017). O princ´ıpio do agrupamento é dividir o mapa de recursos em pequenos blocos de mesmo tamanho e organizar um novo mapa contendo todos os recursos condensados. No mapa original de caracter´ısticas, uma célula é criada e seu valor máximo é calculado e propagado para o mapa de caracter´ısticas condensadas (GOODFELLOW et al., 2016). A Figura 17 demonstra a operação.

Figura 17 – Representação do agrupamento máximo de caracter´ısticas na camada de pooling. Fonte: (BUDUMA; LACASCIO, 2017).

A propriedade fundamental por trás da camada de pooling, é o fator invariante que ela assume. Isso garante que, mesmo as entradas sofrendo alterações, a sa´ıda de agrupamento máximo permanece constante. E um fator importante para algoritmos de reconhecimento´ visual, pois se preocupam em determinar se há uma caracter´ıstica na imagem e não onde está localizada. Entretanto, impor invariância demasiadamente faz com que a rede neural perca parte da capacidade de transportar informações importantes, logo, a dimensionalidade espacial

das camadas de agrupamento permanece pequena (GOODFELLOW et al., 2016; BUDUMA; LACASCIO, 2017).

No documento Estimação de idade e reconhecimento de pele em Imagens digitais a partir de deep learning (páginas 36-42)