Estimação de idade e reconhecimento de pele em Imagens digitais a partir de deep learning

(1)

DEPARTAMENTO ACAD ˆ

EMICO DE COMPUTAC

¸ ˜

AO

CURSO DE CI ˆ

ENCIA DA COMPUTAC

¸ ˜

AO

LEANDRO AMORIM SALLES

ESTIMAC

¸ ˜

AO DE IDADE E RECONHECIMENTO DE PELE EM

IMAGENS DIGITAIS A PARTIR DE DEEP LEARNING

TRABALHO DE CONCLUS ˜

AO DE CURSO

MEDIANEIRA

2019

(2)

ESTIMAC

¸ ˜

AO DE IDADE E RECONHECIMENTO DE PELE EM

IMAGENS DIGITAIS A PARTIR DE DEEP LEARNING

Trabalho de Conclusão de Curso apresentado ao Departamento Acadêmico de Computação da Universidade Tecnológica Federal do Paraná como requisito parcial para obtenção do t´ıtulo de “Bacharel em Computação”.

Orientador: Prof. Dr. Pedro Luiz de Paula Filho

Co-orientador: Prof. Dr. Arnaldo Candido Junior

MEDIANEIRA

2019

(3)

Diretoria de Graduação e Educação Profissional Coordenação do Curso de Ciência da Computação

TERMO DE APROVAC¸ ˜AO

ESTIMAC¸ ˜AO DE IDADE E RECONHECIMENTO DE PELE EM IMAGENS DIGITAIS A PARTIR DE DEEP LEARNING

Por

LEANDRO AMORIM SALLES

Este Trabalho de Conclusão de Curso foi apresentado às 10:30h do dia 29 de novembro de 2019 como requisito parcial para a obtenção do t´ıtulo de Bacharel no Curso de Ciência da Computação, da Universidade Tecnológica Federal do Paraná, Câmpus Medianeira. O candidato foi arguido pela Banca Examinadora composta pelos professores abaixo assinados. Após deliberação, a Banca Examinadora considerou o trabalho aprovado.

Prof. Dr. Pedro Luiz de Paula Filho UTFPR - Cˆampus Medianeira

Prof. M.e Jorge Aikes Junior UTFPR - Cˆampus Medianeira

Prof. Dr. Paulo Lopes de Menezes UTFPR - Cˆampus Medianeira

(4)

SALLES, Leandro Amorim. ESTIMAÇ ÃO DE IDADE E RECONHECIMENTO DE PELE EM IMAGENS DIGITAIS A PARTIR DE DEEP LEARNING. 82 f. Trabalho de Conclusão de Curso – Curso de Ciência da Computação, Universidade Tecnológica Federal do Paraná. Medianeira, 2019.

Com o decorrer da evolução tecnológica dos meios digitais de comunicação, como redes sociais e comunidades online, a privacidade e segurança na Internet se tornaram questões de debate em relação à infraestrutura e regulamentação por parte de órgãos legislativos. O fácil acesso fornecido aos usuários, juntamente com o exacerbado número de informações compartilhadas pela rede, sustenta um dos problemas enfrentados pelas autoridades criminais, a propagação de conteúdos il´ıcitos envolvendo pornografia infantil. Ao longo do tempo, métodos computacionais foram utilizados para auxiliar peritos federais a avaliar o conteúdo apreendido. A visão computacional é uma das principais áreas de desenvolvimento desses métodos, utilizando técnicas de aprendizado profundo em redes neurais artificiais para reconhecimento de caracter´ısticas associadas à classificação de conteúdo pornográfico infantil. Essas redes neurais, compostas por camadas de neurônios artificiais, utilizam processos matemáticos capazes de simular o processo cognitivo do cérebro humano. Através do estudo de técnicas de deep learning, aplicadas em imagens digitais e utilizando estruturas neurais pré-treinadas para realizar estimação de idade e segmentação de pele em bases de imagens pré-selecionadas, este trabalho obteve percentual de acurácia de 60,9%, 82,67% e 95,9% para os experimentos de estimação etária, superando o estado da arte. Já para os experimentos de segmentação de pele, o modelo neural gerou 83,65% e 65,03% de acurácia, inferior aos trabalhos correlatos estudados. Como conclusão, tanto modelo neural quanto base de dados definida para as experimentações etárias se mostraram satisfatórias, enquanto os testes de segmentação de pele evidenciaram uma inadequação da rede neural determinada com a base de dados utilizada.

(5)

SALLES, Leandro Amorim. AGE ESTIMATION AND SKIN RECOGNITION IN DIGITAL IMAGES FROM DEEP LEARNING. 82 f. Trabalho de Conclusão de Curso – Curso de Ciência da Computação, Universidade Tecnológica Federal do Paraná. Medianeira, 2019.

With the technological evolution of digital media, such as social networks and online communities, privacy and security on the Internet have become issues of debate regarding infrastructure and regulation by legislative bodies. The easy access provided to users, along with the exacerbated number of information shared by the network, sustains one of the problems faced by criminal authorities, the spread of illegal content involving child pornography. Over time, computational methods were used to assist federal experts in assessing the seized content. Computer vision is one of the main areas of development of these methods, using deep learning techniques in artificial neural networks to recognize characteristics associated with the classification of child pornographic content. These neural networks use mathematical processes capable of simulating the cognitive process of the human brain. Through the study of deep learning techniques, applied in digital images and using pre-trained neural structures to perform age estimation and skin segmentation in pre-selected image bases, this study obtained an accuracy percentage of 60.9%, 82.67% and 95.9% for the age estimation experiments, surpassing the state of the art. For the skin segmentation experiments, the neural model generated 83.65% and 65.03% accuracy, lower than the related works studied. In conclusion, both the neural model and the database defined for the age experiments were satisfactory, while the skin segmentation tests showed an inadequacy of the neural network determined with the database used.

(6)

Gostaria de começar direcionando imensurável gratidão à minha fam´ılia. Todo o suporte emocional e financeiro fornecido desde o primeiro dia em que estive na universidade possibilitou todos os passos dados até a realização deste trabalho. Em especial meu pai e minha mãe, que sempre estiveram ao meu lado independente da distância.

Em segundo, agradec¸o imensamente aos amigos que ganhei durante essa longa caminhada universit´aria. De muitos conhecimentos que adquiri, boa parte foi com o suporte dessas pessoas maravilhosas que entraram em minha vida.

Agradec¸o tamb´em, com imenso valor, todo aux´ılio fornecido pelo meu orientador Prof. Dr. Pedro Luiz de Paula Filho e meu co-orientador Prof. Dr. Arnaldo Candido Junior, que desempenharam um papel brilhante durante o desenvolvimento deste projeto.

Ao professor e mestre Jorge Aikes Junior, que ministrou com excelência a disciplina de TCC1 participando ativamente na elaboração das etapas iniciais do trabalho, além de sempre estar à disposição para qualquer tipo de aux´ılio.

Por fim, mas não menos importante, à própria Universidade Tecnológica Federal do Paraná pelos programas de aux´ılio de custo ao desenvolvimento de trabalhos de conclusão de curso, representando um apoio financeiro essencial para o desenvolvimento do projeto.

(7)

–

FIGURA 1 Aplicação de amostragem e quantização em uma imagem cont´ınua. . . 17 –

FIGURA 2 Resoluc¸˜ao de caminhos redundantes por m-conectividade. . . 18 –

FIGURA 3 O neurˆonio biol´ogico. . . 21 –

FIGURA 4 Conjunto de diferentes caracteres utilizados no Perceptron. . . 21 –

FIGURA 5 Gr´afico de fluxo de sinal do perceptron. . . 23 –

FIGURA 6 Ilustrac¸˜ao do Hiperplano de um Perceptron simples. . . 24 –

FIGURA 7 Limite de decis˜ao para perceptron com duas entradas. . . 25 –

FIGURA 8 Perceptron multicamadas com trˆes camadas ocultas. . . 26 –

FIGURA 9 Arquitetura e fluxo de uma rede capaz de resolver o problema XOR. . . 27 –

FIGURA 10 Inclinações de decisão para o problema XOR . . . 28 –

FIGURA 11 Gráfico da função sigmóide log´ıstica. . . 29 –

FIGURA 12 Gráfico do comportamento da função ReLu. . . 30 –

FIGURA 13 Exemplo de estrutura feedforward de uma rede neural . . . 33 –

FIGURA 14 Largura, altura e profundidade de camadas convolucionais . . . 35 –

FIGURA 15 Convolução e multiplicação de matrizes em camadas neurais . . . 36 –

FIGURA 16 Operação de convolução por meio de um kernel. . . 38 –

FIGURA 17 Agrupamento m´aximo de caracter´ısticas na camada de pooling. . . 39 –

FIGURA 18 Estrutura completa AlexNet. . . 41 –

FIGURA 19 M´odulo Inception. . . 42 –

FIGURA 20 Rede neural GoogLeNet. . . 43 –

FIGURA 21 Bloco de aprendizado residual. . . 44 –

FIGURA 22 Arquitetura U-Net. . . 45 –

FIGURA 23 Imagem de entrada e máscara de segmentação. . . 46 –

FIGURA 24 Arquitetura DenseNet. . . 47 –

FIGURA 25 Exemplo de amostras presentes no UTK Face Dataset. . . 54 –

FIGURA 26 Exemplos de imagens e m´ascaras bin´arias no Pratheepan Dataset. . . 55 –

FIGURA 27 Exemplos de imagens e m´ascaras no SFA Skin Database. . . 55 –

FIGURA 28 Exemplo de flip horizontal. . . 59 –

FIGURA 29 Limiarização nas máscaras de segmentação do SFA Skin Dataset. . . 60 –

FIGURA 30 Data augmentationno SFA Skin Dataset. . . 60 –

FIGURA 31 Rotac¸˜oes para data augmentation no Pratheepan Dataset. . . 61 –

FIGURA 32 Fluxograma de m´etodos . . . 63 –

FIGURA 33 Matriz de confus˜ao do Experimento 1. . . 65 –

FIGURA 34 Exemplos de amostras erroneamente classificadas no Experimento 1. . . 65 –

FIGURA 35 Agregac¸˜ao em menores e maiores de idade para o Experimento 1. . . 66 –

FIGURA 36 Matriz de confus˜ao do Experimento 1.1. . . 67 –

FIGURA 37 Exemplos de amostras erroneamente classificadas no Experimento 1.1. . . 68 –

FIGURA 38 Agregac¸˜ao em menores e maiores de idade para o Experimento 1.1. . . 68 –

FIGURA 39 Matriz de confus˜ao do Experimento 1.2. . . 69 –

FIGURA 40 Exemplos de resultados do Experimento 2. . . 71 –

FIGURA 41 Diferentes valores de threshold aplicados nas sa´ıdas de segmentac¸˜ao. . . 72 –

(8)

(9)

–

TABELA 1 Percentual de pessoas que acessaram a Internet por faixa et´aria. . . 10 –

TABELA 2 Exemplos de valores para iluminˆancia em lux ou l´umem/m2. . . 16 –

TABELA 3 Exemplos de valores de refletˆancia. . . 16 –

TABELA 4 Caracter´ısticas entre C´erebro e Computador. . . 20 –

TABELA 5 Distribuição de imagens por cada faixa etária no Experimento 1. . . 58 –

TABELA 6 Distribuição de imagens por cada faixa etária no Experimento 1.1. . . 58 –

TABELA 7 Tabela de interpretac¸˜ao para o coeficiente Kappa. . . 62 –

TABELA 8 Resultados da métrica f-score para estimação etária do Experimento 1. . . . 65 –

TABELA 9 Resultados da métrica f-score para estimação etária do Experimento 1.1. . 67 –

TABELA 10 Resultados da métrica f-score para estimação etária do Experimento 1.2. . 69 –

TABELA 11 Distribuição de amostras no treinamento para estimação etária. . . 70 –

TABELA 12 Tabela geral de resultados para estimação etária. . . 74 –

(10)

CNN Rede Neural Convolucional

CPU Unidade Central de Processamento GPU Unidade de Processamento Gr´afico MAE Erro Absoluto M´edio

MLP Perceptrons Multicamadas

ReLu Neurˆonio de unidade linear restrita RGB Red, green and Blue

RNA Rede Neural Artificial

(11)

1 INTRODUC¸ ˜AO . . . 10

1.1 OBJETIVOS GERAL E ESPEC´IFICOS . . . 13

1.2 JUSTIFICATIVA . . . 13

1.3 ORGANIZAC¸ ˜AO DO DOCUMENTO . . . 14

2 FUNDAMENTOS DE IMAGENS DIGITAIS . . . 15

3 REDES NEURAIS ARTIFICIAIS . . . 20

3.1 PERCEPTRONS . . . 22

3.2 PERCEPTRONS MULTICAMADAS . . . 25

3.3 FUNÇ ÕES DE ATIVAÇ ÃO PARA FEEDFORWARD PERCEPTRONS . . . 28

3.4 ALGORITMO BACKPROPAGATION . . . 31

3.5 REDES NEURAIS CONVOLUCIONAIS . . . 34

3.6 MODELOS DE REDES NEURAIS . . . 40

3.6.1 Rede convolucional AlexNet . . . 40

3.6.2 Rede convolucional GoogLeNet . . . 42

3.6.3 Rede convolucional ResNet . . . 43

3.6.4 Rede convolucional U-Net . . . 44

3.6.5 Rede convolucional DenseNet . . . 46

3.7 ESTADO DA ARTE . . . 47

3.7.1 Estimac¸˜ao de idade . . . 47

3.7.2 Segmentac¸˜ao de pele . . . 49

4 MATERIAIS E M ´ETODOS . . . 51

4.1 ESPECIFICAÇ ÕES DO AMBIENTE DE CODIFICAÇ ÃO . . . 51

4.2 BIBLIOTECAS E LINGUAGEM DE PROGRAMAC¸ ˜AO . . . 52

4.3 BASES DE DADOS . . . 53

4.3.1 Estimac¸˜ao de idade . . . 53

4.3.2 Segmentac¸˜ao de pele . . . 54

4.4 MODELO DE REDE PR ´E-TREINADA . . . 56

4.5 ABORDAGEM EXPERIMENTAL . . . 57

5 RESULTADOS E DISCUSS ˜OES . . . 64

5.1 RESULTADOS DO EXPERIMENTO 1 . . . 64

5.2 RESULTADOS DO EXPERIMENTO 1.1 . . . 66

5.4 AN ÁLISE DO COEFICIENTE KAPPA PARA ESTIMAÇ ÃO ET ÁRIA . . . 70

5.5 RESULTADOS DO EXPERIMENTO 2 . . . 71

5.7 TABELAS GERAIS DE RESULTADOS . . . 74

6 CONCLUS ˜OES E TRABALHOS FUTUROS . . . 76

6.1 CONCLUS ˜OES . . . 76

6.2 TRABALHOS FUTUROS . . . 77

(12)

1 INTRODUC¸ ˜AO

A rede mundial de computadores é o principal mecanismo de obtenção de dados dos mais variados tipos. Rapidamente surgiram serviços de compartilhamento de informações entre pessoas ou empresas em diversos n´ıveis, como profissional ou de relacionamento. As Redes Sociais são sites e aplicativos de interação social que se tornaram praticamente indispensáveis à geração nativa do mundo digital e que, recentemente, é alvo de debate em relação à segurança e privacidade de seus usuários que são cada vez mais jovens (MACHADO, 2017). Machado (2017) enfatiza a precocidade citando uma pesquisa realizada pelo IBGE (Instituto Brasileiro de Geografia e Estat´ıstica), no qual até o final de 2015 estimadamente 100 milhões de pessoas compunham os internautas, representando 58% da população total. Desse número, a grande maioria crianças e adolescentes, conforme detalhado na Tabela 1. Para cada ano, do total de indiv´ıduos na população correspondentes a cada faixa etária, são mostrados os percentuais conectados à Internet.

Tabela 1 – Percentual de pessoas que acessaram a Internet por faixa et´aria. Faixa et´aria 2010 2011 2012 2013 2014 2015 10 a 15 anos 65% 67% 70% 75% 74% 85% 16 a 24 anos 64% 70% 74% 77% 83% 93% 25 a 34 anos 52% 56% 62% 66% 69% 84% 35 a 44 anos 33% 41% 46% 47% 57% 72% 45 a 59 anos 20% 25% 31% 33% 34% 47% > 60 anos 5% 9% 8% 11% 15% 20%

Fonte: Adaptado (MACHADO, 2017).

Como informação mais recente, em 2018 o IBGE atualizou a estat´ıstica e apresentou dados referentes aos anos de 2016 e 2017. Foram estimados 116 milhões de usuários conectados em 2016, um aumento superior a 7%, enquanto 126,3 milhões de pessoas se conectaram em 2017 (ESTAT´ıSTICA, 2018).

Devido à falta de regulamentação e precariedade de infraestrutura da rede (segurança, fiscalização, leis internacionais para uso e punição, por exemplo) os crimes cibernéticos associados à pornografia infantil ganharam um grande incentivo. Os criminosos têm, na

(13)

Internet, uma maneira r´apida e f´acil de se aproximar de suas v´ıtimas tendo ao seu favor a possibilidade de manipular perfis falsos para mascarar sua identidade (HAMADA; SANCHEZ, 2007; MACHADO, 2017).

O código penal prevê crimes contra a dignidade sexual, possuindo cap´ıtulo espec´ıfico acerca de crimes sexuais contra vulneráveis. O artigo 217-A (Lei n.2.848, de 07 de Dezembro de 1940) define “ter conjunção carnal ou praticar outro ato libidinoso com menor de 14 (catorze) anos: Pena - reclusão, de 8 (oito) a 15 (quinze) anos”. Completando, o artigo 218 (Lei n.2.848, de 07 de Dezembro de 1940) define “induzir alguém menor de 14 (catorze) anos a satisfazer a lasc´ıvia de outrem: Pena - reclusão, de 2 (dois) a 5 (cinco) anos” (BRASIL, 1940).

A proteção à criança e ao adolescente situa-se em tratados internacionais, constando no artigo 227 da Constituição Federal. O Estatuto da Criança e do Adolescente1 (ECA) combate a produção, venda e distribuição de material pornográfico de menores, criminalizando quaisquer tipos de conduta relacionada à pedofilia na Internet. Como citado no artigo 241-A (Lei n.8.069, de 13 de Julho de 1990), parágrafo único, “oferecer, trocar, disponibilizar, distribuir, publicar ou divulgar por qualquer meio, inclusive no meio digital, fotografias, v´ıdeos ou outros registros que contenham cena de sexo expl´ıcito ou pornografia envolvendo criança ou adolescente implica pena de 3 (três) a 6 (seis) anos de reclusão e multa”. Por conseguinte, o artigo 241-B (Lei n.8.069, de 13 de Julho de 1990), parágrafo único, define que “adquirir, possuir ou armazenar, por qualquer meio, fotografia, v´ıdeo ou outra forma de registro que contenha material pornográfico ou cena de sexo expl´ıcito envolvendo criança ou adolescente resulta em pena de 1 (um) a 4 (quatro) anos de reclusão e multa” (BRASIL, 1990).

Segundo pesquisa sobre Comércio e Desenvolvimento divulgada pela ONU (Organização das Nações Unidas) em 2015, o Brasil esteve entre os cinco pa´ıses com maior incidência de crimes cibernéticos. Completam o grupo Rússia, China, Nigéria e Vietnã. De acordo com a Safernet2, organização não governamental que coordena uma central de denúncias contra crime de direitos humanos na Internet. Em 2014 no Brasil, foram registradas 189.211 denúncias das quais 51.553 faziam referência à pornografia infantil.

O combate ao crime de conteúdo il´ıcito infantil na Internet é de responsabilidade da Pol´ıcia Federal. Para identificar e validar a conduta criminosa, os peritos podem tanto realizar operações para apreensão de computadores ou discos r´ıgidos suspeitos de conter material ilegal quanto instalar programas em servidores responsáveis pelo monitoramento de arquivos suspeitos assim que trafegados pela rede. Essa fiscalização ocorre por meio de hashes, assinaturas de um documento que o deixam distingu´ıveis dos demais existentes na Internet (CAIADO; CAIADO, 2018). Ainda segundo Caiado e Caiado (2018), esse procedimento nem

1_{https://presrepublica.jusbrasil.com.br/legislacao/91764/estatuto-da-crianca-e-do-adolescente-lei-8069-90} 2_{http://new.safernet.org.br/}

(14)

sempre é efetivo pois a simples movimentação de arquivos não catalogados previamente em hashesexigiria a presença de um perito capaz de analisá-los tecnicamente.

Segundo Ramos (2018), a análise técnica visual pode ser extremamente custosa para os profissionais criminais. Além de lidar com um volume grande de arquivos, v´ıdeos e imagens a serem identificados crianças e adolescentes em cena, é preciso avaliar ind´ıcios de produção ou compartilhamento dos arquivos em que a pornografia foi confirmada, representando não somente uma carga psicológica mas também demandando mais tempo para ser conclu´ıda.

O NuDetective, desenvolvido por Polastro e Eleuterio (2010), é um dos softwares utilizados pela pol´ıcia para recognição de pornografia infantojuvenil, através de técnicas de identificação de pele e geometria computacional, a partir de análises de imagens e v´ıdeos ainda nos locais de busca. Outras ferramentas de reconhecimento e classificação automática de m´ıdias digitais são constantemente desenvolvidas e estudadas para aprimorar cada vez mais o trabalho realizados pelos profissionais do ramo.

Ao tratar de reconhecimento de caracter´ısticas, principalmente utilizando imagens digitais como objetos de análise, surge uma das principais abordagens computacionais estudadas pela comunidade cient´ıfica de computação, o denominado deep learning. Emergente dentro do campo de Inteligência Artificial, o deep learning (aprendizado profundo) é, em essência, uma percepção apurada de uma grande quantidade de informação buscando abstra´ı-la gerando aprendizagem. Apesar de ter sua aplicação ainda explorada, já é utilizado em diversos campos da atualidade. Grandes marcas como a Google, Microsoft e Facebook já utilizam de aprendizado profundo em alguns de seus serviços. É a tecnologia base para ferramentas como o Translate (Google Tradutor) e o assistente personalizado Cortana (Microsoft), por exemplo. Embora frequentemente associado a serviços da computação, o aprendizado profundo também está presente em áreas como a medicina, realizando diagnósticos médicos precisos através da análise de imagens e automobil´ıstica por meio de carros autônomos. Sua ampla variedade de algoritmos e aplicações movimentou toda a comunidade cient´ıfica, principalmente com o surgimento das Redes Neurais Artificiais como novo marco na área. Os resultados de performance estat´ıstica para tarefas de classificação de imagens fez com que cada vez mais estudos fossem direcionados para as áreas de Processamento de Imagens, Computação Gráfica e Visão Computacional (PONTI; COSTA, 2018).

(15)

1.1 OBJETIVOS GERAL E ESPEC´IFICOS

Este trabalho teve como objetivo utilizar técnicas de aprendizado profundo aplicadas à prática de estimação etária, com foco em menores de idade, e segmentação de pele para evidenciar amostras do corpo expostas. Esse objetivo principal pode ser dividido nos seguintes objetivos espec´ıficos:

• selecionar base de dados para classificação da faixa etária; • definir modelo neural para estimação de faixa etária;

• determinar base de dados para análise de segmentação de pele; • adaptar modelo neural para segmentação de pele;

• avaliar confiabilidade dos experimentos.

1.2 JUSTIFICATIVA

Segundo Ramos (2018), somente no ano de 2018, foram produzidos pela Per´ıcia Criminal Federal mais de mil laudos de Análise de Conteúdo de Pornografia envolvendo criança ou adolescente em m´ıdias de armazenamento e computadores portáteis. O combate a esse tipo de crime conta com diversas ferramentas e técnicas desenvolvidas pelos peritos criminais, que buscam melhorar a eficiência no processo de identificação dos casos.

O deep learning tem sido considerado o estado da arte relacionado à visão computacional, graças a sua capacidade de permitir o reconhecimento de padrões pelo uso de seus algoritmos conhecidos como redes neurais artificiais. Se tratando especificamente de imagens, essas arquiteturas que simulam o sistema cognitivo humano possuem enorme capacidade em determinar possibilidades de um conjunto de p´ıxeis pertencerem a um número determinado de categorias (PONTI; COSTA, 2018). Tendo em vista esse potencial, é justificável aplicar técnicas de aprendizado computacional para agregar conhecimento à ferramentas desenvolvidas na mesma área de atuação de peritos criminais, responsáveis por identificar casos de menores em situações de crime. Em complemento, o presente estudo pode ser capaz de fornecer subs´ıdios suficientes para auxiliar na elaboração de novas soluções relacionadas ao uso de redes neurais para a classificação etária e identificação de pele em busca

(16)

de menores de idade.

1.3 ORGANIZAC¸ ˜AO DO DOCUMENTO

Esse documento está organizado da seguinte forma. O Cap´ıtulo 2 apresentará conceitos primitivos relacionados a imagens digitais. Por conseguinte, o Cap´ıtulo 3 introduzirá a área de redes neurais artificias e alguns de seus componentes fundamentais. Os métodos utilizados e experimentos propostos se encontram no Cap´ıtulo 4, onde são detalhadas todas as etapas para o desenvolvimento do projeto. No Cap´ıtulo 5 são aprofundados os experimentos executados e suas respectivas discussões. Por fim, no Cap´ıtulo 6 se encontra a conclusão com as poss´ıveis aplicações futuras capazes de agregar o conhecimento obtido neste trabalho.

(17)

2 FUNDAMENTOS DE IMAGENS DIGITAIS

De acordo com Gonzalez e Woods (2009), uma imagem pode ser definida como uma função bidimensional f (x, y), sendo x e y coordenadas em um plano. Pedrini e Schwartz (2008) completam, afirmando que o valor ou amplitude dessas coordenadas fornece a intensidade ou brilho, em escala de cinza, no ponto indicado. Sempre que as coordenadas e a intensidade da função assumem valores finitos e discretos, define-se uma imagem digital. Essa imagem é composta por um conjunto finito de elementos denominados a menor porção de uma ilustração, os chamados p´ıxeis (GONZALEZ; WOODS, 2009).

A função f (x, y) é representada pelo produto entre dois componentes principais de uma imagem, a iluminância, representada pela expressão i(x, y), e refletância, expressa por r(x, y). O primeiro componente faz menção à quantidade de luz que incide sobre a cena, enquanto a refletância descreve a quantidade de luz refletida pelos objetos. Logo, a função pode ser definida pela Equação 1. Os intervalos são teóricos e definidos por Filho e Neto (1999):

0 < i(x, y) < ∞ e 0 < r(x, y) < 1

f(x, y) = i(x, y) ∗ r(x, y) (1)

Os valores de intensidade são medidos em lux ou lúmem/m2 enquanto os valores de refletância são descritos por porcentagem numérica (PEDRINI; SCHWARTZ, 2008). As Tabelas 2 e 3 mostram um comparativo entre diferentes situações para uma imagem. Para imagens que possuem informações em bandas distintas de frequência, é preciso aplicar a função f (x, y) em cada banda. Como exemplo, imagens coloridas compostas por padrões de informações das cores primárias vermelho, verde e azul (RGB). A representação da informação presente em uma imagem é feita por uma matriz numérica contendo números inteiros não-negativos, caracterizando o brilho médio presente na cena (FILHO; NETO, 1999; GONZALEZ; WOODS, 2009).

Uma imagem pode ser cont´ınua em relação às suas coordenadas x e y, além de sua amplitude (intervalo entre o maior e menor valor de frequência). Para que a análise de uma imagem seja feita computacionalmente, a função f (x, y) deve ser discretizada (GONZALEZ;

(18)

Tabela 2 – Exemplos de valores para iluminância em lux ou l úmem/m2. Iluminância (x,y) Ambiente

900 Dia ensolarado

100 Dia nublado

10 Iluminação média de escritório 0,001 Noite clara de lua cheia

Fonte: (GONZALEZ; WOODS, 2009).

Tabela 3 – Exemplos de valores de refletˆancia. Refletˆancia (x,y) Superf´ıcie

0,93 Neve

0,8 Parede branco-fosca 0,65 Ac¸o inoxid´avel

0,01 Veludo preto

Fonte: (GONZALEZ; WOODS, 2009).

WOODS, 2009). A obtenção de uma imagem digital se dá por meio de um processo denominado digitalização. Esse método é decomposto em duas etapas, a amostragem e quantização (PEDRINI; SCHWARTZ, 2008).

O processo de amostragem fundamenta-se na discretização espacial, ou seja, o dom´ınio da imagem nas direções x e y produzindo uma matriz de M × N (Equação 2) amostras, onde quanto maior valor M e N assumirem maior é a resolução da imagem. Essa matriz de pontos possui ainda os valores inteiros de n´ıvel de cinza, representado por L, associados a imagens monocromáticas. Esse processo, titulado quantização, infere valores inteiros às amostras na faixa de 0 a 2n− 1, onde quanto maior for n, maior será o número de n´ıveis de cinza presentes em cena. Cada unidade amostral na matriz resultante é o chamado p´ıxel. O intervalo que x e y se encontram é definido por Filho e Neto (1999), Pedrini e Schwartz (2008).

0 ≤ x ≤ M − 1 e 0 ≤ y ≤ N − 1 f(x, y) =        f(0, 0) f(0, 1) · · · f(0, N − 1) f(1, 0) f(1, 1) · · · f(1, N − 1) .. . ... ... ... f(M − 1, 0) f(M − 1, 1) · · · f(M − 1, N − 1)        (2)

A dimensão de um p´ıxel se refere ao espaçamento f´ısico entre as amostras, seja em relação a x ou y. Cada p´ıxel presente em uma imagem digital possui valores num intervalo

(19)

[Lmin, Lmax], denominado escala de cinza. Por convenc¸˜ao, atribui-se a cor preta (valor 0) para

tons de cinza mais escuros e cor branca (valor 255) para tons de cinza mais claros (PEDRINI; SCHWARTZ, 2008). Na Figura 1 é representado um exemplo de imagem cont´ınua (Figura 1(a)) e sua resultante após aplicados os processos de amostragem e quantização (Figura 1(b)).

Figura 1 – Aplicação de amostragem e quantização em uma imagem cont´ınua. Fonte: Adaptado (GONZALEZ; WOODS, 2009).

´

E intrinsecamente claro que valores muito grandes de M, N e n representem uma qualidade maior de uma imagem, porém, números elevados destas variáveis podem implicar em um custo grande de digitalização e armazenamento. O conceito “qualidade de imagem” é subjetivo, pois são muitos detalhes a serem discernidos em uma ilustração (GONZALEZ; WOODS, 2009). As imagens tratadas pelo processamento digital são representadas por potências inteiras de 2, recebendo o nome de imagens binárias. Da mesma forma, o número de n´ıveis de quantização em uma imagem f (x, y) é definida por L = 2b, sendo L o n´ıvel de cinza e b denominado profundidade da imagem. Logo, entende-se que a profundidade da imagem faz referência ao número de bits necessários para armazenar uma imagem digital. Por exemplo, sendo L = 256 tem-se o intervalo do valor de cinza entre 0 e 255, significando 8 bits por p´ıxel. Em certas situações, é necessário expandir conceitualmente a amostragem e a quantização para representar uma imagem na terceira dimensão, sendo o espaço ou tempo. Nesse caso a função seria denotada por f (x, y, z) ou f (x, y,t). As imagens 3D são exemplos de figuras monocromáticas ou multibandas (canais RGB) sequenciais ao longo dos eixos espacial ou temporal (PEDRINI; SCHWARTZ, 2008).

Os p´ıxeis possuem, entre si, determinados tipos de relacionamentos em uma imagem. São eles: vizinhança, conectividade, adjacência, e caminho. (GONZALEZ; WOODS, 2009).

(20)

A vizinhança é uma propriedade referente aos elementos localizados à volta de cada p´ıxel. Um elemento (x, y) possui quatro vizinhos horizontais e verticais de coordenadas (x + 1, y), (x − 1, y), (x, y + 1)e(x, y − 1). Esse conjunto define o termo chamado vizinhança-4 de f , cuja representação é N4( f ). Conjuntamente, existem os vizinhos diagonais representados por

(x − 1, y − 1), (x − 1, y + 1), (x + 1, y − 1)e(x + 1, y + 1), constituindo Nd( f ). Este conceito se

aplica igualmente para imagens tridimensionais, acrescentando um terceiro eixo ao conjunto (PEDRINI; SCHWARTZ, 2008).

Conectividade é o termo utilizado para estabelecer limites de objetos e componentes de regiões em imagens. P´ıxeis são considerados conectados caso sejam adjacentes segundo alguns critérios e similares em n´ıveis de cinza. Em imagens binárias, por exemplo, p´ıxeis que assumem valor 0 e 1 podem ser 4-vizinhos, porém, serão considerados 4-conectados se possu´ırem valores iguais(GONZALEZ; WOODS, 2009). Para definir conectividade, considera-se V como a representação do conjunto de valores dos tons de cinza. Exemplificando, considera-se dois p´ıxeis p e q com seus valores de tom de cinza contidos em V . Uma “4-conectividade” ocorre se q pertencer à vizinhança-4 de p. Do mesmo modo, a “8-conectividade” surge se q estiver presente na vizinhança-8 de p. Os caminhos existentes entre os p´ıxeis são representados por matrizes de valores conforme descrito na Figura 2(a). Em alguns casos, podem ocorrer múltiplos caminhos gerados pela 8-conectividade (Figura 2(b)). A resolução dessa multiplicidade, representada na Figura 2(c), surge através da chamada “m-conectividade”, que remove a conexão diagonal redundante com regras definidas por Filho e Neto (1999):

(i) q ∈ N4(p) ou (ii) q ∈ Nd(p) e N4(p) ∩ N4(q) = ∅.

Figura 2 – Representac¸˜ao matricial de valores com caminhos redundantes entre p´ıxeis resolvido por m-conectividade.

Fonte: (FILHO; NETO, 1999).

A adjacência de p´ıxeis ocorre se forem conexos em relação a uma vizinhança adotada. Considerando dois subconjuntos denotados por S1 e S2, são adjacentes caso um elemento

qualquer de S1 seja adjacente a algum elemento de S2. Por fim, um caminho em uma

determinada imagem ´e denominado pela sequˆencia de p´ıxeis diversos entre determinado elemento (x1, y1) a outro (xn, yn), onde n representa o comprimento percorrido (PEDRINI;

(21)

SCHWARTZ, 2008).

Todos estes conceitos que definem uma imagem digital servem de base para os mecanismos reconhecedores de objetos ou padrões. Um dos conceitos principais relacionados ao reconhecimento é o “aprendizado”, onde diversas técnicas e algoritmos são aplicados para entender a padronização das amostras fornecidas (GONZALEZ; WOODS, 2009). O atual estado da arte se encontra na área de inteligência artificial, amplamente composta pelas redes neurais artificiais. O Cap´ıtulo 3 apresenta alguns dos principais componentes do referido tema.

(22)

3 REDES NEURAIS ARTIFICIAIS

Segundo Haykin (2008), uma Rede Neural Artificial (RNA) pode ser considerada como um processador paralelamente distribu´ıdo formado por unidades de processamento simples, propensos naturalmente a armazenar conhecimento experimental e disponibilizá-lo para uso. Mitchell (1997) especifica que cada unidade integrante das redes neurais artificiais recebe entradas de valor real (podendo ser sa´ıdas de outras unidades) e produz um único valor de sa´ıda, também real, podendo se tornar a entrada para posteriores unidades.

O estudo e desenvolvimento de redes neurais tem sido motivado desde o princ´ıpio pela comparação com a maneira utilizada pelo cérebro humano para processar informações. Assim como os computadores convencionais, o cérebro é um sistema de processamento complexo, não-linear e paralelo. Esse conjunto de neurônios compostos pelo corpo celular (habitualmente denominado soma), axônios e dendritos reagem às interferências do ambiente permitindo ao organismo determinar ações. O mecanismo autor da transmissão de informações entre os neurônios que capacita as reações é denominado sinapse. Em comparação com máquinas digitais convencionais, a velocidade com que os dados são recebidos e processados pelo cérebro humano é muito maior, pois tem a capacidade de trabalhar o processamento em paralelo, enquanto que uma RNA está limitada ao processo sequencial (HAYKIN, 2008; PATTERSON; GIBSON, 2017).

A Figura 3 retrata a estrutura de um neurônio biológico, enquanto a Tabela 4 descreve alguns parâmetros de comparação entre cérebro e computador.

Tabela 4 – Caracter´ısticas entre C´erebro e Computador.

Caracter´ıstica C´erebro Computador

Velocidade ms ns

Processamento Paralelo Sequencial

Armazenamento Adaptativo Est´atico

Controle de Processos Distribu´ıdo Centralizado Ligac¸˜oes entre elementos processados 10.000 < 10

Eficiˆencia energ´etica 10−16J 10−6 J Fonte: (HAYKIN, 2008)

(23)

Figura 3 – O neurˆonio biol´ogico.

Fonte: Adaptado (PATTERSON; GIBSON, 2017).

O primeiro modelo de neurônio artificial foi proposto por Warren McCulloch e Walter Pitts em 1943. Foi desenvolvido um dispositivo eletrônico simples, composto por diferentes pesos numéricos para cada entrada e um limiar antes da sa´ıda (MCCULLOCH; PITTS, 1943). Na época, a importância desse modelo era sua capacidade de calcular funções aritméticas ou lógicas, remanescendo até o final dos anos cinquenta quando Frank Rosenblatt e Wightman propuseram o primeiro tipo de Perceptron, assunto aprofundado na Seção 3.1 (CHOW; CHO, 2007). A máquina Perceptron foi aplicada para reconhecer padrões de diferentes caracteres simples, conforme exemplificado na Figura 4 (BUDUMA; LACASCIO, 2017).

Figura 4 – Exemplo de caracteres utilizados para reconhecimento no Perceptron. Fonte: (BUDUMA; LACASCIO, 2017).

De acordo com Bell (2015), uma das chaves para compreender uma RNA é estar ciente de que a aplicação de determinado modelo implica na incerteza da relação entre os nós

(24)

de entrada e sa´ıda, mesmo havendo um palpite. Bell continua, afirmando que se houvesse conhecimento disso, um outro algoritmo de aprendizado de m´aquina se faria suficiente.

Em resumo, uma rede neural pode ser definida como uma máquina capaz de simular o funcionamento do cérebro no âmbito de realizar uma tarefa espec´ıfica de acordo com o interesse, baseado no aprendizado gerado pelo ambiente em que está inserida. A rede pode ser implementada através de programação em computadores digitais ou pela utilização de componentes eletrônicos. As seções seguintes trarão definições para os segmentos de uma rede neural.

3.1 PERCEPTRONS

O perceptron é um modelo de classificador binário linear com uma relação simples de entrada-sa´ıda (PATTERSON; GIBSON, 2017). É a forma mais primária de uma rede neural usada para classificação de padrões linearmente separáveis, ou seja, que se encontram em lados opostos de um hiperplano (HAYKIN, 2008). É composto, basicamente, por um único neurônio seguido de um bias, também chamado de viés (CHOW; CHO, 2007). Patterson e Gibson (2017) definem o viés como valor escalar adicionado à entrada para garantir que no m´ınimo alguns nós por camada sejam ativados, não importando a intensidade do sinal. O viés permite que o aprendizado ocorra, possibilitando a rede tentar novas interpretações ou comportamentos sendo modificado durante todo o processo. A Figura 5 representa uma estrutura básica do fluxo de sinal do perceptron.

Assim como o biológico, o neurônio artificial recebe números de entrada, x1, x2, ...,

x_m, cada um deles sendo multiplicado por um peso espec´ıfico, w1, w2, ..., wm. Essas entradas

ponderadas são somadas ao Bias (b), parâmetro polarizador, e conduzidas para a função de ativação (ϕ(.)) responsável por determinar o sinal de sa´ıda. Por conseguinte, o neurônio produz uma sa´ıda 1 para entradas positivas do limitador e -1 para negativas (MITCHELL, 1997; HAYKIN, 2008; BUDUMA; LACASCIO, 2017). Essa função de ativação é denominada função Threshold ou, traduzida literalmente, função limiar. Está descrita por Alpaydin (2004):

ϕ (a) = (

1 se a > 0

0 de outra f orma

(25)

Figura 5 – Fluxo de sinal do perceptron. Fonte: Adaptado (HAYKIN, 2008).

pelo somatório das entradas com seus respectivos pesos somado ao viés, demonstrado na Equação 3. υ = m

∑

i=1 w_ix_i+ b (3)

A finalidade do perceptron ´e classificar o conjunto de est´ımulos externos aplicados em uma das classes do hiperplano, C1 ou C2. Cada n´o de sua estrutura possui em sua sa´ıda um

valor limitante. A classificação é decidida considerando as entradas x1, x2, ..., xm ponderadas

com seus respectivos pesos w1, w2, ..., wme, se o resultado somado ´e superior ao limite, atribui

a sa´ıda +1 e, consequentemente, aponta para a classe C1. Em contrapartida, atribui a sa´ıda -1

apontando para a classe C2quando o somatório das entradas é inferior ao valor limite. O espaço

representante da classificação abrange um mapa de regiões de decisão m-dimensional medido pelas m variáveis de entrada, x1, x2, ..., xm. Em sua forma rudimentar, existem duas regiões

separadas por um hiperplano, conforme ilustrado na Figura 6. Essa representação ocorre quando tem-se duas variáveis de entrada, tornando poss´ıvel a separação do limite de decisão por meio de uma linha reta. O viés representa o fator numérico responsável por afastar esse limite da origem (MITCHELL, 1997; HAYKIN, 2008; BELL, 2015).

Para a representação bidimensional, o limite de decisão é definido pela Equação 4. Os pesos do perceptron podem receber valor zero ou qualquer outro, assim como os valores das entradas podem ser positivos ou negativos (HAYKIN, 2008; BELL, 2015).

w₁x₁+ w2x2+ b = 0 (4)

Segundo Mitchell (1997), um único perceptron é capaz de representar todas as funções booleanas primitivas E (AND), OU (OR), ¬ E (¬ AND) e ¬ OU (¬ OR). Essa capacidade

(26)

Figura 6 – Mapa de regi˜oes bidimensional de um perceptron separadas por um hiperplano. Fonte: Adaptado (HAYKIN, 2008).

é importante pois cada uma dessas primitivas pode ser representada por uma determinada rede de unidades interconectadas. Entretanto, existem funções booleanas que não podem ser caracterizadas por um único perceptron, como o caso da função XOR (OU exclusivo), cujo valor de sa´ıda é 1 se, e somente se, a relação lógica entre suas entradas x1e x2forem diferentes

(x16= x2). Essa exclusividade faz com que a região de classificação seja definida pelos quatro

cantos de um hipercubo bidimensional, cada um representado pelos padrões de entrada (0,0), (0,1), (1,0) e (1,1). Nessa ordem, a primeira e quarta entrada correspondem à sa´ıda 1, enquanto que a segunda e terceira resultam na sa´ıda 0. Na Figura 7 (a) tem-se a representação de um problema linearmente separável em comparação com o caso XOR, ilustrado na Figura 7 (b). Os padrões de entrada que geram sa´ıdas iguais se encontram em cantos opostos do quadrado unitário, tornando imposs´ıvel representar o limite de decisão através de uma linha reta, caracterizando o caso XOR em um problema não-linearmente separável (HAYKIN, 2008; GOODFELLOW et al., 2016).

Uma vez que um perceptron de camada única não é capaz de representar modelos booleanos como o XOR, se faz necessário introduzir a solução formulada para os problemas não-linearmente separáveis, os perceptrons multicamadas.

(27)

Figura 7 – Limite de decis˜ao para perceptron com duas entradas. Fonte: (MITCHELL, 1997).

3.2 PERCEPTRONS MULTICAMADAS

Os perceptrons multicamadas (MLP, do inglês Multilayer Perceptron) são redes neurais parecidas com os perceptrons, porém, com mais de uma camada de neurônios em alimentação direta (em inglês Multilayer Feed-Forward Networks) (RUSSEL; NORVIG, 2010). Um MLP tem sua estrutura composta por uma camada de entrada, uma ou mais camadas ocultas e uma camada de sa´ıda. Cada camada pode possuir um ou mais neurônios artificias, semelhantes aos seus precursores na estrutura do perceptron. Todavia, cada neurônio pode assumir uma função de ativação diferente, dependendo da finalidade espec´ıfica da camada em toda rede. Um MLP possui sua composição semelhante ao seu predecessor, contudo, acrescenta flexibilidade à rede com uma variedade maior de camadas de ativação que podem ser utilizadas para gerar diferentes valores de sa´ıda (PATTERSON; GIBSON, 2017). Segundo Haykin (2008), este modelo de rede exibe um alto grau de conectividade, cuja extensão é determinada por seus pesos sinápticos.

Embora o MLP tenha significado um avanço na área de redes neurais, Haykin afirma que a representação da não linearidade distribu´ıda desse modelo representa uma dificuldade de entendimento teórico sobre o mesmo. Além disso, a presença de camadas e neurônios ocultos torna complexo o processo de aprendizagem pelo perceptron. Implicitamente, esse processo deve decidir quais caracter´ısticas do padrão de entrada devem ser moldadas pelos neurônios ocultos, fazendo com que a busca seja realizada num espaço muito maior de poss´ıveis funções. A escolha, portanto, é feita entre as representações alternativas do padrão de entrada.

A composição dessas inúmeras poss´ıveis funções é o que permite classificar o padrão Feedforwardcomo sendo uma rede. O modelo é associado a um gráfico ac´ıclico reproduzindo

(28)

o funcionamento dessas funções agregadas. Como exemplo, pode-se levar em consideração um conjunto de três funções f(1), f(2)e f(3)conectadas a uma cadeia representando a função global f(x) = f(3)( f(2)( f(1)(x))). Tal estrutura em cadeia é correntemente usada para representar redes neurais. Para o caso descrito, a função f(1) representa a primeira camada da rede, f(2) caracteriza a segunda camada e, por fim, f(3) define a última camada. O comprimento total da cadeia representada pelo conjunto de funções é o que configura a profundidade do modelo (GOODFELLOW et al., 2016). A representação do exemplo é ilustrada na Figura 8.

Na seção 3.2 foi apresentado o problema XOR e como suas combinações lógicas impedem a classificação através de um perceptron de camada única. No mundo multicamadas, esse problema pode ser resolvido usando um perceptron formado por uma camada oculta composta por dois neurônios (HAYKIN, 2008). O gráfico estrutural e de fluxo da rede são representados pelas Figuras 9 (a) e (b), respectivamente. O caso XOR fornece uma função objetivo que o perceptron está interessado em aprender. De in´ıcio, a estrutura do perceptron oferece uma função com parâmetros que serão utilizados por algoritmos de aprendizado para tentar aproximar ao máximo da função objetivo (GOODFELLOW et al., 2016).

Figura 8 – Representação de um perceptron multicamadas com três camadas ocultas. Fonte: Adaptado (GOODFELLOW et al., 2016).

Cada neurônio é representado por um modelo McCulloch–Pitts, utilizando Threshold como função de ativação. Respectivamente, os bits de entrada 0 e 1 são figurados pelos n´ıveis 0 e +1. O neurônio de sa´ıda tem como responsabilidade gerar uma combinação linear dos limites de decisão formados pelos neurônios da camada oculta, com os cálculos sendo determinados pela função de ativação escolhida (BELL, 2015).

Para o exemplo até então descrito, o neurônio superior é composto pelos pesos w11=

(29)

uma inclinação de decisão mostrada na Figura 10 (a). Da mesma maneira, tem-se o neurônio oculto inferior com pesos w21= w22= +1 e valor de viés b2= −1₂. Sua inclinação de decisão

no espaço bidimensional é representada pela Figura 10 (b). Finalmente, o neurônio de sa´ıda possui pesos sinápticos w31 = −2, w32 = +1 e viés b3= −1₂. O neurônio inferior da camada

oculta possui conexão positiva com a sa´ıda, em contrapartida, o neurônio superior tem conexão inibitória (negativa) com o neurônio de sa´ıda. No momento em que ambos estão desligados, ou seja, quando os valores de entrada são (0,0), o neurônio de sa´ıda permanece desativado. No momento em que os valores de entrada forem (1,1), tornando ativos os neurônios ocultos, o neurônio de sa´ıda é novamente desligado. Isso ocorre pois o efeito inibitório gerado pelo maior peso negativo ligado ao neurônio oculto superior, supera o efeito de excitação que o peso positivo conectado ao neurônio inferior fornece. Por fim, no momento em que o neurônio superior está desligado e o inferior ligado, representando as entradas (0,1) e (1,0), o neurônio de sa´ıda é ativado graças ao efeito positivo gerado pelo neurônio inferior. A Figura 10 (c) expõe o gráfico que demonstra a nova capacidade que o perceptron adquiri ao separar as regiões por diferentes sa´ıdas, semelhante ao perceptron de camada única nas funções lógicas mais básicas (HAYKIN, 2008).

Figura 9 – Arquitetura gr´afica de uma rede capaz de resolver o problema XOR. Fonte: Adaptado (HAYKIN, 2008)

Assim como o perceptron de camada única utiliza a função limiar para decidir o sinal de sa´ıda do neurônio na rede, os multicamadas também se dispõe de ativadores capazes de trabalhar com parâmetros probabil´ısticos para analisar riscos, decidindo sinais de múltiplas unidades de neurônios. A Seção 3.3 apresenta as caracter´ısticas de algumas dessas funções.

(30)

Figura 10 – Inclinações de decisão constru´ıda pela rede perceptron multicamadas para resolução do problema XOR.

Fonte: Adaptado (HAYKIN, 2008)

3.3 FUNÇ ÕES DE ATIVAÇ ÃO PARA FEEDFORWARD PERCEPTRONS

Nesta seção serão abordadas três funções de ativação pertencentes ao ambiente multicamadas, a sigmóide, ReLu e softmax.

Ao tratar de perceptrons primários como o modelo de McCulloch–Pitts, tem-se funções que transmitem sinais de entrada praticamente inalterados, representando uma transformada linear (PATTERSON; GIBSON, 2017). Diferentemente das transformadas lineares, as funções de ativação em FeedForward perceptrons trabalham com valores reais diversos para gerar aprendizado, transformando a não linearidade em algo compreens´ıvel (BUDUMA; LACASCIO, 2017).

Em redes MLP, a função de ativação mais frequentemente utilizada é a sigmóide, também denominada sigmóide log´ıstica (CHOW; CHO, 2007; GOODFELLOW et al., 2016). Como todas as transformações log´ısticas, a sigmóide consegue reduzir valores extremos em

(31)

dados sem a necessidade de removê-los, ou seja, converte variáveis independentes com alcance quase tendendo ao infinito em probabilidades simples no intervalo entre 0 e 1 (PATTERSON; GIBSON, 2017). Intuitivamente, quando o modelo lógico é muito pequeno, a sa´ıda lógica do neurônio é muito próxima de 0. Por outro lado, ao assumir um modelo lógico muito grande, a sa´ıda lógica do neurônio é próxima de 1 (BUDUMA; LACASCIO, 2017). Isso remete à insensibilidade que a função assume em relação a pequenas mudanças em seus valores de entrada (GOODFELLOW et al., 2016). Esse comportamento gera um gráfico em forma de “S” como mostrado na Figura 11. A definição da função sigmóide é dada pela Equação 5, onde zrepresenta os valores reais de entrada (BUDUMA; LACASCIO, 2017).

f(z) = 1

1 + e−z (5)

Embora muito utilizada, a função sigmóide possui desvantagens que acabam desencorajando seu uso. A saturação generalizada para valores altos e baixos nas unidades sigmoidais torna o aprendizado baseado em gradientes custoso. Entretanto, caso sejam utilizadas funções de custo para remover a saturação na camada de sa´ıda, o aprendizado por gradiente se torna poss´ıvel. Essas funções são mais apropriadas para redes recorrentes, modelos probabil´ısticos e auto decodificadores pois, apesar dos problemas de saturação, utilizam recursos que descartam o uso de funções de ativação linear por partes (GOODFELLOW et al., 2016).

Figura 11 – Gráfico da função sigmóide log´ıstica. Fonte: (PATTERSON; GIBSON, 2017)

Outro modelo de não linearidade é descrito pela função ReLu (do inglês restricted linear unit neuron), neurônio de unidade linear restrita (BUDUMA; LACASCIO, 2017). Essa

(32)

transformação se torna mais interessante, pois a ativação do nó só ocorre se o valor de entrada estiver acima de uma determinada quantidade limitante. Em números, caso esse valor esteja abaixo de zero, a sa´ıda assume sempre valor 0. No ponto em que os valores ultrapassam um certo limite, a sa´ıda acaba gerando uma relação linear com a variável dependente. Essa configuração estabelece a Equação 6 para a função ReLu (PATTERSON; GIBSON, 2017). Seu comportamento é demonstrado na Figura 12.

f(z) = max(0, z) (6)

Figura 12 – Gráfico do comportamento da função ReLu. Fonte: (PATTERSON; GIBSON, 2017).

Segundo Patterson e Gibson (2017) as unidades lineares retificadas são o atual estado da arte pois provaram-se eficientes para diferentes aplicações. São fáceis de otimizar devido à semelhança com as unidades lineares. Tal como mostrado no gráfico da Figura 12, metade de seu dom´ınio é 0, fazendo com que o resultado de derivadas através da função de retificação permaneça grande e consistente sempre que a unidade estiver ativa. Matematicamente, na operação de retificação, a segunda derivada é 0 em quase toda parcela, recebendo 1 nos lugares ativos da unidade. Essa caracter´ıstica induz a importância da direção do gradiente na utilidade ao aprendizado da rede (GOODFELLOW et al., 2016).

(33)

uma desvantagem em relação ao aprendizado. Em exemplos nos quais sua ativação é zero, a aprendizagem por meio de gradientes se torna nula. Existem algumas generalizações que capacitam as unidades lineares retificadoras a receber gradiente em todo lugar. Tanto as ReLu propriamente ditas, como suas generalizações são baseadas no princ´ıpio de que os modelos são mais facilmente otimizados quando o comportamento se aproxima do linear.

A última função de ativação abordada nesta seção é a chamada função softmax. A softmax pode ser considerada como um tipo de função sigmóide, porém, é muito utilizada em redes neurais com o propósito de resolver problemas de classificação (BUDUMA; LACASCIO, 2017). Como referido anteriormente, a função sigmóide realiza a classificação das entradas no neurônio em duas classes distintas. Entretanto, para problemas maiores, apenas duas classes não são suficientes. A função softmax transforma as sa´ıdas de cada classe em valores entre 0 e 1, dividindo pelo somatório de sa´ıdas. Esse procedimento desmascara a principal caracter´ıstica dessa função: trabalhar com vetores de probabilidade para um valor de entrada associando-o à uma determinada sa´ıda. É definida pela Equação 7, onde i representa o ´ındice do neurônio de sa´ıda e j os ´ındices de todos os neurônios de um n´ıvel (GOODFELLOW et al., 2016; PATTERSON; GIBSON, 2017).

so f tmax(x)i=

e(xi)

∑nj=1e(xj)

(7)

Como exemplo numérico, considera-se o vetor de sa´ıdas [1,2, 0,9, 0,75]. Ao aplicar a função softmax, tem-se como vetor resultado [0.42, 0.31, 0.27]. Esse vetor resultante pode, então, ser usado como probabilidades para definir a qual classe pertence cada valor de entrada (ACADEMY, 2018).

A escolha de uma função de ativação depende única e exclusivamente do problema a ser resolvido por uma rede neural. Em resumo, saber que a sigmóide e suas ramificações, juntamente com a softmax resolvem problemas de classificação e que a função ReLu é usada na camada oculta do escopo neural, fornece uma orientação sobre onde e como aplicar essas funções.

3.4 ALGORITMO BACKPROPAGATION

Nas seções anteriores, foi apresentando que redes neurais artificias feedforward possuem neurônios em camadas ocultas responsáveis por dissipar as informações recebidas

(34)

para a camada de sa´ıda. A passagem desses dados é conhecida como propagação direta (GOODFELLOW et al., 2016). Embora a capacidade de aprendizado de uma rede aumente conforme cresce o número de camadas ocultas, a presença dessas estruturas torna cada vez mais complicado fluir resultados precisos entre elas (RUSSEL; NORVIG, 2010).

Pode-se entender como erro um valor inesperado passado pelas camadas ocultas (HAYKIN, 2008). Ao chegar à camada de sa´ıda o erro é claramente notado, entretanto, para as camadas ocultas esse valor nada mais é do que um número, pois os dados de treinamento não as informam qual valor possuir. Felizmente, esses dados errôneos podem ser retrocedidos para as camadas ocultas a fim de calcular o gradiente e usar como mecanismo de predição (MITCHELL, 1997; RUSSEL; NORVIG, 2010). Esse procedimento é denominado backpropagation, traduzido para o português como retropropagação. As redes neurais profundas utilizam-se de métodos de deep learning para realizar o treinamento do aprendizado e, fundamentalmente, fazem uso do backpropagation (BASSIS et al., 2016). Esse algoritmo foi peça chave para tornar modelos profundos algo computacionalmente tratável. Ao longo do tempo, foi reinventado de diversas maneiras e aplicado à inúmeras áreas como análise de estabilidade numérica e previsão do clima (ACADEMY, 2018).

Essencialmente, o backpropagation é uma maneira computacionalmente eficiente de calcular derivadas em uma função de custo complexa. É através dessas derivadas que a rede neural gera parâmetros dos coeficientes de peso obtendo aprendizado. Matematicamente, a regra da cadeia em operações derivativas é fundamental para o funcionamento do algoritmo, pois são esses cálculos os responsáveis por “medir” a influência que os neurônios têm entre si (HAYKIN, 2008; RUSSEL; NORVIG, 2010; GROSAN; ABRAHAM, 2011). Considera-se, como exemplo, uma função f (g(x)) = y no qual a derivada de x em relação a y é definida pela Equação 8 (RASCHKA, 2015). δ y δ x = δ f δ g δ g δ x (8)

Em outras palavras, ´e a soma de todos os poss´ıveis caminhos de um neurˆonio para outro, multiplicando as derivadas em cada aresta (ACADEMY, 2018).

O backpropagation pode ser dividido em trˆes etapas (MITCHELL, 1997; GROSAN; ABRAHAM, 2011):

1. Propagação direta das entradas (feedforward); 2. Retropropagação do erro (backpropagation); 3. Ajuste dos pesos.

A aplicação do algoritmo envolve a utilização de funções de ativação cont´ınuas, diferenciáveis (permitem derivadas parciais) e monotonicamente não decrescentes. Uma das funções discutidas na Seção 3.3 e mais utilizadas é a sigmóide, com sua derivada definida por

(35)

f0(z) = f (z)[1 − f (z)] (HAYKIN, 2008; GROSAN; ABRAHAM, 2011; GOODFELLOW et al., 2016).

Segundo Grosan e Abraham (2011), o modo com que os pesos são iniciados influencia diretamente na velocidade com que a rede neural alcança o objetivo, sendo de extrema importância evitar que esses valores resultem em derivadas ou funções de ativação zero. Grosan e Abraham ponderam que valores demasiadamente grandes para os pesos iniciais fazem com que o resultado gerado pela função sigmóide seja muito pequeno. Em contrapartida, valores muito pequenos fazem com que a entrada da rede seja próxima de zero para os neurônios ocultos e de sa´ıda, causando aprendizado lento. Por convenção, uma maneira padrão de se inicializar os pesos é escolher valores aleatórios no intervalo entre [-0,5, 0,5]. Haykin (2008) propõe levar em consideração o número total de entradas do neurônio (Fi) na rede para inicializar os pesos,

definindo o intervalo em [-2,4/Fi, 2,4/Fi].

A primeira etapa, também denominada feedforward, consiste na transmissão de sinais pelos neurônios da camada de entrada para todos os neurônios da camada oculta. Na camada de sa´ıda, os neurônios calculam seu fator de ativação, produzindo a resposta da rede em relação ao sinal inicialmente fornecido. Esses valores são comparados com o resultado alvo correspondente afim de determinar o erro associado ao padrão. No momento em que o erro é computado, ele retrocede para as camadas anteriores, dando in´ıcio à segunda etapa do algoritmo (GROSAN; ABRAHAM, 2011; BELL, 2015).

O backpropagation se inicia na camada de sa´ıda e afeta toda camada oculta (RUSSEL; NORVIG, 2010). Para fins explicativos, considera-se a Figura 13 que representa uma estrutura simples de uma rede neural.

Figura 13 – Exemplo de estrutura feedforward de uma rede neural. Fonte: Adaptado (GROSAN; ABRAHAM, 2011).

(36)

A porção de ajuste do erro é calculada para cada neurônio Yk na camada de sa´ıda e

distribu´ıdo para todos os neurˆonios da camada oculta conectados ao neurˆonio Yk. Esse mesmo

ajuste é responsável por atualizar os pesos W_jkque conectam os neurônios da camada oculta aos neurônios da camada de sa´ıda. O mesmo cálculo é feito para os neurônios Zjna camada oculta,

atualizando os pesos Vi j entre os neurˆonios de entrada e os neurˆonios ocultos. No exemplo da

Figura 13 existe apenas uma camada oculta, logo, n˜ao se faz necess´ario retroceder o erro para a camada de entrada (GROSAN; ABRAHAM, 2011).

3.5 REDES NEURAIS CONVOLUCIONAIS

As redes neurais convolucionais, conhecidas pela sigla CNN (do inglês Convolutional Neural Networks) são classes especiais de perceptrons multicamadas aplicadas principalmente na área de processamento de imagens digitais com o objetivo de reconhecer padrões (HAYKIN, 2008). Essa eficácia na classificação de imagens é uma das principais razões do reconhecimento que o mundo deu ao poder do deep learning (HOPE et al., 2017).

A criação das CNN’s teve inspiração biológica no córtex visual dos animais. As células que compõe essa estrutura são extremamente sens´ıveis a pequenas regiões de entrada, dispostas lado a lado com o propósito de cobrir todo o campo visual. Esse conjunto de células atua como um filtro coletando informações espaciais das imagens processadas pelo cérebro identificando formas e padrões. É devido à essa inspiração que as CNN’s são fortemente usadas quando a base de dados são imagens (PATTERSON; GIBSON, 2017).

Na Seção 3.2 foram descritas as redes neurais feedforward e como são estruturadas as ligações entre os neurônios de suas camadas. É importante comparar esse modelo à CNN pois as principais caracter´ısticas da convolução surgem através da otimização de tarefas que, em redes multicamadas feedforward, requisitaria grande quantidade de processamento (RASCHKA, 2015). Tarefas, essas, associadas com a utilização de imagens como dados de entrada. Uma simples imagem de 32 p´ıxeis de largura por 32 p´ıxeis de altura, contendo três canais de informação RGB produz um total de 3.072 (três mil e setenta e dois) pesos por neurônio em uma camada oculta. Considerando que há diversos neurônios presentes na camada, esse resultado seria multiplicado pelo total de neurônios presentes. Essa imensa gama de conexões existentes em redes neurais feedforward tradicionais exige um certo custo de processamento inviável para este tipo de dado (PATTERSON; GIBSON, 2017).

(37)

A estrutura de uma CNN possui camadas com neurônios arranjados em três dimensões: largura, altura e profundidade. Essa configuração se encaixa perfeitamente no tratamento de imagens, considerando os p´ıxeis como altura e largura e a informação RGB como profundidade (RASCHKA, 2015; GOODFELLOW et al., 2016; PATTERSON; GIBSON, 2017). Como demonstrado na Figura 14, os neurônios em uma camada convolucional se conectam à pequenas regiões locais das camadas anteriores, abstendo-se do desperd´ıcio de uma conexão completa entre os mesmos, como ocorre em redes feedforward. Pode-se resumir que a função de uma camada convolucional é receber e processar informações tridimensionais produzindo resultados de mesma dimensão (BUDUMA; LACASCIO, 2017).

Figura 14 – Representac¸˜ao de largura, altura e profundidade de camadas convolucionais. Fonte: (BUDUMA; LACASCIO, 2017).

As camadas convolucionais possuem, entre si, as chamadas interações esparsas (conectividade esparsa ou pesos esparsos), arranjos que tornam o kernel menor que a entrada (HAYKIN, 2008). Durante o processamento de uma imagem com milhões ou milhares de p´ıxeis, por exemplo, a convolução é capaz de coletar informações que ocupem somente centenas ou dezenas de p´ıxeis. Além de eficiência, reduz os cálculos de sa´ıda (HAYKIN, 2008; GOODFELLOW et al., 2016). A Figura 15 demonstra a comparação entre a conectividade esparsa e a conectividade completa presente nas redes multicamadas tradicionais. A camada de sa´ıda s é formada por convolução e as unidades x afetam esses neurônios. Com a camada de sa´ıda formada por convolução de kernel 3, apenas três unidades são afetadas por x3(Figura

15(a)). Por outro lado, a utilização de multiplicação de matrizes faz com que todos os neurônios sejam afetados por x3(Figura 15(b)) (GOODFELLOW et al., 2016).

(38)

Figura 15 – Representação comparativa entre convolução e multiplicação de matrizes em camadas de redes neurais.

Fonte: Adaptado (GOODFELLOW et al., 2016).

As CNN’s possuem diversas variações de estrutura interna, entretanto, são baseadas em uma sequência padronizada de camadas (PATTERSON; GIBSON, 2017). São elas, respectivamente:

1. Camada de entrada;

2. Camadas de extração de caracter´ıstica; 3. Camadas de classificação.

Para realizar a extração de recursos, a CNN se organiza em um padrão de repetição composto por camadas convolucionais seguidas de camadas de pooling (também denominadas camadas de agrupamento) (RASCHKA, 2015; HOPE et al., 2017). Essa organização é responsável por extrair as caracter´ısticas nas imagens e construir recursos de ordem superior. As camadas de classificação são completamente conectadas aos neurônios da camada anterior, encarregadas de produzir as probabilidades e pontuações apontando as classes pertencentes. O resultado produzido na sa´ıda possui dimensão [axN], ou seja, a relação entre o número de amostras (a) pelo número de classes existentes (N) (PATTERSON; GIBSON, 2017). As camadas convolucionais são consideradas os blocos estruturais mais importantes na construção de uma CNN, sendo responsáveis por transformar os dados de entrada (RASCHKA, 2015; GOODFELLOW et al., 2016). Para tal, se utilizam de um conjunto de neurônios

(39)

conectados localmente à camada anterior. Por conseguinte, ocorre o cálculo dos pontos entre a região dos neurônios na camada de entrada e seus pesos associados localmente na camada de sa´ıda (PATTERSON; GIBSON, 2017).

Segundo Haykin (2008) e Patterson e Gibson (2017) as camadas convolucionais são compostas de parâmetros e hiperparâmetros usados para realizar o treinamento e gerar as pontuações nas respectivas classes. Os principais componentes são:

• Filtros (kernel); • Mapas de ativac¸˜ao;

• Compartilhamento de parˆametros; • Hiperparˆametros espec´ıficos.

´

E por meio de uma operação matemática fundamental chamada convolução que todo o processo de transformação ocorre (GOODFELLOW et al., 2016). A convolução pode ser basicamente definida como uma regra capaz de mesclar dois conjuntos de informação, ou seja, um detector de recursos (PATTERSON; GIBSON, 2017). Como essas camadas podem se repetir através da estrutura de uma CNN, os dados recebidos podem ser brutos ou simplesmente informações vindas de outras convoluções. Essa caracter´ıstica introduz o conceito de filtro à convolução, já que o kernel seleciona determinados tipos de informação. Por exemplo, uma CNN que utiliza um kernel no processamento de uma imagem digital para obter informações de borda (RASCHKA, 2015; PATTERSON; GIBSON, 2017).

Um exemplo de como o filtro se comporta é ilustrado na Figura 16. A cada iteração, o kernel é multiplicado pelos valores recebidos da camada de entrada criando uma única referência numa estrutura bidimensional denominada mapa de caracter´ısticas, também conhecido como mapa de ativação. Recebe esse nome pois a ação de “ativar” do kernel permite que as informações transloquem do volume de entrada para o de sa´ıda. Nesse mapa estão armazenados todos os valores resultantes da aplicação do kernel (HOPE et al., 2017; PATTERSON; GIBSON, 2017). Como cada valor de entrada possui seus respectivos pesos e viés, a geração do mapa de ativação pode ser resultada da Equação 9, onde k representa a caracter´ıstica no mapa de ativação, W se refere aos pesos e b ao viés (BUDUMA; LACASCIO, 2017).

mk_{i j} = f ((W ∗ x)i j+ bk) (9)

O kernel não é utilizado apenas em um único mapa de recursos. Sua operação ocorre em todo conjunto de mapas de caracter´ısticas gerados por uma certa camada. Para reconhecimento de faces durante um processamento de imagem, por exemplo, é preciso acumular mapas de ativação para os olhos, nariz e boca. A face é reconhecida quando os

(40)

locais correspondentes nos mapas de ativação primitivos possuem os recursos apropriados, ou seja, dois olhos, um nariz e uma boca. Concluindo, as decisões tomadas pela camada de sa´ıda devem levar em consideração a combinação de vários mapas de caracter´ısticas (BUDUMA; LACASCIO, 2017).

Figura 16 – Operação de convolução por meio de um kernel. Fonte: Adaptado (PATTERSON; GIBSON, 2017).

Sabe-se que uma CNN possui conexão local entre os neurônios e suas camadas. Essa conectividade é controlada por um hiperparâmetro denominado campo receptivo, encarregado de coordenar o quanto de largura e altura o filtro irá mapear (GOODFELLOW et al., 2016; PATTERSON; GIBSON, 2017).

O terceiro item citado no in´ıcio é o compartilhamento de parâmetros. Esse esquema é utilizado pelas CNN’s para administrar o total de parâmetros, procedimento determinante no tempo de treinamento levado pela rede neural (HAYKIN, 2008). O método ocorre selecionando partes menores das camadas de convolução, em que cada neurônio utilizará os mesmos pesos e viés. Isso reduz o número de parâmetros referenciados pela camada. A ação de compartilhar resulta na invariância da CNN à tradução e posição, ou seja, a classificação convolucional independe da posição de uma caracter´ıstica na imagem de entrada. (GOODFELLOW et al., 2016).

Algumas estruturas convolucionais utilizam camadas espec´ıficas para a utilização da função de ativação ReLu, apresentada na Seção 3.3. O uso dessa função, aplicado no elemento de entrada, muda os valores dos p´ıxeis sem alterar a dimensão dos dados que chegam à sa´ıda. É um fator interessante, já que a função ReLu não possui parâmetros e hiperparâmetros adicionais (PATTERSON; GIBSON, 2017).

Por fim, tem-se os hiperparâmetros espec´ıficos. São componentes que fornecem o escopo espacial e determina o tamanho do conjunto de informações na sa´ıda da camada convolucional. Compostos pelo tamanho do filtro, a profundidade de sa´ıda, passo (comumente referenciado no inglês stride) e o preenchimento de zero (PATTERSON; GIBSON, 2017).

(41)

O primeiro se define pela representação numérica do filtro, ou seja, dizer que um filtro é de tamanho 5 x 5 x 3 significa que possui 5 p´ıxeis de altura por 5 p´ıxeis de largura, com o 3 representando os canais de cores RGB. A profundidade coordena a contagem de neurônios conectados à camada convolucional na região do volume de entrada, onde esse conjunto de neurônios se denomina coluna de profundidade. O passo diz à camada convolucional o número de vezes que o filtro deve ser aplicado, ou seja, define a quantidade de colunas de profundidade que a sa´ıda terá. Por último, o preenchimento de zero é utilizado quando se quer administrar o tamanho espacial da camada de sa´ıda, exemplificado quando os volumes de entrada permanecem com o mesmo tamanho espacial ao chegar à sa´ıda (BUDUMA; LACASCIO, 2017; PATTERSON; GIBSON, 2017).

Para reduzir drasticamente a dimensionalidade dos mapas de caracter´ısticas e aprimorá-los, é necessário incluir uma camada de agrupamento máximo na sequência de uma camada convolucional, as chamadas camadas de pooling (BUDUMA; LACASCIO, 2017). O princ´ıpio do agrupamento é dividir o mapa de recursos em pequenos blocos de mesmo tamanho e organizar um novo mapa contendo todos os recursos condensados. No mapa original de caracter´ısticas, uma célula é criada e seu valor máximo é calculado e propagado para o mapa de caracter´ısticas condensadas (GOODFELLOW et al., 2016). A Figura 17 demonstra a operação.

Figura 17 – Representação do agrupamento máximo de caracter´ısticas na camada de pooling. Fonte: (BUDUMA; LACASCIO, 2017).

A propriedade fundamental por trás da camada de pooling, é o fator invariante que ela assume. Isso garante que, mesmo as entradas sofrendo alterações, a sa´ıda de agrupamento máximo permanece constante. E um fator importante para algoritmos de reconhecimento´ visual, pois se preocupam em determinar se há uma caracter´ıstica na imagem e não onde está localizada. Entretanto, impor invariância demasiadamente faz com que a rede neural perca parte da capacidade de transportar informações importantes, logo, a dimensionalidade espacial