Máquinas de aprendizado extremo aplicadas ao reconhecimento de imagens de texturas : uma aplicação em imagens médicas

(1)

UNIVERSIDADE ESTADUAL DE

CAMPINAS

Instituto de Matemática, Estatística e

Computação Científica

ACACIO NECKEL

Máquinas de aprendizado extremo aplicadas

ao reconhecimento de imagens de texturas:

uma aplicação em imagens médicas

Campinas

2020

(2)

Acacio Neckel

Máquinas de aprendizado extremo aplicadas ao

reconhecimento de imagens de texturas: uma

aplicação em imagens médicas

Dissertação apresentada ao Instituto de Matemática, Estatística e Computação Ci-entífica da Universidade Estadual de Cam-pinas como parte dos requisitos exigidos para a obtenção do título de Mestre em Matemática Aplicada.

Orientador: João Batista Florindo

Este exemplar corresponde à

ver-são final da Dissertação defendida

pelo aluno Acacio Neckel e

orien-tada pelo Prof. Dr. João Batista

Florindo.

Campinas

2020

(3)

Ficha catalográfica

Universidade Estadual de Campinas

Biblioteca do Instituto de Matemática, Estatística e Computação Científica Ana Regina Machado - CRB 8/5467

Neckel, Acacio,

N282m NecMáquinas de aprendizado extremo aplicadas ao reconhecimento de imagens de texturas : uma aplicação em imagens médicas / Acacio Neckel. – Campinas, SP : [s.n.], 2020.

NecOrientador: João Batista Florindo.

NecDissertação (mestrado) – Universidade Estadual de Campinas, Instituto de Matemática, Estatística e Computação Científica.

Nec1. Máquinas de aprendizagem extremo. 2. Reconhecimento de textura. 3. Descritores locais. 4. Imagens médicas. I. Florindo, João Batista, 1984-. II. Universidade Estadual de Campinas. Instituto de Matemática, Estatística e Computação Científica. III. Título.

Informações para Biblioteca Digital

Título em outro idioma: Extreme learning machines applied to texture image recognition :

an aplication in medical images

Palavras-chave em inglês:

Extreme learning machines Texture recognition

Local descriptors Medical images

Área de concentração: Matemática Aplicada Titulação: Mestre em Matemática Aplicada Banca examinadora:

João Batista Florindo [Orientador] André Ricardo Backes

Jarbas Joaci de Mesquita Sá Junior

Data de defesa: 01-09-2020

Programa de Pós-Graduação: Matemática Aplicada

Identificação e informações acadêmicas do(a) aluno(a)

- ORCID do autor: https://orcid.org/0000-0002-4998-0498 - Currículo Lattes do autor: http://lattes.cnpq.br/5636876436703297

(4)

Dissertação de Mestrado defendida em 01 de setembro de 2020 e aprovada

pela banca examinadora composta pelos Profs. Drs.

Prof(a). Dr(a). JOÃO BATISTA FLORINDO

Prof(a). Dr(a). ANDRÉ RICARDO BACKES

Prof(a). Dr(a). JARBAS JOACI DE MESQUITA SÁ JUNIOR

A Ata da Defesa, assinada pelos membros da Comissão Examinadora, consta no SIGA/Sistema de Fluxo de Dissertação/Tese e na Secretaria de Pós-Graduação do Instituto de Matemática, Estatística e Computação Científica.

(5)

Agradecimentos

Ao professor João Batista Florindo pela orientação, ensinamentos, paciência, dedicação e colaboração no desenvolvimento deste trabalho.

À minha família e amigos, pelo apoio durante os estudos.

Aos professores e colaboradores do Instituto de Matemática, Estatística e Computação Científica pelos ensinamentos na trajetória do curso.

À UNICAMP pelo auxílio estudantil e a disponibilização do curso.

O presente trabalho foi realizado com apoio da Coordenação de Aperfeiçoa-mento de Pessoal de Nível Superior – Brasil (CAPES) – Código de FinanciaAperfeiçoa-mento 001.

(6)

Resumo

A classificação de imagens é uma das tarefas de destaque na visão computacional. Entre os tipos de imagens que possuem grande aplicação na prática estão as imagens de texturas, nas quais todos os pixels apresentam igual influência no reconhecimento da imagem. Algoritmos computacionais para reconhecimento de texturas têm sido amplamente investigados na literatura, tanto para aumentar a acurácia e confiabi-lidade do processo de classificação quanto para reduzir o tempo computacional. A proposta apresentada neste trabalho visou desenvolver descritores locais de imagens de texturas por meio de um processo baseado na teoria de aprendizado automático, mais especificamente, empregando máquinas de aprendizado extremo. A metodologia proposta explora o uso dessas máquinas tanto no domínio original da imagem quanto sobre uma transformação baseada em vizinhança. Propõe-se também um método na direção inversa, isto é, usando máquinas de aprendizado extremo para formular uma transformada da imagem seguindo-se da extração de descritores locais sobre essa transformada. Outra solução explorada é o uso de uma operação alternativa para o produto interno associado ao algoritmo de aprendizado extremo, baseando-se em operadores morfológicos da álgebra min-max. Os algoritmos desenvolvidos foram aplicados em imagens médicas, na identificação de subtipos de câncer de pulmão. Os resultados obtidos tanto na aplicação médica quanto em bases de imagens de benchmark mostraram-se promissores, confirmando um aumento na acurácia da

classificação em várias situações.

Palavras-chave: Máquinas de Aprendizado Extremo, Reconhecimento de Texturas, Descritores Locais, Imagens Médicas.

(7)

Abstract

Image classification is one of the most important tasks in computer vision. An example of images that have great application in practice are texture images, in which all pixels have an equal influence for image recognition purposes. Computational algorithms for texture recognition have been extensively investigated in the literature, both to increase the accuracy and reliability of the classification process as well as to reduce computational time. The proposal presented in this work aimed to develop local textural image descriptors through a process based on automatic learning theory, more specifically, using extreme learning machines. The proposed methodology explores the use of these machines both in the original image domain and in a neighborhood-based transformation. A method is also proposed in the reverse direction, that is, using extreme learning machines to formulate an image transform followed by the extraction of local descriptors over that transform. Another solution explored here is the use of an alternative operation for the inner product associated with the extreme learning algorithm, based on morphological operators of the min-max algebra. The developed algorithms were applied to medical images, in the identification of lung cancer subtypes. The results obtained both in the medical application and in benchmark databases were promising, confirming an increase in the accuracy of the classification in several situations.

Keywords: Extreme Learning Machines, Texture Recognition, Local Descriptors, Medical Images.

(8)

Sumário

1 INTRODUÇÃO . . . . 10

1.1 Objetivos . . . 12

2 REVISÃO BIBLIOGRÁFICA . . . . 16

3 MÁQUINAS DE APRENDIZADO EXTREMO . . . . 20

3.1 Descrição . . . 20

3.1.1 Pseudo-Inversa Moore-Penrose . . . 22

3.1.2 Resultados Teóricos: Aproximação Universal . . . 24

4 BASE METODOLÓGICA . . . . 26

4.1 Descritores de Textura Baseados em ELM . . . 26

4.2 Descritores da imagem em outros espaços . . . 28

4.2.1 Padrões Locais Binários . . . 28

5 METODOLOGIA PROPOSTA . . . . 31

5.1 ELM sobre a transformada LBP . . . 31

5.2 ELM com LBP na saída . . . 32

5.3 Transformação ELM . . . 33

5.4 ELM Morfológico . . . 35

5.5 Uso de Variantes Mais Elaboradas de ELMs: Regressão Ridge 38 5.6 Aplicações . . . 39

6 ANÁLISE ASSINTÓTICA . . . . 40

7 EXPERIMENTOS EM BASES DE BENCHMARK . . . . 46

7.1 Bases de Benchmark . . . 47

7.1.1 Texturas UMD . . . 47

7.1.2 Texturas UIUC . . . 48

(9)

7.2 Resultados e Experimentos . . . 49

7.2.1 Resultados Textura UMD . . . 50

7.2.2 Resultados Texturas UIUC . . . 57

7.2.3 Resultados na Base KTHTIPS-2b . . . 61

7.3 Observações Finais sobre as Bases de Benchmark . . . 66

8 APLICAÇÃO EM IMAGENS MÉDICAS . . . . 70

8.1 Câncer de Pulmão . . . 70

8.2 Imagens de Textura de Câncer de Pulmão . . . 71

8.3 Resultados na Base de Imagens Médicas . . . 72

8.3.1 Normal versus Câncer . . . 73

8.3.2 Pequenas Células versus Não Pequenas Células . . . . 78

8.3.3 Adenocarcinoma versus Epidermoide . . . . 81

8.3.4 Normal versus Adenocarcinoma versus Epidermoide versus Pequenas Células . . . 84

8.4 Observações Finais . . . 88

9 CONSIDERAÇÕES FINAIS . . . . 93

(10)

10

1 Introdução

A visão computacional (SZELISKI, 2010) é uma das áreas em destaque da ciência moderna, fomentando assim um grande número de estudos na literatura, tanto teóricos quanto de novas formas e áreas de aplicação, que vão desde o reconhecimento de padrões em imagens médicas (SENGUPTA et al., 2020) até carros autônomos (ZHOU et al., 2019), entre muitos outros.

Dentro da visão computacional, um tipo de problema que tem grande interesse prático é o reconhecimento de imagens de texturas. Estas imagens, também chamadas de texturas visuais, não possuem uma definição formal de consenso na literatura, mas podem ser consideradas intuitivamente como sendo aquelas em que todos os pixels contribuem de maneira igualitária para sua análise, ou ainda, em que a distribuição estatística de padrões destes pixels é o fator preponderante em sua representação. Embora o contexto original dessas imagens esteja frequentemente associado a amostras de materiais, os algoritmos desenvolvidos para essas tarefas encontram hoje um vasto campo de aplicação. Imagens médicas microscópicas, sobretudo de tecidos ou núcleos celulares, são um bom exemplo de cenário em que técnicas de análise de texturas costumam ser efetivas.

Como visa automatizar tarefas usualmente executadas por humanos através de seu sistema visual, a visão computacional acaba sendo uma área de estudo bastante complexa e multidisciplinar, envolvendo conceitos da computação, da matemática, da estatística, da física, etc. A grosso modo, pode-se dizer que um sistema de visão computacional comumente combina técnicas de duas grandes áreas: análise de imagens e inteligência computacional.

Assim como a própria visão computacional, a inteligência computacional (ou artificial) é também uma área de desenvolvimento tecnológico que tem tido grande destaque nos últimos anos. Os algoritmos que mais têm se destacado nesta área são aqueles baseados na chamada “teoria do aprendizado automático” (HASTIE et al., 2001), em que existe um processo de treinamento no qual o algoritmo “aprende” a executar tarefas complexas a partir do feedback dado por um agente externo

(11)

Capítulo 1. Introdução 11

(normalmente um especialista humano) para aquela mesma tarefa. Entre os métodos nesta linha, as máquinas de aprendizado extremo (sigla ELM de extreme learning machine em inglês) (HUANG et al., 2006) têm chamado atenção na literatura, principalmente devido à sua alta eficiência computacional e pelo processo exato e de passo único (não iterativo) que é usado no treinamento, possibilitado pelo uso de uma ferramenta matemática conhecida da teoria de matrizes: pseudo-inversa de Moore-Penrose (GOLUB; LOAN, 2013).

Embora o algoritmo original dos ELMs possa ser empregado em classificação de imagens, o seu dado de entrada é unidimensional, o que exige que a imagem seja transformada em um vetor e deste modo perca a relação existente entre pixels vizinhos, informação esta que é sabidamente crucial, especialmente para a representação de texturas. Deste modo, parte-se neste trabalho da metodologia desenvolvida em (SÁ JUNIOR; BACKES, 2016), na qual um ELM é usado para extrair descritores locais da imagem e estes descritores podem então, por sua vez, ser classificados por métodos tradicionais como máquinas de vetores de suporte (VAPNIK, 2000), análise discriminante linear (HASTIE et al., 2001), florestas aleatórias (BREIMAN, 2001), etc.

A metodologia em (SÁ JUNIOR; BACKES, 2016) foca diretamente no pixel da imagem e usa o algoritmo clássico de redes neurais feed-forward adotado nas máquinas de aprendizado extremo, de modo que ela poderia se beneficiar de uma análise em um nível mais abstrato, em que a aplicação do algoritmo se dá sobre representações locais da imagem de textura, ou ainda de novas variantes do algoritmo de rede neural adotado.

Neste sentido, este estudo aplica uma metodologia baseada em (SÁ JUNIOR; BACKES, 2016), porém propondo algumas variantes. Primeiramente, o algoritmo ELM local não é aplicado diretamente sobre o pixel, mas sim sobre padrões locais de textura. Para este propósito, são usados aqui os padrões locais binários (sigla LBP de local binary patterns em inglês) (OJALA et al., 2002), tanto em função de sua simplicidade de implementação e interpretação quanto por seu baixo custo computacional. Outra proposta apresentada neste trabalho é a chamada transfor-mação ELM, a qual vai na direção oposta da primeira abordagem. Assim, a rede

(12)

ELM treinada a partir da imagem original com um número reduzido de neurônios é usada para reconstruir essa imagem, porém, adicionando um grau de compressão, já que a reconstrução não é exata. Com isso, temos uma imagem que se assemelha à original no sentido de que ambas são geradas pela mesma rede ELM, mas, ao mesmo tempo, remove detalhes e ruídos desnecessários que poderiam comprometer a eficiência da generalização do algoritmo para um conjunto de imagens de teste. Outro estudo realizado neste projeto envolve o uso de neurônios morfológicos, como descrito em (SUSSNER; CAMPIOTTI, 2020). Por fim, uma análise sobre o impacto de um processo de regularização sobre o ELM foi também analisado para efeitos de reconhecimento de texturas.

Além de investigar a eficácia do método proposto na classificação de imagens de texturas e comparar com o desempenho de outros algoritmos no estado-da-arte, também foi realizado um estudo matemático do funcionamento destes descritores baseados em ELM. O fato de os ELMs serem baseados em uma operação matemá-tica conhecida, direta e relativamente simples, permite, por exemplo, que estudos assintóticos acerca da evolução do algoritmo sejam realizados.

1.1 Objetivos

O algoritmo de ELM utilizado neste trabalho baseia-se em uma rede neural com três camadas: entrada, oculta e de saída (HUANG et al., 2006). Os parâmetros da camada de entrada são organizados em um vetor coluna para cada amostra (que compõem uma matriz X quando a base toda é analisada). Na ligação entre a camada de entrada com a oculta, cada elemento da primeira camada é conectada com todos os neurônios da segunda, possuindo esta ligação um fator multiplicativo chamado de peso (matriz W ). De modo similar, existem pesos entre a camada oculta e a de saída (matriz M ) e, por fim, a resposta dos neurônios da camada de saída são organizadas

na matriz Y .

Na aplicação do algoritmo ELM em extração de vetores de características em (SÁ JUNIOR; BACKES, 2016), os autores apresentam a seguinte sequência: dada a matriz representando uma imagem digital, uma submatriz S , chamada de

(13)

“máscara” e usualmente bem menor do que a imagem original, percorre essa imagem coletando dois tipos de dados, o valor do pixel central sob S, que é colocado na matriz Y (saída), e dos pixels em volta (com determinado raio e seguindo uma sequência pré-determinada), que são atribuídos então a um vetor coluna na matriz X (amostra). Com isso, é possível aplicar o algoritmo ELM sobre a imagem bidimensional e o vetor de pesos aprendidos pela rede corresponde ao vetor de descritores daquela imagem. As metodologias propostas neste estudo baseiam-se em modificações deste algoritmo para extrair descritores da imagem, bem como na combinação entre diferentes possibilidades.

A primeira abordagem apresentada baseia-se na utilização de uma transfor-mada aplicada sobre a imagem original antes da aplicação efetiva do algoritmo ELM, visando assim detectar novos padrões na relação entre os pixels. Neste trabalho, foram usados padrões locais binários (LBP) para que na sequência houvesse a aplicação do ELM resultando no vetor de descritores. Deste modo, tanto os dados de entrada do modelo ELM (matriz X) quanto de saída (vetor Y ) foram modificados para conter os códigos LBP associados a cada pixel, em vez do valor direto do pixel como na solução original em (SÁ JUNIOR; BACKES, 2016).

Uma segunda variante proposta neste projeto é o que chamamos de “transfor-mação ELM”. Nesta, o algoritmo ELM em (SÁ JUNIOR; BACKES, 2016) é aplicado sobre a imagem gerando um vetor de pesos (descritores). Na sequência, o mesmo algoritmo é executado novamente sobre a imagem, porém agora os pesos aprendidos na etapa anterior dão origem a um novo vetor Y , que por sua vez é usado com o intuito de reconstruir a imagem original. Este procedimento possibilita que cada pixel da imagem reconstruída tenha influência de todos os pixeis vizinhos na imagem original. Ao final, são extraídos descritores LBP da imagem reconstruída. Note-se que esta segunda abordagem pode ser considerada como seguindo o caminho inverso da primeira: antes os descritores ELM eram calculados a partir dos códigos LBP, agora os descritores LBP são calculados a partir da transformada ELM.

Ainda na linha de combinações entre ELM e LBP, uma terceira abordagem consiste em usar descritores LBP apenas na saída da rede ELM (vetor Y ), enquanto que as os vetores que compõem a matriz de entrada X (vizinhos do pixel de referência)

(14)

continuam sendo obtidos diretamente a partir da imagem original.

Por fim, propõe-se a utilização de uma variante morfológica para a rede neural associada ao ELM. Neste caso, em vez da operação de soma de produtos, tipicamente executada em um neurônio clássico, usa-se uma operação de máximo (ou mínimo) de somas (ou produtos), operação essa que está embasada na chamada “álgebra min-max” e que generaliza operadores da morfologia matemática. Este procedimento tem sido utilizado como classificador na literatura (SUSSNER; CAMPIOTTI, 2020) e no presente trabalho aplicamos essa solução para extrair descritores de texturas.

Na Figura 1 temos um diagrama geral das metodologias apresentadas para extração de descritores de uma imagem de textura.

Imagem Algoritmo ELM Vetor de descritores

METODOLOGIA ORIGINAL (JUNIOR; BACKES, 2016)

METODOLOGIA PROPOSTA

Imagem LBP Algoritmo ELM Vetor de descritores

Imagem Transformada ELM LBP Vetor de descritores

Imagem ELM Morfológico Vetor de descritores

Imagem LBP _{LBP apenas na saída}Algoritmo ELM com Vetor de descritores

Figura 1 – Metodologia proposta para extração de descritores de imagens.

Para fins de comparação, as metodologias propostas foram testadas em três bases de imagens de benchmark, que possuem resultados de classificação amplamente difundidos na literatura: UMD (LAZEBNIK et al., 2005), UIUC (XU et al., 2009b) e

(15)

KTHTIPS-2b (HAYMAN et al., 2004).

Por fim, a metodologia proposta foi aplicada em um problema prático de grande interesse na área médica, qual seja o da identificação de tipos de câncer de pulmão por meio da imagem microscópica de cortes citológicos (núcleos celulares individuais).

(16)

16

2 Revisão Bibliográfica

Uma das abordagens que têm sido mais bem sucedidas na teoria de aprendizado de máquinas é a de redes neurais. Estas podem ser abstratamente caracterizadas por no mínimo três camadas. A primeira é uma camada de entrada, na qual os dados a serem analisados são inseridos no algoritmo. Em seguida existem uma ou várias camadas intermediárias (ocultas), nas quais são aplicados processamentos básicos baseados em uma soma ponderada do dado de entrada por parâmetros aprendidos pela rede, os chamados pesos e biases, e uma função de ativação não linear. Por fim, uma camada de saída é responsável por fornecer o resultado do processamento da rede.

Um tipo particular de rede neural é a chamada máquina de aprendizado extremo (HUANG et al., 2006). Esta costuma ter apenas três camadas: entrada, oculta e de saída. Esta abordagem se diferencia das demais, sobretudo, pelo fato de que os pesos que conectam a camada de entrada com a oculta são determinados aleatoriamente, enquanto os pesos conectando a camada oculta com a saída são obtidos por um cálculo exato e não iterativo (pseudo-inversa de Moore-Penrose).

As redes neurais, normalmente, são ferramentas de propósito geral e, deste modo, podem ser aplicadas a qualquer tipo de dado, incluindo imagens digitais. Sabe-se, entretanto, que o uso direto de uma rede convencional com imagens exige que a mesma seja transformada em um vetor, o que por sua vez acarreta perda de toda a estrutura local da imagem, que é de importância fundamental em tarefas de reconhecimento. Este comportamento fica ainda mais evidente nas imagens de texturas. Isto levou naturalmente ao desenvolvimento de adaptações da rede clássica para que fossem mais adequadas à análise de imagens, como é o caso das redes convolucionais (HAYKIN, 2001).

Um fenômeno parecido também ocorre com as máquinas de aprendizado extremo. Sua versão original tal como apresentada em (HUANG et al., 2006) não é eficiente para análise de texturas. Porém, a adaptação proposta em (SÁ JUNIOR; BACKES, 2016) mostrou-se bastante adequada para este propósito. Em (SÁ JUNIOR;

(17)

Capítulo 2. Revisão Bibliográfica 17

BACKES, 2016), o valor dos pixels da imagem são usados como saída esperada da rede ELM enquanto que os respectivos vizinhos são usados para compor a entrada. Os pesos aprendidos pelo processo de treinamento desta rede são então empregados como descritores da imagem original.

Estudos visando aumentar a eficiência do algoritmo ELM original bem como aplicá-lo em outros domínios de problemas têm sido apresentados na literatura. Por exemplo, uma adaptação do mesmo algoritmo de ELM apresentado em (SÁ JUNIOR; BACKES, 2016) é proposto em (SÁ JUNIOR et al., 2018) para a extração de vetores de características de imagens binárias de formas ou contornos, alcançando também excelentes resultados na classificação desses objetos.

Em (SÁ JUNIOR et al., 2019), os autores adaptaram o ELM para análise de texturas dinâmicas. Na abordagem proposta, a textura dinâmica é analisada em seus três planos de direção, cada um servindo como uma entrada independente para o algoritmo original. Ao final, os descritores obtidos são concatenados gerando um descritor geral. Os resultados encontrados comprovam a eficácia da metodologia proposta.

No trabalho (BACKES et al., 2019), os autores exploram e extração de vetores de características de imagens de textura com cor. Neste caso, os descritores dos canais R, G e B são concatenados para compor um descritor geral da imagem, que nos experimentos apresentados demonstram bom desempenho na tarefa de reconhecimento de texturas.

Modificações na maneira de calcular as entradas para a matriz X do modelo ELM também são apresentadas na literatura. Enquanto em (SÁ JUNIOR; BACKES, 2016) utiliza-se um sistema de submatrizes sobre a imagem, em (RIBAS et al., 2020) a entrada da rede é calculada com o apoio de uma rede complexa, diminuindo assim o tempo computacional para extrair os descritores de uma imagem e aumentando a porcentagem de acerto na classificação.

Em relação ao vetor Y , na metodologia proposta por (SÁ JUNIOR; BACKES, 2016), cada dado rotulado como saída é composto por apenas um único pixel, que pode ser o centro de uma janela 3 ˆ 3, 5 ˆ 5 ou 7 ˆ 7. Já no trabalho de (JUNIOR; SÁ JUNIOR, 2019), para janelas maiores que 3 ˆ 3, foi usado um conjunto de

(18)

pixels como saída ou uma média entre eles. A primeira abordagem gera um descritor bidimensional, enquanto na segunda o descritor é unidimensional. As taxas de acerto na classificação são melhores do que a versão original do algoritmo.

Essas metodologias têm tido também grande sucesso em aplicações práticas, em problemas do mundo real. Por exemplo, em (SÁ JUNIOR et al., 2018b), o algoritmo de descritores ELM é aplicado à identificação de dois tipos de ligas de titânio. Já em imagens médicas, em (SÁ JUNIOR et al., 2018a) este tipo de solução é empregado na classificação do exame de Papanicolau em normal ou anormal. Em ambas as aplicações, a metodologia de ELM alcança os melhores resultados quando comparada com outros métodos da literatura.

Vale destacar também que o próprio algoritmo original de ELM (HUANG et al., 2006) tem sofrido transformações no decorrer do tempo na literatura. Por exemplo, no trabalho de (HUANG et al., 2017) o ELM é associado com campos receptivos locais e em (SUSSNER; CAMPIOTTI, 2020) é feita a associação de ELMs com redes neurais morfológicas, sendo que ambas as adaptações propiciaram aumento na acurácia do método.

Os mesmos padrões binários aqui explorados em combinação com o modelo ELM de (SÁ JUNIOR; BACKES, 2016) são também associados com o ELM clássico de (HUANG et al., 2006) em (TURKOGLU; HANBAY, 2019). Esse trabalho propõe o uso de uma modificação no LBP original, em que a comparação entre o pixel central e seus vizinhos se dá de diferentes maneiras. Estes procedimentos são utilizados para a extração de descritores da imagem de textura e na sequência o ELM tradicional de (HUANG et al., 2006) é empregado para classificação. Vale destacar aqui que apesar de se tratar também de uma combinação de ELM com LBP, a abordagem difere substancialmente da estudada neste mestrado, já que lá o ELM é um classificador e o LBP um descritor, enquanto aqui o ELM é um descritor e o LBP funciona como uma transformada da imagem.

Trazendo para um contexto mais voltado a aplicações, o reconhecimento de padrões em imagens médicas tem se mostrado uma tarefa em que o uso de ELMs pode ser interessante. O método é utilizado, por exemplo, para a classificação de câncer de pulmão como benigno ou maligno em (WAJID et al., 2016), a partir de

(19)

radiografias do tórax, tendo obtido taxas de acerto acima de 90%. Em (WANG et al., 2018), foram utilizados cinco classificadores diferentes: máquina de vetores de suporte, rede neural probabilística, perceptron de múltiplas camadas, ELM e um algoritmo semi-supervisionado baseado no ELM (SS-ELM). As melhores taxas de acerto foram obtidas com SS-ELM e ELM.

Em (NAYAK et al., 2020), os autores trabalharam com ressonâncias magné-ticas cerebrais. O conjunto de dados é composto por 200 imagens divididas em 5 classes: normal (controle), acidente vascular cerebral, tumor degenerativo, infeccioso e cerebral. Um ELM com duas camadas ocultas e a função de ativação Leaky ReLU é utilizado como classificador. Os autores comparam com outros sete métodos na literatura e obtêm as melhores taxas de acerto com ELM.

Similarmente, ainda na classificação de imagens médicas, mas agora usando ressonâncias magnéticas cerebrais, os autores em (LU et al., 2018) analisam amostras saudáveis e anormais com a utilização de um ELM modificado por um kernel específico e alcançam uma acurácia em torno de 97%.

Já em (MELEKOODAPPATTU; SUBBIAN, 2019), em um estudo de mamo-grafias para identificar calcificação mamária usando um método de ELM híbrido, até 99% de acerto foi obtido.

Em suma, pode-se constatar que abordagens baseadas em ELM têm-se mos-trado eficientes em problemas de visão computacional, tanto para extrair descritores de imagens quando para a classificação em si. Desde a proposta inicial do algoritmo em (HUANG et al., 2006), diferentes modificações têm contribuído cada vez mais tanto do ponto de vista teórico quanto em aplicações a diversos problemas do mundo real.

(20)

20

3 Máquinas de Aprendizado Extremo

Este capítulo apresenta o algoritmo básico das Máquinas de Aprendizado Extremo, discutido em (Pao; Takefuji, 1992; Schmidt et al., 1992; PAO et al., 1994; HUANG et al., 2006).

3.1 Descrição

O modelo de Máquinas de Aprendizado Extremo (ELM) apresentado em (HUANG et al., 2006) baseia-se em uma rede neural com uma camada de entrada, uma oculta e uma de saída. Uma visualização gráfica pode ser observada na Figura 2. Oculta z1 m11 m 1d b1 z2 m12 m_2d b2 .. . zN m1N mdN bN Camada de Entrada x1 w11 w₂₁ w N 1 x2 w12w₂₂ w_N 2 .. . .. . xp w1p w2p wN p Sa´ıda s1 .. . sd

Figura 2 – Representação de um modelo para Máquina de Aprendizado Extremo.

Os pesos que conectam a camada de entrada com a camada oculta são gerados aleatoriamente, enquanto os pesos que conectam a camada oculta com a de saída são calculados pelo conceito matemático de mínimos quadrados (GOLUB; LOAN, 2013). Utilizando uma representação matricial e seguindo o caminho descrito por (SÁ JUNIOR; BACKES, 2016), os seguintes passos são executados.

(21)

Capítulo 3. Máquinas de Aprendizado Extremo 21

Seja X “ rx1, x2, ¨ ¨ ¨ , xTs a matriz de entradas, com xi representando cada

vetor da amostra e pertencendo ao Rp e T o número total de amostras. A última linha da matriz X, é composta com todos os elementos iguais a 1, de modo que quando X é multiplicado pela matriz W , o valor do bias do neurônio correspondente já está sendo somado.

Seja ainda Y “ ry1, y2, ¨ ¨ ¨ , yTs, com yi representando a saída correspondente

de cada vetor da amostra e pertencendo ao Rd.

A matriz W , com todos os pesos entre a camada de entrada e oculta, pode ser representada por:

W “ » — — — — — — – w11 w12 ¨ ¨ ¨ w1p b1 w21 w22 ¨ ¨ ¨ w2p b2 : : : : : wN 1 wN 2 ¨ ¨ ¨ wN p bN fi ffi ffi ffi ffi ffi ffi fl , (3.1)

em que N é o número de neurônios da camada oculta. Cada linha i da matriz W representa os respectivos pesos e o bias associados ao neurônio i da camada oculta.

Após a aplicação da função de ativação σ sobre o produto pontual de W por X, tem-se a matriz Σ, representada por:

Σ “ σpW Xq “ σ ¨ ˚ ˚ ˚ ˚ ˚ ˚ ˚ ˚ ˚ ˝ » — — — — — — – w11 w12 ¨ ¨ ¨ w1p b1 w21 w22 ¨ ¨ ¨ w2p b2 : : : : : wN 1 wN 2 ¨ ¨ ¨ wN p bN fi ffi ffi ffi ffi ffi ffi fl » — — — — — — — — — – x11 x12 ¨ ¨ ¨ x1T x21 x22 ¨ ¨ ¨ x2T : : : : xp1 xp2 ¨ ¨ ¨ xpT 1 1 ¨ ¨ ¨ 1 fi ffi ffi ffi ffi ffi ffi ffi ffi ffi fl ˛ ‹ ‹ ‹ ‹ ‹ ‹ ‹ ‹ ‹ ‚ “ » — — — — — — – σpw1x1` b1q σpw2x1` b2q ¨ ¨ ¨ σpwNx1` bNq σpw1x2` b1q σpw2x2` b2q ¨ ¨ ¨ σpwNx2` bNq : : : : σpw1xT` b1q σpw2xT` b2q ¨ ¨ ¨ σpwNxT` bNq fi ffi ffi ffi ffi ffi ffi fl (3.2)

Na notação acima, tem-se que wi (i “ 1, 2, ..., N ) representa os pesos do neurônio

oculto i, enquanto que bi é o bias associado ao mesmo e xj, j “ 1, 2, ..., T é a amostra

j. Outra notação importante aqui é wixj, que representa o produto interno entre

(22)

Seja então a matriz M dos pesos que conectam a camada oculta com a camada de saída: M “ » — — — — — — – m11 m12 ¨ ¨ ¨ m1N m21 m22 ¨ ¨ ¨ m2N : : : : md1 wd2 ¨ ¨ ¨ wdN fi ffi ffi ffi ffi ffi ffi fl (3.3)

Cada linha i da matriz M está representando os pesos que estão associados ao neurônio de saída si. Com isto, o problema de determinar a matriz de pesos M acaba

recaindo na solução do sistema linear:

M Σ “ Y. (3.4)

O sistema acima pode ser resolvido, por exemplo, com a utilização do método de mínimos quadrados, cuja solução pode ser representada por

M “ Y Σt`ΣΣt˘´1. (3.5)

Cabem aqui algumas observações sobre os valores numéricos dos pesos que conectam a camada de entrada com a camada oculta da rede. De acordo com (HUANG et al., 2006), estes valores podem ser determinados aleatoriamente. Já em (SÁ JUNIOR; BACKES, 2016), os autores trabalharam com números pseudo aleatórios. Neste trabalho foram utilizados números aleatórios gerados a partir de uma distribuição normal1 com média zero e desvio padrão um.

As matrizes X e Y também foram alteradas, como será visto em seguida, considerando-se o valor dos pixels da imagem original. Ambas foram normalizadas para valores entre 0 e 1, com a multiplicação dessas matrizes por um fator 1{255.

3.1.1 Pseudo-Inversa Moore-Penrose

A matriz pseudo-inversa de Moore-Penrose (MOORE, 1920; PENROSE, 1955) visa generalizar o conceito clássico de matriz inversa. Por exemplo, dado o sistema linear Ax “ b, com Anˆn PRnˆRn, x e b pertencendo ao Rn, se A é não singular, 1 _{Foi utilizado o comando do Python numpy.random.normal com seed = 1.}

(23)

então a solução do sistema linear é única, representada por x “ A´1_{b, sendo A}´1 _a

matriz inversa de A.

Consideramos um sistema linear Ax “ b com Amˆn PRmˆRn, m ě n, x P Rn e b P Rm.

De acordo com o teorema da decomposição em valores singulares (SVD na sigla em inglês) (WATKINS, 2002), para uma matriz A do sistema linear anterior, se A ‰ 0, então existem matrizes U P RmˆRm e V P RnˆRn ortogonais tais que:

A “ U DVt, em que a matriz D é diagonal com a seguinte forma:

D “ » — — — — — — — — — — — — — — — – d1 d2 . .. dr 0 . .. 0 fi ffi ffi ffi ffi ffi ffi ffi ffi ffi ffi ffi ffi ffi ffi ffi fl d1 ě d2 ě ¨ ¨ ¨ ě dr ą 0, D P RmˆRn e r é o posto da matriz A.

A matriz pseudo-inversa de A é definida então por: A: “ V D:Ut, com D: P RnˆRm: D: “ » — — — — — — — — — — — — — — — – 1{d1 1{d2 . .. 1{dr 0 . .. 0 fi ffi ffi ffi ffi ffi ffi ffi ffi ffi ffi ffi ffi ffi ffi ffi fl

(24)

Uma das aplicações mais populares do conceito de pseudo-inversa encontra-se no seguinte resultado (WATKINS, 2002):

Teorema 1. Considere A P Rm ˆRn, b P Rm e x P Rn, se a norma mínima do

problema satisfaz

k b ´ Ax k2“ min

w P Rnk b ´ Aw k2, então x “ A:_b.

Utilizando-se o Teorema 1, uma solução para a Equação 3.4 pode ser expressa por:

M “ Y Σ:_. _(3.6)

3.1.2 Resultados Teóricos: Aproximação Universal

Na sequência, são apresentados alguns resultados teóricos relacionados aos métodos matemáticos envolvidos com o modelo de máquinas de aprendizado extremo (HUANG et al., 2006).

Teorema 2. Seja uma rede neural "feedforward" de camada oculta única, com T neurônios na camada oculta e uma função de ativação σ :_{R ÝÑ R infinitamente} diferenciável em qualquer intervalo, para T amostras distintas arbitrárias pxi, yiq,

com xi PRp e yi P Rd, para qualquer wi P Rp e bi PR escolhidos aleatoriamente de

acordo com qualquer distribuição de probabilidade contínua. Então, com probabilidade 1, a matriz Σ, de saída da camada oculta da rede, é inversível e existe β tal que k Σβ ´ Y k“ 0.

A demostração do teorema acima encontra-se em (HUANG et al., 2006). De acordo com este resultado, se o número de neurônios na camada oculta for igual ao número de colunas de X, pode-se encontrar uma matriz Σ inversível que seja capaz de ajustar os valores dos pesos e bias a qualquer entrada e saída propostas. Trata-se de um legitimo resultado de “aproximação universal” para ELMs.

Porém, é muito comum que o número de neurônios na camada oculta seja menor do que o necessário para satisfazer o teorema de modo estrito, principalmente

(25)

por uma questão prática de eficiência computacional. Neste caso, pode-se recorrer ao resultado abaixo.

Teorema 3. Dados ε ą 0 e a função de ativação σ : R ÝÑ R infinitamente diferenciável, existe ˜T ď T tal que, para um número T arbitrário de amostras distintas pxi, yiq, em que yi P Rp e yi P Rd, para qualquer wi e bi escolhidos aleatoriamente

de _Rp e _{R, respectivamente, de acordo com qualquer distribuição de probabilidade} contínua, então, com probabilidade 1, k Σ_{T ˆ ˜}_Tβ_{T ˆd}˜ ´ YT ˆdkď ε.

A prova também encontra-se em (HUANG et al., 2006).

No próximo capítulo, apresenta-se uma explicação detalhada de como o algoritmo de ELM pode ser usado na extração de descritores locais de uma imagem.

(26)

26

4 Base Metodológica

Neste capítulo são descritos os algoritmos que servem como base para o desenvolvimento da metodologia proposta, a saber, a metodologia ELM para a extração de descritores de imagens de textura, tal como apresentado em (SÁ JUNIOR; BACKES, 2016), e os padrões locais binários apresentados em (OJALA et al., 2002).

4.1 Descritores de Textura Baseados em ELM

A utilização do algoritmo ELM, conforme descrito no capítulo 3, para extrair descritores de uma imagem, implicaria em transformá-la em um vetor coluna, remo-vendo assim as relações entre um pixel e sua vizinhança, sendo que em imagens de um modo geral e especialmente as de textura, sabe-se que estes padrões de vizinhança locais apresentam importância crucial na descrição das mesmas.

Diante deste fato, recomenda-se que as Máquinas de Aprendizado Extremo quando empregadas no reconhecimento de imagens de texturas sejam devidamente adaptadas. Um exemplo eficiente de adaptação neste sentido é apresentado em (SÁ JUNIOR; BACKES, 2016), em que as imagens são caracterizadas por meio dos pesos calculados na matriz M descrita no Capítulo 3.

Os valores xj da matriz X de entrada são extraídos a partir de uma máscara

(S) de ordem k ˆ k que varre a imagem sequencialmente de modo que o centro de S passa por todos os pixels da imagem (possivelmente com algum tratamento especial nas bordas). A representação destas máscaras pode ser observada na Figura 3 para valores de k “ 3, 5, 7.

O raio do círculo de pixels na máscara é determinado a partir da distância do pixel central para as bordas das janelas apresentadas na Figura 3. No caso, os raios são ?2,?8 e ?13, respectivamente.

O pixel central de S é adicionado à matriz Y , enquanto que os demais pixels posicionados sobre o círculo destacado na máscara são associados à coluna xj de X,

(27)

Capítulo 4. Base Metodológica 27

Figura 3 – Submatrizes utilizadas como máscaras no algoritmo de ELM para descri-tores locais de texturas (SÁ JUNIOR; BACKES, 2016).

para uma máscara 3 ˆ 3, tem-se:

X “ » — — — — — — – x1 : ¨ ¨ ¨ : x2 : ¨ ¨ ¨ : : : ¨ ¨ ¨ : x8 : ¨ ¨ ¨ : fi ffi ffi ffi ffi ffi ffi fl Y “ ” x9 : ¨ ¨ ¨ : ı (4.1) Os vetores-colunas da matriz X são organizados de modo que para cada subma-triz utilizada adotou-se o seguinte esquema: rotacionou-se o vetor xj “ rx1j, x2j...xi,js,

com i P t8, 12, 16u, e em cada rotação foi efetuada uma operação de produto interno com os vetores de pesos

v3 “ r21.0, 22.0, 23.0, 24.0, 25.0, 26.0, 27.0, 28.0s para k “ 3.

v5 “ r21.0, 21.6, 22.2, 22.8, 23.4, 24.0, 24.6, 25.2, 25.8, 26.4, 27.0, 27.6s para k “ 5 e

v7 “ r21.0, 21.4, 21.8, 22.2, ..., 27.0s para k “ 7.

Ao fazer o produto interno entre os vetores resultando em pint “ xjvi,

utilizou-se o vetor xj cujos índices apresentaram o menor valor de pint.

Para cada imagem são gerados então a matriz X e o vetor Y e o algoritmo do ELM pode então ser aplicado conforme já descrito (neste procedimento foi utilizada a solução apresentada na Equação 3.6). Deste modo, o número de elementos do vetor de descritores é igual a N . Caso seja considerado também para compor tal vetor o bias para o neurônio de saída, este terá comprimento N ` 1.

(28)

ativação e, neste trabalho, foi utilizada uma do tipo sigmoide.

Para cada máscara apresentada na Figura 3, o algoritmo de ELM é aplicado gerando um vetor de pesos com tamanho igual ao número de neurônios da camada oculta acrescido de mais um elemento de bias. A concatenação dos vetores para os três tamanhos de janela resulta no vetor de descritores associado à imagem, o qual é então utilizado para a classificação da textura analisada. Na apresentação dos resultados utilizando esta metodologia, empregou-se a notação ELM para estes descritores.

Este método de extrair descritores de imagens serviu aqui como base para as modificações e estudos desenvolvidos neste trabalho.

4.2 Descritores da imagem em outros espaços

O uso de transformações é algo bastante popular desde os primeiros estudos em análise de texturas. Transformadas como Fourier (PEDRINI; SCHWARTZ, 2008), wavelets (PEDRINI; SCHWARTZ, 2008) e Gabor (IDRISSA; ACHEROY, 2002) são bem conhecidas, tanto em análise como em processamento de imagens, e têm sido ferramentas fundamentais na solução de vários problemas na visão computacional. Nos últimos anos, outras transformações locais como os padrões locais binários (OJALA et al., 2002), textons (LEUNG; MALIK, 2001) e dense-SIFT (LIU et al., 2011a) também ganharam destaque.

4.2.1 Padrões Locais Binários

O método dos padrões locais binários (sigla LBP em inglês) (OJALA et al., 2002), baseia-se em transformar a matriz V da imagem original em uma nova matriz U , em que cada pixel é ajustado de acordo com uma associação com seus pixels vizinhos.

Deste modo, o foco também está na vizinhança de cada pixel da imagem. Neste caso, define-se o parâmetro R como sendo o raio dessa vizinhança e o parâmetro P como o número de pontos amostrados (por interpolação linear) sobre este raio para a construção do código binário.

(29)

Na Figura 4 são apresentados exemplos da vizinhança considerada para diferentes valores de R e P . Para valores pré-especificados de R e P, o valor (código

Figura 4 – Vizinhança usada no LBP para diferentes valores de raio R e amostragem P . Fonte (OJALA et al., 2002)

LBP) associado a cada pixel central é calculado da seguinte forma:

bij “ $ ’ & ’ % 1, se mij ě mc 0, se mij ă mc, (4.2)

em que mc é o valor do pixel posicionado sob o centro da vizinhança e mij são os

valores dos P pixels amostrados sobre a circunferência de raio R. Na próxima etapa, seguindo-se uma ordem pré-definida, a sequência de 0’s e 1’s é usada então para compor um número binário. O pixel uij recebe então como seu código LBP o valor

decimal do número binário associado. A Figura 5 ilustra um exemplo do processo comparativo para R “ 1.

Um exemplo da conversão de número binário para decimal neste caso pode ser visto na Figura 6. A Figura 7 ilustra os códigos LBP gerados a partir de uma imagem da base de dados UMD.

Os descritores LBP de cada imagem são, por fim, obtidos do histograma da matriz U .

(30)

Figura 5 – Código LBP para R “ 1.

Figura 6 – Exemplo da transformação dos pixels em números binários e posterior conversão para número decimal (código LBP).

Figura 7 – À esquerda, imagem original, à direita, imagem após substituição de cada pixel por seu código LBP (transformada LBP).

(31)

31

5 Metodologia Proposta

Este estudo trabalha com cinco abordagens para a extração de descritores de texturas usando ELMs: descritor ELM aplicado sobre padrões locais binários (LBP), transformada ELM, descritores de ELM usando LBP apenas na saída da rede,

descritores ELM morfológicos e regressão ridge.

5.1 ELM sobre a transformada LBP

Esta abordagem explora o uso de transformações/representações locais como entrada do modelo de geração de descritores locais por ELM. Sabe-se que tais transformações oferecem novas perspectivas sobre a textura que a imagem original não consegue representar. Um exemplo bem ilustrativo deste fato é que o simples histograma de uma imagem de textura não consegue discriminar dois materiais diferentes, porém, se este mesmo histograma for extraído de um mapa de padrões binários (LBP), estes podem ser discriminados por medidas simples de diferença entre histogramas (distância chi-quadrado, por exemplo) (Ojala et al., 2002).

O método de extração dos descritores ELM a partir de uma transformada LBP é esquematizado na Figura 8:

Imagem LBP Algoritmo ELM Vetor de descritores

Figura 8 – ELM aplicado sobre a transformada LBP.

Após a entrada da imagem no algoritmo, aplica-se uma transformada LBP, como descrito na Seção 4.2.1, isto é, cada pixel na imagem original é substituído pelo código LBP (decimal) correspondente. Neste trabalho, usou-se R “ 1 e P “ 8 para essa transformação. Na sequência, o algoritmo de ELM é aplicado gerando assim o vetor de descritores da imagem. Para o número de neurônios na camada oculta da rede do modelo ELM foram testados os valores N “ t9, 19, 29, 39, 49, 59u.

(32)

Capítulo 5. Metodologia Proposta 32

Nessa abordagem, existe uma transformação em todos os pixels da imagem, como ilustrado na Figura 7. Cada elemento na transformada LBP possui uma relação associada a uma determinada vizinhança dos pixels correspondentes na imagem original, causando assim mudança nos valores dos dados das matrizes X e Y quando comparados com o ELM original apresentado na Seção 4.1.

O uso desta nova configuração torna possível a obtenção de um descritor de textura com outra perspectiva sobre a imagem original, contribuindo assim para o enriquecimento do vetor de características e potencial aumento na acurácia do processo de classificação. Na apresentação dos resultados, foi adotada a notação ELMLBP para esta solução proposta.

5.2 ELM com LBP na saída

A segunda abordagem proposta baseia-se também em combinar o algoritmo ELM com LBP (ELM+LBP), porém agora usando códigos LBP apenas na saída da rede ELM, mantendo a entrada a partir dos pixels da imagem original. Deste modo, a configuração do vetor Y no algoritmo ELM foi alterada e um esquema do modelo pode ser observado na Figura 9.

(33)

Assim como na metodologia originalmente proposta em (SÁ JUNIOR; BAC-KES, 2016), a matriz X é formada diretamente a partir dos valores dos pixels da imagem de textura analisada. Porém, o vetor Y , em vez do valor do pixel central da submatriz, agora recebe o código LBP decimal correspondente ao pixel cujos vizinhos são armazenados na coluna xj da matriz de entrada.

Neste procedimento, portanto, temos a combinação do LBP com o ELM em uma só ponta do processo, ou seja, na saída, diferentemente da metodologia na Seção 4.2 em que ambas as partes da rede são alteradas. Na seção de resultados, esta abordagem é representada pela notação ELM ` LBP .

5.3 Transformação ELM

Quando o vetor de pesos do modelo ELM de uma imagem é calculado, todos os pixels da imagem contribuem para a construção deste vetor, já que para este cálculo o algoritmo percorre a imagem com uma submatriz e organiza os dados em amostras de entrada (pixels vizinhos) e saída (pixel central). Essa ideia de explorar a vizinhança dos pixels e a forma como esta se relaciona com o pixel central é amplamente explorada em transformações de imagens na literatura. E esta é a motivação para a proposta aqui do que chamamos de “transformação ELM”.

Esse algoritmo funciona na seguinte sequência: primeiramente é aplicado o ELM tal como descrito na Seção 4.1 sobre a imagem original. Dessa forma, calcula-se o vetor de pesos (vp). Na segunda etapa, o ELM é usado como preditor, ou seja,

aplicamos o algoritmo tendo como entrada as vizinhanças da imagem original, mas utilizando os valores do vetor vp entre a camada oculta e de saída. Por fim, os

valores da saída da rede são usados como valor do pixel correspondente na imagem transformada, gerando dessa forma uma reconstrução da imagem original em que cada pixel recebe influência direta de toda a sua estrutura de vizinhança.

Um exemplo visual desta transformação de imagem é apresentado na Figura 10. Nela foi variado o raio do ELM e o número de neurônios na camada oculta. Quanto maior o raio, mais se percebe um embaçamento (blurring) na imagem original após a transformada ELM.

(34)

Quando aplicado o ELM sobre a imagem, pela própria construção do algoritmo, os pixels das bordas não são armazenados na matriz Y . Com isto, a nova imagem após a transformação ELM fica menor do que a original.

(a) Imagem original.

(b) r=?2 e 3 N. (c) r=?8 e 3 N. (d) r=?13 e 3 N.

(e) r=?2 e 6 N. (f) r=?8 e 6 N. (g) r=?13 e 6 N.

(h) r=?2 e 9 N. (i) r=?8 e 9 N. (j) r=?13 e 9 N.

Figura 10 – Aplicação da Transformada ELM em uma imagem, com variação no raio r e no números de neurônios N da camada oculta do ELM.

Conforme aumenta-se o número de neurônios da camada oculta, a imagem transformada tende ao seu estado original, fato este esperado pelo menor erro na aplicação do método de mínimos quadrados no ELM. Já com número reduzido de neurônios, especialmente para N “ 3, a degradação nos pixels se torna visível. O aspecto visual se torna similar ao de uma imagem altamente compactada por algum formato com perda, como JPG por exemplo.

(35)

A partir da imagem transformada, pode-se aplicar qualquer operação de processamento ou análise de imagens. Aqui, em particular, usa-se o algoritmo LBP para obter-se o vetor de características para a posterior classificação dessas imagens. Um esquema geral deste modelo está representado na Figura 11. Nas tabelas com os resultados da classificação, foi utilizada a notação LBPELM para esse método.

Imagem Transformação ELM LBP Vetor de descritores

Figura 11 – Transformada ELM.

Para a aplicação desta nova abordagem, é necessário que se definam os parâmetros tanto do ELM quanto do LBP. Nos testes realizados nas seções de resultados, chegou-se empiricamente a configurações do ELM com máscara 3 ˆ 3 e raio ?2 em todos os casos. Para o número de neurônios na camada oculta foram testados N “ t3, 6, 9, 19, 29, 39, 49, 59u. Em todos os casos, usou-se uma função de ativação sigmoide. Para o LBP foi usado R “ 1 e P “ 8.

5.4 ELM Morfológico

Em (SUSSNER; CAMPIOTTI, 2020), os autores trabalham com a adaptação de uma rede neural morfológica para o ELM clássico, tal como proposto em (HUANG et al., 2006). O método é chamado de perceptron morfológico/linear híbrido (sigla HMLP, do inglês hybrid morphological/linear perceptron). Entre as vantagens das máquinas de aprendizado extremo neste tipo de metodologia, destaca-se o fato de que o algoritmo baseado em mínimos quadrados elimina o problema da ausência de diferenciabilidade nas redes morfológicas. O modelo ELM torna-se assim uma ferramenta ao mesmo tempo simples e poderosa para implementações de arquiteturas morfológicas, permitindo assim tanto seu estudo do ponto de vista teórico quanto a exploração desse tipo de abordagem na prática.

Destacaremos alguns conceitos matemáticos explorados nessa abordagem. Definindo-se um poset L, uma rede completa M e X Ď L, como descritos em (SUSSNER; CAMPIOTTI, 2020), uma erosão é um operador : L Ñ M que comuta

(36)

com a operação mínimo:

pľXq “ľpXq

Já a dilatação δ : L Ñ M comuta com a operação máximo: δpłXq “łδpXq

Anti-erosão e Anti-dilatação são operadores ¯, ¯_{δ : L Ñ M, respectivamente definidos} por:

¯

pľXq “ł¯pXq ¯

δpłXq “ľ ¯δpXq

O simbolo ^ representa o mínimo enquanto _, o máximo.

Um exemplo da aplicação de erosões e dilatações morfológicas em processa-mento de imagens pode ser observado na Figura 12. Neste trabalho, a metodologia

(a) Imagem origi-nal.

(b) Erosão. (c) Dilatação.

Figura 12 – Operações morfológicas em uma imagem binária. Fonte:(BRADSKI, 2000).

descrita em (SUSSNER; CAMPIOTTI, 2020) é generalizada para a extração de descritores locais de uma imagem de textura. Um esquema geral de ELM morfológico é apresentado na Figura 13. Nesta figura, o vetor x representa uma amostra de entrada (x P Rp), M é o número de neurônios morfológicos e L indica o número de neurônios lineares (clássicos). Deste modo, o número total de neurônios da camada oculta é representado por N “ M ` L.

Nessa abordagem, além da matriz de pesos W , também são necessárias mais duas matrizes C e D, ambas pertencendo a RpˆRM, e determinadas aleatoriamente de modo que ´cij ď dij.

(37)

Capítulo 5. Metodologia Proposta 37 c1 ^ ¯δd1 .. . cM ^ ¯δdM σpxw1` b1q .. . σpxwL` bLq x1 .. . .. . xp 1 y

Figura 13 – Representação do ELM hibrido/linear, adaptado de (SUSSNER; CAM-PIOTTI, 2020)

Nos neurônios morfológicos, são efetuadas operações de erosão e anti-dilatação (SUSSNER; CAMPIOTTI, 2020), definidas como:

cpxq ^ ¯δdpxq “ p ľ i“1 pxi` ciq ^ p ľ i“1 pdi´ xiq “ p ľ i“1 rpxi` ciq ^ pdi´ xiqs (5.1)

Aqui o símbolo ^ representa o mínimo, x é um vetor-coluna da matriz X de amostras, enquanto que c e d são vetores-colunas das matrizes C e D, respectivamente.

Neste procedimento, a matriz Σ da Equação 3.2 assume a seguinte forma:

Σt“ » — — – c1px1q ^ ¯δd1px1q ¨ ¨ ¨ cMpx1q ^ ¯δdMpx1q σpw1x1` b1q ¨ ¨ ¨ σpwLx1` bLq c1px2q ^ ¯δd1px2q ¨ ¨ ¨ cMpx2q ^ ¯δdMpx2q σpw1x2` b1q ¨ ¨ ¨ σpwLx2` bLq : : : : : : c1pxTq ^ ¯δd1pxTq ¨ ¨ ¨ cMpxTq ^ ¯δdMpxTq σpw1xT` b1q ¨ ¨ ¨ σpwLxT` bLq fi ffi ffi fl (5.2)

Deste modo, chega-se a um sistema idêntico ao da Equação 3.4, o qual pode ser resolvido pelo mesmo procedimento do ELM padrão.

Nos testes de extração de descritores de imagens deste trabalho, foram utili-zadas duas variantes para este método. Na primeira, foram extraídos os vetores de características com nós tanto lineares quanto morfológicos na camada oculta. Por exemplo, para um total de 9 neurônios foram usados 5 lineares e 4 morfológicos, para 19 neurônios podemos ter 10 lineares e 9 morfológicos, e assim sucessivamente. Para esta abordagem foi utilizada a notação ELMM M. Na segunda alternativa, foram

(38)

utilizados apenas nós morfológicos na camada oculta, solução essa aqui representada por ELMmorf.

5.5 Uso de Variantes Mais Elaboradas de ELMs: Regressão

Ridge

Para calcular a solução do sistema linear M Σ “ Y , na Equação 3.5 é necessário calcular uma matriz inversa pΣΣtq´1. Caso Σ apresente multicolinearidade, isto é, colunas linearmente dependentes, ou pelo menos próximas de uma dependência linear, ΣΣt torna-se quase singular e os paramentos de M podem ter variância que não seja a mínima.

Uma das alternativas propostas para este tipo de problema, (CALVETTI et al., 2000; TIKHONOV, 1963) baseia-se em adicionar um fator regularizador de modo a transformar o problema de inversão original no seguinte:

M pΣΣt` γIq “ Y Σt Deste modo, temos a solução:

M “ Y ΣtpΣΣt` γIq´1, com 0 ă γ e sendo I a matriz identidade.

A partir do bom desempenho alcançado pelo algoritmo de ELMs em textura, já em sua versão original, a literatura tem mostrado evoluções que têm contribuído sobremaneira para uma melhor performance (BACKES et al., 2019; RIBAS et al., 2020), especialmente em problemas mais desafiadores como o reconhecimento de imagens de texturas aqui tratado.

Um exemplo nesta linha é o ELM regularizado, em que os pesos são obtidos por um processo de regressão ridge, com parâmetro regularizador γ ą 0, como descrito no Capítulo 6. Além de permitir a obtenção de descritores com menor variação e maior robustez à variação local e ruídos, o estudo destes descritores para diferentes valores de γ é interessante, tanto do ponto de vista teórico quanto prático. Os descritores para uma família de γ podem, por exemplo, ser concatenados, para assim somarem

(39)

forças e produzirem um descritor local ainda mais preciso e robusto. Os resultados encontrados com esta abordagem são aqui representados por ELMridge.

Vale destacar que a utilização de regularização para resolver a Equação 3.4 já tem sido explorada na literatura. A novidade neste trabalho é uma análise do quanto diferentes valores de γ podem influenciar na taxa de acerto.

5.6 Aplicações

A metodologia proposta foi aplicada a um problema prático de grande interesse na área médica, que é a identificação da presença ou não de câncer de pulmão a partir de exames citológicos, bem como a identificação do tipo de câncer presente em cada caso.

O câncer de pulmão está entre os mais letais em todo o mundo, sendo o câncer que mais mata entre homens e o segundo entre mulheres (INCA, 2020) e está também entre os mais agressivos. Particularmente, no caso de um dos tipos deste câncer, o neuroendócrino de pequenas células, 60% das vezes em que este é diagnosticado por técnicas convencionais, já se encontra na fase de metástase, evoluindo muito rapidamente. O diagnóstico e identificação correta do tipo de câncer neste caso é fundamental e o auxílio de ferramentas de visão computacional ao médico patologista tem se mostrado muito promissor.

(40)

40

6 Análise Assintótica

Não há como negar que as redes neurais modernas têm alcançado resultados extraordinários nas mais diversas tarefas. Porém, o que se vê na imensa maioria das vezes é que estas redes “aprendem” a partir de uma gigantesca quantidade de dados para treinamento e de um sistema computacional muito poderoso. Não é exagero dizer que o aprendizado em questão se dá por “força bruta”. Ao mesmo tempo, são raros os estudos que buscam entender melhor os mecanismos de funcionamento de uma rede neural a partir de ferramentas formais de análise matemática. Isto se dá em grande parte pela complexidade destes modelos, contendo muitas vezes dezenas ou até mesmo centenas de camadas. Cabe ressaltar, porém, que estudos deste tipo são imprescindíveis para um avanço melhor direcionado da área.

No caso específico dos ELMs, como já foi discutido, o fato de sua arquitetura típica recair em um sistema cuja solução em tempo de treinamento é exato e direto traz grande vantagem do ponto de vista computacional. Porém, esta característica também traz uma outra implicação bastante interessante, que é a possibilidade de se estabelecer um modelo matemático que responda, ao menos assintoticamente e em termos de distribuições estatísticas, algumas perguntas importantes relativas a problemas deste tipo.

Uma das ferramentas que tem se mostrado mais adequada para uma análise formal deste tipo de modelo é a teoria das matrizes aleatórias. Como já foi descrito, o estado dos neurônios intermediários é definido pelos dados de entrada, assim como também pelos pesos aleatórios, de modo que os próprios estados acabam sendo variáveis aleatórias também. É fato também que ELMs possuem relação com redes neurais aleatórias (GELENBE, 1989), que são tipicamente estudadas na matemática por matrizes aleatórias. Por fim, vale lembrar que dados em geral, estejam eles presentes no conjunto de treinamento ou de teste, são usualmente modelados como variáveis aleatórias que seguem uma determinada distribuição (frequentemente uma Gaussiana).

(41)

Capítulo 6. Análise Assintótica 41

um modelo de regressão linear “ridge” (LOUART et al., 2018) (regularizado). A entrada do ELM será composta por X “ rx1, ¨ ¨ ¨ , xTs P RpˆT e a saída por Y “

ry1, ¨ ¨ ¨ , yTs P RdˆT. Os pesos entre a entrada e a camada escondida são valores

aleatórios representados em uma matriz W P Rnˆp. A função de ativação σ : R Ñ R é não linear é aplicada ponto a ponto sobre matrizes e vetores. O mapa de características na camada intermediária é dado então por Σ ” σpW Xq P RnˆT.

Como um problema clássico de regressão, para cada entrada x P Rp, a saída

z P Rd da rede é dada por

z “ βJ_{σpW xq,}

em que β P Rnˆd é uma matriz que será encontrada no treinamento. No treinamento, com base em X e Y , β é obtida por

arg min_β 1 T T ÿ i“1 }zi´ yi}2` γ}β}2F,

em que γ ą 0 é um fator regularizador. Resolvendo-se este problema de regressão ridge obtém-se β “ 1 TΣ ˆ 1 TΣ J Σ ` γIT ˙´1 YJ, (6.1)

em que IT é a matriz identidade T ˆ T . Uma parte fundamental da Equação (6.1) é

aquela que em seguida será definida como matriz Q: Q ”ˆ 1 TΣ J_{Σ ` γI} T ˙´1 .

Com esta definição, o erro quadrático médio no treinamento pode então ser elegante-mente formulado como

Etreino “ 1 T › ›YJ´ ΣJβ › › 2 F “ γ2 T trpY J Y Q2q.

Já na fase de teste do ELM, dado um conjunto de dados ˆ_{X P R}pˆ ˆT, o erro médio quadrático de teste é

Eteste “ 1 T › › › ˆ YJ ´ ˆΣJ_β›› › 2 F, em que ˆΣ ” σpW ˆXq.

Para viabilizar a análise seguinte, algumas suposições serão necessárias. Pri-meiramente, a matriz W deve ser subgaussiana, isto é, pode-se escrever W “ ϕp ˜W q,

(42)

em que as entradas de ˜W são independentes e geradas por uma distribuição normal padronizada e ϕp¨q é Lipschitz com parâmetro λϕ. A função σ também deve ser

contínua e Lipschitz com parâmetro λσ. Por fim, no limite quando n Ñ 8, γ, λϕ, λσ

e d devem permanecer constantes e 0 ă lim inf

n mintp{n, T {nu ď lim sup_n maxtp{n, T {nu ă 8,

além de lim sup n }X} ă 8, lim sup n max ij |Yij| ă 8.

Bastando apenas as duas primeiras condições como válidas (isto é sem n Ñ 8), o seguinte lema pode ser estabelecido.

Lema 1. Seja Φ uma matriz T ˆ T definida por Φ “ E

”

σ`wJ_X˘J

σ`wJ_X˘ı ,

em que w „ Nϕp0, Ipq. Seja ainda a matriz A PRT ˆT tal que }A} ď 1 e defina-se o

vetor σ ” σ`wtX˘tPRT. Então P ˆˇ ˇ ˇ ˇ 1 Tσ J_{Aσ ´} 1 TtrΦA ˇ ˇ ˇ ˇą t ˙ ď Ce ´ cT }X}2λ2ϕλ2σ min ˆ t2 t2 0 ,t ˙ ,

em que P denota probabilidade e t0 ” |σp0q| ` λϕλσ}X}

c p

T e sendo c e C constantes positivas independentes. Se a terceira condição também valer:

P ˆˇ ˇ ˇ ˇ 1 Tσ J_{Aσ ´} 1 TtrΦA ˇ ˇ ˇ ˇą t ˙ ď Ce´cn minpt,t2q.

Com este lema em mãos, pode-se estabelecer o seguinte teorema, no caso em que as três condições sejam válidas.

Teorema 4. Defina-se a matriz Q por Q ”ˆ n T Φ 1 ` δ ` γIT ˙´1 ,

em que δ é a solução (única) de δ “ 1

TtrpΦQq. Então, para todo ą 0, existe c ą 0 tal que o valor esperado de Q satisfaz

}ErQs ´ Q} ď cn´

1

(43)

Por fim, definindo-se a matriz Ψ “ n

T Φ 1 ` δ,

chega-se ao teorema mais importante desta análise do comportamento assintótico do erro quadrático médio de treinamento.

Teorema 5. Assumindo-se a validade das três condições descritas anteriormente e definindo-se Etreino“ 1 T › ›YJ´ ΣJβ › › 2 F “ γ2 T trpY J Y Q2q Etreino“ γ2 T trY J_{Y Q} « 1 ntrQ 2 1 ´ 1_ntrpΨQq2Ψ ` IT ff Q, então nn1´_pE treino´ Etreinoq Ñ 0 quase certamente.

Toda essa análise pode ser estendida também para a fase de testes. Porém para o propósito deste estudo, em que usam-se ELMs exclusivamente para a extração de descritores locais, o resultado na fase de treinamento é mais útil.

Realizando uma análise dos resultados anteriores, supondo n suficientemente grande, pelo Teorema 2, temos que a parcela Etreino converge assintoticamente para

0. E o fator nn1´ converge para 1 no Teorema 5. Para a parcela Etreino,

1

n tende a 0 e, com isto,

1 ntrQ 2 1 ´ 1 ntrpΨQq 2 Ñ 0 e Etreino satisfaz: Etreino“ γ2 T trY J Y QQ,

Pelo Teorema 4, o valor esperado da matriz Q tende a Q, logo:

Etreino “ γ2 T trY J_{Y QQ Ñ} γ 2 T trY J_{Y QQ “ E} treino

Portanto analisar Etreino e Etreino acaba sendo equivalente.

Nos trabalhos (LOUART et al., 2018) e (LOUART; COUILLET, 2017), os autores utilizam a teoria apresentada anteriormente para analisar parâmetros da rede neural, como o valor de γ, números de neurônios da camada oculta e função de

(44)

ativação. Nas simulações apresentadas pelos autores, são destacadas a variação no valor de γ e diferentes funções de ativação para uma parte dos dados da base MNIST (LECUN et al., 1998).

Neste trabalho de mestrado, foi testada uma versão da teoria da análise assintótica adaptada para o caso da utilização de ELM para a extração de descritores.

Com isto, os dados de entrada para a simulação foram referentes à extração de vetores utilizando uma máscara 3 ˆ 3 em uma imagem de textura. Nos resultados a seguir, usou-se um exemplo de imagem da base de dados UMD (XU et al., 2009b), devido à sua alta resolução. A matriz X do modelo foi composta pelos valores dos pixels vizinhos em relação ao central, que por sua vez formou o vetor Y .

O primeiro objetivo foi analisar o erro de aproximação para diferentes valores de γ. Uma visualização gráfica desta simulação pode ser observada na Figura 14.

A variação de γ foi de 10´4 _{a 100, com os menores valores apresentando o}

menor erro. Com isto, foram adotados valores entre 10´4 _{a 1 para o algoritmo ELM}

com regressão ridge neste trabalho. Normalmente, para a extração de descritores são adotados valores de γ ď 10´1_{, por exemplo em (SÁ JUNIOR et al., 2019) utilizaram}

o valor de 10´3_{, além destes valores próximos de zero, também foi utilizado os valores}

0.5 e 1, para analisar o comportamento da taxa de acerto nas classificações de imagens.

Em uma segunda análise, foi fixado um valor para γ e variou-se o número de neurônios da camada oculta, chegando-se assim aos valores apresentados na Figura 15.

A variação do erro foi pequena, mas a partir de 60 neurônios na camada oculta do ELM a diferença foi menor que 0,005. Estes resultados possibilitam conclusões semelhantes aos encontrados na seção de resultados e servem como indicativo de que o uso de um número muito alto de neurônios na camada oculta aumenta o custo computacional sem acarretar qualquer ganho representativo na descrição da imagem.

A análise tratada nesta seção serviu então como embasamento teórico tanto para o intervalo de valores de γ considerados na regressão ridge quanto para os valores mais adequados para o número de neurônios na camada oculta nos experimentos realizados nos capítulos seguintes.