• Nenhum resultado encontrado

UNIVERSIDADE ESTADUAL DE FEIRA DE SANTANA

N/A
N/A
Protected

Academic year: 2021

Share "UNIVERSIDADE ESTADUAL DE FEIRA DE SANTANA"

Copied!
56
0
0

Texto

(1)

Luan de Oliveira Moreira

UMA ABORDAGEM BASEADA EM REDES PERCEPTRON

MULTICAMADAS E DE FUNÇÕES DE BASE RADIAL PARA A

CLASSIFICAÇÃO DE NÓDULOS MAMÁRIOS

FEIRA DE SANTANA 2012

(2)

UMA ABORDAGEM BASEADA EM REDES PERCEPTRON

MULTICAMADAS E DE FUNÇÕES DE BASE RADIAL PARA A

CLASSIFICAÇÃO DE NÓDULOS MAMÁRIOS

Trabalho de Conclusão de Curso apresentado ao curso de Engenharia de Computação da Universidade Estadual de Feira de Santana, como requisito parcial para a obtenção do título de Bacharel em Engenharia de Computação.

Orientador: Prof. Dr. Matheus Giovanni Pires

FEIRA DE SANTANA 2012

(3)
(4)

Dedico esse trabalho à minha mãe e minha avó que sempre me apoiaram quando precisei e que são um grande exemplo de garra, caráter e respeito, uma prova que o esforço e a disciplina são a base para superar qualquer fronteira. À minha família que sempre esteve ao meu lado apoiando e acompanhando cada conquista e aos meus amigos e colegas que caminharam comigo durante todo esse árduo percurso.

Porque Dele, e por meio Dele, e para Ele são todas as coisas. A Ele, pois, a glória eternamente. Amém!

(5)

Ao professor Matheus Giovanni Pires, pelo compromisso e orientação durante o processo de construção desse trabalho.

À professora Ana Lúcia Maia, que sempre se mostrou disposta a ajudar.

Ao Gabriel Andrade e Weverson Gomes, que fizeram parte de meu grupo de pesquisa e acompanharam o processo de construção desse trabalho, compartilhando experiências sobre as pesquisas realizadas e ajudando no processo de aprendizado.

(6)

Com o objetivo de auxiliar especialistas no diagnóstico de nódulos mamários, este trabalho propõe o desenvolvimento de um sistema baseado em redes neurais artificiais para a classificação de nódulos, mais especificamente usando as redes Perceptron Multicamadas e de Funções de Base Radial. O sistema foi desenvolvido utilizando a tecnologia Java, e possui interfaces gráficas distintas para cada rede. Os testes realizados no sistema foram feitos com o objetivo de encontrar a melhor topologia possível para as redes neurais, visando a melhor generalização para o domínio do problema proposto. A base de dados utilizada para o treinamento e teste das redes neurais chama-se Breast Cancer Wisconsin Database. Os resultados obtidos na classificação são considerados satisfatórios, os quais apresentaram mais de 90% de acerto na classificação para ambas as redes utilizadas no sistema.

Palavras chave: Classificação de Nódulos Mamários, Redes Perceptron Multicamadas,

(7)

In order to assist experts in the breast cancer diagnosis, this work proposes the development of an artificial neural networks based system for classification of nodules, specifically using Multilayer Perceptron and Radial Basis Functions networks. The system was developed using Java technology, and has different graphical interfaces for each network. The tests were performed aiming to find the best possible topology for neural networks. The neural networks' training and testing was performed using the Wisconsin Breast Cancer Database. The classification results were considered satisfactory for both networks used in the system, which presented more than 95% accuracy in classification.

Keywords: Breast Cancer Diagnosis, Multilayer Perceptron, Radial Basis Function Network,

(8)

FIGURA 1.DENSIDADE DA MAMA.FONTE:(INCA,2012). ... 12 FIGURA 2.(A)MAMA DENSA (MULHER COM 21 ANOS DE IDADE).(B)MAMA NÃO DENSA

(MULHER COM 67 ANOS DE IDADE).FONTE:(SANTOS,2002). ... 13 FIGURA 3.NÓDULO NA MAMA.FONTE:(RIBEIRO,2006). ... 14 FIGURA 4.REPRESENTAÇÃO SIMPLIFICADA DE UM NEURÔNIO BIOLÓGICO.FONTE:(FERNEDA,

2006). ... 15 FIGURA 5.MODELO DE UM NEURÔNIO ARTIFICIAL.FONTE:(SILVA ET. AL.,2010). ... 16 FIGURA 6.PRINCIPAIS FUNÇÕES DE ATIVAÇÃO.ADAPTADO DE:(NASCIMENTO,2003). ... 17 FIGURA 7.REDE ALIMENTADA ADIANTE COM UMA ÚNICA CAMADA DE NEURÔNIOS.FONTE:

(HAYKIN,2001). ... 18 FIGURA 8.REDE ALIMENTADA ADIANTE TOTALMENTE CONECTADA COM UMA CAMADA

INTERMEDIÁRIA E UMA CAMADA DE SAÍDA.FONTE (HAYKIN,2001). ... 19 FIGURA 9.EXEMPLO DE UMA REDE NEURAL RECORRENTE.FONTE:(HAYKIN,2001). ... 20 FIGURA 10.EXEMPLO DE UM PROBLEMA LINEARMENTE SEPARÁVEL (ESQUERDA) E UM NÃO

LINEARMENTE SEPARÁVEL (DIREITA).FONTE:PRÓPRIO AUTOR. ... 22 FIGURA 11.REDE PMC COM DUAS CAMADAS INTERMEDIÁRIAS E UMA DE SAÍDA.FONTE:

(HAYKIN,2001, P.186). ... 22 FIGURA 12.CONFIGURAÇÃO TÍPICA DE UMA REDE RBF.FONTE:(SILVA ET. AL.,2010, P.173).

... 24 FIGURA 13.GRÁFICO DE UMA FUNÇÃO GAUSSIANA.FONTE:(SILVA ET. AL.,2010, P.176). .... 26 FIGURA 14.DIFERENÇA ENTRE AS REDES PMC E RBF NA DELIMITAÇÃO DE REGIÕES.FONTE:

(SILVA ET. AL.,2010, P.177). ... 26 FIGURA 15.REGRA DA PARADA ANTECIPADA COM VALIDAÇÃO CRUZADA.FONTE:(HAYKIN,

2001, P.243). ... 28 FIGURA 16.INTERFACE PARA CONFIGURAÇÃO DA REDE PMC.FONTE:PRÓPRIO AUTOR. ... 32 FIGURA 17.GRÁFICO DO ERRO QUADRÁTICO MÉDIO DE UMA PMC APÓS UM TREINAMENTO.

FONTE:PRÓPRIO AUTOR. ... 33 FIGURA 18.RESULTADO GERADO POR UMA PMC.FONTE:PRÓPRIO AUTOR. ... 33

(9)

TABELA 1.DIVISÃO DA BASE DE DADOS BREAST CANCER WISCONSIN. ... 36 TABELA 2.RESULTADOS DOS TESTES COM A PMC USANDO A TÉCNICA DE VALIDAÇÃO CRUZADA COM PARADA ANTECIPADA. ... 36 TABELA 3.RESULTADOS DOS TESTES COM A PMC SEM A TÉCNICA DE VALIDAÇÃO CRUZADA

COM PARADA ANTECIPADA. ... 38 TABELA 4.RESULTADOS DOS TESTES COM A PMC SEM A TÉCNICA DE VALIDAÇÃO CRUZADA,

UTILIZANDO AMOSTRAS ALEATÓRIAS. ... 39 TABELA 5.RESULTADOS DOS TESTES COM A RBF UTILIZANDO A TÉCNICA DE VALIDAÇÃO

CRUZADA COM PARADA ANTECIPADA. ... 41 TABELA 6.RESULTADOS DOS TESTES COM A RBF SEM A TÉCNICA DE VALIDAÇÃO CRUZADA

COM PARADA ANTECIPADA. ... 42 TABELA 7.RESULTADOS COM A REDE RBF SEM A TÉCNICA DE VALIDAÇÃO CRUZADA COM

PARADA ANTECIPADA, COMO O NOVO CONJUNTO DE TREINAMENTO E TESTE. ... 43 TABELA 8.RESULTADOS DOS TESTES COM A RBF SEM A TÉCNICA DE VALIDAÇÃO CRUZADA,

UTILIZANDO AMOSTRAS ALEATÓRIAS. ... 44 TABELA 9.CATEGORIZAÇÃO BI-RADS, QUARTA EDIÇÃO.FONTE:(RIBEIRO,2006). ... 48

(10)

ACR American College of Radiology

BI-RADS Breast Imaging Reporting and Data System CAD Computer Aided Diagnosis

PMC Perceptron Multicamadas RBF Funções de Base Radial RNA Redes Neurais Artificiais

(11)

1 INTRODUÇÃO ... 10

2 FUNDAMENTAÇÃO TEÓRICA ... 12

2.1 IMAGENS MAMOGRÁFICAS E A MAMOGRAFIA ... 12

2.2 REDES NEURAIS ARTIFICIAIS ... 14

2.2.1 Arquiteturas de Redes Neurais Artificiais ... 17

2.2.2 Aprendizado de Redes Neurais Artificiais ... 20

2.2.3 Redes Perceptron Multicamadas ... 21

2.2.4 Redes de Funções de Base Radial ... 23

2.3 TÉCNICA DE VALIDAÇÃO CRUZADA ... 27

2.4 CONSIDERAÇÕES ... 29

3 MATERIAIS E MÉTODOS ... 31

4 RESULTADOS E DISCUSSÕES ... 35

4.1 EXPERIMENTOS COM A REDE PMC ... 35

4.1.1 Experimentos com a rede PMC utilizando a técnica de validação cruzada com parada antecipada ... 35

4.1.2 Experimentos com a rede PMC sem a técnica de validação cruzada com parada antecipada, utilizando apenas um conjunto de padrões para os treinamentos e um para os testes ... 37

4.1.3 Experimentos com a rede PMC sem a técnica de validação cruzada com parada antecipada, utilizando amostras aleatórias para os treinamento e para os testes ... 38

4.2 EXPERIMENTOS COM A REDE RBF ... 40

4.2.1 Experimentos com a rede RBF utilizando a técnica de validação cruzada com parada antecipada ... 40

4.2.2 Experimentos com a rede RBF sem a técnica de validação cruzada com parada antecipada, utilizando apenas um conjunto de amostras para os treinamentos e um para os testes ... 41

4.2.3 Experimentos com a rede RBF sem a utilização da técnica de validação cruzada com parada antecipada, utilizando amostras aleatórias para os treinamentos e para os testes... ... 43

(12)

ANEXO 1 ... 48 REFERÊNCIAS BIBLIOGRÁFICAS ... 49

(13)

1 INTRODUÇÃO

O câncer de mama tem sido uma das principais causas de mortalidade entre as mulheres em toda a parte do mundo (TAHMOUSH, 2007) e no Brasil é o câncer que mais mata mulheres. O câncer de mama é o mais temido pelas mulheres devido à sua alta frequência e, sobretudo, pelos seus efeitos psicológicos, que afetam a percepção da sexualidade e a própria imagem pessoal (RIBEIRO et. al., 2005).

Dentre as formas de se detectar nódulos mamários, os quais podem vir a ser câncer, encontram-se o autoexame e a mamografia. No autoexame são detectados nódulos a partir de 1,5cm a 2 cm. Já a mamografia pode diagnosticar tumores com apenas 1 mm, aumentando as chances de cura em 95%, no caso de serem malignos. Por isso, a mamografia é considerada o exame de maior sensibilidade para o rastreamento do câncer de mama (BALL et al., 2004; RIBEIRO et al, 2005).

De acordo com Ribeiro et al. (2008a), “distorções na interpretação e classificação de lesões suspeitas por especialistas implicam um número maior de biópsias desnecessárias, ou seja, entre 65% a 85% das biópsias de mama são realizadas em lesões benignas”. De cada 100 mulheres submetidas a exames para detecção da presença de nódulos suspeitos de câncer de mama, 80% dos casos apresentam imagens mamográficas que, ao serem analisadas por um radiologista, geram dúvidas para um diagnóstico preciso (GLINGANI e AMBRÓSIO, 2004; MENECHELLI et al., 2010a). Isso pode acarretar em repetições desnecessárias de exames ou a falha no diagnóstico de doenças existentes.

Uma série de fatores influencia na interpretação de imagens mamográficas para um correto diagnóstico, tais como, baixo nível de contraste das imagens, nódulos com muitas variações de formas, tamanhos, contornos e densidade, além de possuírem muita semelhança com a densidade do tecido da mama (MENECHELLI et. al., 2010a). Outros fatores que geram problemas para uma análise precisa das imagens mamográficas são a descalibração do aparelho utilizado para fazer as medidas, a má qualidade das imagens geradas pelos aparelhos, as condições de manipulação e conservação do filme e, em imagens digitais, a digitalização da imagem a ser analisada pelo especialista (RIBEIRO, 2006).

Buscando minimizar todos esses empecilhos e auxiliar na detecção precoce do câncer de mama, vêm sendo desenvolvidos esquemas denominados Computer Aided Diagnosis

(CAD) com o objetivo de auxiliar o radiologista na interpretação das imagens mamográficas

(14)

são sistemas computacionais que auxiliam no diagnóstico de pacientes e podem funcionar como uma segunda opinião aos radiologistas quanto à localização e à natureza dos nódulos mamários (RIBEIRO et. al., 2008a) (STEMBERG, 2010).

Nas últimas duas décadas, diversos trabalhos utilizando técnicas de processamento de imagens, reconhecimento de padrões, visão computacional e inteligência artificial vêm sendo desenvolvidos como parte de esquemas CAD. O estudo realizado por Ribeiro et al. (2006) teve como objetivo desenvolver um classificador baseado na rede neural artificial Perceptron Multicamadas para classificar nódulos mamários, os quais estavam presentes em imagens mamográficas. Esta classificação se baseava no contorno dos nódulos.

Ribeiro et al. (2008b) realizaram um estudo com o objetivo de apresentar um comparativo quanto ao desempenho das redes neurais usadas para a classificação de nódulos mamários. Da mesma forma como em (RIBEIRO et. al., 2006), os nódulos estão presentes em imagens mamográficas e a classificação é baseada nos contornos dos nódulos.

Ribeiro et al. (2010), tendo como objetivo avaliar o comportamento de quatro classificadores, entre eles uma rede Perceptron Multicamadas, para a classificação de imagens com nódulo e imagens normais (sem nódulo).

A partir dos trabalhos supracitados, nota-se um grande interesse na aplicação de Redes Neurais Artificiais no desenvolvimento de esquemas CAD, pois são classificadores que conseguem tratar informações ruidosas e possuem boa capacidade de generalização (aprendizado) (HAYKIN, 2001). Assim, com o objetivo de auxiliar especialistas da área de análise de imagens mamográficas no diagnóstico de nódulos mamários, este trabalho propõe o desenvolvimento e um estudo comparativo entre dois classificadores neurais, um baseado nas Redes Perceptron Multicamadas (PMC) e outro nas Redes de Funções de Base Radial (RBF).

Esta monografia está organizada da seguinte forma. No Capítulo 2 são apresentados os conceitos necessários para o entendimento do trabalho, tais como nódulos mamários e Redes Neurais Artificiais, mais especificamente nas redes Perceptron Multicamadas e de Funções de Base Radial, utilizadas no desenvolvimento deste trabalho. O Capítulo 3 descreve os materiais e métodos e, no Capítulo 4 são mostrados os resultados de seis experimentos com o objetivo de avaliar o desempenho dos classificadores neurais desenvolvidos. Por fim, o Capítulo 5 apresenta as conclusões e discute possíveis trabalhos futuros.

(15)

2 FUNDAMENTAÇÃO TEÓRICA

Neste capítulo serão apresentados os conceitos sobre imagens mamográficas e redes neurais artificiais, com foco nas redes Perceptron Multicamadas e de Funções de Base Radial. A técnica de validação cruzada com parada antecipada, que é uma técnica utilizada para definir a melhor topologia de uma rede neural para um determinado problema, também é detalhada.

2.1 Imagens Mamográficas e a Mamografia

O exame mamográfico possui alta sensibilidade (MUDIGONDA et al., 2000; MUDIGONDA et al., 2001, RIBEIRO, 2006; RIBEIRO et al., 2009), apesar dos estudos evidenciarem perdas entre 10% a 15% dos casos de câncer com tumor detectável ao exame clínico (RIBEIRO, 2006). A sensibilidade do exame de mama não depende exclusivamente do aparelho utilizado para o procedimento de detecção de nódulos, mas também das características da mama provenientes da idade do paciente. Pacientes mais jovens ou que fazem reposição hormonal possuem mamas mais densas, o que pode dificultar a detecção de nódulos mamários em imagens mamográficas (RIBEIRO, 2006). As Figuras 1 e 2 ilustram a diferença nas características de mamas de pessoas mais jovens e mais velhas.

(16)

(a) (b)

Figura 2. (a) Mama densa (mulher com 21 anos de idade). (b) Mama não densa (mulher com 67 anos de idade). Fonte: (SANTOS, 2002).

O rastreamento é a única maneira de detectar e prevenir o câncer de mama precocemente. O instrumento mais efetivo para o diagnóstico precoce é a mamografia (GLINGANI e AMBRÓSIO, 2004; MARCOMINI et al., 2011), a qual pode reduzir em até 23% a taxa de mortalidade, dependendo do estágio em que for descoberta a neoplasia1, pois seu principal objetivo é a detecção de lesões não palpáveis ou verificação de alterações na mama (BORGHESAN et al., 2003; MARCOMINI et al., 2010).

A mamografia possui a vantagem de ser um método não invasivo, com imagens relativamente boas para um rastreamento e que leva um tempo relativamente pequeno para ser feito (RIBEIRO, 2006). As principais lesões identificadas na mamografia são as microcalcificações, um dos primeiros indícios de formação de tumores com grau elevado de suspeita de malignidade, e os nódulos, que são responsáveis por grande parte dos casos de câncer de mama (RIBEIRO, 2008a).

Para que as imagens geradas pelos mamógrafos, que são os aparelhos utilizados nos exames de mamografia, sejam manipuladas computacionalmente, estas devem ser digitalizadas (utilizando scanners) ou o próprio mamógrafo deve possuir tecnologia para gerar as imagens digitais (JÚNIOR, 2009).

1 Neoplasia é o surgimento de tumores devido às mutações genéticas espontâneas ou induzidas por

agentes patogênicos como metais, radiações, radicais livres do oxigênio, entre outros que promovem desordem no ciclo celular, ocorrendo excesso na taxa de proliferação e deficiência nas taxas de morte celular. (FERNANDES e MAFRA, 2005).

(17)

Nódulos em Imagens Mamográficas

Segundo Kopans (2000, apud Ribeiro, 2006, p. 28), “os nódulos são os achados mamográficos encontrados em 39% dos casos de câncer não palpáveis”. Na Figura 3 é apresentado um exemplo de nódulo mamário.

Figura 3. Nódulo na mama. Fonte: (RIBEIRO, 2006).

As principais lesões identificadas na mamografia são as microcalcificações e os nódulos, os quais devem ser analisados de acordo com o tamanho, contorno, limites e densidade (RIBEIRO et al., 2008a).

Segundo Nunes e Schiabel (2000, p.3), “apesar de vários sistemas computacionais estarem sendo desenvolvidos para a detecção precoce do câncer de mama, até 1988, nenhum deles ainda apresentavam resultados suficientemente satisfatórios para aplicação clínica”.

2.2 Redes Neurais Artificiais

Redes Neurais Artificiais (RNA) são modelos computacionais inspirados no cérebro humano e que possuem a capacidade de aquisição e manutenção do conhecimento. Segundo Haykin (2001, p. 28),

Uma rede neural é um processador maciçamente paralelamente distribuído constituído de unidades de processamento simples, que têm a propensão natural para armazenar conhecimento experimental e torna-lo disponível para o uso.

(18)

Segundo Braga et al.(2007, p. 6),

Os neurônios biológicos são divididos em basicamente três partes: o corpo celular, os dentritos e o axiônio, onde cada um possui funções específicas, mas que se completam. De uma forma geral, as partes do neurônio recebem impulsos nervosos, processam ou apenas transmitem a informação para outra parte do neurônio, onde novos impulsos são gerados. Os impulsos são passados de neurônio a neurônio, através do axiônio do neurônio transmissor ao dentrito do neurônio receptor. O ponto de contato entre o axiônio de um neurônio e o dentrito de outro é chamado de sinapse.

A Figura 4 mostra o modelo simplificado de um neurônio biológico.

Figura 4. Representação simplificada de um neurônio biológico. Fonte: (FERNEDA, 2006).

O primeiro modelo artificial de um neurônio biológico foi fruto do trabalho pioneiro de Warren McCulloch e Walter Pitts em 1943, o qual é uma simplificação do que se sabia a respeito do neurônio biológico naquela época.

A descrição matemática de um neurônio artificial resultou em um modelo com N entradas (x1,x2,...,xN), que representam os dendritos, e uma saída y, que representa o axônio.

Para emular o comportamento das sinapses, as entradas dos neurônios têm pesos associados (w1,w2,...,wN), cujos valores podem ser positivos ou negativos, dependendo das sinapses

correspondentes serem inibitórias ou excitatórias. O efeito de uma sinapse particular i no neurônio pós-sináptico é dado por xi wi. Os pesos determinam "em que grau" o neurônio deve

(19)

Um neurônio biológico dispara quando a soma dos impulsos que ele recebe ultrapassa o seu limiar de excitação (threshold). O corpo do neurônio, por sua vez, é emulado por um mecanismo simples que faz a soma dos valores xi wi recebidos pelo neurônio (soma

ponderada), e decide se o neurônio deve ou não disparar comparando a soma obtida ao limiar ou threshold do neurônio. No modelo de McCulloch e Pitts, a ativação do neurônio é obtida através da aplicação de uma "função de ativação", que ativa a saída ou não dependendo do valor da soma ponderada das suas entradas (BRAGA et al., 2007). A Figura 5 ilustra o modelo proposto por Warren McCulloch e Walter Pitts.

x

1

x

2

x

N

Σ

w

1

w

2

w

N

g(.)

...

u

-

θ

Figura 5. Modelo de um neurônio artificial. Fonte: (SILVA et. al., 2010).

Onde u é a soma ponderada definida pela Equação 1:

1 N i i i

u

w x

θ

=

=

(1) g(.) é a função de ativação e θ é o limiar de ativação (threshold) do neurônio.

A Figura 6 apresenta as principais funções de ativação utilizadas em redes neurais artificiais.

(20)

Figura 6. Principais funções de ativação. Adaptado de: (NASCIMENTO, 2003).

2.2.1 Arquiteturas de Redes Neurais Artificiais

As Redes Neurais Artificiais utilizam uma interligação maciça de células computacionais simples denominadas “neurônios” ou “unidades de processamento”. A forma como estes neurônios estão estruturados é chamada arquitetura da RNA.

Segundo Haykin (2001, p. 46),

As redes neurais artificiais podem ser classificadas, segundo sua arquitetura, em três classes fundamentalmente diferentes: redes alimentadas adiante com camada única; redes alimentadas diretamente com múltiplas camadas; e redes recorrentes.

A rede alimentada adiante com camada única é a forma mais simples de uma rede neural artificial em camadas, onde se tem uma camada de entrada e uma camada de saída de neurônios, mas não vice-versa (ver Figura 7). Essa rede é conhecida como estritamente alimentada adiante ou também como acíclica. A designação “camada única” se refere à

(21)

camada de saída e não à camada de entrada, pois esta não realiza nenhum trabalho de processamento computacional (HAYKIN, 2001).

Figura 7. Rede alimentada adiante com uma única camada de neurônios. Fonte: (HAYKIN, 2001).

As redes alimentadas diretamente ou feedforward com múltiplas camadas distinguem-se das redes de camada única por possuírem uma ou mais camadas intermediárias (HAYKIN, 2001). Segundo Haykin (2001, p. 47), “a função dos neurônios ocultos é intervir entre a entrada externa e a saída da rede de uma maneira útil”. Em outras palavras, os neurônios ocultos auxiliam na retirada de informações estatísticas dos padrões de entrada apresentados à rede, fazendo com que esta generalize melhor o conhecimento sobre o domínio do problema.

Em uma rede com camadas intermediárias, as saídas de uma camada da rede servem como entradas para a camada seguinte, até que se chegue à camada de saída da RNA. Uma rede neural é dita “totalmente conectada” quando cada um dos nós de uma camada da rede está conectado a todos os nós da camada adjacente seguinte. Quando alguns elos não são conectados, se diz que a rede é parcialmente conectada (HAYKIN, 2001). A Figura 8 mostra uma rede neural artificial acíclica, totalmente conectada, com uma camada intermediária e uma de saída.

(22)

Figura 8. Rede alimentada adiante totalmente conectada com uma camada intermediária e uma camada de saída. Fonte (HAYKIN, 2001).

A rede neural recorrente ou rede feedback se difere da rede alimentada adiante por ter pelo menos um laço de realimentação que pode consistir, por exemplo, de uma única camada de neurônios onde cada neurônio utiliza seu sinal de saída como entrada para o próprio neurônio ou para toda a camada (HAYKIN, 2001).

A Figura 9 ilustra uma rede recorrente com saída dos neurônios servindo como entrada para a mesma camada neural.

(23)

Figura 9. Exemplo de uma rede neural recorrente. Fonte: (HAYKIN, 2001).

2.2.2 Aprendizado de Redes Neurais Artificiais

Uma das características mais importantes das RNA é a sua capacidade de aprender por meio de exemplos, onde o conhecimento é adquirido através do ajuste das intensidades das conexões entre os neurônios (BRAGA et al., 2007). Segundo Braga et al. (2007, p. 12),

Aprendizado é o processo pelo qual os parâmetros livres de uma rede neural são ajustados por meio de uma forma continuada de estímulos pelo ambiente externo, sendo o tipo específico de aprendizado definido pela maneira particular como ocorrem os ajustes dos parâmetros livres.

O aprendizado de uma rede neural pode acontecer de duas formas: aprendizado supervisionado e não supervisionado (HAYKIN, 2001).

1) Aprendizado Supervisionado: é a forma de aprendizagem onde a rede neural é

exposta a um conjunto de informações (ou padrões) retiradas do ambiente e esta rede conhece, a priori, a resposta desejada para este conjunto. Essa resposta representa a ação ótima a ser realizada pela rede neural. Os parâmetros da rede são ajustados sob a

(24)

influência combinada das informações de entrada e do sinal de erro, que é definido como a diferença entre a resposta desejada e a obtida na saída da rede. O aprendizado supervisionado se aplica a problemas em que se deseja obter um mapeamento entre padrões de entradas e saída (BRAGA et al., 2007).

2) Aprendizado Não-Supervisionado: é a forma de aprendizagem onde não existe uma

resposta desejada durante o processo de aprendizagem da rede. Para aprender, a rede vai ajustando os seus pesos à medida que vai recebendo as informações de entrada (ou padrões de entrada), tentando encontrar similaridade com as informações já apresentadas anteriormente (HAYKIN, 2001). O aprendizado não supervisionado se aplica a problemas que visam a descoberta de características estatisticamente relevantes nos dados de entrada, como, por exemplo, a descoberta de agrupamentos ou classes (BRAGA et al., 2007).

2.2.3 Redes Perceptron Multicamadas

As redes Perceptron Multicamadas (PMC) são redes acíclicas, alimentadas adiante e compostas por uma camada de entrada, pelo menos uma camada neural intermediária e uma camada neural de saída. As redes PMC apresentam poder computacional maior que as redes de única camada, pois estas conseguem tratar problemas não linearmente separáveis (BRAGA

et al., 2007).

Segundo Braga et. al. (2007), uma problema linearmente separável é um problema "cuja solução pode ser obtida através da separação de duas regiões por meio de uma reta". Portanto, para um problema não linearmente separável, é necessário mais de uma reta de separação. A Figura 10 ilustra a diferença entre um problema linearmente separável de um não linearmente separável.

(25)

Figura 10. Exemplo de um problema linearmente separável (esquerda) e um não linearmente separável (direita). Fonte: Próprio autor.

A Figura 11 apresenta uma rede PMC com uma camada de entrada, duas camadas intermediárias e uma camada de saída.

Figura 11. Rede PMC com duas camadas intermediárias e uma de saída. Fonte: (HAYKIN, 2001, p.186).

O algoritmo de treinamento mais popular das redes PMC é o Backpropagation que, por ser supervisionado, utiliza pares de entrada e saída para ajustar os pesos da rede neural (BRAGA et al., 2007). O Backpropagation executa o treinamento em duas fases denominadas

forward e backward (HAYKIN, 2001; BRAGA et al., 2007).

A fase forward é utilizada para definir a saída da rede neural para um dado padrão de entrada. As etapas desta fase são (BRAGA et al., 2007):

1. Dado o padrão de entrada x, a primeira camada neural intermediária recebe as

(26)

2. As saídas da primeira camada intermediária servem como entradas para os neurônios

da segunda camada intermediária, caso haja. O processo se repete com as saídas da segunda camada intermediária servindo como entradas para os neurônios da terceira camada e assim sucessivamente, até que se chegue à camada de saída da rede;

3. As saídas geradas pela camada de saída são comparadas com as saídas desejadas para

o padrão de entrada x fornecido à rede. A diferença entre estas saídas é o erro correspondente ao padrão de entrada x.

Com isso, a fase forward busca obter o erro de saída após a propagação do sinal (entrada) pelas camadas da rede. O erro calculado é utilizado na fase backward, a qual é composta pelas seguintes etapas (BRAGA et al., 2007):

1. O erro produzido pela camada de saída é utilizado para corrigir seus próprios pesos,

utilizando-se para isso o gradiente local de cada neurônio. Segundo Haykin (2001, p. 190), “o gradiente local é o produto do erro correspondente para aquele neurônio pela derivada da função de ativação utilizada pela rede neural”.

2. O erro gerado pela camada de saída é utilizado no cálculo estimado de erro da camada

intermediária anterior a esta, onde esses erros serão multiplicados pelos pesos das conexões entre as camadas.

3. Os erros calculados para os neurônios da camada anterior à camada de saída são utilizados para ajustar os seus pesos, levando em consideração o gradiente local de cada neurônio desta camada, de forma semelhante ao acontecido com a camada de saída.

4. O processo se repete novamente até que os pesos da primeira camada neural sejam

ajustados, terminando assim a fase backward do algoritmo Backpropagation.

A velocidade do algoritmo Backpropagation pode ser aumentada incluindo um termo de “momentum” na equação que atualiza os pesos dos neurônios da rede. Este termo de

momentum é um valor no intervalo [0,1]. Para maiores detalhes consultar (HAYKIN, 2001).

2.2.4 Redes de Funções de Base Radial

As Redes de Funções de Base Radial (RBF) podem ser também empregadas em quase todos os tipos de problemas tratados pelas redes PMC, inclusive aqueles que envolvem aproximação de funções e classificação de padrões (SILVA et. al., 2010).

(27)

A estrutura típica de uma rede RBF é composta por duas camadas, sendo uma intermediária e a camada de saída da rede. A estrutura básica de uma rede RBF é apresentada na Figura 12.

Figura 12. Configuração típica de uma Rede RBF. Fonte: (SILVA et. al., 2010, p. 173).

A matriz de pesos sinápticos da camada intermediária é ajustada utilizando um algoritmo de clusterização não supervisionado chamado K-Means.

Os algoritmos de clusterização são utilizados com muita frequência em aplicações que necessitem extrair informações relevantes de grandes conjuntos de dados, como por exemplo, mineração de dados. Os algoritmos de clusterização dividem os dados em grupos úteis ou significativos, chamados clusters, onde esses agrupam dados similares. Estes clusters descobertos podem ser usados para explicar as características da distribuição dos dados subjacentes, e assim servir como base para várias técnicas de análise e mineração de dados (FONSECA e BELTRAME, 2010).

Existem diversas técnicas de clusterização e cada uma possui suas vantagens e desvantagens. De acordo com Steinbach et. al. (2000, apud Fonseca e Beltrame, 2010, p. 1),

Clusterização hierárquica é retratada como a técnica de clusterização de melhor qualidade, sendo limitada pela sua complexidade quadrática, já o K-Means e suas variações possuem complexidade de tempo linear, mas produzem clusters de qualidade inferior.

O método de agrupamento K-Means é um dos mais simples algoritmos de agrupamento, e segundo Jain et. al. (1999, apud Fonseca e Beltrame, 2010, p. 2), “o algoritmo

K-Means é popular devido a sua facilidade de implementação e sua ordem de complexidade

(28)

K de grupos para se dividir os dados de acordo com a sua proximidade a um dos K grupos, baseando-se na distância euclidiana (MARX et. al., 2009).

Segundo Jain et. al. (1999, apud Fonseca e Beltrame, 2010, p. 2), “um dos maiores problemas do algoritmo K-Means é que o mesmo é sensível à seleção da partição inicial e pode convergir a um mínimo local do valor da função de critério se a partição inicial não for devidamente escolhida”. Além disso, Marx et. al. (2009, p. 2) afirma que quando os dados contêm muitas variáveis, o método K-Means apresenta algumas discordâncias.

Segundo Fontana e Naldi (2009, apud Fonseca e Beltrame, 2010, p. 2), “o algoritmo K-Means utiliza o conceito de centroides como protótipos representativos de grupos, onde estes representam o centro de um grupo, sendo calculado a partir da média de todos os objetos do grupo”. De acordo com Fontana e Naldi (2009, apud Fonseca e Beltrame, 2010, p. 3), os passos que descrevem o algoritmo K-Means são:

1. Atribuem-se valores iniciais para os centroides seguindo algum critério, por exemplo, sorteio aleatório desses valores dentro dos limites de domínio de cada atributo;

2. Atribui-se cada objeto ao grupo cujo centroide possua maior similaridade com o objeto;

3. Recalcula-se o valor do centroide de cada grupo, como sendo a média dos objetos atuais do grupo;

4. Repetem-se os passos 2 e 3 até que os grupos se estabilizem.

Na rede RBF, a matriz de pesos sinápticos referente à camada de saída da rede é calibrada através do algoritmo Backpropagation, da mesma forma como no treinamento de uma rede PMC (SILVA et. al., 2010).

Os neurônios de uma rede RBF utilizam a função de ativação do tipo gaussiana, definida pela Equação 2:

2 2 ( ) 2

( )

u c

g u

e

σ − −

=

(2)

Na Equação 2, c define o centro da função gaussiana e σ2 a variância (desvio padrão), a qual indica quão perto está a amostra u em relação ao centro do cluster c (SILVA et. al., 2010). Na Figura 13, podemos perceber que, quanto mais perto do centro do cluster estiver a amostra calculada, maior será seu valor produzido pelo campo receptivo radial da função de ativação. De fato, quão mais perto do centro do cluster, mais propriedade para pertencer à classe a qual esse cluster está representando é dada a amostra.

(29)

Figura 13. Gráfico de uma função gaussiana. Fonte: (SILVA et. al., 2010, p. 176).

A Figura 14 ilustra uma importante diferença entre as redes PMC e RBF. Na rede PMC são utilizados hiperplanos como fronteiras delimitadoras de regiões, enquanto na rede RBF as fronteiras são delimitadas por campos hiperesféricos, devido à função de ativação gaussiana.

Figura 14. Diferença entre as redes PMC e RBF na delimitação de regiões. Fonte: (SILVA et. al., 2010, p. 177).

A diferença na delimitação de regiões entre as redes RBF e PMC acontece devido à função de ativação da rede RBF. Por se tratar de uma função de ativação do tipo gaussiana, é necessário apenas um neurônio para delimitar uma região, enquanto a rede PMC precisa de, pelo menos, três neurônios. Com isso, a rede RBF precisa de menos neurônios para identificar as mesmas regiões que uma rede PMC.

(30)

2.3 Técnica de Validação Cruzada

A partir de um conjunto de padrões (ou amostras) de entrada que servirão para o processo de aprendizado de uma RNA, deseja-se que esses padrões sejam suficientes para que a RNA aprenda as características destes padrões. Nesse sentido, o sucesso no processo de aprendizagem de uma RNA depende da escolha ou existência de um conjunto de padrões que represente da melhor forma possível as características de um determinado problema.

Além da necessidade de um bom conjunto de padrões, é necessário definir a melhor configuração de uma RNA para um problema específico. Em outras palavras, precisam-se definir quantas camadas intermediárias e quantos neurônios por camada são necessários, para que a RNA consiga obter resultados satisfatórios. Visando solucionar esse problema, tem-se a ferramenta da estatística conhecida como validação cruzada (HAYKIN, 2001).

Dentre as técnicas de validação cruzada existentes, foi utilizado neste trabalho o método de treinamento com Parada Antecipada. Nesse método, primeiramente o conjunto de dados é dividido em conjunto de treinamento e conjunto de teste. O conjunto de treinamento é ainda subdividido em conjunto de estimação e conjunto de validação (HAYKIN, 2001). Segundo Haykin (2001, p. 244), “93% do conjunto de treinamento são atribuídos ao subconjunto de estimação e os 7% restantes são atribuídos ao subconjunto de validação”.

Normalmente uma rede PMC ou qualquer outra que utilize o algoritmo

Backpropagation aprende em estágios, começando com funções de mapeamento mais simples

para funções mais complexas à medida que o treinamento avança. Em uma situação típica, o erro quadrático médio da rede decresce rapidamente no início do treinamento e, quanto mais épocas de treinamento se passam, o erro quadrático médio tende a cair de forma mais lenta até atingir um limiar na superfície do erro, que será o seu ponto de parada. O fato é que é muito difícil saber o momento certo de parar o treinamento, ou seja, de encontrar o limiar correto, apenas olhando a curva de aprendizado da rede. É possível que a rede torne-se excessivamente ajustada aos dados de treinamento a ponto de tornar-se uma rede especialista, e só consiga generalizar aquelas amostras utilizadas no treinamento da rede (HAYKIN, 2001). No método de treinamento com parada antecipada, o subconjunto de estimação é usado para treinar a rede normalmente, porém a seção de treinamento é interrompida de tempos em tempos (após uma quantidade determinada de épocas) e a rede é testada utilizando o subconjunto de validação. Em outras palavras:

1. O algoritmo Backpropagation treina com o subconjunto de estimação até determinada época;

(31)

2. Usa-se o subconjunto de validação para testar a rede;

3. O erro de validação é medido para cada exemplo do subconjunto de validação; 4. Inicia-se novamente o treinamento utilizando o mesmo subconjunto de

estimação, agora com um limite de épocas maior e o processo é repetido. A Figura 15 apresenta um gráfico da evolução do erro quadrático médio durante o treinamento de uma rede.

Figura 15. Regra da parada antecipada com validação cruzada. Fonte: (HAYKIN, 2001, p. 243).

No gráfico apresentado na Figura 15 é possível visualizar duas curvas. A curva da amostra de treinamento mostra o erro quadrático médio da rede após cada época de treinamento, enquanto a curva da amostra de validação representa o erro quadrático do subconjunto de validação quando este é testado na rede.

Percebe-se que inicialmente o erro quadrático médio das amostras de validação decresce juntamente com o erro das amostras de treinamento, ou seja, quanto mais treinada a rede se torna, mais amostras esta consegue classificar corretamente. Porém, no ponto de parada antecipada ilustrado na Figura 15, o erro quadrático médio das amostras de treinamento continua caindo, mas a rede começa a perder sua eficácia na classificação das amostras do subconjunto de validação. Esse ponto de parada antecipada é o ponto em que a rede deve parar o seu treinamento e ser considerada treinada (HAYKIN, 2001). Nesse ponto, os valores dos pesos sinápticos da rede e os valores de gradiente de cada neurônio da rede devem ser guardados.

(32)

2.4 Considerações

O objetivo principal da classificação é associar um conjunto de informações, antes desorganizadas, tomando como base seus atributos e características, e formar classes que caracterizem melhor essas informações. As redes neurais artificiais possuem algumas propriedades que são caracterizadas como vantagens na utilização destas como classificadores de padrões, são elas (HAYKIN, 2001):

1. Não linearidade: Uma rede neural artificial consegue receber sinais de entradas

lineares e não lineares e conseguir fazer a classificação. Um exemplo de entrada não linear recebida por uma RNA é um sinal de voz, que é inerentemente não linear.

2. Mapeamento de entrada-saída: Padrões de entrada utilizados durante a fase de

treinamento podem ser aplicados à rede neural durante a fase de classificação em ordens diferentes, e a rede consegue aprender a partir dos exemplos e construir um mapeamento de entrada-saída para o problema.

3. Adaptabilidade: Uma mesma rede neural pode ser utilizada para tratar vários

problemas de classificação diferentes, apenas treinando novamente a rede. Além disso, quando a rede está operando em ambiente onde as estatísticas mudam com o tempo, a rede pode ser projetada para atualizar seus pesos sinápticos em tempo real.

4. Resposta a evidências: Uma rede neural pode ser utilizada não só para responder a

qual classe o padrão de entrada pertence, mas também quão confiante é a decisão tomada. Isso serve para melhorar o desempenho dos classificadores.

5. Tolerância a falhas: Essa vantagem existe quando a rede neural é implementada em

hardware. Como a informação armazenada na rede é distribuída entre todos os

neurônios da rede, a falha de um desses neurônios não afeta drasticamente toda a rede. Assim uma rede neural exibe uma degradação suave no desempenho da classificação em vez de apresentar uma falha catastrófica.

Mesmo com todas as vantagens citadas, as redes neurais possuem desvantagens, entre elas uma que afeta diretamente a classificação de padrões na área médica. Segundo Schwarzer

et. al. (2000, apud Santos et. al, 2005, p. 119), “uma potencial desvantagem das redes neurais,

para área médica, é que os parâmetros (pesos sinápticos) não têm uma interpretação imediata, exigindo análise adicional para se compreender a forma com que a informação é extraída”.

Ainda pode ser citado como desvantagens das redes neurais o tempo de treinamento. Dependendo da aplicação para qual foi desenvolvida, pode-se gastar muito tempo para treinar

(33)

a rede, além de demandar um alto processamento. Neste caso, será necessário utilizar um

(34)

3 MATERIAIS E MÉTODOS

Os passos realizados no desenvolvimento deste trabalho podem ser divididos em cinco etapas, como se segue:

1. Teórica, onde foram analisados os principais modelos de redes neurais e sua aplicação na classificação de padrões. Nesta etapa também foi feita uma revisão da literatura, a fim de compreender as metodologias empregadas em trabalhos relacionados.

2. Ferramental, onde foram modeladas e implementadas as redes neurais PMC e RBF. 3. Experimental, na qual foram realizados os experimentos necessários à verificação

da aplicabilidade e eficácia das abordagens neurais propostas.

4. Testes e análise dos resultados, na qual os resultados obtidos da aplicação das abordagens foram analisados.

5. Divulgação dos resultados, na qual os resultados obtidos foram apresentados no formato de monografia.

Neste trabalho vários experimentos serão realizados com o objetivo de encontrar a melhor configuração possível das redes neurais usadas para a classificação de nódulos mamários. Para a rede PMC, a melhor configuração possível significa definir o número de camadas intermediárias da rede, assim como o número de neurônios para cada camada intermediária e para a camada de saída. Para a rede RBF, a melhor configuração significa determinar o número de neurônios da camada intermediária.

Os testes com as redes PMC e RBF serão feitos utilizando a técnica de validação

cruzada com parada antecipada e sem a técnica, com o objetivo de comprovar a eficácia da

mesma.

Para os treinamentos e testes das redes neurais foi utilizado um banco de dados disponível na Internet chamado Breast Cancer Wisconsin Database (FRANK e ASUNCION, 2010). Este banco de dados de câncer de mama foi construído nos Hospitais da Universidade de Wisconsin. Esta base de dados contém as características (ou atributos) do núcleo da célula de 699 nódulos mamários. A partir destas características, cada nódulo (ou amostra) foi diagnosticado como benigno ou maligno. Das 699 amostras, 458 (65,5%) são nódulos benignos e 241 (34,5%) são nódulos malignos.

(35)

Algumas amostras não possuem todos os atributos, os quais aparecem na forma de um símbolo de interrogação na base de dados. Para estes casos, neste trabalho o valor considerado foi zero. Isso porque, o valor zero como entrada na rede neural funciona como um anulador daquele atributo, não contribuindo no processo de aprendizagem da rede.

Interface do sistema

Para facilitar a configuração de vários parâmetros do sistema, tais como, a quantidade de camadas intermediárias, a quantidade de neurônios por camada, taxa de aprendizagem, dentre vários outros, foram desenvolvidas interfaces gráficas para cada rede neural usada no sistema. A tela inicial da interface desenvolvida para a configuração da rede PMC pode ser visualizada na Figura 16.

Figura 16. Interface para configuração da rede PMC. Fonte: Próprio autor.

Para facilitar o processo de testes das redes neurais, o programa faz a automatização dos testes, onde é escolhido um arquivo com as configurações das redes neurais a serem testadas e a quantidade de testes que devem ser feitos para as topologias descritas no arquivo.

Para fazer a comparação visual entre os diversos treinamentos feitos nas redes neurais, o sistema gera um gráfico do erro quadrático médio após a conclusão de cada treinamento. A Figura 17 mostra o gráfico do erro quadrático médio pelo número de épocas, gerado pelo sistema após um treinamento da rede.

(36)

Figura 17. Gráfico do Erro Quadrático Médio de uma PMC após um treinamento. Fonte: Próprio autor.

O gráfico mostrado na Figura 17 é útil para saber qual a oscilação do erro quadrático médio da rede durante o treinamento, e que pode servir como análise para o teste da melhor configuração da rede. O resultado gerado pelas redes após o treinamento é exibido em uma tabela, visando facilitar a análise dos resultados, conforme ilustrado na Figura 18.

(37)

O sistema também calcula a taxa de acerto da rede, baseado na quantidade de padrões testados e a quantidade de padrões classificados corretamente. Além da interface gráfica desenvolvida para a rede PMC, foi desenvolvida uma interface gráfica semelhante para a configuração da rede RBF.

(38)

4 RESULTADOS E DISCUSSÕES

Neste capítulo serão apresentados os experimentos e resultados obtidos para a classificação de nódulos mamários usando as redes Perceptron Multicamadas e Funções de Base Radial. Conforme já descrito no Capítulo 3, a base de dados usada nos experimentos é a

Breast Cancer Wisconsin Database, a qual possui informações de nódulos benignos e

malignos.

4.1 Experimentos com a rede PMC

Para os experimentos com a rede PMC, a taxa de erro (critério de parada) para todos os testes foi de 0,00001. A definição do valor da taxa de erro pequeno é porque se deseja que a rede alcance a maior taxa de acerto de classificação possível, ou seja, quanto menor for a taxa de erro, maior a precisão nos resultados.

As matrizes sinápticas foram iniciadas aleatoriamente com valores entre zero e um, e o valor de momentum utilizado é igual a 0.9. Todos os atributos das 699 amostras da base de dados foram normalizados entre zero e um, com o objetivo de melhorar o processo de aprendizado da rede. Todas estas configurações são geralmente recomendadas na literatura. Para maiores detalhes consultar (HAYKIN, 2001).

4.1.1 Experimentos com a rede PMC utilizando a técnica de validação cruzada com parada antecipada

Os experimentos usando a técnica de validação cruzada com parada antecipada foram feitos utilizando um script de automatização dos testes e cada topologia foi testada 500 vezes. Esta quantidade de testes foi definida com o intuito de se obter uma boa amostragem dos resultados para facilitar a detecção de uma possível oscilação no desempenho da rede. Portanto, a partir das 500 execuções de uma determinada configuração, pode-se obter a média de épocas de treinamento, a média de acertos (em porcentagem) e o desvio padrão dos resultados gerados pela rede.

A base de dados Breast Cancer Wisconsin foi dividida em subconjuntos de estimação, validação e teste, conforme descrito na Tabela 1.

(39)

Tabela 1. Divisão da base de dados Breast Cancer Wisconsin.

Partição Quantidade de amostras

Partição de estimação 586 Partição de validação 44

Partição de teste 69

TOTAL 699

A Tabela 2 mostra as topologias utilizadas no teste da rede PMC, além dos resultados obtidos para cada uma das topologias. Na coluna Topologia é descrito a quantidade de neurônios para cada camada intermediária. Por exemplo, no teste 1, a topologia 5-5 significa que a rede tem duas camadas intermediárias com cinco neurônios cada. Todas as configurações testadas possuem na camada de saída apenas um neurônio. A taxa de aprendizagem utilizada foi de 0,01, no entanto, para os testes 9, 10 e 12 foi usado 0,05. Esta mudança se deve simplesmente pelo fato de que o teste 9 possui a mesma topologia do teste 1, o teste 10 possui a mesma topologia do teste 2 e o teste 12 a mesma do teste 11.

Tabela 2. Resultados dos testes com a PMC usando a técnica de validação cruzada com parada antecipada.

Teste Topologia Épocas Taxa de Acerto (%) Desvio Padrão

1 5-5 199 96,48 5,18 2 5-10 198 97,06 1,94 3 10-10 190 97,01 1,90 4 15-10 194 97,25 1,86 5 5-5-5 195 69,46 29,07 6 5-10-5 213 73,06 28,38 7 10-10-5 208 74,08 28,37 8 15-10-5 161 64,12 25,81 9 5-5 107 96,86 2,02 10 5-10 107 96,88 1,92 11 3-2 186 89,56 20,70 12 3-2 107 96,07 5,76

A configuração da rede PMC que resultou no melhor desempenho foi a do teste 9. Essa configuração foi escolhida como a melhor pelas seguintes razões. A rede possui apenas duas camadas intermediárias com cinco neurônios cada, ou seja, o esforço computacional para uma época de treinamento com o algoritmo Backpropagation é menor do que, por exemplo, as redes dos testes 2, 3, 4, 5, 6, 7 e 8. O desvio padrão foi de 2,02, uma das mais baixas dentre as topologias testadas. Isso significa que a rede está conseguindo generalizar as amostras durante o treinamento, fazendo com que a taxa de acerto mude insignificantemente se levado em consideração todas as 500 sessões de treinamento e teste realizados.

(40)

A taxa de acerto da configuração foi de 96,86%, uma das maiores encontradas nos testes. Mesmo não sendo a topologia que obteve a melhor taxa de acerto dentre as testadas, ela possui a menor quantidade de neurônios. Além disso, a diferença na taxa de acerto é muito pequena para a rede com a melhor taxa de acerto (teste 10), o que justifica a sua escolha.

Quando se utiliza a técnica de validação cruzada com parada antecipada, esta torna o processo de treinamento da rede mais rápido. Sendo assim, a quantidade de épocas de treinamento não é um fator que pesa na escolha da topologia a ser utilizada. Na Tabela 2 pode-se constatar que todas as redes conseguiram treinar em uma quantidade de épocas relativamente parecidas.

4.1.2 Experimentos com a rede PMC sem a técnica de validação cruzada com parada antecipada, utilizando apenas um conjunto de padrões para os treinamentos e um para os testes

Nessa fase os testes foram feitos utilizando um script de automatização dos testes e cada topologia foi testada 70 vezes, com os mesmos objetivos descritos na Seção 4.1.1. A diferença da quantidade de treinamentos e testes realizados na rede PMC, com e sem a técnica da validação cruzada, se dá pelo fato de que o tempo gasto para realizar os testes sem a técnica seria muito maior, tornando os testes inviáveis de serem realizados em tempo hábil.

Com a técnica de validação cruzada com parada antecipada, os dados são selecionados do banco de dados para cada partição (estimação, validação e teste) de forma aleatória, o que não acontece quando os treinamentos e testes são feitos sem esta técnica, ou seja, os dados do conjunto de treinamento e teste possuem sempre os mesmos padrões, para todos os treinamentos e testes.

Portanto, diferentemente dos testes mostrados na Seção 4.1.1, dois arquivos são escolhidos pelo usuário para servirem como entradas para o classificador. O primeiro arquivo é o conjunto de treinamento usado no aprendizado da rede, o qual possui 617 padrões. Isto equivale a 88,27% do total de amostras do banco de dados. O segundo arquivo é o conjunto de teste usado na fase de teste da rede, o qual possui 82 padrões. Isto equivalente a 11,73% das amostras do banco de dados utilizado. Esta divisão da Breast Cancer Wisconsin Database foi feita empiricamente.

A Tabela 3 apresenta as topologias utilizadas no teste da rede PMC, além dos resultados obtidos para cada uma das topologias. A taxa de aprendizagem utilizada foi de

(41)

0,01, no entanto, para os testes 9, 10 e 12 foi usado 0,05, pelos mesmos motivos descritos na Seção 4.1.1.

Tabela 3. Resultados dos testes com a PMC sem a técnica de validação cruzada com parada antecipada.

Teste Topologia Épocas Taxa de Acerto (%) Desvio Padrão

1 5-5 707 93,83 5,72. 10-14 2 5-10 679 93,83 5,72. 10-14 3 10-10 754 93,83 5,72. 10-14 4 15-10 881 93,83 5,72. 10-14 5 5-5-5 953 89,63 12,68 6 5-10-5 914 88,43 14,15 7 10-10-5 1056 93,83 5,72. 10-14 8 15-10-5 1043 88,43 14,15 9 5-5 318 93,83 5,72. 10-14 10 5-10 329 93,83 5,72. 10-14 11 3-2 690 91,43 9,81 12 3-2 304 93,23 5,01

A configuração da rede PMC que resultou no melhor desempenho foi a do teste 9. Essa topologia foi escolhida como a melhor pelas seguintes razões. Possui baixa quantidade de neurônios, o que diminui a quantidade de processamento e consequentemente o esforço computacional durante o treinamento. O desvio padrão foi pequeno, o que significa que a rede não varia sensivelmente a sua taxa de acerto em relação aos outros testes realizados com a mesma topologia. E por fim, a rede obteve uma boa taxa de acerto.

4.1.3 Experimentos com a rede PMC sem a técnica de validação cruzada com parada antecipada, utilizando amostras aleatórias para os treinamento e para os testes

Nessa fase os testes foram feitos utilizando um script de automatização dos testes e cada topologia foi testada 70 vezes, com os mesmos objetivos descritos na Seção 4.1.1.

Diferentemente dos testes realizados na Seção 4.1.2, onde era utilizado apenas um conjunto predefinido de padrões de entrada para treinamento e para teste, os experimentos desta seção utilizam padrões de entrada diferentes a cada novo treinamento e teste. A ideia é comparar o resultado da rede não somente com os resultados obtidos utilizando a técnica de validação cruzada com parada antecipada, mas também com os resultados obtidos com os testes da Seção 4.1.2, a fim de descobrir se a rede generaliza melhor (menor desvio padrão) quando utilizando amostras diferentes a cada treinamento e teste.

(42)

O algoritmo utilizado para escolher as amostras aleatoriamente a cada treinamento da rede é o mesmo utilizado na técnica de validação cruzada, porém agora não é necessário o arquivo de validação para fazer a parada antecipada. Nesse caso, a rede treina até atingir um critério de parada, que é até o valor do erro quadrático médio da rede atinja um limiar definido, ou até a rede ultrapassar a quantidade de épocas de treinamento definida na interface do programa, que foi de 10000 épocas.

A Tabela 4 mostra as topologias utilizadas no teste da rede PMC, além dos resultados obtidos para cada uma das topologias.

Tabela 4. Resultados dos testes com a PMC sem a técnica de validação cruzada, utilizando amostras aleatórias.

Teste Topologia Épocas Taxa de Acerto (%) Desvio Padrão

1 5-5 625 97,01 2,00 2 5-10 615 96,95 1,90 3 10-10 661 97,06 2,04 4 15-10 775 96,86 2,30 5 5-5-5 898 95,46 8,58 6 5-10-5 937 96,06 6,54 7 10-10-5 900 96,19 5,81 8 15-10-5 1017 95,67 8,18 9 5-5 276 97,03 1,94 10 5-10 281 96,76 1,94 11 3-2 594 91,99 17,52 12 3-2 265 96,75 4,18

A configuração da rede PMC que resultou no melhor desempenho foi a do teste 9. Essa configuração foi escolhida como a melhor pelas seguintes razões. A rede possui baixa quantidade de neurônios, o que diminui a quantidade de processamento e consequentemente de esforço computacional durante o treinamento se comparada com a topologia do teste 3, que possui 20 neurônios. Os resultados apresentaram baixo desvio padrão, o que significa que a rede não varia sensivelmente a sua taxa de acerto em relação aos outros testes realizados com a mesma topologia. Possui alta taxa de acerto, mesmo não sendo a melhor dentre as topologias testadas. A diferença da taxa de acerto da topologia do teste 9 em relação ao do teste 3 é muito baixa, o que justifica a sua escolha como a melhor.

(43)

4.2 Experimentos com a rede RBF

Os testes realizados com a rede RBF foram divididos em duas partes, onde a primeira utiliza a técnica de validação cruzada com parada antecipada durante o treinamento da rede, e a segunda não utiliza essa técnica. O objetivo é descobrir se a técnica de validação cruzada aplicada à rede RBF traz algum benefício para o treinamento da rede.

Em todos os testes, a rede RBF possuía somente um neurônio na camada de saída, a taxa de erro (critério de parada) foi definida em 0,00001 e as matrizes de pesos foram iniciadas aleatoriamente, com valores entre 0 e 1. Todos os atributos das 699 amostras da base de dados foram normalizados entre zero e um, com o objetivo de melhorar o processo de aprendizado da rede. Todas estas configurações são geralmente recomendadas pela literatura. Para maiores detalhes consultar (HAYKIN, 2001).

Os testes foram feitos com 18 configurações (topologias) distintas. Cada configuração foi treinada e testada 2500 vezes. Esta quantidade de testes foi definida com o intuito de se obter uma boa amostragem dos resultados para facilitar a detecção de uma possível oscilação no desempenho da rede. Portanto, a partir das 2500 execuções de uma determinada configuração, pode-se obter a média de épocas de treinamento, a média de acertos (em porcentagem) e o desvio padrão dos resultados gerados pela rede.

A diferença na quantidade de treinamentos e testes realizados com a RBF em relação à PMC se dá pelo fato de que a RBF consome menos tempo de treinamento do que a PMC, por possuir uma quantidade de neurônios menor do que a PMC, conforme já discutido na Seção 2.2.4.

4.2.1 Experimentos com a rede RBF utilizando a técnica de validação cruzada com parada antecipada

A base de dados Breast Cancer Wisconsin foi dividida em subconjuntos de estimação, validação e teste, conforme descrito na Tabela 1. A Tabela 5 apresenta as topologias utilizadas no teste da rede RBF, além dos resultados obtidos com cada configuração.

(44)

Tabela 5. Resultados dos testes com a RBF utilizando a técnica de validação cruzada com parada antecipada.

Teste Camada

Intermediária

Taxa de

Aprendizagem Momentum Épocas

Taxa de Acerto (%) Desvio Padrão 1 2 0,01 0,9 50 88,04 4,44 2 2 0,05 0,9 28 89,53 4,22 3 2 0,1 0,9 27 90,08 4,39 4 3 0,01 0,9 50 82,21 5,78 5 3 0,05 0,9 28 83,03 6,23 6 3 0,1 0,9 25 83,37 6,68 7 1 0,01 0,9 105 77,71 5,68 8 1 0,05 0,9 39 79,81 4,60 9 1 0,1 0,9 21 79,72 4,76 10 2 0,01 0,8 78 86,98 4,77 11 2 0,01 0,7 90 84,05 8,26 12 2 0,01 0,6 57 7316 11,07 13 3 0,01 0,8 74 82 5,91 14 3 0,01 0,7 82 79,49 7,81 15 3 0,01 0,6 64 73,78 9,72 16 1 0,01 0,8 20 65,51 5,51 17 1 0,01 0,7 20 65,66 5,45 18 1 0,01 0,6 20 65,54 5,54

Das redes testadas, a melhor foi a do teste 3. Os seguintes fatos foram considerados para escolher esta rede como a melhor. Esta rede obteve a maior taxa de acerto, possui um baixo desvio padrão, o que significa que a rede possui um comportamento estável e conseguiu treinar em poucas épocas de treinamento, apenas 27 épocas.

4.2.2 Experimentos com a rede RBF sem a técnica de validação cruzada com parada antecipada, utilizando apenas um conjunto de amostras para os treinamentos e um para os testes

Os conjuntos de treinamento e teste foram definidos da mesma forma como explicado na Seção 4.1.2. A Tabela 6 apresenta as topologias utilizadas no teste da rede RBF, além dos resultados obtidos com cada configuração.

(45)

Tabela 6 . Resultados dos testes com a RBF sem a técnica de validação cruzada com parada antecipada.

Teste Camada

Intermediária

Taxa de

Aprendizagem Momentum Épocas

Taxa de Acerto (%) Desvio Padrão 1 2 0,01 0,9 130 97,60 0,28 2 2 0,05 0,9 45 97,59 0,26 3 2 0,1 0,9 25 98,72 0,23 4 3 0,01 0,9 149 95,07 0,11 5 3 0,05 0,9 47 95,08 0,17 6 3 0,1 0,9 27 97,53 0,03 7 1 0,01 0,9 132 90,12 3,53. 10-12 8 1 0,05 0,9 38 90,12 3,53. 10-12 9 1 0,1 0,9 29 90,12 3,53. 10-12 10 2 0,01 0,8 172 97,60 0,29 11 2 0,01 0,7 194 97,60 0,27 12 2 0,01 0,6 212 97,60 0,28 13 3 0,01 0,8 231 95,07 0,12 14 3 0,01 0,7 291 95,07 0,07 15 3 0,01 0,6 339 95,07 0,11 16 1 0,01 0,8 253 90,12 3,53 17 1 0,01 0,7 369 90,12 3,53. 10-12 18 1 0,01 0,6 480 90,12 3,53. 10-12

Da mesma forma como nos experimentos descritos na Seção 4.2.1, a rede que obteve o melhor desempenho foi a do teste 3. As razões para sua escolha também são as mesmas: a maior taxa de acerto, baixo desvio padrão e poucas épocas de treinamento.

Um segundo teste foi feito na rede RBF, agora com um novo conjunto de treinamento e de teste, com o objetivo de comparar os resultados com os mostrados na Tabela 6. Os resultados dos testes, utilizando este novo conjunto de treinamento e teste, são apresentados na Tabela 7.

(46)

Tabela 7. Resultados com a rede RBF sem a técnica de validação cruzada com parada antecipada, como o novo conjunto de treinamento e teste.

Teste Camada

Intermediária

Taxa de

Aprendizagem Momentum Épocas

Taxa de Acerto (%) Desvio Padrão 1 2 0,01 0,9 42 93,53 1,15 2 2 0,05 0,9 16 94,16 0,56 3 2 0,1 0,9 19 93,85 0,26 4 3 0,01 0,9 163 77,08 0,99 5 3 0,05 0,9 44 80,25 0,02 6 3 0,1 0,9 24 80,25 0,05 7 1 0,01 0,9 153 81,48 5,11. 10-12 8 1 0,05 0,9 37 80,25 3,85. 10-12 9 1 0,1 0,9 19 81,48 5,11. 10-13 10 2 0,01 0,8 73 93,44 1,07 11 2 0,01 0,7 106 93,41 0,99 12 2 0,01 0,6 138 93,37 0,93 13 3 0,01 0,8 253 76,01 1,06 14 3 0,01 0,7 309 75,70 0,97 15 3 0,01 0,6 357 75,82 1,03 16 1 0,01 0,8 279 80,26 0,14 17 1 0,01 0,7 395 80,25 3,85. 10-12 18 1 0,01 0,6 505 80,25 3,85. 10-12

A rede que obteve o melhor desempenho foi a do teste 2. As razões para sua escolha são as mesmas descritas na Seção 4.2.1 e no experimento anterior: a maior taxa de acerto, baixo desvio padrão e poucas épocas de treinamento.

4.2.3 Experimentos com a rede RBF sem a utilização da técnica de validação cruzada com parada antecipada, utilizando amostras aleatórias para os treinamentos e para os testes

A diferença dos experimentos desta seção com os descritos na Seção 4.2.1 é que a rede não usa a técnica de validação cruzada com parada antecipada, e em relação aos experimentos descritos na Seção 4.2.2, a rede não utiliza os mesmos padrões de entrada para treinamento, e nem os mesmos para os testes, ou seja, a cada nova execução da rede são gerados novos conjuntos de treinamento e teste. Assim como descrito na Seção 4.1.3, a ideia é avaliar se a rede generaliza melhor (menor desvio padrão) quando utiliza amostras diferentes a cada treinamento e teste da rede. A Tabela 8 mostra os resultados obtidos.

(47)

Tabela 8 . Resultados dos testes com a RBF sem a técnica de validação cruzada, utilizando amostras aleatórias.

Teste Intermediária Camada Aprendizagem Taxa de Momentum Épocas

Taxa de Acerto (%) Desvio Padrão 1 2 0,01 0,9 183 89,85 4,08 2 2 0,05 0,9 73 90,49 3,82 3 2 0,1 0,9 46 90,43 4,19 4 3 0,01 0,9 190 82,97 6,24 5 3 0,05 0,9 65 82,96 6,48 6 3 0,1 0,9 39 82,95 6,62 7 1 0,01 0,9 160 79,70 4,62 8 1 0,05 0,9 40 79,84 4,62 9 1 0,1 0,9 23 79,87 4,81 10 2 0,01 0,8 225 88,92 4,21 11 2 0,01 0,7 248 88,58 4,36 12 2 0,01 0,6 262 88,24 4,35 13 3 0,01 0,8 284 82,95 6,24 14 3 0,01 0,7 332 82,73 5,95 15 3 0,01 0,6 377 82,46 5,89 16 1 0,01 0,8 292 79,64 4,66 17 1 0,01 0,7 415 79,51 4,51 18 1 0,01 0,6 532 79,33 4,63

Das redes testadas, a que obteve melhor desempenho foi a do teste 2. Esta rede, além de possuir a melhor taxa de acerto, possui o menor desvio padrão, evidenciando um comportamento mais estável em relação às outras redes.

4.3 Considerações

Os testes realizados na rede PMC com a técnica de validação cruzada com parada antecipada e sem a utilização da técnica com um único conjunto de treinamento e de teste apontaram a mesma topologia da rede como tendo a melhor eficácia em relação às demais redes do seu grupo de testes. A média de épocas de treinamento da rede utilizando a técnica de validação cruzada com parada antecipada foi de 172,08 épocas, enquanto a média sem a utilização da técnica foi de 719 épocas.

A partir dos resultados apresentados na Seção 4.1.2 e 4.1.3, constatou-se que as taxas de acerto descritas na Seção 4.1.3 foram melhores do que da Seção 4.1.2. Isto evidencia o fato de que a escolha de um bom conjunto de treinamento resulta em um melhor aprendizado da rede. O conjunto de treinamento definido para os testes da Seção 4.1.2 não foi o ideal, pois com a escolha aleatória de amostras para a definição do conjunto de treinamento em cada

(48)

teste, as taxas de acerto foram melhores. Em outras palavras, o conjunto de treinamento da Seção 4.1.2 não cobriu todo o domínio do problema.

Comparando as melhores redes PMC encontradas nos experimentos das Seções 4.1.1, 4.1.2 e 4.1.3, a melhor entre estas, três considerando a taxa de acerto, foi a da Seção 4.1.3. Esta rede possui duas camadas intermediárias, com cinco neurônios cada. Não se aplicou a técnica de validação cruzada no treinamento e os conjuntos de treinamento e teste não eram fixos. A taxa de acerto obtida foi de 97,03%, com 276 épocas de treinamento e desvio padrão de 1,94.

Em relação aos experimentos com a rede RBF, na Seção 4.2.2 foram apresentados testes que não usaram a técnica de validação cruzada para o treinamento, e os conjuntos de treinamento e teste eram fixos. Este experimento foi dividido em duas fases. Em cada fase foi definido um conjunto de treinamento e teste. A melhor topologia encontrada para ambas as fases foi de dois neurônios na camada intermediária. A única diferença entre as redes foi o valor da taxa de aprendizagem. Para a rede da primeira fase, o valor definido foi de 0,1, e para a rede da segunda fase, o valor foi de 0,05. A melhor rede entre estas duas, considerando a taxa de acerto, foi a da primeira fase, com taxa de 98,72%, contra 94,16%. A quantidade de épocas de treinamento foi de 25 e o desvio padrão foi de 0,23.

Na Seção 4.2.1, a rede RBF foi testada usando a técnica de validação cruzada. A melhor topologia foi com dois neurônios na camada intermediária, taxa de aprendizagem de 0,1, taxa de acerto de 90,08%, 27 épocas de treinamento e desvio padrão de 4,39.

Na Seção 4.2.3, rede RBF foi testada sem a técnica de validação cruzada, e os conjuntos de treinamento e teste não eram fixos. A melhor rede encontrada foi com dois neurônios na camada intermediária, taxa de aprendizagem de 0,05, taxa de acerto de 90,49%, 73 épocas de treinamento e desvio padrão de 3,82.

Comparando as melhores redes RBF encontradas nos experimentos das Seções 4.2.1, 4.2.2 e 4.2.3, a melhor entre estas três, em relação à taxa de acerto, foi a da Seção 4.2.2 com 98,72%. Da mesma forma como ocorreu nos experimentos com a rede PMC, a rede RBF com melhor desempenho foi aquela que não utilizou a técnica de validação cruzada no processo de aprendizado. Outro fator importante constado nos resultados, é que o número de épocas foi menor, quando comparado com a rede que usou a técnica de validação cruzada com parada antecipada. Portanto, a utilização da técnica de validação cruzada com parada antecipada não traz tanto benefício para o treinamento da rede RBF, no que diz respeito a quantidade de épocas de treinamento.

(49)

Por fim, comparando a melhor rede PMC com a melhor rede RBF, a vencedora foi a rede RBF com taxa de acerto de 98,72%, contra 97,03%. Além da taxa de acerto, a rede RBF treinou em menos épocas (25 contra 276) e obteve menor desvio padrão (0,23 contra 1,94).

(50)

5 CONCLUSÃO E CONSIDERAÇÕES FINAIS

A utilização das Redes Neurais Artificiais em esquemas CAD como classificadores de nódulos mamários se mostrou bastante satisfatória, com taxa de acerto acima de 95%, tanto para as redes Perceptron Multicamadas, quanto para as redes de Funções de Base Radial. Sendo assim, estes esquemas CAD podem servir com uma segunda opinião para os especialistas no diagnóstico de câncer de mama.

No que diz respeito ao uso de redes RBF, não foram encontrados na literatura até o presente momento, trabalhos que usassem redes RBF para a classificação de nódulos mamários, por isso, a análise dos resultados se deu através da comparação desta com a PMC desenvolvida nesse trabalho. Além disso, não foi possível comparar os resultados com outros trabalhos da literatura, pois as bases de dados destes são diferentes da base Breast Cancer

Wisconsin.

Como trabalho futuro, se propõe utilizar alguma base de dados de imagens mamográficas, compatível com a base de dados dos trabalhos correlatos encontrados na literatura, para que os resultados possam ser comparados e analisados. Pretende-se também, realizar o pré-processamento desta base de imagens e extrair os atributos dos nódulos presentes nas imagens, e realizar uma classificação destes nódulos utilizando a padronização BI-RADS (ANEXO 1), que é uma padronização utilizada internacionalmente nos laudos médicos de exames mamográficos.

Referências

Documentos relacionados

Este presente artigo é o resultado de um estudo de caso que buscou apresentar o surgimento da atividade turística dentro da favela de Paraisópolis, uma

Mestrado em Administração e Gestão Pública, começo por fazer uma breve apresentação histórica do surgimento de estruturas da Administração Central com competências em matéria

seria usada para o parafuso M6, foram utilizadas as equações 14 e 15, referentes aos parafusos de 8 mm de diâmetro e folga entre parafuso e furo de 0,5 mm, que definem,

No entanto, os resultados apresentados pelo --linalol não foram semelhantes, em parte, aos do linalol racêmico, uma vez que este apresenta um efeito vasorelaxante em anéis de

Resumo: O presente trabalho corresponde a um estudo empírico descritivo e exploratório que aborda comportamentos e falas de atores políticos que participaram do processo legislativo

Estes resultados apontam para melhor capacidade de estabelecimento inicial do siratro, apresentando maior velocidade de emergência e percentual de cobertura do solo até os 60

Entendendo, então, como posto acima, propõe-se, com este trabalho, primeiramente estudar a Lei de Busca e Apreensão para dá-la a conhecer da melhor forma, fazendo o mesmo com o

A variação do pH da fase móvel, utilizando uma coluna C8 e o fluxo de 1,2 mL/min, permitiu o ajuste do tempo de retenção do lupeol em aproximadamente 6,2 minutos contribuindo para