• Nenhum resultado encontrado

e. J´uri de decis˜ao: geram-se os resultados da rede neuronal.

As fases descritas apresentam como foi realizado o trabalho. Inicialmente foi escolhida uma base de dados que veio a ser utilizada tanto para o treino da rede como para a valida¸c˜ao e teste da mesma; de seguida fez-se a escolha do m´etodo de implementa¸c˜ao, assim como a estrutura e configura¸c˜ao da rede; e ap´os implementa¸c˜ao da rede foram aplicados os m´etodos de obten¸c˜ao de resultados da rede neuronal para qualificar a accuracy da rede, e a sua utilidade.

5.4

Base de Dados

Os primeiros passos no processo de desenvolvimento de redes neuronais artificiais s˜ao, como acima descritos, a colheita de dados e a sua separa¸c˜ao em conjuntos. Estas etapas s˜ao cruciais para a implementa¸c˜ao de uma rede neuronal, e requerem uma an´alise cuidadosa acerca do problema em estudo, para minimizar ambiguidades e erros nos dados, portanto, os dados selecionados devem ser relevantes para o dom´ınio do problema em quest˜ao. Por norma, os dados s˜ao separados em dois conjuntos: os dados de treino, que s˜ao utilizados para a aprendizagem da rede e os dados de teste que s˜ao utilizados para verificar o desempenho da rede neuronal sob condi¸c˜oes reais de utiliza¸c˜ao. Por vezes tamb´em ´e feita uma subdivis˜ao dos dados de treino, num conjunto de dados de valida¸c˜ao, como ´e o caso do problema em estudo neste trabalho, e que serve para verificar a eficiˆencia da rede no que toca `a sua capacidade de generaliza¸c˜ao durante o treino, podendo ainda ser empregue como um crit´erio de paragem do treino da rede quando esta apresenta valores de eficiˆencia favor´aveis. Normalmente, quando determinados estes conjuntos, s˜ao colocados aleatoriamente, para precaver poss´ıveis tendˆencias associadas `a ordem de apresenta¸c˜ao dos dados; e por vezes ´e necess´ario fazer um pr´e-processamento dos dados atrav´es de normaliza¸c˜oes, ou convers˜oes, para tornar os dados mais apropriados `a utiliza¸c˜ao da rede.

trabalhos de investiga¸c˜ao. Por este motivo considerou-se que todos os dados eram importantes na previs˜ao do cancro da mama. Dando, desta forma mais ˆenfase `a escolha e configura¸c˜ao da rede neuronal.

5.4.1

Dados Utilizados para Treino e Valida¸c˜ao da Rede

Neuronal

Neste trabalho, o primeiro passo para a implementa¸c˜ao da rede foi a sele¸c˜ao e colheita de um conjunto de carater´ısticas extra´ıdas de imagens mamogr´aficas, para o treino da rede neuronal. Este conjunto de dados foi selecionado a partir do banco de dados de cancro da mama WBCD - Winsconsin Breast Cancer Database (Wolberg), da Universidade de Wisconsin.

No conjunto de dados Breast Cancer Wisconsin (Street et al., 1992; Mangasarian et al., 1995), cada amostra consiste num tecido de massa mam´aria e os atributos correspondem a carater´ısticas extra´ıdas a partir de imagens digitalizadas, dos n´ucleos celulares contidos em cada tecido, e as classes associadas a cada tecido d˜ao informa¸c˜ao relativa do diagn´ostico do tecido, que pode ser benigno ou maligno. A an´alise e recolha das amostras pela t´ecnica de aspira¸c˜ao com agulha fina das c´elulas mam´arias foi realizada pelo Dr. William H. Wolberg no per´ıodo de 1989 a 1991; de onde derivaram oito grupos de dados. Desses oito grupos foi selecionado um conjunto de dados multivariado composto por 699 observa¸c˜oes, que foram doadas por Olvi

Mangasarian e recebidas por David W. Aha, a 15 de Julho de 1992.

A cada amostra de c´elulas analisada foram atribu´ıdas nove vari´aveis diferentes, usando uma escala de valores inteiros normalizados entre 1 e 10, e uma classe benigna ou maligna conhecida, para cada indiv´ıduo (Tabela 5.1).

Os atributos aplicados a cada amostra de c´elulas foram utilizados para representar instˆancias, em que cada instˆancia tem uma das duas classes poss´ıveis: benigna ou maligna, e no conjunto de dados analisado subsistem 241 casos de tumor maligno (34,5%) e 458 casos de tumor benigno (65,5%). O conjunto de dados utilizado para

5.4. BASE DE DADOS 97

Tabela 5.1– Atributos e Dom´ınios das vari´aveis da base de dados WBCD.

Atributos Dom´ınio

Aglomera¸c˜ao de c´elulas 1–10

Uniformidade do tamanho celular 1–10

Forma celular uniforme 1–10

Ades˜ao marginal 1–10

Tamanho da c´elula epitelial (ou de uma c´elula epitelial) 1–10

N´ucleos “nus” 1–10

Cromatina descondensada 1–10

Nucl´eolo normal 1–10

Mitoses 1–10

Classes 4 Maligno

2 Benigno

testes foi obtido atrav´es do WBCD onde a Figura 5.3 apresenta a interface web da base de dados WBCD.

5.4.2

Interface e Pr´e-Processamento

Tendo em conta a grande quantidade de dados dispon´ıvel, por vezes os conjuntos de dados n˜ao possuem qualidade suficiente para a extra¸c˜ao de conhecimento novo, ´util e relevante para os algoritmos de aprendizagem autom´atica; e as principais causas da baixa qualidade dos dados ´e a presen¸ca de atributos irrelevantes ao problema em quest˜ao, valores ausentes ou valores redundantes. Portanto ´e necess´ario abordar o conjunto de dados para melhorar a qualidade dos mesmos, de modo a aumentar a possibilidade de induzir um bom modelo com a utiliza¸c˜ao de um algoritmo de aprendizagem autom´atica.

Com a defini¸c˜ao do problema e a colheita dos dados completa, o pr´oximo passo foi a codifica¸c˜ao dos dados de entrada das redes neuronais artificiais (RNA) e para tal foi desenvolvida uma aplica¸c˜ao na linguagem Python, que permite desenvolver v´arias fun¸c˜oes de pr´e-processamento, tais como:

Figura 5.3– Interface Web do WBCD.

• Convers˜ao de v´arios arquivos;

• Elimina¸c˜ao de atributos que sejam irrelevantes ao problema;

• Padroniza¸c˜ao do conjunto de dados;

• Divis˜ao dos dados em conjuntos de treino e valida¸c˜ao;

• Cria¸c˜ao de arquivos que constituem as matrizes de treino;

• Gera¸c˜ao de arquivos estat´ısticos, ou seja, determina¸c˜ao da quantidade de atributos que comp˜oe a base de treino e qual o tipo de estrutura;

• Gera¸c˜ao de matrizes de entrada e sa´ıda para a utiliza¸c˜ao nas redes neuronais artificiais.

No documento Diagnóstico Automático no cancro da mama (páginas 123-126)