ALGORITMOS GEN ´ ETICOS - Método de discretização de variáveis para redes bayesianas utilizando

Algoritmos Genéticos (AGs) são otimizadores de fun¸cões, ou seja, métodos que procuram os extremos de uma fun¸cão objetiva f (x) baseando nos princ´ıpios da sele¸cão natural e da genética populacional (GOLDBERG, 1989) (CANT Ú-PAZ, 1995) (WEILE; MICHIELSSEN, 1997). A fun¸cão objetivo do problema é usualmente usada para expressar a fun¸cão fitness no AG.

Um aspecto importante em rela¸cão à fun¸cão fitness está na sua responsabilidade de medir a performance da solu¸cão (fun¸cão objetiva) como uma maneira de gerar uma aloca¸cão de recursos para a reprodu¸cão (WHITLEY, 1994).

Um indiv´ıduo é definido como uma solu¸cão candidata válida no AG, expressa ou por uma string binária ou por um vetor de números reais (JANIKOW; MICHALEWICZ, 1991) (WRIGHT et al., 1991), onde um conjunto de indiv´ıduos é considerado uma popula¸cão. Três operadores

são comumente usados: sele¸cão, crossover e muta¸cão (Figura 5).

Figura 5 – Fluxograma do Algoritmo Gen´etico.

O operador de sele¸cão usa o fitness de cada indiv´ıduo para esco- lher aqueles que são os mais adaptados da popula¸cão atual para gerar uma nova popula¸cão. Há várias maneiras de realizar essa sele¸cão de indiv´ıduos, mas ela sempre garante que os indiv´ıduos mais adaptados (melhores fitness) possuam uma maior probabilidade de serem selecionados.

A reprodu¸cão é feita pelos operadores de crossover e muta¸cão. O primeiro é o mecanismo primário de explora¸cão do AG: ele escolhe aleatoriamente um par de indiv´ıduos pré-selecionados e troca informa¸cão (uma substring, no caso de representa¸cão binária) entre os dois indiv´ıduos para criar novos indiv´ıduos.

O operador de muta¸cão é geralmente considerado como um operador secundário e é usado para prevenir que a solu¸cão fique estagnada em algum m´ınimo ou máximo local. A muta¸cão é feita através da sele¸cão randômica de uma substring em um indiv´ıduo e trocando o valor da mesma. O percentual da popula¸cão atingido por esse operador ´

e geralmente muito menor que o percentual atingido pelo operador de crossover.

O AG come¸ca com uma popula¸cão atual e então a sele¸cão é apli- cada para criar uma popula¸cão intermediária. Recombina¸cão (muta¸cão e crossover) é então usada para criar a próxima popula¸cão. O processo

entre a popula¸cão atual até a próxima popula¸cão.

A convergência do AG tende a evoluir através de sucessivas gera¸cões até que o fitness do melhor indiv´ıduo e a média de fitness da popula¸cão se aproximarem do ótimo global (BEASLEY; MARTIN; BULL, 1993).

Algoritmos Genéticos não garantem que a solu¸cão ótima vai ser encontrada, e sua efetividade é determinada pelo tamanho da popula¸cão n. O tempo requerido para que o AG convirja é de O(n log n) avalia¸cões de fun¸cões (GOLDBERG, 1989).

3.4.1 Representa¸c˜ao de um indiv´ıduo

Um cromossomo representa um indiv´ıduo, que é uma solu¸cão candidata do problema a ser resolvido. Entre as representa¸cões mais comuns de um indiv´ıduo no AG, encontram-se: codifica¸cão binária, codifica¸cão em ponto flutuante, máquina de estados finitos e árvores.

A representa¸cão mais comum é a codifica¸cão binária, que des- creve o cromossomo por um vetor de bits. A representa¸cão binária de um número real está sujeita à seguinte precisão:

2l≥ (xmax− xmin) ∗ 10p (3.6) onde l o tamanho da cadeia de bits,s p corresponde à precisão, k a quantidade de bits e xmin, xmax definem o intervalo real [xmin, xmax] ao qual o valor a ser representado xr pertence. Logo, quanto maior a precisão desejada maior a quantidade de bits necessária para obtê-la.

E necessário, porém, que as cadeias de bits tenham o mesmo tamanho para a execu¸cão dos operadores de reprodu¸cão do AG (crossover, muta¸cão). Outro quesito importante está na quantidade de bits no cromossomo: ele deve ser grande o suficiente para permitir uma boa troca de informa¸cões durante a reprodu¸cão. Portanto, a técnica de mapeamento é utilizada.

A técnica de mapeamento funciona como uma regra de três. Ao pegar um número binário (b2) tradicional, ela aumenta a quantidade de bits necessária para representá-lo. Para isso, utiliza-se os valores de xmin, xmax de forma similar à Equa¸cão 3.6:

xr= xmin+ (xmax− xmin) b10

2l_{− 1} (3.7)

Por exemplo, considere o cromossomo de 16 bits:

xb2 = 1011010101010101 (3.8)

Ao decodific´a-lo da base 2 para a base 10, ´e obtido o valor:

xb10 = 46421 (3.9)

Considere ainda que o intervalo [xmin, xmax] ´e definido por [0, 50]. Logo, o mapeamento na b10desse valor ´e:

xr= 0 + (50 − 0) 46421

216_{− 1} ∼= 35.42 (3.10) Caso o número representado seja um inteiro, é só realizar o arre- dondamento, para cima ou para baixo, dependendo do critério definido.

4 PROCEDIMENTOS METODOL ´OGICOS

No método de discretiza¸cão Pico e Vale proposto (DPV) assume- se que uma variável numérica vi ∈ V possui valores em intervalos extremos e em um intervalo intermediário. Ao analisar o intervalo in- termediário é poss´ıvel obter os intervalos de valores extremos (valores acima e valores abaixo dos limites do intervalo intermediário) e estabelecer suas probabilidades condicionais, assim como suas rela¸cões de causa e efeito: “O que causou esse comportamento? O que ele im- plica?”.

Observando o comportamento de uma variável, é poss´ıvel inferir se um valor xi está fora do intervalo intermediário, seja de forma po- sitiva (alta) ou negativa (baixa). A delimita¸cão dos intervalos utiliza dois pontos de corte expressos em percentil: o primeiro (pico) é restrito `

a ´area considerada “alta” e o segundo (vale) cobre a ´area considerada “baixa”.

O uso do percentil como medida para os pontos de corte in- corpora o conceito de frequência dos dados (seguindo a linha do EFD, EMD e FFD). Porém, o método DPV não segue uma regra pré-definida de cortes, ou seja, a quantidade de dados em cada classe é descoberta em tempo de processamento. Além disso, ao utilizar a medida de percentil é poss´ıvel restringir a área de cobertura de cada um dos cortes, definindo seus limites de atua¸cão.

O uso dos dois pontos de corte sugere que uma variável numérica possui três comportamentos distintos: “baixo”, “médio” e “alto”. En- tretanto, essa premissa nem sempre é verdadeira e a utiliza¸cão desses três comportamentos pode não trazer benef´ıcios para a cria¸cão de uma RB. Isso acontece quando os pontos de corte estão muito próximos dos valores limites, por exemplo, o corte de vale está muito próximo do menor percentil da variável ou o corte de pico está muito próximo do maior percentil. É poss´ıvel ainda que os dois cortes estejam tão perto um do outro que um intervalo intermediário é considerado irrelevante. A Figura 6 mostra dois exemplos de dados classificados com o DPV. O primeiro gráfico possui três comportamentos distintos: um intermediário, um superior e um inferior. O segundo gráfico mostra apenas dois comportamentos um superior e outro inferior.

O ponto fundamental para estabelecer os percentis dos cortes está no algoritmo de busca, nesse caso, o Algoritmo Genético. A escolha do AG deve-se pela sua implementa¸cão simples, resultados eficientes e adequa¸cão ao problema (WRIGHT et al., 1991).

Figura 6 – Eventos de Pico e Vale.

No método DPV, cada variável numérica vido conjunto de dados tem seus dois pontos de corte. Esses pontos são encontrados através da busca pelo AG e é escolhido o conjunto mais “bem adaptado” à fun¸cão objetivo no que diz respeito à RB. O conjunto de pontos, que representa um indiv´ıduo, pode ser visto na Figura 7.

Figura 7 – Representa¸c˜ao de um indiv´ıduo no DPV.

A Figura 8 mostra a vis˜ao geral do m´etodo proposto. ´

E importante ressaltar que o método DPV é de discretiza¸cão visando a descoberta de conhecimento na RB, ou seja, o conjunto de

Figura 8 – Fluxograma do m´etodo DPV.

variáveis discretizadas deve refor¸car o processo de aprendizagem. Dessa forma, a distribui¸cão de probabilidade dentro de cada nodo da RB não necessariamente será simétrica.

A escolha do melhor indiv´ıduo no AG está diretamente associada ao mecanismo de classifica¸cão na Rede Bayesiana. Cada nodo em uma RB é expresso por um vetor probabilidades, sendo que cada um de seus estados tem uma probabilidade de ser “verdadeiro”. Nesta disserta¸cão foi adotado o método de classifica¸cão que escolhe o maior valor no vetor de probabilidades do nodo de sa´ıda para classificar a instância.

Existem duas situa¸cões poss´ıveis para se estabelecer o fitness de um indiv´ıduo durante a execu¸cão do DPV: quando a variável de sa´ıda ´

e qualitativa e quando a vari´avel de sa´ıda ´e quantitativa.

Quando a variável de sa´ıda é qualitativa, um maior desempenho da rede está diretamente ligado à classifica¸cão correta dos dados através da variável de sa´ıda. Portanto, a medida de desempenho nesses casos ´

e a própria acurácia e o objetivo do algoritmo é a sua maximiza¸cão. Ou seja, o melhor indiv´ıduo de uma popula¸cão é aquele que possui a maior acurácia.

Entretanto, quando a variável de sa´ıda é quantitativa, objetiva- se estimar valores através do seu vetor de probabilidade. Esses valores correspondem aos valores médios da distribui¸cão e o desempenho da

rede está ligado à minimiza¸cão da taxa de erro entre os valores esti- mados e os valores numéricos da variável de sa´ıda.

Outro ponto fundamental para as Redes Bayesianas está na sua topologia. Neste trabalho foi utilizada a estrutura Na¨ıve Bayes e, portanto, todas as variáveis são consideradas de evidências de entrada com a exce¸cão da variável de sa´ıda. A escolha dessa topologia é justificada pela sua efetividade e simplicidade ao facilitar o processo de aprendizagem (Se¸cão 3.2.1).

Para avaliar o desempenho do DPV, o método foi aplicado em três bases de dados com o objetivo de testar os casos onde a variável de sa´ıda é qualitativa e onde ela é quantitativa.

No primeiro caso (sa´ıda qualitativa), foram utilizadas duas bases de dados públicas que retratam problemas de classifica¸cão, sendo a primeira uma base de caracter´ısticas de diferentes tipos de flores Iris e a segunda uma análise qu´ımica de diferentes tipos de vinho.

No segundo caso (sa´ıda quantitativa) foi utilizada uma base de dados de um dom´ınio real que apresenta variáveis de um sistema de perfura¸cão de po¸cos de petróleo e sua respectiva taxa de perfura¸cão. O objetivo, nesse caso, é estimar o valor da taxa de perfura¸cão.

O método proposto foi comparado com dois outros métodos da literatura: EFD e EWD. A escolha desses métodos se deve à sua grande popularidade, eficiência, baixo custo computacional e utiliza¸cão de forma h´ıbrida com uma grande quantidade de métodos de discretiza¸cão (Se¸cão 2).

5 M ´ETODO PROPOSTO

O m´etodo proposto (DPV) ´e composto de dois mecanismos fun- damentais:

• a an´alise dos pontos de corte (pico e vale) estabelecidos ao de- terminar a sua relevˆancia;

• a escolha dos pontos de corte mais bem adaptados ao problema atrav´es do Algoritmo Gen´etico.

O método DPV é paramétrico e define a relevância dos pontos de corte através do coeficiente α. Esse coeficiente determina a proxi- midade máxima permitida entre os pontos de corte e os valores limites da variável (extremos).

Caso os pontos de corte estejam muito próximos, eles serão uni- dos. Caso um dos pontos de corte esteja muito próximo de um dos valores extremos da variável, este ponto será desconsiderado. E, fi- nalmente, se ambos os pontos de corte estiverem muito próximos dos pontos extremos, é criado um novo ponto de corte através da média dos dois pontos (pico e vale).

As propriedades do método DPV em rela¸cão aos pontos de corte são mostradas na Se¸cão 5.1 e as configura¸cões em rela¸cão ao Algoritmo Genético, assim como as fun¸cões objetivo empregadas, são mostradas na Se¸cão 5.2.

No documento Método de discretização de variáveis para redes bayesianas utilizando algoritmos genéticos (páginas 44-53)