• Nenhum resultado encontrado

Algoritmos Gen´eticos (AGs) s˜ao otimizadores de fun¸c˜oes, ou seja, m´etodos que procuram os extremos de uma fun¸c˜ao objetiva f (x) baseando nos princ´ıpios da sele¸c˜ao natural e da gen´etica populacional (GOLDBERG, 1989) (CANT ´U-PAZ, 1995) (WEILE; MICHIELSSEN, 1997). A fun¸c˜ao objetivo do problema ´e usualmente usada para expressar a fun¸c˜ao fitness no AG.

Um aspecto importante em rela¸c˜ao `a fun¸c˜ao fitness est´a na sua responsabilidade de medir a performance da solu¸c˜ao (fun¸c˜ao objetiva) como uma maneira de gerar uma aloca¸c˜ao de recursos para a reprodu¸c˜ao (WHITLEY, 1994).

Um indiv´ıduo ´e definido como uma solu¸c˜ao candidata v´alida no AG, expressa ou por uma string bin´aria ou por um vetor de n´umeros reais (JANIKOW; MICHALEWICZ, 1991) (WRIGHT et al., 1991), onde um conjunto de indiv´ıduos ´e considerado uma popula¸c˜ao. Trˆes operadores

43

s˜ao comumente usados: sele¸c˜ao, crossover e muta¸c˜ao (Figura 5).

Figura 5 – Fluxograma do Algoritmo Gen´etico.

O operador de sele¸c˜ao usa o fitness de cada indiv´ıduo para esco- lher aqueles que s˜ao os mais adaptados da popula¸c˜ao atual para gerar uma nova popula¸c˜ao. H´a v´arias maneiras de realizar essa sele¸c˜ao de indiv´ıduos, mas ela sempre garante que os indiv´ıduos mais adaptados (melhores fitness) possuam uma maior probabilidade de serem selecio- nados.

A reprodu¸c˜ao ´e feita pelos operadores de crossover e muta¸c˜ao. O primeiro ´e o mecanismo prim´ario de explora¸c˜ao do AG: ele esco- lhe aleatoriamente um par de indiv´ıduos pr´e-selecionados e troca in- forma¸c˜ao (uma substring, no caso de representa¸c˜ao bin´aria) entre os dois indiv´ıduos para criar novos indiv´ıduos.

O operador de muta¸c˜ao ´e geralmente considerado como um ope- rador secund´ario e ´e usado para prevenir que a solu¸c˜ao fique estagnada em algum m´ınimo ou m´aximo local. A muta¸c˜ao ´e feita atrav´es da sele¸c˜ao randˆomica de uma substring em um indiv´ıduo e trocando o va- lor da mesma. O percentual da popula¸c˜ao atingido por esse operador ´

e geralmente muito menor que o percentual atingido pelo operador de crossover.

O AG come¸ca com uma popula¸c˜ao atual e ent˜ao a sele¸c˜ao ´e apli- cada para criar uma popula¸c˜ao intermedi´aria. Recombina¸c˜ao (muta¸c˜ao e crossover) ´e ent˜ao usada para criar a pr´oxima popula¸c˜ao. O processo

44

entre a popula¸c˜ao atual at´e a pr´oxima popula¸c˜ao.

A convergˆencia do AG tende a evoluir atrav´es de sucessivas gera¸c˜oes at´e que o fitness do melhor indiv´ıduo e a m´edia de fitness da popula¸c˜ao se aproximarem do ´otimo global (BEASLEY; MARTIN; BULL, 1993).

Algoritmos Gen´eticos n˜ao garantem que a solu¸c˜ao ´otima vai ser encontrada, e sua efetividade ´e determinada pelo tamanho da popula¸c˜ao n. O tempo requerido para que o AG convirja ´e de O(n log n) avalia¸c˜oes de fun¸c˜oes (GOLDBERG, 1989).

3.4.1 Representa¸c˜ao de um indiv´ıduo

Um cromossomo representa um indiv´ıduo, que ´e uma solu¸c˜ao candidata do problema a ser resolvido. Entre as representa¸c˜oes mais comuns de um indiv´ıduo no AG, encontram-se: codifica¸c˜ao bin´aria, codifica¸c˜ao em ponto flutuante, m´aquina de estados finitos e ´arvores.

A representa¸c˜ao mais comum ´e a codifica¸c˜ao bin´aria, que des- creve o cromossomo por um vetor de bits. A representa¸c˜ao bin´aria de um n´umero real est´a sujeita `a seguinte precis˜ao:

2l≥ (xmax− xmin) ∗ 10p (3.6) onde l o tamanho da cadeia de bits,s p corresponde `a precis˜ao, k a quantidade de bits e xmin, xmax definem o intervalo real [xmin, xmax] ao qual o valor a ser representado xr pertence. Logo, quanto maior a precis˜ao desejada maior a quantidade de bits necess´aria para obtˆe-la.

´

E necess´ario, por´em, que as cadeias de bits tenham o mesmo tamanho para a execu¸c˜ao dos operadores de reprodu¸c˜ao do AG (cros- sover, muta¸c˜ao). Outro quesito importante est´a na quantidade de bits no cromossomo: ele deve ser grande o suficiente para permitir uma boa troca de informa¸c˜oes durante a reprodu¸c˜ao. Portanto, a t´ecnica de mapeamento ´e utilizada.

A t´ecnica de mapeamento funciona como uma regra de trˆes. Ao pegar um n´umero bin´ario (b2) tradicional, ela aumenta a quantidade de bits necess´aria para represent´a-lo. Para isso, utiliza-se os valores de xmin, xmax de forma similar `a Equa¸c˜ao 3.6:

xr= xmin+ (xmax− xmin) b10

2l− 1 (3.7)

45

Por exemplo, considere o cromossomo de 16 bits:

xb2 = 1011010101010101 (3.8)

Ao decodific´a-lo da base 2 para a base 10, ´e obtido o valor:

xb10 = 46421 (3.9)

Considere ainda que o intervalo [xmin, xmax] ´e definido por [0, 50]. Logo, o mapeamento na b10desse valor ´e:

xr= 0 + (50 − 0) 46421

216− 1 ∼= 35.42 (3.10) Caso o n´umero representado seja um inteiro, ´e s´o realizar o arre- dondamento, para cima ou para baixo, dependendo do crit´erio definido.

47

4 PROCEDIMENTOS METODOL ´OGICOS

No m´etodo de discretiza¸c˜ao Pico e Vale proposto (DPV) assume- se que uma vari´avel num´erica vi ∈ V possui valores em intervalos ex- tremos e em um intervalo intermedi´ario. Ao analisar o intervalo in- termedi´ario ´e poss´ıvel obter os intervalos de valores extremos (valores acima e valores abaixo dos limites do intervalo intermedi´ario) e esta- belecer suas probabilidades condicionais, assim como suas rela¸c˜oes de causa e efeito: “O que causou esse comportamento? O que ele im- plica?”.

Observando o comportamento de uma vari´avel, ´e poss´ıvel inferir se um valor xi est´a fora do intervalo intermedi´ario, seja de forma po- sitiva (alta) ou negativa (baixa). A delimita¸c˜ao dos intervalos utiliza dois pontos de corte expressos em percentil: o primeiro (pico) ´e restrito `

a ´area considerada “alta” e o segundo (vale) cobre a ´area considerada “baixa”.

O uso do percentil como medida para os pontos de corte in- corpora o conceito de frequˆencia dos dados (seguindo a linha do EFD, EMD e FFD). Por´em, o m´etodo DPV n˜ao segue uma regra pr´e-definida de cortes, ou seja, a quantidade de dados em cada classe ´e descoberta em tempo de processamento. Al´em disso, ao utilizar a medida de per- centil ´e poss´ıvel restringir a ´area de cobertura de cada um dos cortes, definindo seus limites de atua¸c˜ao.

O uso dos dois pontos de corte sugere que uma vari´avel num´erica possui trˆes comportamentos distintos: “baixo”, “m´edio” e “alto”. En- tretanto, essa premissa nem sempre ´e verdadeira e a utiliza¸c˜ao desses trˆes comportamentos pode n˜ao trazer benef´ıcios para a cria¸c˜ao de uma RB. Isso acontece quando os pontos de corte est˜ao muito pr´oximos dos valores limites, por exemplo, o corte de vale est´a muito pr´oximo do menor percentil da vari´avel ou o corte de pico est´a muito pr´oximo do maior percentil. ´E poss´ıvel ainda que os dois cortes estejam t˜ao perto um do outro que um intervalo intermedi´ario ´e considerado irrelevante. A Figura 6 mostra dois exemplos de dados classificados com o DPV. O primeiro gr´afico possui trˆes comportamentos distintos: um intermedi´ario, um superior e um inferior. O segundo gr´afico mostra apenas dois comportamentos um superior e outro inferior.

O ponto fundamental para estabelecer os percentis dos cortes est´a no algoritmo de busca, nesse caso, o Algoritmo Gen´etico. A escolha do AG deve-se pela sua implementa¸c˜ao simples, resultados eficientes e adequa¸c˜ao ao problema (WRIGHT et al., 1991).

48

Figura 6 – Eventos de Pico e Vale.

No m´etodo DPV, cada vari´avel num´erica vido conjunto de dados tem seus dois pontos de corte. Esses pontos s˜ao encontrados atrav´es da busca pelo AG e ´e escolhido o conjunto mais “bem adaptado” `a fun¸c˜ao objetivo no que diz respeito `a RB. O conjunto de pontos, que representa um indiv´ıduo, pode ser visto na Figura 7.

Figura 7 – Representa¸c˜ao de um indiv´ıduo no DPV.

A Figura 8 mostra a vis˜ao geral do m´etodo proposto. ´

E importante ressaltar que o m´etodo DPV ´e de discretiza¸c˜ao visando a descoberta de conhecimento na RB, ou seja, o conjunto de

49

Figura 8 – Fluxograma do m´etodo DPV.

vari´aveis discretizadas deve refor¸car o processo de aprendizagem. Dessa forma, a distribui¸c˜ao de probabilidade dentro de cada nodo da RB n˜ao necessariamente ser´a sim´etrica.

A escolha do melhor indiv´ıduo no AG est´a diretamente associada ao mecanismo de classifica¸c˜ao na Rede Bayesiana. Cada nodo em uma RB ´e expresso por um vetor probabilidades, sendo que cada um de seus estados tem uma probabilidade de ser “verdadeiro”. Nesta disserta¸c˜ao foi adotado o m´etodo de classifica¸c˜ao que escolhe o maior valor no vetor de probabilidades do nodo de sa´ıda para classificar a instˆancia.

Existem duas situa¸c˜oes poss´ıveis para se estabelecer o fitness de um indiv´ıduo durante a execu¸c˜ao do DPV: quando a vari´avel de sa´ıda ´

e qualitativa e quando a vari´avel de sa´ıda ´e quantitativa.

Quando a vari´avel de sa´ıda ´e qualitativa, um maior desempenho da rede est´a diretamente ligado `a classifica¸c˜ao correta dos dados atrav´es da vari´avel de sa´ıda. Portanto, a medida de desempenho nesses casos ´

e a pr´opria acur´acia e o objetivo do algoritmo ´e a sua maximiza¸c˜ao. Ou seja, o melhor indiv´ıduo de uma popula¸c˜ao ´e aquele que possui a maior acur´acia.

Entretanto, quando a vari´avel de sa´ıda ´e quantitativa, objetiva- se estimar valores atrav´es do seu vetor de probabilidade. Esses valores correspondem aos valores m´edios da distribui¸c˜ao e o desempenho da

50

rede est´a ligado `a minimiza¸c˜ao da taxa de erro entre os valores esti- mados e os valores num´ericos da vari´avel de sa´ıda.

Outro ponto fundamental para as Redes Bayesianas est´a na sua topologia. Neste trabalho foi utilizada a estrutura Na¨ıve Bayes e, por- tanto, todas as vari´aveis s˜ao consideradas de evidˆencias de entrada com a exce¸c˜ao da vari´avel de sa´ıda. A escolha dessa topologia ´e justificada pela sua efetividade e simplicidade ao facilitar o processo de aprendi- zagem (Se¸c˜ao 3.2.1).

Para avaliar o desempenho do DPV, o m´etodo foi aplicado em trˆes bases de dados com o objetivo de testar os casos onde a vari´avel de sa´ıda ´e qualitativa e onde ela ´e quantitativa.

No primeiro caso (sa´ıda qualitativa), foram utilizadas duas bases de dados p´ublicas que retratam problemas de classifica¸c˜ao, sendo a primeira uma base de caracter´ısticas de diferentes tipos de flores Iris e a segunda uma an´alise qu´ımica de diferentes tipos de vinho.

No segundo caso (sa´ıda quantitativa) foi utilizada uma base de dados de um dom´ınio real que apresenta vari´aveis de um sistema de perfura¸c˜ao de po¸cos de petr´oleo e sua respectiva taxa de perfura¸c˜ao. O objetivo, nesse caso, ´e estimar o valor da taxa de perfura¸c˜ao.

O m´etodo proposto foi comparado com dois outros m´etodos da literatura: EFD e EWD. A escolha desses m´etodos se deve `a sua grande popularidade, eficiˆencia, baixo custo computacional e utiliza¸c˜ao de forma h´ıbrida com uma grande quantidade de m´etodos de discre- tiza¸c˜ao (Se¸c˜ao 2).

51

5 M ´ETODO PROPOSTO

O m´etodo proposto (DPV) ´e composto de dois mecanismos fun- damentais:

• a an´alise dos pontos de corte (pico e vale) estabelecidos ao de- terminar a sua relevˆancia;

• a escolha dos pontos de corte mais bem adaptados ao problema atrav´es do Algoritmo Gen´etico.

O m´etodo DPV ´e param´etrico e define a relevˆancia dos pontos de corte atrav´es do coeficiente α. Esse coeficiente determina a proxi- midade m´axima permitida entre os pontos de corte e os valores limites da vari´avel (extremos).

Caso os pontos de corte estejam muito pr´oximos, eles ser˜ao uni- dos. Caso um dos pontos de corte esteja muito pr´oximo de um dos valores extremos da vari´avel, este ponto ser´a desconsiderado. E, fi- nalmente, se ambos os pontos de corte estiverem muito pr´oximos dos pontos extremos, ´e criado um novo ponto de corte atrav´es da m´edia dos dois pontos (pico e vale).

As propriedades do m´etodo DPV em rela¸c˜ao aos pontos de corte s˜ao mostradas na Se¸c˜ao 5.1 e as configura¸c˜oes em rela¸c˜ao ao Algoritmo Gen´etico, assim como as fun¸c˜oes objetivo empregadas, s˜ao mostradas na Se¸c˜ao 5.2.

Documentos relacionados