Método de discretização de variáveis para redes bayesianas utilizando algoritmos genéticos

(1)

UNIVERSIDADE FEDERAL DE SANTA CATARINA PROGRAMA DE P ÓS-GRADUAÇ ÃO EM CI ÊNCIA DA

COMPUTAC¸ ˜AO

Mariana Dehon Costa e Lima

M ÉTODO DE DISCRETIZAÇ ÃO DE VARI ÁVEIS PARA REDES BAYESIANAS UTILIZANDO ALGORITMOS

GEN ´ETICOS

Florian´opolis 2014

(2)

(3)

GEN ´ETICOS

Disserta¸cão submetida ao Programa de Pós Gradua¸cão em Ciência da Com-puta¸cão da Universidade Federal de Santa Catarina para a obten¸cão do Grau de Mestre em Ciência da Com-puta¸cão.

Orientadora: Silvia Modesto Nassar, Dra.

Florian´opolis 2014

(4)

(5)

GEN ´ETICOS

Esta Disserta¸cão foi julgada aprovada para a obten¸cão do T´ıtulo de “Mestre em Ciência da Computa¸cão”, e aprovada em sua forma final pelo Programa de Pós Gradua¸cão em Ciência da Computa¸cão da Universidade Federal de Santa Catarina.

Florian´opolis, 27 de fevereiro 2014.

Ronaldo dos Santos Mello, Dr. Coordenador do Curso Banca Examinadora:

Silvia Modesto Nassar, Dra. Orientadora

(6)

(7)

Rivalino Matias J´unior, Dr.

Mauro Roisenberg, Dr.

(8)

(9)

(10)

(11)

AGRADECIMENTOS

Agrade¸co aos meus pais pelo suporte, dedica¸cão e por terem uma fé inabalável em mim e por serem meus maiores incentivadores. Esse trabalho não existiria sem todo o apoio que me deram e é uma conquista tão minha quanto suas.

Agrade¸co também à toda minha fam´ılia, em especial à minha tia Marlene, meu avô Feliciano e minha avó Nininha (in memoriam). Muito obrigada por terem acreditado em mim e por me dado todo o est´ımulo que eu precisava.

Agrade¸co à minha melhor amiga, Tatiane, que tem sido meu ponto de apoio há vários anos e por sempre ter uma palavra de enco-rajamento quando eu me sentia desmotivada ou abalada.

Agrade¸co também à Ana Luiza, que esteve presente durante todo o desenvolvimento desse trabalho e por ter me dado todo o apoio emo-cional que eu precisava durante esses anos. Muito obrigada por ter revisado essa disserta¸cão quase tantas vezes quanto eu, por ter ouvido todas as minhas preocupa¸cões (que não foram poucas) e por estar sem-pre dispon´ıvel pra mim.

Agrade¸co à minha orientadora Silvia Modesto Nassar, que se tornou uma referência para mim tanto na vida pessoal quanto na pro-fissional. Muito obrigada pela confian¸ca, paciência e pelo conhecimento transmitido. E principalmente, muito obrigada por sempre ter me tra-tado como uma “filha acadêmica”, por acreditar em mim e por me dar todo o incentivo poss´ıvel para completar esse trabalho.

Agrade¸co à Petrobras pelo suporte financeiro e pela oportuni-dade através do projeto que deu origem à minha disserta¸cão. Agrade¸co também aos meus colegas de projeto e aos professores responsáveis Paulo, Silvia, Mauro e Rivalino pela experiência, sugestões e contri-bui¸cões durante a execu¸cão desse trabalho.

Agrade¸co, enfim, aos meus colegas e amigos do laboratório Per-formanceLab pela convivência, conselhos e experiência adquirida. Muito obrigada, em especial, ao Altieres, Diego, Gabriel e Pedro.

(12)

(13)

Para ser grande, sê inteiro: nada teu exa-gera ou exclui. Sê todo em cada coisa. Põe quanto és no m´ınimo que fazes. As-sim em cada lago a lua toda brilha, porque alta vive.

(14)

(15)

RESUMO

Rede Bayesiana é uma técnica de classifica¸cão vastamente utilizada na área de Inteligência Artificial. Sua estrutura é composta por um grafo ac´ıclico direcionado usado para modelar a associa¸cão de variáveis categóricas (qualitativas). Entretanto, em casos onde existem variáveis numéricas no dom´ınio, uma pré discretiza¸cão é geralmente necessária. Nesta disserta¸cão, é apresentada uma discretiza¸cão heur´ıstica para Re-des Bayesianas que procura padrões nos dados e os divide de acordo com os padrões encontrados. Esses padrões são identificados por dois even-tos que são otimizados por uma busca através do Algoritmo Genético. Esses dois eventos mudam de acordo com a base de dados, tornando a discretiza¸cão proposta mais flex´ıvel para lidar com diferentes dom´ınios de aplica¸cão.

O método de discretiza¸cão proposto foi testado em duas situa¸cões dis-tintas: quando a variável de sa´ıda é qualitativa (classifica¸cão) e também quando a variável de sa´ıda é quantitativa e é necessário estimar o seu valor médio e desvio-padrão.

Para casos em que a sa´ıda é qualitativa foram utilizados duas bases de dados: Iris Flower e Wine. Em ambas as bases de dados a acurácia do método proposto foi superior quando comparada com outros dois métodos da literatura: um que discretiza as variáveis por frequência e outro por tamanho de classes.

Para representar os casos em que variável de sa´ıda é quantitativa, foi utilizada uma base de dados real com dados de perfura¸cão de po¸cos de petróleo com o objetivo de estimar a taxa média de perfura¸cão de broca. Nesses casos, é feito a estima¸cão do valor de sa´ıda através da média da distribui¸cão de probabilidade. O método proposto obteve um erro inferior na estima¸cão quando comparado tanto com o método que discretiza por frequência quanto com o método que discretiza por tamanho.

Com os resultados, a conclusão é que o método pode discretizar as variáveis quantitativas através das identifica¸cões dos eventos que des-viam de um intervalo intermediário nos dados, seja para cima (pico) ou para baixo (vale). Também foi observado que o método está ligado a um problema de otimiza¸cão global quando todas as variáveis quantitativas são discretizadas ao mesmo tempo.

Palavras-chave: Redes Bayesianas, discretiza¸cão, otimiza¸cão global, algoritmo genético.

(16)

(17)

ABSTRACT

Bayesian Network (BN) is a classification technique widely used in Ar-tificial Intelligence. Its structure is a DAG (direct acyclic graph) used to model the association of categorical variables. However, in cases where the variables are numerical, a previous discretization is usually necessary.

In this dissertation, we show a heuristic discretization for Bayesian Networks that search for data patterns and divide the data according to them. These patterns are identified by two events: peak and valley being optimized by a search through the Genetic Algorithm. These two events change according to the database, making the proposed method a flexible discretization to handle different application domains. The Peak-Valley Discretization Method proposed was tested two dif-ferent situations: only classification when the output variable is quali-tative and also estimating the mean value and the standard deviation when the output variable is quantitative.

Considering the cases where the output is quantitative, two databa-ses where used: Iris Flower and Wine. The accuracy in both of them was superior with the proposed method when compared with two other methods from the literature: one that discretizes the variable by fre-quency and one that does that by class’ size.

To represent the cases where the output variable is quantitative, was used a real data of oil wells perforation with the objective of estimating the average perforation rate. In such cases, the estimation is done by the average of the output value distribution of probability. The pro-posed method achieved a lower error in the estimation when compared with the method of frequency discretization and with the method that discretizes by size.

With the results, the conclusion is that the method can properly discre-tize the quantitative variables by identifying events that deviate from expected results within the knowledge domain, whether up (peak) or down (valley). It was also observed that the method brings a problem of global optimization when discretizing all quantitative variables si-multaneously. The problem of global optimization was treated by a Genetic Algorithm.

Keywords: Bayesian Networks, discretization, global optimization, genetic algorithm.

(18)

(19)

LISTA DE FIGURAS

Figura 1 Aprendizado e previs˜ao dos algoritmos do tipo

Aprendi-zado Supervisionado. . . 36

Figura 2 Topologia Na¨ıve Bayes. . . 37

Figura 3 Entradas e Sa´ıda em uma Rede Bayesiana. . . 38

Figura 4 Estrutura Geral de uma Rede Bayesiana. . . 39

Figura 5 Fluxograma do Algoritmo Gen´etico. . . 43

Figura 6 Eventos de Pico e Vale. . . 48

Figura 7 Representa¸c˜ao de um indiv´ıduo no DPV. . . 48

Figura 8 Fluxograma do m´etodo DPV.. . . 49

Figura 9 RB treinada pelo DPV para o Problema Iris Flower.. . . 62

Figura 10 RB treinada pelo EFD para o Problema Iris Flower. . . . 62

Figura 11 RB treinada pelo EWD para o Problema Iris Flower. . . 63

Figura 12 RB treinada pelo DPV para o Problema Wine. . . 64

Figura 13 RB treinada pelo EFD para o Problema Wine. . . 64

Figura 14 RB treinada pelo EWD para o Problema Wine. . . 65

Figura 15 RB treinada pelo DPV para o Problema da ROP. . . 69

Figura 16 RB treinada pelo EFD para o Problema da ROP. . . 70

Figura 17 RB treinada pelo EWD para o Problema da ROP. . . 70

Figura 18 Exemplo de entrada e estima¸c˜ao de valor para o problema ROP. . . 71

Figura 19 Valores estimados de ROP no m´etodo DPV (treina-mento). . . 72

Figura 20 Valores estimados de ROP no m´etodo EFD (treinamento). 72 Figura 21 Valores estimados de ROP no m´etodo EWD (treina-mento). . . 73

Figura 22 Valores estimados de ROP no m´etodo DPV (teste). . . 73

Figura 23 Valores estimados de ROP no m´etodo EFD (teste). . . 74

(20)

(21)

LISTA DE TABELAS

Tabela 1 Estado da Arte – Discretiza¸cão Redes Bayesianas. . . 33 Tabela 2 Exemplo de Tabela de Probabilidade Condicional (CPT). 38 Tabela 3 Matriz de classifica¸cão para o problema Iris Flower. . . . 66 Tabela 4 Matriz de classifica¸cão para o problema Wine. . . 67 Tabela 5 Classes e Pontos Médios para o problema ROP. . . 71 Tabela 6 NRMSE obtido para o Problema da ROP. . . 72

(22)

(23)

LISTA DE ABREVIATURAS E SIGLAS

RB Rede Bayesiana . . . 27 DAG Grafo Ac´ıclico Direcionado . . . 27 FFD Fixed Frequency Discretization . . . 29 EWD Equal Width Discretization . . . 31 EFD Equal Frequency Discretization . . . 31 EMD Entropy Minimization Discretization . . . 31 LD Lazy Discretization . . . 31 PD Proportional Discretization . . . 31 FFD Fixed Frequency Discretization . . . 31 ROC Receiver Operating Characteristic . . . 32 AM Aprendizado de Máquina. . . 35 NN Algoritmo do vizinho mais próximo . . . 35 SVM Máquinas de vetores suporte . . . 35 CPT Tabela de Probabilidade Condicional . . . 37 RBH Redes Bayesianas H´ıbridas . . . 39 MTE Mixtures of Truncated Exponentials . . . 41 AG Algoritmo Genético . . . 42 DPV Discretiza¸cão Pico e Vale . . . 47 NRMSE Normalized root mean square error . . . 57 ROP Taxa de penetra¸cão . . . 68 RPM Revolu¸cões por Minuto . . . 69 PSB Peso sobre a Broca . . . 69 HSI Potência Hidráulica por Polegada Quadrada . . . 69

(24)

(25)

LISTA DE ALGORITMOS

1 Método de Discretiza¸cão EWD . . . 40 2 Método de Discretiza¸cão EFD . . . 41 3 Relevância dos cortes de pico e vale e discretiza¸cão . . . . 54 4 Método de Discretiza¸cão pico e vale via AG . . . 58

(26)

(27)

SUM ÁRIO 1 INTRODUÇ ÃO . . . 27 1.1 JUSTIFICATIVA E MOTIVAÇ ÃO . . . 27 1.2 PROBLEMATIZAÇ ÃO . . . 28 1.3 OBJETIVO GERAL . . . 29 1.4 OBJETIVOS ESPECÍFICOS . . . 29 1.5 ESTRUTURA DA DISSERTAÇ ÃO . . . 30 2 ESTADO DA ARTE . . . 31 3 FUNDAMENTAÇ ÃO TE ÓRICA . . . 35 3.1 APRENDIZADO SUPERVISIONADO . . . 35 3.2 REDES BAYESIANAS . . . 35 3.2.1 Modelagem Bayesiana . . . 37 3.3 REDES BAYESIANAS HÍBRIDAS . . . 39 3.3.1 Discretiza¸cão . . . 39 3.3.2 Combina¸cão de Exponenciais Truncadas . . . 41 3.3.3 Abordagem via Cadeia de Markov - Monte Carlo . . 42 3.4 ALGORITMOS GEN ÉTICOS . . . 42 3.4.1 Representa¸cão de um indiv´ıduo . . . 44 4 PROCEDIMENTOS METODOL ÓGICOS . . . 47 5 M ÉTODO PROPOSTO . . . 51 5.1 PROPRIEDADES PICO E VALE . . . 51 5.1.1 Exemplo de Aplica¸cão . . . 54 5.2 O PROBLEMA DE OTIMIZAÇ ÃO . . . 56 6 RESULTADOS E DISCUSS ÃO . . . 61 6.1 SAÍDA QUALITATIVA - BASE DE DADOS . . . 61 6.1.1 O Problema Iris Flower . . . 61 6.1.2 O Problema Wine . . . 63 6.1.3 Resultados e Compara¸cão . . . 65 6.1.4 Discussão . . . 65 6.2 SAÍDA QUANTITATIVA - BASE DE DADOS . . . 68 6.2.1 Problema da Taxa de Penetra¸cão da Broca (ROP) . 68 6.2.2 Resultados e Compara¸cão . . . 69 6.2.3 Discussão . . . 71 7 CONSIDERAÇ ÕES FINAIS . . . 77 REFER ÊNCIAS . . . 79

(28)

(29)

27

1 INTRODUC¸ ˜AO

Uma Rede Bayesiana (RB) (PEARL, 1988) é um modelo de re-presenta¸cão e racioc´ınio de incerteza que utiliza a probabilidade con-dicional entre as variáveis categóricas (qualitativas) de um dom´ınio e as expressa via um grafo ac´ıclico direcionado (Directed Acyclic Graph - DAG). Sua estrutura gráfica consegue mapear as correla¸cões entre as variáveis, sendo uma linguagem apropriada e com recursos eficien-tes para a representa¸cão da distribui¸cão conjunta de probabilidades so-bre um conjunto randômico de variáveis (FRIEDMAN; GEIGER; GOLDSZ-MIDT, 1997).

Entretanto, a distribui¸cão conjunta de probabilidades dentro da RB pode ser muito grande e o racioc´ınio Bayesiano (inferência) não é uma tarefa trivial. A utiliza¸cão do componente de fatoriza¸cão tende a diminuir a complexidade da inferência exata. Entre os algoritmos da área pode-se citar aqueles que são exatos (SHENOY; SHAFER, 2008); (MADSEN; JENSEN, 1999) e os que são aproximados para facilitar a

inferência em RBs complexas. Os algoritmos aproximados são divididos em dois tipos: estocásticos (FUNG; CHANG, 1990); (SALMER ÓN; CANO; MORAL, 2000) ou determin´ısticos (JENSEN; LAURITZEN; OLESEN, 1990); (CANO; MORAL; SALMERON, 2000).

A inferência Bayesiana clássica é realizada em casos onde o dom´ınio de aplica¸cão é exclusivamente qualitativo. Para que a técnica possa ser aplicada quando o conjunto de variáveis é h´ıbrido, ou seja, apresente variáveis numéricas (quantitativas) e variáveis qualitativas, é necessário usar métodos alternativos que possibilitem a inferência dentro da RB. Métodos de discretiza¸cão ou de simula¸cão (LANGSETH et al., 2009) são geralmente empregados em Redes Bayesianas de dom´ınios h´ıbridos e proporcionam uma inferência aproximada.

1.1 JUSTIFICATIVA E MOTIVAC¸ ˜AO

Entre os métodos de inferência aproximada, o mais comum para lidar com Rede Bayesianas H´ıbridas é o de Discretiza¸cão. Esse método, muda o valor numérico da variável por um correspondente qualitativo, de acordo com alguma métrica ou critério espec´ıfico. As abordagens de discretiza¸cão são usualmente feitas através da distribui¸cão de probabili-dades ou usando parâmetros estáticos, como a frequência de cada classe. Alguns fatores favorecem a discretiza¸cão (categoriza¸cão) de variáveis

(30)

28

para RBs, como:

• Falta de algoritmos eficientes para o aprendizado e a inferˆencia para dados cont´ınuos (FRIEDMAN; GOLDSZMIDT, 1996);

• Facilidade em compreender caracter´ısticas categorizadas em de-trimento `as cont´ınuas (LIU et al., 2002);

• Classificadores utilizando dados discretos (em intervalos) tendem a ser menos complexos e mais precisos que utilizando dados cont´ınuos (FRANK; WITTEN, 1999);

• Menor complexidade computacional o que acarreta em uma maior rapidez no aprendizado e inferˆencia (FRIEDMAN; GOLDSZMIDT, 1996),(ROUSU, 2001), (YANG, 2003).

A discretiza¸cão também pode ser feita por especialistas da área de forma manual. Entretanto, essa pode ser uma tarefa complexa: há casos onde os dados não seguem nenhum padrão vis´ıvel e quando seguem, esse padrão pode mudar em diferentes ocasiões. Portanto, é necessário discretizar os dados com o conhecimento dos próprios dados, porque não há nenhum conhecimento prévio do seu comportamento.

1.2 PROBLEMATIZAC¸ ˜AO

Esta pesquisa visa propor um método de discretiza¸cão de even-tos, aqui chamados pico e vale, observáveis em um vetor de dados. Este método será implementado em algoritmo e testado em base de dados de forma que possam ser avaliados seus resultados. Portanto, trata-se de uma pesquisa de base tecnológica.

Embora haja vários de dados, A maioria dos algoritmos para discretiza¸cão deles possui como objetivo principal a clusteriza¸cão das variáveis. Para realizar a discretiza¸cão no dom´ınio da RB, acredita-se que acredita-seja necessário considerar as distribui¸cões condicionais de cada variável no processo e como elas se distribuem globalmente na rede. Dentre as abordagens de discretiza¸cão utilizadas em Redes Bayesianas, as mais comuns são:

• Discretiza¸c˜ao de igual largura (Equal Width Discretization - EWD) (CATLETT, 1991); (KERBER, 1992); (DOUGHERTY; KOHAVI; SAHAMI, 1995) - divide os valores de v em k intervalos (definidos por parˆametro) de igual largura w = (xmax− xmin)/k;

(31)

29

• Discretiza¸c˜ao de igual frequˆencia (Equal Frequency Discretiza-tion -EFD) (CATLETT, 1991); (KERBER, 1992); (DOUGHERTY; KOHAVI; SAHAMI, 1995) - ordena os valores de v e os divide em m

k intervalos (definidos por parâmetro), sendo que cada intervalo contenha aproximadamente o mesmo número de instâncias; • Discretiza¸cão da Minimiza¸cão da Entropia (Entropy

Minimiza-tion DiscretizaMinimiza-tion - EMD) (FAYYAD; IRANI, 1993) - Ordena os valores de v e testa poss´ıveis pontos de corte através do ponto médio de cada par xi, xi+1. Os dados são então discretizados em dois intervalos e a entropia é calculada. Para avaliar o corte, a abordagem seleciona aquele com a menor entropia e então repete o processo recursivamente, sempre selecionando o melhor ponto de corte.

Outras técnicas também são aplicadas, como a “Discretiza¸cão Pregui¸cosa” (Lazy Discretization - LD) (HSU; HUANG; WONG, 2000); (HSU; HUANG; WONG, 2003), “Discretiza¸cão Proporcional” (Proportio-nal Discretization - PD) e “Discretiza¸cão de Frequência Fixa” (Fixed Frequency Discretization - FFD) (YANG; WEBB, 2009).

Um importante aspecto quanto as RBs está na sua propriedade de inferência: a distribui¸cão de probabilidades de uma variável influen-cia diretamente a outra. Portanto, é necessário realizar uma otimiza¸cão global para reduzir o erro na RB e, por consequência, aumentar a sua acurácia.

´

E então poss´ıvel encontrar um método de discretiza¸cão que con-tribua para a descoberta do conhecimento e aumento da acurácia em Redes Bayesianas?

1.3 OBJETIVO GERAL

Propor um método de discretiza¸cão baseado em dados para Re-des Bayesianas através da otimiza¸cão global das variáveis do dom´ınio de aplica¸cão.

1.4 OBJETIVOS ESPEC´IFICOS

• Identificar regi˜oes com eventos de pico e vale nos dados;

(32)

30

como método de otimiza¸cão global para variável de sa´ıda quali-tativa e para variável de sa´ıda quantitativa;

• Integrar as propriedades matemáticas do método proposto com o Algoritmo Genético;

• Avaliar o m´etodo proposto.

1.5 ESTRUTURA DA DISSERTAC¸ ˜AO

Esta disserta¸cão está dividida em oito cap´ıtulos. No Cap´ıtulo 1 é mostrada a introdu¸cão ao problema e dada uma visão geral da dis-serta¸cão além do objetivo geral e dos objetivos espec´ıficos pretendidos. No Cap´ıtulo 2 é uma feita revisão bibliográfica dos principais métodos de discretiza¸cão para Redes Bayesianas.

No Cap´ıtulo 3 é feita a apresenta¸cão dos fundamentos teóricos utilizados: Redes Bayesianas, Redes Bayesianas H´ıbridas e Algoritmos Genéticos.

No Cap´ıtulo 4 são definidos os procedimentos metodológicos ado-tados na disserta¸cão.

No Cap´ıtulo 5 são mostradas as propriedades matemáticas do método proposto e definidas as fun¸cões dos dois pontos de cortes: pico e vale. Também é feita a mesclagem entre as propriedades de discre-tiza¸cão propostas e o Algoritmo Genético. São propostas as fun¸cões objetivo para duas situa¸cões: quando a variável de sa´ıda é qualitativa e quando a variável de sa´ıda é quantitativa.

No Cap´ıtulo 6 são mostrados estudos de caso em que foram apli-cados o método proposto e outros métodos da literatura e seus devidos desempenhos para diferentes bases de dados e esses resultados são dis-cutidos e analisados.

E finalmente, no Cap´ıtulo 7 o estudo é conclu´ıdo e são feitas as considera¸cões finais além da indica¸cão de trabalhos futuros em comple-mento ao apresentado.

(33)

31

2 ESTADO DA ARTE

Os dois métodos mais comuns para a discretiza¸cão em Redes Bayesianas utilizam pontos de corte fixos para a defini¸cão de interva-los. O primeiro, chamado EWD (Equal Width Discretization - EWD) (CATLETT, 1991); (KERBER, 1992); (DOUGHERTY; KOHAVI; SAHAMI, 1995) divide o conjunto de dados em tamanhos de igual largura e cada uma das divisões equivale à uma classe na RB, o segundo Discretiza¸cão de igual frequência (Equal Frequency Discretization -EFD) divide o conjunto de dados de forma que as classes possuam aproximadamente a mesma quantidade de dados. Ambos os métodos não levam em con-sidera¸cão qualquer rela¸cão entre as variáveis ou a melhoria da acurácia da rede. Ambos os métodos são utilizados em RBs devido à sua sim-plicidade e boa performance (HSU; HUANG; WONG, 2003).

Fayyad e Irani (1993) propõe um método heur´ıstico Discretiza¸cão da Minimiza¸cão da Entropia (Entropy Minimization Discretization -EMD), que ao contrário dos métodos EWD e EFD é um método de aprendizado supervisionado. Dougherty, Kohavi e Sahami (1995) apli-cou esse método em várias bases de dados do repositório da UCI utili-zando Redes Bayesianas e obteve bons resultados.

Hsu, Huang e Wong (2000) propõe o método de “Discretiza¸cão Pregui¸cosa” (Lazy Discretization - LD) que deriva diretamente das pro-priedades da Distribui¸cão de Dirichlet. Nesse método, a discretiza¸cão ´

e adiada até o momento da classifica¸cão. Ele espera até que a instância de teste seja apresentada para então determinar os pontos de corte e estimar as probabilidades de cada classe. O método foi aplicado em bases de dados do repositório da UCI e obteve bons resultados quando comparado com outros métodos de discretiza¸cão.

Matsuura (2003) propõe um método de discretiza¸cão para Redes Bayesianas chamado de Discretiza¸cão via Tabela de Probabilidades. O algoritmo discretiza todas as variáveis cont´ınuas via EWD ou EFD e usa um algoritmo de aprendizado de estrutura para gerar a mais ade-quada aos dados discretizados. É realizado um loop para a união de intervalos e eles são avaliados por uma métrica chamada de Diferen¸ca Média Quadrática. O método foi aplicado em uma base de dados rela-cionado à prote¸cão ao voo, obtendo resultados promissores e superiores quando comparados ao método EFD.

Yang e Webb (2009) propõe dois métodos heur´ısticos de discre-tiza¸cão: “Discretiza¸cão Proporcional” (Proportional Discretization -PD) e “Discretiza¸cão de Frequência Fixa” (Fixed Frequency

(34)

Discreti-32

zation - FFD). O método PD procura minimizar o bias e a variância através de um conjunto com n instâncias de treinamento e determi-nando o valor de s (quantidade de dados em cada intervalo) e t (número de intervalos), de forma que s = t e s × t = n. O método FFD atua de forma semelhante ao método EFD, porém em vez de delimitar k intervalos, ele delimita a quantidade m´ınima de dados em cada estado e a quantidade máxima de intervalos. Ambos os métodos apresentados obtiveram erros inferiores em bases de dados do repositório da UCI quando comparados com outros métodos.

Wong (2012) propõe uma medida não paramétrica de avaliar o n´ıvel de dependência entre um atributo cont´ınuo e uma classe, e então essa medida é utilizada em um método h´ıbrido de discretiza¸cão de forma que a acurácia em um classificador do tipo Na¨ıve Bayes seja melhorada. O método proposto combina quatro métodos (EWD, EFD, PD e EMD) e obteve uma acurácia geralmente superior que os métodos usados individualmente ao utilizar bases de dados do repositório da UCI.

Kurtcephe e Güvenir (2013) propõe um método de discretiza¸cão global, estático e supervisionado baseado na curva ROC (receiver ope-rating characteristic) utilizando o algoritmo QuickHill (PREPARATA; SHAMOS, 1993) que possui complexidade esperada de O(n log n) e O(n2₎ no pior caso. O método funciona de forma que a área sob a curva ROC seja maximizada e são propostos uma nova medida de discretiza¸cão e um novo critério de parada. Ao comparar o método proposto com outros da literatura, ele obteve um desempenho superior utilizando ba-ses de dados do repositório UCI. Os autores enfatizam que embora o método tenha resultados promissores o tempo necessário para à con-vergência pode ser alto.

(35)

33 T ab ela 1 – Estado da Arte – Discretiza¸ c˜ ao Redes Ba y esianas. M éto do Descri¸ c˜ ao EWD (1191, 1995) discretiza¸ c˜ ao p or igual largura. EFD (1991, 1995) discretiza¸ c˜ ao p or igual frequencia. EFD (1991, 1995) discretiza¸ c˜ ao p or minimiza¸ c˜ ao da en tropia. LD (2000) discretiza¸ c˜ ao na hora da classifica¸ c˜ ao. via T ab ela de Probabilidades (2003) utiliza EWD ou EFD, algoritmo de aprendizagem e um lo op que une in terv alos. PD (2009) determina a quan tidade de dados em cada in terv alo e o n úmero de in terv alos. FFD (2009) delimita a quan tidade m ´ınima de dados em cada estado e a quan tidade m´ axima de in terv alos. m éto do de W ong (2012) a v alia o n ´ıv el de dep end ência en tre um atributo con t´ı n uo e uma classe e com bina os m éto dos EWD, EFD, PD e EMD. m éto do de Kurtcephe (2013) m éto do de disc re tiza¸ c˜ ao glob al, est´ atico e sup ervisionado baseado na curv a R OC.

(36)

(37)

35

3 FUNDAMENTAÇ ÃO TE ÓRICA

Esse cap´ıtulo objetiva apresentar os principais conceitos utiliza-dos para a composi¸cão do método proposto. Na Se¸cão 3.1 é introduzido o conceito de aprendizado supervisionado e o método adotado de pre-visão nesse tipo de aprendizado.

Na Se¸cão 3.2 é definido formalmente uma Rede Bayesiana, assim como sua modelagem. Na Se¸cão 3.3 é incorporado o conceito de Redes Bayesianas H´ıbridas e suas técnicas de inferência aproximada.

E, finalmente, na Se¸cão 3.4 são discutidos os principais conceitos dos Algoritmos Genéticos e as formas de representa¸cão de um indiv´ıduo.

3.1 APRENDIZADO SUPERVISIONADO

O Aprendizado de Máquina (AM) é um conjunto de técnicas computacionais que tem por objetivo a cria¸cão de sistemas capazes de adquirir e organizar o conhecimento de forma automática (MITCHELL, 1997).

Uma das técnicas do AM é o Aprendizado Supervisionado (Su-pervised learning) que consiste em criar uma fun¸cão através de um conjunto de treinamento (MITCHELL, 1997).

Esse conjunto possui pares de objetos de entrada (tipicamente vetores) e sa´ıda desejada, que pode ser um número real (para casos de regressão) ou um rótulo de uma classe (para casos de classifica¸cão).

O objetivo do Aprendizado Supervisionado é utilizar a fun¸cão criada para prever o valor de sa´ıda (resultado) através dos dados de entrada (Figura 1). Os algoritmos principais dessa técnica são: Redes Neurais, algoritmo do vizinho mais próximo (Nearest Neighbor - NN), ´

arvores de decis˜ao, as m´aquinas de vetores suporte (Support Vector Machines – SVM) e as Redes Bayesianas.

3.2 REDES BAYESIANAS

Definindo formalmente, uma Rede Bayesiana é uma dupla (G,P), onde G=(V,E) é um DAG nos quais os nodos V = v1, v2, . . . , vn re-presentam as variáveis e as arestas E = e1, . . . , en representam uma direta correla¸cão entre cada nodo de V . O item P é definido como os parâmetros probabil´ısticos expressos através de tabelas: dada uma

(38)

de-36

Figura 1 – Aprendizado e previs˜ao dos algoritmos do tipo Aprendizado Supervisionado.

terminada variável é feita a distribui¸cão de probabilidade condicional de cada uma de suas classes (estados) X = x1, . . . , xn em rela¸cão a cada uma das classes de seus pais.

Ou seja, a RB estabelece que uma variável é independente de todas as outras variáveis, exceto de seus descendentes no grafo dado o estado de seus pais. A inferência na RB é feita pelo Teorema de Bayes:

P (V = v|X = x) = P (X = x|V = v)P (V = v)

P (X = x) (3.1)

A probabilidade conjunta é determinada pela chamada “regra da cadeia” e assume a independência condicional entre as variáveis:

P (v1, . . . , vn) = n Y i=1

P (Vi|pai(Vi)) (3.2) onde pai(Vi) determina o conjunto de nodos pais do nodo Vi.

A inferência exata seguindo a Equa¸cão 3.2 não é uma tarefa trivial, pois a distribui¸cão de probabilidade conjunta pode ser muito grande. Por exemplo, em um caso em que haja 10 nodos discretos com 2 estados cada. A distribui¸cão de probabilidade é de 210_{− 1 = 1023} va-lores expressos em uma tabela. E a tabela de cresce forma exponencial: se fossem 11 nodos haveriam 211_{− 1 = 2047 valores expressos.}

(39)

37

(

se “entrada” ent˜ao “sa´ıda”

se “sa´ıda” ent˜ao “entrada” (3.3)

3.2.1 Modelagem Bayesiana

A modelagem de uma RB é feita a partir de uma estrutura (DAG) que incorpora a categoriza¸cão das variáveis cont´ınuas. A partir dessa modelagem é necessário estabelecer as tabelas de probabilidade (for¸ca de associa¸cão entre variáveis) através do aprendizado do dom´ınio a ser trabalhado. Existem três formas de realizar essa aprendizagem: exclusivamente dos dados (base de dados), exclusivamente dos especia-listas do dom´ınio ou aprender de forma h´ıbrida tanto dos dados quanto dos especialistas.

Entre as poss´ıveis topologias de rede é vastamente conhecida a estrutura Na¨ıve Bayes, que é o mais simples entre esses modelos. dado o contexto de classe. Embora esse modelo não traduza a realidade na maioria das tarefas do mundo real ele é bastante efetivo, pois os parâmetros de cada atributo podem ser aprendidos separadamente, fa-cilitando o processo de aprendizagem (MCCALLUM; NIGAM et al., 1998). A topologia Na¨ıve Bayes é, portanto, um conjunto de variáveis de entrada independentes entre si que possuem em conjunto um único pai (nó de sa´ıda). Um exemplo da topologia Na¨ıve Bayes pode ser vista na Figura 2. Nesse caso, o nodo A é a sa´ıda e os nodos B, C e D são as entradas.

Figura 2 – Topologia Na¨ıve Bayes.

Além da topologia da rede, é necessário especificar a Tabela de Probabilidade Condicional (Conditional Probability Table - CPT) de cada nodo, o que descreve a probabilidade de cada classe do nodo em combina¸cão com cada classe de seus pais. Um exemplo de CPT para a

(40)

38

RB da Figura 2 ´e mostrado na Tabela 2.

Tabela 2 – Exemplo de Tabela de Probabilidade Condicional (CPT).

A P (B = state0) P (B = state1) P (B = state2)

state0 0.2 0.2 0.5

state1 0.1 0.5 0.4

state2 0.1 0.05 0.85

O nodo de sa´ıda, em uma Rede Bayesiana, tem seus valores de probabilidade calculados por inferência (Equa¸cão 3.2) ao utilizar a evidência expressa pelos nodos de entrada. A cria¸cão de uma topologia de rede hierárquica é feita ao adicionar nodos intermediários entre as entradas e a sa´ıda (Figura 3).

Figura 3 – Entradas e Sa´ıda em uma Rede Bayesiana.

Ou seja, cada variável do dom´ınio de aplica¸cão se torna um nodo na RB e uma liga¸cão entre dois nodos denota uma rela¸cão de “causa e efeito” (probabilidade condicional). Para especificar a “for¸ca” dessa rela¸cão são feitas (usualmente) tabelas do tipo CPT para cada um dos nodos (Figura 4).

(41)

39

Figura 4 – Estrutura Geral de uma Rede Bayesiana.

3.3 REDES BAYESIANAS H´IBRIDAS

São chamadas de Redes Bayesianas H´ıbridas (RBH) aquelas que possuem tanto nodos cont´ınuos quanto nodos discretos. Nos casos em que há apenas nodos discretos no dom´ınio, a distribui¸cão condicional pode ser representada através de uma tabela com valores de probabili-dade.

Entretanto, o problema se torna mais complexo nas Redes Baye-sianas H´ıbridas, pois trabalha-se com modelos para expressar a distri-bui¸cão de probabilidade condicional e não com tabelas (CPT) como nas RBs clássicas. A acurácia da inferência depende do dom´ınio a ser representado e nem sempre é exata (LANGSETH et al., 2009).

Para lidar com os casos em que a inferência exata não é poss´ıvel, são utilizados métodos aproximados em Redes Bayesianas H´ıbridas. Os métodos mais populares de inferência aproximada são: Discretiza¸cão (Se¸cão 3.3.1), Combina¸cão de exponenciais truncadas (Se¸cão 3.3.2) e ainda uma abordagem utilizando Cadeia de Markov (Se¸cão 3.3.3).

3.3.1 Discretiza¸c˜ao

A técnica mais comum para lidar com a inferência em Redes Bayesianas H´ıbridas é a discretiza¸cão. Essa técnica consiste em trocar

(42)

40

o valor cont´ınuo x da variável por seu valor discreto equivalente x0. Os métodos EWD e EFD são muito utilizados para discretiza¸cão em Redes Bayesianas por sua baixa complexidade computacional e fa-cilidade de de implementa¸cão, além de sua boa performance (HSU; HU-ANG; WONG, 2003).

O método EWD possui complexidade O(n) em um vetor orde-nado, pois divide uma variável em intervalos de igual largura, ou seja, os pontos de corte são definidos de forma que exista k intervalos com tamanhos de:

w = (xmax− xmin

k ) (3.4)

onde xmax ´e o maior valor da vari´avel e xmin o menor valor (Algoritmo 1).

Algoritmo 1 M´etodo de Discretiza¸c˜ao EWD

1: v ← a vari´avel quantitativa ordenada a ser discretizada

2: xmin← menor valor em v

3: xmax← maior valor em v

4: k ← quantidade de intervalos

5: w ← xmax−xmin

k

6: corte ← w

7: indice ← 0

8: classeatual ← classe + indice (nome da primeira classe - a que possui os menores valores)

9: for all xi em v do

10: if xi> corte then

11: corte ← corte + w

12: indice ← indice + 1

13: classeatual← classe + indice

14: end if

15: discretize xi para classeatual

16: end for

17: return v discretizada (v∗)

O método EFD também possui complexidade O(n) em um vetor ordenado, porém divide uma variável em tamanhos de igual frequência. Ou seja, os pontos de corte são definidos de forma que cada classe possua aproximadamente o mesmo número de registros (Algoritmo 2). Nos métodos EWD e EFD é necessário fornecer a variável or-denada. O problema da ordena¸cão possui complexidade θ(n log n), e

(43)

41

Algoritmo 2 M´etodo de Discretiza¸c˜ao EFD

1: v ← a vari´avel quantitativa ordenada a ser discretizada

2: n ← quantidade de registros em v 3: k ← quantidade de intervalos 4: range ←n_k 5: igual ← F ALSO 6: indiceclasse← 1 7: indiceregistro← 0

8: classeatual← classe + indice

9: classeanterior

10: while indiceregistro< n do

11: if i < (range ∗ j) OU igual = verdadeiro then

12: discretize xi para classeatual

13: else

14: indiceclasse= v[indiceregistro]

15: end if

16: classeanterior= indice + 1

17: if v[indiceregistro+ 1] = classeanterior then

18: // caso v[indiceregistro+ 1] == n foi omitido para fins de simplicidade 19: igual ← V ERDADEIRO 20: else 21: igual ← F ALSO 22: end if 23: end while 24: return v discretizada (v∗)

portanto a complexidade total dos m´etodos ´e O(n) ∗ θ(n log n).

3.3.2 Combina¸c˜ao de Exponenciais Truncadas

O Modelo de Combina¸cão de Exponenciais Truncadas (Mixtures of Truncated Exponentials - MTE) (MORAL; RUMÍ; SALMER ÓN, 2001) pode ser entendido como uma generaliza¸cão da discretiza¸cão ( LANG-SETH et al., 2009).

Entretanto, ao invés de utilizar pontos de corte para discretizar cada região do conjunto de dados, essa discretiza¸cão é feita por uma combina¸cão linear de fun¸cões exponenciais.

(44)

representa-42

das pelas médias das MTEs, que agem como um modelo geral e pode se aproximar à distribui¸cão da variável de forma satisfatória (LANGSETH et al., 2009).

O principal benef´ıcio dessa abordagem é uma maior flexibilidade para se aproximar da fun¸cão de distribui¸cão da variável.

3.3.3 Abordagem via Cadeia de Markov - Monte Carlo

Nesse tipo de abordagem, é utilizada a ideia de amostragem. É garantido que se a quantidade de amostras for suficientemente grande, feita de forma independente e com a mesma distribui¸cão, é poss´ıvel obter qualquer grau de precisão desejada na estima¸cão:

EZ(P (T = 1|Z)) ∼= 1 N N X i=1 P (T = 1|zi) (3.5) onde zi, . . . , zn s˜ao amostras de f (z).

Essa é uma técnica de inferência que tira vantagem da estrutura Bayesiana para aumentar a velocidade do processo de simula¸cão.

Nesse tipo de técnica é importante ficar atento quanto à es-tima¸cão de eventos raros, já que muitas amostras devem ser geradas para poder obter uma única amostra desse evento (LANGSETH et al., 2009).

3.4 ALGORITMOS GEN ´ETICOS

Algoritmos Genéticos (AGs) são otimizadores de fun¸cões, ou seja, métodos que procuram os extremos de uma fun¸cão objetiva f (x) baseando nos princ´ıpios da sele¸cão natural e da genética populacional (GOLDBERG, 1989) (CANT Ú-PAZ, 1995) (WEILE; MICHIELSSEN, 1997). A fun¸cão objetivo do problema é usualmente usada para expressar a fun¸cão fitness no AG.

Um aspecto importante em rela¸cão à fun¸cão fitness está na sua responsabilidade de medir a performance da solu¸cão (fun¸cão objetiva) como uma maneira de gerar uma aloca¸cão de recursos para a reprodu¸cão (WHITLEY, 1994).

Um indiv´ıduo é definido como uma solu¸cão candidata válida no AG, expressa ou por uma string binária ou por um vetor de números reais (JANIKOW; MICHALEWICZ, 1991) (WRIGHT et al., 1991), onde um conjunto de indiv´ıduos é considerado uma popula¸cão. Três operadores

(45)

43

são comumente usados: sele¸cão, crossover e muta¸cão (Figura 5).

Figura 5 – Fluxograma do Algoritmo Gen´etico.

O operador de sele¸cão usa o fitness de cada indiv´ıduo para esco-lher aqueles que são os mais adaptados da popula¸cão atual para gerar uma nova popula¸cão. Há várias maneiras de realizar essa sele¸cão de indiv´ıduos, mas ela sempre garante que os indiv´ıduos mais adaptados (melhores fitness) possuam uma maior probabilidade de serem selecio-nados.

A reprodu¸cão é feita pelos operadores de crossover e muta¸cão. O primeiro é o mecanismo primário de explora¸cão do AG: ele esco-lhe aleatoriamente um par de indiv´ıduos pré-selecionados e troca in-forma¸cão (uma substring, no caso de representa¸cão binária) entre os dois indiv´ıduos para criar novos indiv´ıduos.

O operador de muta¸cão é geralmente considerado como um ope-rador secundário e é usado para prevenir que a solu¸cão fique estagnada em algum m´ınimo ou máximo local. A muta¸cão é feita através da sele¸cão randômica de uma substring em um indiv´ıduo e trocando o va-lor da mesma. O percentual da popula¸cão atingido por esse operador ´

e geralmente muito menor que o percentual atingido pelo operador de crossover.

O AG come¸ca com uma popula¸cão atual e então a sele¸cão é apli-cada para criar uma popula¸cão intermediária. Recombina¸cão (muta¸cão e crossover) é então usada para criar a próxima popula¸cão. O processo

(46)

44

entre a popula¸cão atual até a próxima popula¸cão.

A convergência do AG tende a evoluir através de sucessivas gera¸cões até que o fitness do melhor indiv´ıduo e a média de fitness da popula¸cão se aproximarem do ótimo global (BEASLEY; MARTIN; BULL, 1993).

Algoritmos Genéticos não garantem que a solu¸cão ótima vai ser encontrada, e sua efetividade é determinada pelo tamanho da popula¸cão n. O tempo requerido para que o AG convirja é de O(n log n) avalia¸cões de fun¸cões (GOLDBERG, 1989).

3.4.1 Representa¸c˜ao de um indiv´ıduo

Um cromossomo representa um indiv´ıduo, que é uma solu¸cão candidata do problema a ser resolvido. Entre as representa¸cões mais comuns de um indiv´ıduo no AG, encontram-se: codifica¸cão binária, codifica¸cão em ponto flutuante, máquina de estados finitos e árvores.

A representa¸cão mais comum é a codifica¸cão binária, que des-creve o cromossomo por um vetor de bits. A representa¸cão binária de um número real está sujeita à seguinte precisão:

2l≥ (xmax− xmin) ∗ 10p (3.6) onde l o tamanho da cadeia de bits,s p corresponde à precisão, k a quantidade de bits e xmin, xmax definem o intervalo real [xmin, xmax] ao qual o valor a ser representado xr pertence. Logo, quanto maior a precisão desejada maior a quantidade de bits necessária para obtê-la.

´

E necessário, porém, que as cadeias de bits tenham o mesmo tamanho para a execu¸cão dos operadores de reprodu¸cão do AG (cros-sover, muta¸cão). Outro quesito importante está na quantidade de bits no cromossomo: ele deve ser grande o suficiente para permitir uma boa troca de informa¸cões durante a reprodu¸cão. Portanto, a técnica de mapeamento é utilizada.

A técnica de mapeamento funciona como uma regra de três. Ao pegar um número binário (b2) tradicional, ela aumenta a quantidade de bits necessária para representá-lo. Para isso, utiliza-se os valores de xmin, xmax de forma similar à Equa¸cão 3.6:

xr= xmin+ (xmax− xmin) b10

2l_{− 1} (3.7)

(47)

45

Por exemplo, considere o cromossomo de 16 bits:

xb2 = 1011010101010101 (3.8)

Ao decodific´a-lo da base 2 para a base 10, ´e obtido o valor:

xb10 = 46421 (3.9)

Considere ainda que o intervalo [xmin, xmax] ´e definido por [0, 50]. Logo, o mapeamento na b10desse valor ´e:

xr= 0 + (50 − 0) 46421

216_{− 1} ∼= 35.42 (3.10) Caso o número representado seja um inteiro, é só realizar o arre-dondamento, para cima ou para baixo, dependendo do critério definido.

(48)

(49)

47

4 PROCEDIMENTOS METODOL ´OGICOS

No método de discretiza¸cão Pico e Vale proposto (DPV) assume-se que uma variável numérica vi ∈ V possui valores em intervalos ex-tremos e em um intervalo intermediário. Ao analisar o intervalo in-termediário é poss´ıvel obter os intervalos de valores extremos (valores acima e valores abaixo dos limites do intervalo intermediário) e esta-belecer suas probabilidades condicionais, assim como suas rela¸cões de causa e efeito: “O que causou esse comportamento? O que ele im-plica?”.

Observando o comportamento de uma variável, é poss´ıvel inferir se um valor xi está fora do intervalo intermediário, seja de forma po-sitiva (alta) ou negativa (baixa). A delimita¸cão dos intervalos utiliza dois pontos de corte expressos em percentil: o primeiro (pico) é restrito `

a ´area considerada “alta” e o segundo (vale) cobre a ´area considerada “baixa”.

O uso do percentil como medida para os pontos de corte in-corpora o conceito de frequência dos dados (seguindo a linha do EFD, EMD e FFD). Porém, o método DPV não segue uma regra pré-definida de cortes, ou seja, a quantidade de dados em cada classe é descoberta em tempo de processamento. Além disso, ao utilizar a medida de per-centil é poss´ıvel restringir a área de cobertura de cada um dos cortes, definindo seus limites de atua¸cão.

O uso dos dois pontos de corte sugere que uma variável numérica possui três comportamentos distintos: “baixo”, “médio” e “alto”. En-tretanto, essa premissa nem sempre é verdadeira e a utiliza¸cão desses três comportamentos pode não trazer benef´ıcios para a cria¸cão de uma RB. Isso acontece quando os pontos de corte estão muito próximos dos valores limites, por exemplo, o corte de vale está muito próximo do menor percentil da variável ou o corte de pico está muito próximo do maior percentil. É poss´ıvel ainda que os dois cortes estejam tão perto um do outro que um intervalo intermediário é considerado irrelevante. A Figura 6 mostra dois exemplos de dados classificados com o DPV. O primeiro gráfico possui três comportamentos distintos: um intermediário, um superior e um inferior. O segundo gráfico mostra apenas dois comportamentos um superior e outro inferior.

O ponto fundamental para estabelecer os percentis dos cortes está no algoritmo de busca, nesse caso, o Algoritmo Genético. A escolha do AG deve-se pela sua implementa¸cão simples, resultados eficientes e adequa¸cão ao problema (WRIGHT et al., 1991).

(50)

48

Figura 6 – Eventos de Pico e Vale.

No método DPV, cada variável numérica vido conjunto de dados tem seus dois pontos de corte. Esses pontos são encontrados através da busca pelo AG e é escolhido o conjunto mais “bem adaptado” à fun¸cão objetivo no que diz respeito à RB. O conjunto de pontos, que representa um indiv´ıduo, pode ser visto na Figura 7.

Figura 7 – Representa¸c˜ao de um indiv´ıduo no DPV.

A Figura 8 mostra a vis˜ao geral do m´etodo proposto. ´

E importante ressaltar que o método DPV é de discretiza¸cão visando a descoberta de conhecimento na RB, ou seja, o conjunto de

(51)

49

Figura 8 – Fluxograma do m´etodo DPV.

variáveis discretizadas deve refor¸car o processo de aprendizagem. Dessa forma, a distribui¸cão de probabilidade dentro de cada nodo da RB não necessariamente será simétrica.

A escolha do melhor indiv´ıduo no AG está diretamente associada ao mecanismo de classifica¸cão na Rede Bayesiana. Cada nodo em uma RB é expresso por um vetor probabilidades, sendo que cada um de seus estados tem uma probabilidade de ser “verdadeiro”. Nesta disserta¸cão foi adotado o método de classifica¸cão que escolhe o maior valor no vetor de probabilidades do nodo de sa´ıda para classificar a instância.

Existem duas situa¸cões poss´ıveis para se estabelecer o fitness de um indiv´ıduo durante a execu¸cão do DPV: quando a variável de sa´ıda ´

e qualitativa e quando a vari´avel de sa´ıda ´e quantitativa.

Quando a variável de sa´ıda é qualitativa, um maior desempenho da rede está diretamente ligado à classifica¸cão correta dos dados através da variável de sa´ıda. Portanto, a medida de desempenho nesses casos ´

e a própria acurácia e o objetivo do algoritmo é a sua maximiza¸cão. Ou seja, o melhor indiv´ıduo de uma popula¸cão é aquele que possui a maior acurácia.

Entretanto, quando a variável de sa´ıda é quantitativa, objetiva-se estimar valores através do seu vetor de probabilidade. Esses valores correspondem aos valores médios da distribui¸cão e o desempenho da

(52)

50

rede está ligado à minimiza¸cão da taxa de erro entre os valores esti-mados e os valores numéricos da variável de sa´ıda.

Outro ponto fundamental para as Redes Bayesianas está na sua topologia. Neste trabalho foi utilizada a estrutura Na¨ıve Bayes e, por-tanto, todas as variáveis são consideradas de evidências de entrada com a exce¸cão da variável de sa´ıda. A escolha dessa topologia é justificada pela sua efetividade e simplicidade ao facilitar o processo de aprendi-zagem (Se¸cão 3.2.1).

Para avaliar o desempenho do DPV, o método foi aplicado em três bases de dados com o objetivo de testar os casos onde a variável de sa´ıda é qualitativa e onde ela é quantitativa.

No primeiro caso (sa´ıda qualitativa), foram utilizadas duas bases de dados públicas que retratam problemas de classifica¸cão, sendo a primeira uma base de caracter´ısticas de diferentes tipos de flores Iris e a segunda uma análise qu´ımica de diferentes tipos de vinho.

No segundo caso (sa´ıda quantitativa) foi utilizada uma base de dados de um dom´ınio real que apresenta variáveis de um sistema de perfura¸cão de po¸cos de petróleo e sua respectiva taxa de perfura¸cão. O objetivo, nesse caso, é estimar o valor da taxa de perfura¸cão.

O método proposto foi comparado com dois outros métodos da literatura: EFD e EWD. A escolha desses métodos se deve à sua grande popularidade, eficiência, baixo custo computacional e utiliza¸cão de forma h´ıbrida com uma grande quantidade de métodos de discre-tiza¸cão (Se¸cão 2).

(53)

51

5 M ´ETODO PROPOSTO

O m´etodo proposto (DPV) ´e composto de dois mecanismos fun-damentais:

• a an´alise dos pontos de corte (pico e vale) estabelecidos ao de-terminar a sua relevˆancia;

• a escolha dos pontos de corte mais bem adaptados ao problema atrav´es do Algoritmo Gen´etico.

O método DPV é paramétrico e define a relevância dos pontos de corte através do coeficiente α. Esse coeficiente determina a proxi-midade máxima permitida entre os pontos de corte e os valores limites da variável (extremos).

Caso os pontos de corte estejam muito próximos, eles serão uni-dos. Caso um dos pontos de corte esteja muito próximo de um dos valores extremos da variável, este ponto será desconsiderado. E, fi-nalmente, se ambos os pontos de corte estiverem muito próximos dos pontos extremos, é criado um novo ponto de corte através da média dos dois pontos (pico e vale).

As propriedades do método DPV em rela¸cão aos pontos de corte são mostradas na Se¸cão 5.1 e as configura¸cões em rela¸cão ao Algoritmo Genético, assim como as fun¸cões objetivo empregadas, são mostradas na Se¸cão 5.2.

5.1 PROPRIEDADES PICO E VALE

Para descrever as propriedades dos pontos de corte no método DPV, os seguintes conceitos são definidos no contexto de uma variável vi:

• p(x) como uma fun¸c˜ao que recebe um valor x como entrada e retorna o percentil que esse valor se encontra;

• p−1_{(y) como a fun¸}_c˜_{ao inversa da fun¸}_c˜_{ao p(x): recebe um percentil} y como entrada e retorna o valor x que ele representa;

• vale como o percentil expresso pelo ponto de corte vale; • pico como o percentil expresso pelo ponto de corte pico;

(54)

52

• vale < pico; • X∗_{= x}∗

1, . . . , x∗ncomo o vetor discretizado do conjunto de valores de vi (X = x1, . . . , xn).

• pxmin como o percentil que representa o menor valor (xmin) em

vi;

• pxmax como o percentil que representa o maior valor (xmax) em

vi; ´

E poss´ıvel mesclar ou desprezar pontos de corte se eles não forem relevantes para a solu¸cão. A relevância dos pontos de corte e sua pro-ximidade com os valores extremos (xmin e xmax) são expressos por um coeficiente de relevância α (0 < α < 1) definido por parâmetro, que de-termina quão perto o ponto de corte está desses valores. A proximidade para os dois pontos de corte segue as seguintes equa¸cões:

xmin p−1_(vale) ≤ α =⇒ p −1_{(vale) ≥} xmin α (5.1) p−1(pico) xmax < α =⇒ p−1(pico) < xmax∗ α (5.2) como vale < pico, a seguinte inequa¸cão é válida:

xmin

α < xmax∗ α (5.3)

Ou seja, para que exista um valor válido de α é necessário satis-fazer a inequa¸cão:

α2> xmin xmax =⇒ α >r xmin xmax (5.4) ´

E necessário, portanto, aplicar uma corre¸cão em α para assegu-rar que os pontos sempre possuam um intervalo de valores considerado relevante independente da proximidade de xmin e xmax. O valor ajus-tado do coeficiente, α0, é definido por:

α0= ((1 − δ) · α) + δ (5.5) onde δ ´e o coeficiente limite entre xmin e xmax, definido por:

δ =r xmin xmax

(55)

53

com essa defini¸cão, é poss´ıvel inferir que o limite da Equa¸cão 5.5 quando δ → 0 é:

lim

δ→0((1 − δ) · α) + δ = α (5.7) Ou seja, quando a distância entre xmin e xmax for muito grande (tender ao infinito), o valor de δ tende a zero e α0_{= α. A relevˆ}_{ancia dos} cortes, é portanto determinada pelo coeficiente ajustado α0. O menor valor relevante de vale é dado por:

p−1(valemin) = xmin

α0 (5.8)

e o maior valor relevante de pico ´e:

p−1(picomax) = xmax· α0 (5.9) Através das Equa¸cões 5.8 e 5.9 e considerando que ambos os pon-tos de corte possuam diferentes defini¸cões, é poss´ıvel definir a seguinte hierarquia:

pxmin≤ vale ≤ γ < pico ≤ pxmax (5.10)

onde γ = valemin+picomax

2 representa o limite entre pico e vale. Os seguintes crit´erios s˜ao usados para mesclar ou desprezar pon-tos de corte:           

caso 1: se p_p−1−1(vale)_(pico) > α0, ent˜ao mescle por

vale+pico 2 caso 2: se p−1_x(pico)

max > α

0_{, ent˜}_{ao despreze o corte de pico} caso 3: se xmin

p−1_(vale) > α0, ent˜ao despreze o corte de vale

caso 4: se caso 2 e caso 3 ent˜ao mescle por vale+pico₂

(5.11) A caracter´ıstica da RB de representar o conhecimento de forma expl´ıcita cria uma preocupa¸cão quanto ao nome das classes em X∗, que devem ser intuitivas e expressar suas propriedades. Dessa forma, os nomes das classes foram escolhidos levando em considera¸cão a Equa¸cão 5.11.

O cálculo da relevância dos cortes pico e vale no método DPV é feito de forma paramétrica e é necessário a defini¸cão de alguns parâmetros, como: a variável a ser discretizada, o valor do coeficiente de relevância α, e os dois pontos de corte respeitando a hierarquia da Equa¸cão 5.5. Esses parâmetros são definidos como entrada para o cálculo.

(56)

54

Após a defini¸cão dos parâmetros de entrada, é aplicada a corre¸cão do valor alpha pela Equa¸cão 5.5 e são calculados os valores de caso1, caso2 e caso3 através da Equa¸cão 5.11. Os valores calculados deter-minarão a quantidade de classes para a discretiza¸cão e o rótulo das mesmas.

O fluxo geral do cálculo da relevância dos cortes e sua respectiva discretiza¸cão pelo método DPV é expresso no Algoritmo 3.

Algoritmo 3 Relevˆancia dos cortes de pico e vale e discretiza¸c˜ao

1: v ← a vari´avel quantitativa a ser discretizada

2: α ← algum coeficiente de relevˆancia α, (0 < α < 1)

3: vale ← algum percentil de acordo com a Equa¸c˜ao 5.10

4: pico ← algum percentil de acordo com a Equa¸c˜ao 5.10

5: α0← corre¸c˜ao do α (Equa¸c˜ao 5.5)

6: caso1 ← p_p−1−1(vale)_(pico)

7: caso2 ← p−1_x(pico)

max

8: caso3 ← xmin

p−1_(vale)

9: if caso1 > α0 or ( caso2 > α0 and caso3 > α0 ) then 10: discretize v usando “baixo” e “alto” (2 classes)

11: else if caso2 > α0 then

12: discretize v usando “baixo” e “m´edio” (2 classes)

13: else if caso3 > α0 then

14: discretize v usando “m´edio” e “alto” (2 classes)

15: else

16: discretize v usando “baixo”, “m´edio” e “alto” (3 classes)

17: end if

18: return v discretizada (v∗)

5.1.1 Exemplo de Aplica¸c˜ao

Imagine uma situa¸cão onde xmin = 10, xmax = 12 e α = 0.8. Caso fosse aplicado o coeficiente de relevância sem efetuar a corre¸cão (α = α0), o menor valor poss´ıvel para o vale ser considerado relevante, pela Equa¸cão 5.8, é:

p−1(valemin) =

(xmin= 10)

(α0 _{= α = 0.8)} = 12.5 (5.12) De forma an´aloga, o maior valor poss´ıvel para o pico ser

(57)

consi-55

derado relevante, pela Equa¸c˜ao 5.9, ´e:

p−1(picomax) = (xmax= 12) · (α0= α = 0.8) = 9.6 (5.13) Esses valores geram uma contradi¸c˜ao, pois nunca seria aceito como relevante nenhum corte de vale ou de pico.

Para realizar a corre¸cão em α é necessário calcular o δ pela Equa¸cão 5.6 e aplicar a corre¸cão do coeficiente de relevância pela Equa¸cão 5.5: δ = s (xmin= 10) (xmax= 12) ∼ = 0.8334 (5.14) α0= ((1 − (δ = 0.8334)) · (α = 0.8)) + (δ = 0.8334) = 0.96668 (5.15) E por consequência, os valores de p−1(valemin) e p−1(picomax) são alterados pelas Equa¸cões 5.8 e 5.9:

p−1(valemin) =

(xmin= 10)

(α0 _{= 0.96668)}∼= 10.3447 (5.16)

p−1(picomax) = (xmax= 12) · (α0= 0.96668) ∼= 11, 6001 (5.17) Após definido os pontos de corte é necessário analisar a relevância dos mesmos (Equa¸cão 5.11).

Vamos supor que o algoritmo tenha definido os pontos de corte, e em uma variável vitenha sido encontrado o valor de vale = 20. Ou seja, o corte de vale encontra-se no percentil 20. Vamos supor ainda, que por interpola¸cão linear fosse encontrada p−1(vale) = 10.3. Da mesma forma para o corte de pico, imagine que pico = 98 e p−1(pico) = 11.9 Observe que nesse caso o corte de pico seria desprezado: o único corte válido seria o de vale.

Caso vale = 10, p−1(vale) = 10.15, pico = 80 e p−1(pico) = 11.5, seria desprezado o corte de vale.

Caso os valores estejam próximos, por exemplo,vale = 48, p−1(vale) = 10.98, pico = 52 e p−1(pico) = 11, nesse caso os dois cortes são unidos e é criado um novo corte pela Equa¸cão 5.11:

(vale = 48) + (pico = 52)

(58)

56

e seu percentil estabelecido por interpola¸c˜ao linear. Nesse caso, corte = 50 e p−1(corte) = 10.99.

Se o valor de vale for muito baixo e o de pico muito alto simulta-neamente é feito um novo corte de forma similar ao exemplo anterior. Nunca ocorrerá um caso em que o corte de vale seja muito alto ou que o pico seja muito baixo, pois esses cortes obedecem a hierarquia estabelecida na Equa¸cão 5.10.

5.2 O PROBLEMA DE OTIMIZAC¸ ˜AO

Os seguintes conceitos s˜ao definidos: • vout como a vari´avel de sa´ıda emV ; • V∗ _{= v}∗

1, . . . , v∗n como o vetor de todas as vari´aveis discretizadas em V : originalmente qualitativas ou discretizadas pelo DPV; • v∗

out como a vari´avel de sa´ıda em V∗;

• ˜X = ˜x1, . . . , ˜xn comos os valores previstos de v∗out pela RB; • ˜X1 _{= ˜}_x1

1, . . . , ˜x1n como os valores previstos corretamente de v∗out pela RB;

• ˜X0_{= ˜}_x0

1, . . . , ˜x0n como os valores previstos incorretamente de v∗out pela RB; • ev(x) = n X i=1 beliefi· pontomedioi (5.19) como uma fun¸cão que retorna o valor quantitativo esperado de uma classe em v_out∗ , baseado nas probabilidades da rede (beliefs) e em uma lista com os números reais que representam cada classe de v_out∗ . A lista de números reais é criada através dos pontos médios de cada classe de v∗_out comparados com vout.

A discretiza¸cão de uma variável vi no DPV depende dos pontos de corte pico e vale, além de um coeficiente de relevância pré-definido (α). Entretanto, a distribui¸cão de probabilidade em vi influencia o processo de inferência de toda a RB (Equa¸cão 3.1).

(59)

57

Portanto, é necessário discretizar todas as variáveis simultane-amente, o que gera um Problema de Otimiza¸cão Global (HORST; RO-MEIJN, 2002), ou seja, encontrar o melhor conjunto de condi¸cões aceitáveis

para atingir um objetivo formulado por termos matem´aticos.

Nesta disserta¸cão, a fun¸cão objetivo consiste em discretizar todas as variáveis do conjunto de dados, de forma que o erro de previsão da variável de sa´ıda seja o menor poss´ıvel.

Assumindo que vout pode tanto ser quantitativa quanto quali-tativa, duas fun¸c˜oes objetivo diferentes podem ser usadas. Se vout for qualitativa,

encontre V∗= max acuracia(v∗_out) (5.20) onde

acuracia(v∗_out) = | ˜X 1_|

| ˜X0_{| + | ˜}_X1_| (5.21) Porém, se voutfor quantitativa, a fun¸cão objetivo é dada pela mi-nimiza¸cão do erro NRMSE (normalized root mean square error ), dado por

encontre V∗= min N RM SE(vout) (5.22) onde N RM SE(vout) = 100 · q 1 n Pn i=1(xi− ev( ˜xi))2 xmax− xmin (5.23) O erro NRMSE é calculado a partir do erro RMSE, que é con-siderado uma boa medida de desempenho embora seja dependente de escala. A normaliza¸cão do erro traz a vantagem de independente de escala e a poss´ıvel compara¸cão entre diferentes bases de dados ( HYND-MAN; KOEHLER, 2006).

A execu¸cão do método DPV segue o fluxo geral de execu¸cão do Algoritmo Genético (Figura 5). Porém, é necessário definir o valor de α (o mesmo para toda a execu¸cão), as variáveis V do dom´ınio e a variável de sa´ıda vout.

Após a defini¸cão de parâmetros, o algoritmo segue o fluxo do AG, com a cria¸cão randômica de indiv´ıduos, a avalia¸cão da popula¸cão através da fun¸cão fitness, a sele¸cão, o crossover e a muta¸cão.

(60)

58

Para cada indiv´ıduo da popula¸cão, é feita a discretiza¸cão de to-das as variáveis quantitativas (utilizando o Algoritmo 3), cria-se uma RB utilizando as variáveis discretizadas e as qualitativas do tipo na¨ıve Bayes e calcula-se o valor de fitness seja pela acurácia (voutqualitativa) ou pelo erro (vout quantitativa). Caso vout seja quantivativa, o DPV procura minimizar o fitness (erro) e caso voutseja qualitativa, o DPV procura maximizar o fitness (acurárica).

O resultado do método é aquele considerado o melhor indiv´ıduo da execu¸cão, ou seja, com o melhor fitness. Portanto são retornados os pontos de corte para cada variável e a RB criada através desses pontos de corte.

O algoritmo expresso em Algoritmo 4 mostra o fluxo de trabalho que satisfaz as fun¸cões objetivo (Equa¸cões (5.20) e (5.22)), utilizando a técnica de Algoritmos Genéticos (AG).

Algoritmo 4 M´etodo de Discretiza¸c˜ao pico e vale via AG

1: α ← algum coeficiente de relevˆancia α, (0 < α < 1)

2: V ← vari´aveis de algum dom´ınio de aplica¸c˜ao

3: vout ← vari´avel de sa´ıda em V

4: P = ind1, . . . , indn ← o vetor de indiv´ıduos randomicos contendo os cortes de pico e vale para cada vari´avel quantitativa em V (po-pula¸c˜ao)

5: while n˜ao encontrou solu¸c˜ao do

6: for all indi in P do

7: discretize todas as vari´aveis quantitativas (Algoritmo 3)

8: RBi← uma RB com todas as variáveis - qualitativas e quan-titativas após discretiza¸cão - topologia Na¨ıve Bayes

9: if vout is qualitativa then

10: f itnessi ← acuracia(vout) (Equ (5.20))

11: else

12: f itnessi ← N RM SE(vout) (Equation (5.22))

13: end if 14: end for 15: sele¸c˜ao() 16: crossover() 17: muta¸c˜ao() 18: end while

19: return o melhor indi em P (aquele com o melhor fitness) e RBi (a RB criada por esse indiv´ıduo)

(61)

59

A complexidade computacional do método DPV, assim como o fluxo geral do algoritmo, é semelhante à do Algoritmo Genético clássico, que, em uma popula¸cão de n indiv´ıduos possui complexidade de O(n log n) ∗ O(f itness) para à convergência do algoritmo ( GOLD-BERG, 1989).

A fun¸cão fitness no DPV utiliza dois métodos fundamentais: a discretiza¸cão de todas as variáveis e a própria inferência Bayesiana. A fun¸cão de discretiza¸cão possui a complexidade de O(k ∗ m) onde k é a quantidade de variáveis cont´ınuas e m é a quantidade de registros em cada variável. Portanto a complexidade geral do método DPV, é dada pela fórmula:

O(n log n) ∗ [O(k ∗ m) + O(inf erence)] (5.24) Sendo que O(inf erence) depende do algoritmo de inferência Bayesiana utilizado, que é considerado um problema do tipo NP-hard (COOPER, 1990). O algoritmo utilizado nesse trabalho foi implemen-tado no shell Netica1 da Norsys Software Corp e utiliza técnicas do tipo “join tree” (SPIEGELHALTER et al., 1993).

(62)

(63)

61

6 RESULTADOS E DISCUSS ˜AO

Para avaliar a performance do DPV duas situa¸cões foram testa-das: quando a base de dados tem uma sa´ıda qualitativa (Se¸cão 6.1) e quando a variável de sa´ıda é quantitativa (Se¸cão 6.2).

Quando a variável de sa´ıda é qualitativa, o objetivo do algo-ritmo é realizar a classifica¸cão da variável estimando a probabilidade de cada uma de suas classes. Portanto, a fun¸cão objetivo do problema de otimiza¸cão está em maximizar a acurácia (classifica¸cão correta).

Quando a variável de sa´ıda é quantitativa o objetivo do algo-ritmo vai além da classifica¸cão: é necessário que a média estimada pelo vetor de probabilidade reflita o comportamento da variável. Portanto, nesse caso, a fun¸cão objetivo está relacionada com a minima¸cão do erro (NRMSE) entre a média estimada e o valor real de cada registro.

O DPV é um método de Aprendizagem Supervisionada ( MIT-CHELL, 1997) e os dados são divididos em dois conjuntos: treinamento e teste.

O coeficiente de relevˆancia α adotado neste trabalho foi de 0.8. Esse valor foi escolhido ap´os uma busca por coeficientes melhores adap-tados aos problemas apresenadap-tados.

Os resultados obtidos foram comparados com dois m´etodos de discretiza¸c˜ao para Redes Bayesianas: EWD e EFD.

6.1 SA´IDA QUALITATIVA - BASE DE DADOS

Para representar os casos em que a variável de sa´ıda é qualitativa, duas base de dados foram usadas: Iris Flower (Se¸cão 6.1.1) e Wine (Se¸cão 6.1.2) e foram separadas randomicamente de forma que (0.5n) dos dados pertencessem ao conjunto de treinamento e (0.5n) dos dados ao conjunto de teste.

A vari´avel de sa´ıda em ambas as bases dados ´e chamada de class (tipo de flor iris ou de vinho).

6.1.1 O Problema Iris Flower

Publicado por Fisher em 1936 (FISHER, 1936), a base de dados Iris Flower ´e uma das mais populares na literatura especializada em reconhecimento de padr˜oes. Existem 150 registros nessa base, que foi

(64)

62

adquirida através do repositório público UCI.

A base de dados possui três classes de 50 instâncias cada, onde cada classe refere ao tipo de planta Iris: Iris-virginica, Iris-versicolor e Iris-setosa. Os parâmetros de entrada possuem valores quantitativos, chamados: sepal length (comprimento da sépala), sepal width (largura da sépala), petal length (comprimento da pétala) e petal width (largura da pétala).

Foram treinadas três Redes Bayesianas através do conjunto do treinamento com a topologia Na¨ıve Bayes. A distribui¸cão dos dados entre os conjuntos de treinamento e teste foi feita de forma randômica e estratificada, ou seja, a quantidade de dados de cada classe é a mesma em ambos os conjuntos. Portanto, cada tipo de flor Iris possui 25 registros no conjunto de treinamento e 25 registros no conjunto de teste.

A RBs treinadas da base Iris Flower podem ser vistas na Figura 9 (DPV), Figura 10 (EFD) e Figura 11 (EWD).

Figura 9 – RB treinada pelo DPV para o Problema Iris Flower.

(65)

63

Figura 11 – RB treinada pelo EWD para o Problema Iris Flower.

6.1.2 O Problema Wine

A base de dados Wine também é muito popular na literatura de reconhecimento de padrões. Há 178 registros nessa base, também adquirida através do repositório UCI.

Essa base de dados possui três classes, onde cada uma se refere a um tipo de vinho cultivado na mesma região da Itália, mas com diferentes caracter´ısticas: a classe 1 possui 59 registros, a classe 2 possui 71 registros e a classe 3 possui 48 registros.

As variáveis de entrada possuem valores quantitativos, chama-dos: alcohol (álcool), malic acid (ácido málico), ash (cinza), alkalinity of ash (alcalinidade das cinzas), magnesium (magnésio), total phenols (fenóis totais), flavonoids (flavonóides), non-flavonoid phenols (fenóis não flavonóides), pro-anthocyanins (pró-antocianinas), color intensity (intensidade de cor), hue (tonalidade), OD280/OD315 of diluted wines (OD280/OD315 de vinhos dilu´ıdos) e proline (prolina).

De forma similar ao problema Iris Flower, foram treinadas três Redes Bayesianas utilizando a topologia Na¨ıve Bayes. Embora a dis-tribui¸cão de dados tenha sido feita de forma randômica e estratificada, algumas classes de vinho possuem uma quantidade ´ımpar de registros. Portanto, a distribui¸cão de dados adotada foi a seguinte:

• wine1 : 30 registros no treinamento, 29 registros no teste • wine2 : 35 registros no treinamento, 36 registros no teste • wine3 : 24 registros no treinamento, 24 registros no teste

A RBs treinadas da base Wine podem ser vistas na Figura 12 (DPV), Figura 13 (EFD) e Figura 14 (EWD).

(66)

64

Figura 12 – RB treinada pelo DPV para o Problema Wine.