• Nenhum resultado encontrado

Método de discretização de variáveis para redes bayesianas utilizando algoritmos genéticos

N/A
N/A
Protected

Academic year: 2021

Share "Método de discretização de variáveis para redes bayesianas utilizando algoritmos genéticos"

Copied!
84
0
0

Texto

(1)

UNIVERSIDADE FEDERAL DE SANTA CATARINA PROGRAMA DE P ´OS-GRADUAC¸ ˜AO EM CI ˆENCIA DA

COMPUTAC¸ ˜AO

Mariana Dehon Costa e Lima

M ´ETODO DE DISCRETIZAC¸ ˜AO DE VARI ´AVEIS PARA REDES BAYESIANAS UTILIZANDO ALGORITMOS

GEN ´ETICOS

Florian´opolis 2014

(2)
(3)

Mariana Dehon Costa e Lima

M ´ETODO DE DISCRETIZAC¸ ˜AO DE VARI ´AVEIS PARA REDES BAYESIANAS UTILIZANDO ALGORITMOS

GEN ´ETICOS

Disserta¸c˜ao submetida ao Programa de P´os Gradua¸c˜ao em Ciˆencia da Com-puta¸c˜ao da Universidade Federal de Santa Catarina para a obten¸c˜ao do Grau de Mestre em Ciˆencia da Com-puta¸c˜ao.

Orientadora: Silvia Modesto Nassar, Dra.

Florian´opolis 2014

(4)
(5)

Mariana Dehon Costa e Lima

M ´ETODO DE DISCRETIZAC¸ ˜AO DE VARI ´AVEIS PARA REDES BAYESIANAS UTILIZANDO ALGORITMOS

GEN ´ETICOS

Esta Disserta¸c˜ao foi julgada aprovada para a obten¸c˜ao do T´ıtulo de “Mestre em Ciˆencia da Computa¸c˜ao”, e aprovada em sua forma final pelo Programa de P´os Gradua¸c˜ao em Ciˆencia da Computa¸c˜ao da Universidade Federal de Santa Catarina.

Florian´opolis, 27 de fevereiro 2014.

Ronaldo dos Santos Mello, Dr. Coordenador do Curso Banca Examinadora:

Silvia Modesto Nassar, Dra. Orientadora

(6)
(7)

Rivalino Matias J´unior, Dr.

Mauro Roisenberg, Dr.

(8)
(9)
(10)
(11)

AGRADECIMENTOS

Agrade¸co aos meus pais pelo suporte, dedica¸c˜ao e por terem uma f´e inabal´avel em mim e por serem meus maiores incentivadores. Esse trabalho n˜ao existiria sem todo o apoio que me deram e ´e uma conquista t˜ao minha quanto suas.

Agrade¸co tamb´em `a toda minha fam´ılia, em especial `a minha tia Marlene, meu avˆo Feliciano e minha av´o Nininha (in memoriam). Muito obrigada por terem acreditado em mim e por me dado todo o est´ımulo que eu precisava.

Agrade¸co `a minha melhor amiga, Tatiane, que tem sido meu ponto de apoio h´a v´arios anos e por sempre ter uma palavra de enco-rajamento quando eu me sentia desmotivada ou abalada.

Agrade¸co tamb´em `a Ana Luiza, que esteve presente durante todo o desenvolvimento desse trabalho e por ter me dado todo o apoio emo-cional que eu precisava durante esses anos. Muito obrigada por ter revisado essa disserta¸c˜ao quase tantas vezes quanto eu, por ter ouvido todas as minhas preocupa¸c˜oes (que n˜ao foram poucas) e por estar sem-pre dispon´ıvel pra mim.

Agrade¸co `a minha orientadora Silvia Modesto Nassar, que se tornou uma referˆencia para mim tanto na vida pessoal quanto na pro-fissional. Muito obrigada pela confian¸ca, paciˆencia e pelo conhecimento transmitido. E principalmente, muito obrigada por sempre ter me tra-tado como uma “filha acadˆemica”, por acreditar em mim e por me dar todo o incentivo poss´ıvel para completar esse trabalho.

Agrade¸co `a Petrobras pelo suporte financeiro e pela oportuni-dade atrav´es do projeto que deu origem `a minha disserta¸c˜ao. Agrade¸co tamb´em aos meus colegas de projeto e aos professores respons´aveis Paulo, Silvia, Mauro e Rivalino pela experiˆencia, sugest˜oes e contri-bui¸c˜oes durante a execu¸c˜ao desse trabalho.

Agrade¸co, enfim, aos meus colegas e amigos do laborat´orio Per-formanceLab pela convivˆencia, conselhos e experiˆencia adquirida. Muito obrigada, em especial, ao Altieres, Diego, Gabriel e Pedro.

(12)
(13)

Para ser grande, sˆe inteiro: nada teu exa-gera ou exclui. Sˆe todo em cada coisa. P˜oe quanto ´es no m´ınimo que fazes. As-sim em cada lago a lua toda brilha, porque alta vive.

(14)
(15)

RESUMO

Rede Bayesiana ´e uma t´ecnica de classifica¸c˜ao vastamente utilizada na ´area de Inteligˆencia Artificial. Sua estrutura ´e composta por um grafo ac´ıclico direcionado usado para modelar a associa¸c˜ao de vari´aveis categ´oricas (qualitativas). Entretanto, em casos onde existem vari´aveis num´ericas no dom´ınio, uma pr´e discretiza¸c˜ao ´e geralmente necess´aria. Nesta disserta¸c˜ao, ´e apresentada uma discretiza¸c˜ao heur´ıstica para Re-des Bayesianas que procura padr˜oes nos dados e os divide de acordo com os padr˜oes encontrados. Esses padr˜oes s˜ao identificados por dois even-tos que s˜ao otimizados por uma busca atrav´es do Algoritmo Gen´etico. Esses dois eventos mudam de acordo com a base de dados, tornando a discretiza¸c˜ao proposta mais flex´ıvel para lidar com diferentes dom´ınios de aplica¸c˜ao.

O m´etodo de discretiza¸c˜ao proposto foi testado em duas situa¸c˜oes dis-tintas: quando a vari´avel de sa´ıda ´e qualitativa (classifica¸c˜ao) e tamb´em quando a vari´avel de sa´ıda ´e quantitativa e ´e necess´ario estimar o seu valor m´edio e desvio-padr˜ao.

Para casos em que a sa´ıda ´e qualitativa foram utilizados duas bases de dados: Iris Flower e Wine. Em ambas as bases de dados a acur´acia do m´etodo proposto foi superior quando comparada com outros dois m´etodos da literatura: um que discretiza as vari´aveis por frequˆencia e outro por tamanho de classes.

Para representar os casos em que vari´avel de sa´ıda ´e quantitativa, foi utilizada uma base de dados real com dados de perfura¸c˜ao de po¸cos de petr´oleo com o objetivo de estimar a taxa m´edia de perfura¸c˜ao de broca. Nesses casos, ´e feito a estima¸c˜ao do valor de sa´ıda atrav´es da m´edia da distribui¸c˜ao de probabilidade. O m´etodo proposto obteve um erro inferior na estima¸c˜ao quando comparado tanto com o m´etodo que discretiza por frequˆencia quanto com o m´etodo que discretiza por tamanho.

Com os resultados, a conclus˜ao ´e que o m´etodo pode discretizar as vari´aveis quantitativas atrav´es das identifica¸c˜oes dos eventos que des-viam de um intervalo intermedi´ario nos dados, seja para cima (pico) ou para baixo (vale). Tamb´em foi observado que o m´etodo est´a ligado a um problema de otimiza¸c˜ao global quando todas as vari´aveis quantitativas s˜ao discretizadas ao mesmo tempo.

Palavras-chave: Redes Bayesianas, discretiza¸c˜ao, otimiza¸c˜ao global, algoritmo gen´etico.

(16)
(17)

ABSTRACT

Bayesian Network (BN) is a classification technique widely used in Ar-tificial Intelligence. Its structure is a DAG (direct acyclic graph) used to model the association of categorical variables. However, in cases where the variables are numerical, a previous discretization is usually necessary.

In this dissertation, we show a heuristic discretization for Bayesian Networks that search for data patterns and divide the data according to them. These patterns are identified by two events: peak and valley being optimized by a search through the Genetic Algorithm. These two events change according to the database, making the proposed method a flexible discretization to handle different application domains. The Peak-Valley Discretization Method proposed was tested two dif-ferent situations: only classification when the output variable is quali-tative and also estimating the mean value and the standard deviation when the output variable is quantitative.

Considering the cases where the output is quantitative, two databa-ses where used: Iris Flower and Wine. The accuracy in both of them was superior with the proposed method when compared with two other methods from the literature: one that discretizes the variable by fre-quency and one that does that by class’ size.

To represent the cases where the output variable is quantitative, was used a real data of oil wells perforation with the objective of estimating the average perforation rate. In such cases, the estimation is done by the average of the output value distribution of probability. The pro-posed method achieved a lower error in the estimation when compared with the method of frequency discretization and with the method that discretizes by size.

With the results, the conclusion is that the method can properly discre-tize the quantitative variables by identifying events that deviate from expected results within the knowledge domain, whether up (peak) or down (valley). It was also observed that the method brings a problem of global optimization when discretizing all quantitative variables si-multaneously. The problem of global optimization was treated by a Genetic Algorithm.

Keywords: Bayesian Networks, discretization, global optimization, genetic algorithm.

(18)
(19)

LISTA DE FIGURAS

Figura 1 Aprendizado e previs˜ao dos algoritmos do tipo

Aprendi-zado Supervisionado. . . 36

Figura 2 Topologia Na¨ıve Bayes. . . 37

Figura 3 Entradas e Sa´ıda em uma Rede Bayesiana. . . 38

Figura 4 Estrutura Geral de uma Rede Bayesiana. . . 39

Figura 5 Fluxograma do Algoritmo Gen´etico. . . 43

Figura 6 Eventos de Pico e Vale. . . 48

Figura 7 Representa¸c˜ao de um indiv´ıduo no DPV. . . 48

Figura 8 Fluxograma do m´etodo DPV.. . . 49

Figura 9 RB treinada pelo DPV para o Problema Iris Flower.. . . 62

Figura 10 RB treinada pelo EFD para o Problema Iris Flower. . . . 62

Figura 11 RB treinada pelo EWD para o Problema Iris Flower. . . 63

Figura 12 RB treinada pelo DPV para o Problema Wine. . . 64

Figura 13 RB treinada pelo EFD para o Problema Wine. . . 64

Figura 14 RB treinada pelo EWD para o Problema Wine. . . 65

Figura 15 RB treinada pelo DPV para o Problema da ROP. . . 69

Figura 16 RB treinada pelo EFD para o Problema da ROP. . . 70

Figura 17 RB treinada pelo EWD para o Problema da ROP. . . 70

Figura 18 Exemplo de entrada e estima¸c˜ao de valor para o problema ROP. . . 71

Figura 19 Valores estimados de ROP no m´etodo DPV (treina-mento). . . 72

Figura 20 Valores estimados de ROP no m´etodo EFD (treinamento). 72 Figura 21 Valores estimados de ROP no m´etodo EWD (treina-mento). . . 73

Figura 22 Valores estimados de ROP no m´etodo DPV (teste). . . 73

Figura 23 Valores estimados de ROP no m´etodo EFD (teste). . . 74

(20)
(21)

LISTA DE TABELAS

Tabela 1 Estado da Arte – Discretiza¸c˜ao Redes Bayesianas. . . 33 Tabela 2 Exemplo de Tabela de Probabilidade Condicional (CPT). 38 Tabela 3 Matriz de classifica¸c˜ao para o problema Iris Flower. . . . 66 Tabela 4 Matriz de classifica¸c˜ao para o problema Wine. . . 67 Tabela 5 Classes e Pontos M´edios para o problema ROP. . . 71 Tabela 6 NRMSE obtido para o Problema da ROP. . . 72

(22)
(23)

LISTA DE ABREVIATURAS E SIGLAS

RB Rede Bayesiana . . . 27 DAG Grafo Ac´ıclico Direcionado . . . 27 FFD Fixed Frequency Discretization . . . 29 EWD Equal Width Discretization . . . 31 EFD Equal Frequency Discretization . . . 31 EMD Entropy Minimization Discretization . . . 31 LD Lazy Discretization . . . 31 PD Proportional Discretization . . . 31 FFD Fixed Frequency Discretization . . . 31 ROC Receiver Operating Characteristic . . . 32 AM Aprendizado de M´aquina. . . 35 NN Algoritmo do vizinho mais pr´oximo . . . 35 SVM M´aquinas de vetores suporte . . . 35 CPT Tabela de Probabilidade Condicional . . . 37 RBH Redes Bayesianas H´ıbridas . . . 39 MTE Mixtures of Truncated Exponentials . . . 41 AG Algoritmo Gen´etico . . . 42 DPV Discretiza¸c˜ao Pico e Vale . . . 47 NRMSE Normalized root mean square error . . . 57 ROP Taxa de penetra¸c˜ao . . . 68 RPM Revolu¸c˜oes por Minuto . . . 69 PSB Peso sobre a Broca . . . 69 HSI Potˆencia Hidr´aulica por Polegada Quadrada . . . 69

(24)
(25)

LISTA DE ALGORITMOS

1 M´etodo de Discretiza¸c˜ao EWD . . . 40 2 M´etodo de Discretiza¸c˜ao EFD . . . 41 3 Relevˆancia dos cortes de pico e vale e discretiza¸c˜ao . . . . 54 4 M´etodo de Discretiza¸c˜ao pico e vale via AG . . . 58

(26)
(27)

SUM ´ARIO 1 INTRODUC¸ ˜AO . . . 27 1.1 JUSTIFICATIVA E MOTIVAC¸ ˜AO . . . 27 1.2 PROBLEMATIZAC¸ ˜AO . . . 28 1.3 OBJETIVO GERAL . . . 29 1.4 OBJETIVOS ESPEC´IFICOS . . . 29 1.5 ESTRUTURA DA DISSERTAC¸ ˜AO . . . 30 2 ESTADO DA ARTE . . . 31 3 FUNDAMENTAC¸ ˜AO TE ´ORICA . . . 35 3.1 APRENDIZADO SUPERVISIONADO . . . 35 3.2 REDES BAYESIANAS . . . 35 3.2.1 Modelagem Bayesiana . . . 37 3.3 REDES BAYESIANAS H´IBRIDAS . . . 39 3.3.1 Discretiza¸c˜ao . . . 39 3.3.2 Combina¸c˜ao de Exponenciais Truncadas . . . 41 3.3.3 Abordagem via Cadeia de Markov - Monte Carlo . . 42 3.4 ALGORITMOS GEN ´ETICOS . . . 42 3.4.1 Representa¸c˜ao de um indiv´ıduo . . . 44 4 PROCEDIMENTOS METODOL ´OGICOS . . . 47 5 M ´ETODO PROPOSTO . . . 51 5.1 PROPRIEDADES PICO E VALE . . . 51 5.1.1 Exemplo de Aplica¸c˜ao . . . 54 5.2 O PROBLEMA DE OTIMIZAC¸ ˜AO . . . 56 6 RESULTADOS E DISCUSS ˜AO . . . 61 6.1 SA´IDA QUALITATIVA - BASE DE DADOS . . . 61 6.1.1 O Problema Iris Flower . . . 61 6.1.2 O Problema Wine . . . 63 6.1.3 Resultados e Compara¸c˜ao . . . 65 6.1.4 Discuss˜ao . . . 65 6.2 SA´IDA QUANTITATIVA - BASE DE DADOS . . . 68 6.2.1 Problema da Taxa de Penetra¸c˜ao da Broca (ROP) . 68 6.2.2 Resultados e Compara¸c˜ao . . . 69 6.2.3 Discuss˜ao . . . 71 7 CONSIDERAC¸ ˜OES FINAIS . . . 77 REFER ˆENCIAS . . . 79

(28)
(29)

27

1 INTRODUC¸ ˜AO

Uma Rede Bayesiana (RB) (PEARL, 1988) ´e um modelo de re-presenta¸c˜ao e racioc´ınio de incerteza que utiliza a probabilidade con-dicional entre as vari´aveis categ´oricas (qualitativas) de um dom´ınio e as expressa via um grafo ac´ıclico direcionado (Directed Acyclic Graph - DAG). Sua estrutura gr´afica consegue mapear as correla¸c˜oes entre as vari´aveis, sendo uma linguagem apropriada e com recursos eficien-tes para a representa¸c˜ao da distribui¸c˜ao conjunta de probabilidades so-bre um conjunto randˆomico de vari´aveis (FRIEDMAN; GEIGER; GOLDSZ-MIDT, 1997).

Entretanto, a distribui¸c˜ao conjunta de probabilidades dentro da RB pode ser muito grande e o racioc´ınio Bayesiano (inferˆencia) n˜ao ´e uma tarefa trivial. A utiliza¸c˜ao do componente de fatoriza¸c˜ao tende a diminuir a complexidade da inferˆencia exata. Entre os algoritmos da ´area pode-se citar aqueles que s˜ao exatos (SHENOY; SHAFER, 2008); (MADSEN; JENSEN, 1999) e os que s˜ao aproximados para facilitar a

inferˆencia em RBs complexas. Os algoritmos aproximados s˜ao divididos em dois tipos: estoc´asticos (FUNG; CHANG, 1990); (SALMER ´ON; CANO; MORAL, 2000) ou determin´ısticos (JENSEN; LAURITZEN; OLESEN, 1990); (CANO; MORAL; SALMERON, 2000).

A inferˆencia Bayesiana cl´assica ´e realizada em casos onde o dom´ınio de aplica¸c˜ao ´e exclusivamente qualitativo. Para que a t´ecnica possa ser aplicada quando o conjunto de vari´aveis ´e h´ıbrido, ou seja, apresente vari´aveis num´ericas (quantitativas) e vari´aveis qualitativas, ´e necess´ario usar m´etodos alternativos que possibilitem a inferˆencia dentro da RB. M´etodos de discretiza¸c˜ao ou de simula¸c˜ao (LANGSETH et al., 2009) s˜ao geralmente empregados em Redes Bayesianas de dom´ınios h´ıbridos e proporcionam uma inferˆencia aproximada.

1.1 JUSTIFICATIVA E MOTIVAC¸ ˜AO

Entre os m´etodos de inferˆencia aproximada, o mais comum para lidar com Rede Bayesianas H´ıbridas ´e o de Discretiza¸c˜ao. Esse m´etodo, muda o valor num´erico da vari´avel por um correspondente qualitativo, de acordo com alguma m´etrica ou crit´erio espec´ıfico. As abordagens de discretiza¸c˜ao s˜ao usualmente feitas atrav´es da distribui¸c˜ao de probabili-dades ou usando parˆametros est´aticos, como a frequˆencia de cada classe. Alguns fatores favorecem a discretiza¸c˜ao (categoriza¸c˜ao) de vari´aveis

(30)

28

para RBs, como:

• Falta de algoritmos eficientes para o aprendizado e a inferˆencia para dados cont´ınuos (FRIEDMAN; GOLDSZMIDT, 1996);

• Facilidade em compreender caracter´ısticas categorizadas em de-trimento `as cont´ınuas (LIU et al., 2002);

• Classificadores utilizando dados discretos (em intervalos) tendem a ser menos complexos e mais precisos que utilizando dados cont´ınuos (FRANK; WITTEN, 1999);

• Menor complexidade computacional o que acarreta em uma maior rapidez no aprendizado e inferˆencia (FRIEDMAN; GOLDSZMIDT, 1996),(ROUSU, 2001), (YANG, 2003).

A discretiza¸c˜ao tamb´em pode ser feita por especialistas da ´area de forma manual. Entretanto, essa pode ser uma tarefa complexa: h´a casos onde os dados n˜ao seguem nenhum padr˜ao vis´ıvel e quando seguem, esse padr˜ao pode mudar em diferentes ocasi˜oes. Portanto, ´e necess´ario discretizar os dados com o conhecimento dos pr´oprios dados, porque n˜ao h´a nenhum conhecimento pr´evio do seu comportamento.

1.2 PROBLEMATIZAC¸ ˜AO

Esta pesquisa visa propor um m´etodo de discretiza¸c˜ao de even-tos, aqui chamados pico e vale, observ´aveis em um vetor de dados. Este m´etodo ser´a implementado em algoritmo e testado em base de dados de forma que possam ser avaliados seus resultados. Portanto, trata-se de uma pesquisa de base tecnol´ogica.

Embora haja v´arios de dados, A maioria dos algoritmos para discretiza¸c˜ao deles possui como objetivo principal a clusteriza¸c˜ao das vari´aveis. Para realizar a discretiza¸c˜ao no dom´ınio da RB, acredita-se que acredita-seja necess´ario considerar as distribui¸c˜oes condicionais de cada vari´avel no processo e como elas se distribuem globalmente na rede. Dentre as abordagens de discretiza¸c˜ao utilizadas em Redes Bayesianas, as mais comuns s˜ao:

• Discretiza¸c˜ao de igual largura (Equal Width Discretization - EWD) (CATLETT, 1991); (KERBER, 1992); (DOUGHERTY; KOHAVI; SAHAMI, 1995) - divide os valores de v em k intervalos (definidos por parˆametro) de igual largura w = (xmax− xmin)/k;

(31)

29

• Discretiza¸c˜ao de igual frequˆencia (Equal Frequency Discretiza-tion -EFD) (CATLETT, 1991); (KERBER, 1992); (DOUGHERTY; KOHAVI; SAHAMI, 1995) - ordena os valores de v e os divide em m

k intervalos (definidos por parˆametro), sendo que cada intervalo contenha aproximadamente o mesmo n´umero de instˆancias; • Discretiza¸c˜ao da Minimiza¸c˜ao da Entropia (Entropy

Minimiza-tion DiscretizaMinimiza-tion - EMD) (FAYYAD; IRANI, 1993) - Ordena os valores de v e testa poss´ıveis pontos de corte atrav´es do ponto m´edio de cada par xi, xi+1. Os dados s˜ao ent˜ao discretizados em dois intervalos e a entropia ´e calculada. Para avaliar o corte, a abordagem seleciona aquele com a menor entropia e ent˜ao repete o processo recursivamente, sempre selecionando o melhor ponto de corte.

Outras t´ecnicas tamb´em s˜ao aplicadas, como a “Discretiza¸c˜ao Pregui¸cosa” (Lazy Discretization - LD) (HSU; HUANG; WONG, 2000); (HSU; HUANG; WONG, 2003), “Discretiza¸c˜ao Proporcional” (Proportio-nal Discretization - PD) e “Discretiza¸c˜ao de Frequˆencia Fixa” (Fixed Frequency Discretization - FFD) (YANG; WEBB, 2009).

Um importante aspecto quanto as RBs est´a na sua propriedade de inferˆencia: a distribui¸c˜ao de probabilidades de uma vari´avel influen-cia diretamente a outra. Portanto, ´e necess´ario realizar uma otimiza¸c˜ao global para reduzir o erro na RB e, por consequˆencia, aumentar a sua acur´acia.

´

E ent˜ao poss´ıvel encontrar um m´etodo de discretiza¸c˜ao que con-tribua para a descoberta do conhecimento e aumento da acur´acia em Redes Bayesianas?

1.3 OBJETIVO GERAL

Propor um m´etodo de discretiza¸c˜ao baseado em dados para Re-des Bayesianas atrav´es da otimiza¸c˜ao global das vari´aveis do dom´ınio de aplica¸c˜ao.

1.4 OBJETIVOS ESPEC´IFICOS

• Identificar regi˜oes com eventos de pico e vale nos dados;

(32)

30

como m´etodo de otimiza¸c˜ao global para vari´avel de sa´ıda quali-tativa e para vari´avel de sa´ıda quantitativa;

• Integrar as propriedades matem´aticas do m´etodo proposto com o Algoritmo Gen´etico;

• Avaliar o m´etodo proposto.

1.5 ESTRUTURA DA DISSERTAC¸ ˜AO

Esta disserta¸c˜ao est´a dividida em oito cap´ıtulos. No Cap´ıtulo 1 ´e mostrada a introdu¸c˜ao ao problema e dada uma vis˜ao geral da dis-serta¸c˜ao al´em do objetivo geral e dos objetivos espec´ıficos pretendidos. No Cap´ıtulo 2 ´e uma feita revis˜ao bibliogr´afica dos principais m´etodos de discretiza¸c˜ao para Redes Bayesianas.

No Cap´ıtulo 3 ´e feita a apresenta¸c˜ao dos fundamentos te´oricos utilizados: Redes Bayesianas, Redes Bayesianas H´ıbridas e Algoritmos Gen´eticos.

No Cap´ıtulo 4 s˜ao definidos os procedimentos metodol´ogicos ado-tados na disserta¸c˜ao.

No Cap´ıtulo 5 s˜ao mostradas as propriedades matem´aticas do m´etodo proposto e definidas as fun¸c˜oes dos dois pontos de cortes: pico e vale. Tamb´em ´e feita a mesclagem entre as propriedades de discre-tiza¸c˜ao propostas e o Algoritmo Gen´etico. S˜ao propostas as fun¸c˜oes objetivo para duas situa¸c˜oes: quando a vari´avel de sa´ıda ´e qualitativa e quando a vari´avel de sa´ıda ´e quantitativa.

No Cap´ıtulo 6 s˜ao mostrados estudos de caso em que foram apli-cados o m´etodo proposto e outros m´etodos da literatura e seus devidos desempenhos para diferentes bases de dados e esses resultados s˜ao dis-cutidos e analisados.

E finalmente, no Cap´ıtulo 7 o estudo ´e conclu´ıdo e s˜ao feitas as considera¸c˜oes finais al´em da indica¸c˜ao de trabalhos futuros em comple-mento ao apresentado.

(33)

31

2 ESTADO DA ARTE

Os dois m´etodos mais comuns para a discretiza¸c˜ao em Redes Bayesianas utilizam pontos de corte fixos para a defini¸c˜ao de interva-los. O primeiro, chamado EWD (Equal Width Discretization - EWD) (CATLETT, 1991); (KERBER, 1992); (DOUGHERTY; KOHAVI; SAHAMI, 1995) divide o conjunto de dados em tamanhos de igual largura e cada uma das divis˜oes equivale `a uma classe na RB, o segundo Discretiza¸c˜ao de igual frequˆencia (Equal Frequency Discretization -EFD) divide o conjunto de dados de forma que as classes possuam aproximadamente a mesma quantidade de dados. Ambos os m´etodos n˜ao levam em con-sidera¸c˜ao qualquer rela¸c˜ao entre as vari´aveis ou a melhoria da acur´acia da rede. Ambos os m´etodos s˜ao utilizados em RBs devido `a sua sim-plicidade e boa performance (HSU; HUANG; WONG, 2003).

Fayyad e Irani (1993) prop˜oe um m´etodo heur´ıstico Discretiza¸c˜ao da Minimiza¸c˜ao da Entropia (Entropy Minimization Discretization -EMD), que ao contr´ario dos m´etodos EWD e EFD ´e um m´etodo de aprendizado supervisionado. Dougherty, Kohavi e Sahami (1995) apli-cou esse m´etodo em v´arias bases de dados do reposit´orio da UCI utili-zando Redes Bayesianas e obteve bons resultados.

Hsu, Huang e Wong (2000) prop˜oe o m´etodo de “Discretiza¸c˜ao Pregui¸cosa” (Lazy Discretization - LD) que deriva diretamente das pro-priedades da Distribui¸c˜ao de Dirichlet. Nesse m´etodo, a discretiza¸c˜ao ´

e adiada at´e o momento da classifica¸c˜ao. Ele espera at´e que a instˆancia de teste seja apresentada para ent˜ao determinar os pontos de corte e estimar as probabilidades de cada classe. O m´etodo foi aplicado em bases de dados do reposit´orio da UCI e obteve bons resultados quando comparado com outros m´etodos de discretiza¸c˜ao.

Matsuura (2003) prop˜oe um m´etodo de discretiza¸c˜ao para Redes Bayesianas chamado de Discretiza¸c˜ao via Tabela de Probabilidades. O algoritmo discretiza todas as vari´aveis cont´ınuas via EWD ou EFD e usa um algoritmo de aprendizado de estrutura para gerar a mais ade-quada aos dados discretizados. ´E realizado um loop para a uni˜ao de intervalos e eles s˜ao avaliados por uma m´etrica chamada de Diferen¸ca M´edia Quadr´atica. O m´etodo foi aplicado em uma base de dados rela-cionado `a prote¸c˜ao ao voo, obtendo resultados promissores e superiores quando comparados ao m´etodo EFD.

Yang e Webb (2009) prop˜oe dois m´etodos heur´ısticos de discre-tiza¸c˜ao: “Discretiza¸c˜ao Proporcional” (Proportional Discretization -PD) e “Discretiza¸c˜ao de Frequˆencia Fixa” (Fixed Frequency

(34)

Discreti-32

zation - FFD). O m´etodo PD procura minimizar o bias e a variˆancia atrav´es de um conjunto com n instˆancias de treinamento e determi-nando o valor de s (quantidade de dados em cada intervalo) e t (n´umero de intervalos), de forma que s = t e s × t = n. O m´etodo FFD atua de forma semelhante ao m´etodo EFD, por´em em vez de delimitar k intervalos, ele delimita a quantidade m´ınima de dados em cada estado e a quantidade m´axima de intervalos. Ambos os m´etodos apresentados obtiveram erros inferiores em bases de dados do reposit´orio da UCI quando comparados com outros m´etodos.

Wong (2012) prop˜oe uma medida n˜ao param´etrica de avaliar o n´ıvel de dependˆencia entre um atributo cont´ınuo e uma classe, e ent˜ao essa medida ´e utilizada em um m´etodo h´ıbrido de discretiza¸c˜ao de forma que a acur´acia em um classificador do tipo Na¨ıve Bayes seja melhorada. O m´etodo proposto combina quatro m´etodos (EWD, EFD, PD e EMD) e obteve uma acur´acia geralmente superior que os m´etodos usados individualmente ao utilizar bases de dados do reposit´orio da UCI.

Kurtcephe e G¨uvenir (2013) prop˜oe um m´etodo de discretiza¸c˜ao global, est´atico e supervisionado baseado na curva ROC (receiver ope-rating characteristic) utilizando o algoritmo QuickHill (PREPARATA; SHAMOS, 1993) que possui complexidade esperada de O(n log n) e O(n2) no pior caso. O m´etodo funciona de forma que a ´area sob a curva ROC seja maximizada e s˜ao propostos uma nova medida de discretiza¸c˜ao e um novo crit´erio de parada. Ao comparar o m´etodo proposto com outros da literatura, ele obteve um desempenho superior utilizando ba-ses de dados do reposit´orio UCI. Os autores enfatizam que embora o m´etodo tenha resultados promissores o tempo necess´ario para `a con-vergˆencia pode ser alto.

(35)

33 T ab ela 1 – Estado da Arte – Discretiza¸ c˜ ao Redes Ba y esianas. M ´eto do Descri¸ c˜ ao EWD (1191, 1995) discretiza¸ c˜ ao p or igual largura. EFD (1991, 1995) discretiza¸ c˜ ao p or igual frequencia. EFD (1991, 1995) discretiza¸ c˜ ao p or minimiza¸ c˜ ao da en tropia. LD (2000) discretiza¸ c˜ ao na hora da classifica¸ c˜ ao. via T ab ela de Probabilidades (2003) utiliza EWD ou EFD, algoritmo de aprendizagem e um lo op que une in terv alos. PD (2009) determina a quan tidade de dados em cada in terv alo e o n ´umero de in terv alos. FFD (2009) delimita a quan tidade m ´ınima de dados em cada estado e a quan tidade m´ axima de in terv alos. m ´eto do de W ong (2012) a v alia o n ´ıv el de dep end ˆencia en tre um atributo con t´ı n uo e uma classe e com bina os m ´eto dos EWD, EFD, PD e EMD. m ´eto do de Kurtcephe (2013) m ´eto do de disc re tiza¸ c˜ ao glob al, est´ atico e sup ervisionado baseado na curv a R OC.

(36)
(37)

35

3 FUNDAMENTAC¸ ˜AO TE ´ORICA

Esse cap´ıtulo objetiva apresentar os principais conceitos utiliza-dos para a composi¸c˜ao do m´etodo proposto. Na Se¸c˜ao 3.1 ´e introduzido o conceito de aprendizado supervisionado e o m´etodo adotado de pre-vis˜ao nesse tipo de aprendizado.

Na Se¸c˜ao 3.2 ´e definido formalmente uma Rede Bayesiana, assim como sua modelagem. Na Se¸c˜ao 3.3 ´e incorporado o conceito de Redes Bayesianas H´ıbridas e suas t´ecnicas de inferˆencia aproximada.

E, finalmente, na Se¸c˜ao 3.4 s˜ao discutidos os principais conceitos dos Algoritmos Gen´eticos e as formas de representa¸c˜ao de um indiv´ıduo.

3.1 APRENDIZADO SUPERVISIONADO

O Aprendizado de M´aquina (AM) ´e um conjunto de t´ecnicas computacionais que tem por objetivo a cria¸c˜ao de sistemas capazes de adquirir e organizar o conhecimento de forma autom´atica (MITCHELL, 1997).

Uma das t´ecnicas do AM ´e o Aprendizado Supervisionado (Su-pervised learning) que consiste em criar uma fun¸c˜ao atrav´es de um conjunto de treinamento (MITCHELL, 1997).

Esse conjunto possui pares de objetos de entrada (tipicamente vetores) e sa´ıda desejada, que pode ser um n´umero real (para casos de regress˜ao) ou um r´otulo de uma classe (para casos de classifica¸c˜ao).

O objetivo do Aprendizado Supervisionado ´e utilizar a fun¸c˜ao criada para prever o valor de sa´ıda (resultado) atrav´es dos dados de entrada (Figura 1). Os algoritmos principais dessa t´ecnica s˜ao: Redes Neurais, algoritmo do vizinho mais pr´oximo (Nearest Neighbor - NN), ´

arvores de decis˜ao, as m´aquinas de vetores suporte (Support Vector Machines – SVM) e as Redes Bayesianas.

3.2 REDES BAYESIANAS

Definindo formalmente, uma Rede Bayesiana ´e uma dupla (G,P), onde G=(V,E) ´e um DAG nos quais os nodos V = v1, v2, . . . , vn re-presentam as vari´aveis e as arestas E = e1, . . . , en representam uma direta correla¸c˜ao entre cada nodo de V . O item P ´e definido como os parˆametros probabil´ısticos expressos atrav´es de tabelas: dada uma

(38)

de-36

Figura 1 – Aprendizado e previs˜ao dos algoritmos do tipo Aprendizado Supervisionado.

terminada vari´avel ´e feita a distribui¸c˜ao de probabilidade condicional de cada uma de suas classes (estados) X = x1, . . . , xn em rela¸c˜ao a cada uma das classes de seus pais.

Ou seja, a RB estabelece que uma vari´avel ´e independente de todas as outras vari´aveis, exceto de seus descendentes no grafo dado o estado de seus pais. A inferˆencia na RB ´e feita pelo Teorema de Bayes:

P (V = v|X = x) = P (X = x|V = v)P (V = v)

P (X = x) (3.1)

A probabilidade conjunta ´e determinada pela chamada “regra da cadeia” e assume a independˆencia condicional entre as vari´aveis:

P (v1, . . . , vn) = n Y i=1

P (Vi|pai(Vi)) (3.2) onde pai(Vi) determina o conjunto de nodos pais do nodo Vi.

A inferˆencia exata seguindo a Equa¸c˜ao 3.2 n˜ao ´e uma tarefa trivial, pois a distribui¸c˜ao de probabilidade conjunta pode ser muito grande. Por exemplo, em um caso em que haja 10 nodos discretos com 2 estados cada. A distribui¸c˜ao de probabilidade ´e de 210− 1 = 1023 va-lores expressos em uma tabela. E a tabela de cresce forma exponencial: se fossem 11 nodos haveriam 211− 1 = 2047 valores expressos.

(39)

37

(

se “entrada” ent˜ao “sa´ıda”

se “sa´ıda” ent˜ao “entrada” (3.3)

3.2.1 Modelagem Bayesiana

A modelagem de uma RB ´e feita a partir de uma estrutura (DAG) que incorpora a categoriza¸c˜ao das vari´aveis cont´ınuas. A partir dessa modelagem ´e necess´ario estabelecer as tabelas de probabilidade (for¸ca de associa¸c˜ao entre vari´aveis) atrav´es do aprendizado do dom´ınio a ser trabalhado. Existem trˆes formas de realizar essa aprendizagem: exclusivamente dos dados (base de dados), exclusivamente dos especia-listas do dom´ınio ou aprender de forma h´ıbrida tanto dos dados quanto dos especialistas.

Entre as poss´ıveis topologias de rede ´e vastamente conhecida a estrutura Na¨ıve Bayes, que ´e o mais simples entre esses modelos. dado o contexto de classe. Embora esse modelo n˜ao traduza a realidade na maioria das tarefas do mundo real ele ´e bastante efetivo, pois os parˆametros de cada atributo podem ser aprendidos separadamente, fa-cilitando o processo de aprendizagem (MCCALLUM; NIGAM et al., 1998). A topologia Na¨ıve Bayes ´e, portanto, um conjunto de vari´aveis de entrada independentes entre si que possuem em conjunto um ´unico pai (n´o de sa´ıda). Um exemplo da topologia Na¨ıve Bayes pode ser vista na Figura 2. Nesse caso, o nodo A ´e a sa´ıda e os nodos B, C e D s˜ao as entradas.

Figura 2 – Topologia Na¨ıve Bayes.

Al´em da topologia da rede, ´e necess´ario especificar a Tabela de Probabilidade Condicional (Conditional Probability Table - CPT) de cada nodo, o que descreve a probabilidade de cada classe do nodo em combina¸c˜ao com cada classe de seus pais. Um exemplo de CPT para a

(40)

38

RB da Figura 2 ´e mostrado na Tabela 2.

Tabela 2 – Exemplo de Tabela de Probabilidade Condicional (CPT).

A P (B = state0) P (B = state1) P (B = state2)

state0 0.2 0.2 0.5

state1 0.1 0.5 0.4

state2 0.1 0.05 0.85

O nodo de sa´ıda, em uma Rede Bayesiana, tem seus valores de probabilidade calculados por inferˆencia (Equa¸c˜ao 3.2) ao utilizar a evidˆencia expressa pelos nodos de entrada. A cria¸c˜ao de uma topologia de rede hier´arquica ´e feita ao adicionar nodos intermedi´arios entre as entradas e a sa´ıda (Figura 3).

Figura 3 – Entradas e Sa´ıda em uma Rede Bayesiana.

Ou seja, cada vari´avel do dom´ınio de aplica¸c˜ao se torna um nodo na RB e uma liga¸c˜ao entre dois nodos denota uma rela¸c˜ao de “causa e efeito” (probabilidade condicional). Para especificar a “for¸ca” dessa rela¸c˜ao s˜ao feitas (usualmente) tabelas do tipo CPT para cada um dos nodos (Figura 4).

(41)

39

Figura 4 – Estrutura Geral de uma Rede Bayesiana.

3.3 REDES BAYESIANAS H´IBRIDAS

S˜ao chamadas de Redes Bayesianas H´ıbridas (RBH) aquelas que possuem tanto nodos cont´ınuos quanto nodos discretos. Nos casos em que h´a apenas nodos discretos no dom´ınio, a distribui¸c˜ao condicional pode ser representada atrav´es de uma tabela com valores de probabili-dade.

Entretanto, o problema se torna mais complexo nas Redes Baye-sianas H´ıbridas, pois trabalha-se com modelos para expressar a distri-bui¸c˜ao de probabilidade condicional e n˜ao com tabelas (CPT) como nas RBs cl´assicas. A acur´acia da inferˆencia depende do dom´ınio a ser representado e nem sempre ´e exata (LANGSETH et al., 2009).

Para lidar com os casos em que a inferˆencia exata n˜ao ´e poss´ıvel, s˜ao utilizados m´etodos aproximados em Redes Bayesianas H´ıbridas. Os m´etodos mais populares de inferˆencia aproximada s˜ao: Discretiza¸c˜ao (Se¸c˜ao 3.3.1), Combina¸c˜ao de exponenciais truncadas (Se¸c˜ao 3.3.2) e ainda uma abordagem utilizando Cadeia de Markov (Se¸c˜ao 3.3.3).

3.3.1 Discretiza¸c˜ao

A t´ecnica mais comum para lidar com a inferˆencia em Redes Bayesianas H´ıbridas ´e a discretiza¸c˜ao. Essa t´ecnica consiste em trocar

(42)

40

o valor cont´ınuo x da vari´avel por seu valor discreto equivalente x0. Os m´etodos EWD e EFD s˜ao muito utilizados para discretiza¸c˜ao em Redes Bayesianas por sua baixa complexidade computacional e fa-cilidade de de implementa¸c˜ao, al´em de sua boa performance (HSU; HU-ANG; WONG, 2003).

O m´etodo EWD possui complexidade O(n) em um vetor orde-nado, pois divide uma vari´avel em intervalos de igual largura, ou seja, os pontos de corte s˜ao definidos de forma que exista k intervalos com tamanhos de:

w = (xmax− xmin

k ) (3.4)

onde xmax ´e o maior valor da vari´avel e xmin o menor valor (Algoritmo 1).

Algoritmo 1 M´etodo de Discretiza¸c˜ao EWD

1: v ← a vari´avel quantitativa ordenada a ser discretizada

2: xmin← menor valor em v

3: xmax← maior valor em v

4: k ← quantidade de intervalos

5: w ← xmax−xmin

k

6: corte ← w

7: indice ← 0

8: classeatual ← classe + indice (nome da primeira classe - a que possui os menores valores)

9: for all xi em v do

10: if xi> corte then

11: corte ← corte + w

12: indice ← indice + 1

13: classeatual← classe + indice

14: end if

15: discretize xi para classeatual

16: end for

17: return v discretizada (v∗)

O m´etodo EFD tamb´em possui complexidade O(n) em um vetor ordenado, por´em divide uma vari´avel em tamanhos de igual frequˆencia. Ou seja, os pontos de corte s˜ao definidos de forma que cada classe possua aproximadamente o mesmo n´umero de registros (Algoritmo 2). Nos m´etodos EWD e EFD ´e necess´ario fornecer a vari´avel or-denada. O problema da ordena¸c˜ao possui complexidade θ(n log n), e

(43)

41

Algoritmo 2 M´etodo de Discretiza¸c˜ao EFD

1: v ← a vari´avel quantitativa ordenada a ser discretizada

2: n ← quantidade de registros em v 3: k ← quantidade de intervalos 4: range ←nk 5: igual ← F ALSO 6: indiceclasse← 1 7: indiceregistro← 0

8: classeatual← classe + indice

9: classeanterior

10: while indiceregistro< n do

11: if i < (range ∗ j) OU igual = verdadeiro then

12: discretize xi para classeatual

13: else

14: indiceclasse= v[indiceregistro]

15: end if

16: classeanterior= indice + 1

17: if v[indiceregistro+ 1] = classeanterior then

18: // caso v[indiceregistro+ 1] == n foi omitido para fins de simplicidade 19: igual ← V ERDADEIRO 20: else 21: igual ← F ALSO 22: end if 23: end while 24: return v discretizada (v∗)

portanto a complexidade total dos m´etodos ´e O(n) ∗ θ(n log n).

3.3.2 Combina¸c˜ao de Exponenciais Truncadas

O Modelo de Combina¸c˜ao de Exponenciais Truncadas (Mixtures of Truncated Exponentials - MTE) (MORAL; RUM´I; SALMER ´ON, 2001) pode ser entendido como uma generaliza¸c˜ao da discretiza¸c˜ao ( LANG-SETH et al., 2009).

Entretanto, ao inv´es de utilizar pontos de corte para discretizar cada regi˜ao do conjunto de dados, essa discretiza¸c˜ao ´e feita por uma combina¸c˜ao linear de fun¸c˜oes exponenciais.

(44)

representa-42

das pelas m´edias das MTEs, que agem como um modelo geral e pode se aproximar `a distribui¸c˜ao da vari´avel de forma satisfat´oria (LANGSETH et al., 2009).

O principal benef´ıcio dessa abordagem ´e uma maior flexibilidade para se aproximar da fun¸c˜ao de distribui¸c˜ao da vari´avel.

3.3.3 Abordagem via Cadeia de Markov - Monte Carlo

Nesse tipo de abordagem, ´e utilizada a ideia de amostragem. ´E garantido que se a quantidade de amostras for suficientemente grande, feita de forma independente e com a mesma distribui¸c˜ao, ´e poss´ıvel obter qualquer grau de precis˜ao desejada na estima¸c˜ao:

EZ(P (T = 1|Z)) ∼= 1 N N X i=1 P (T = 1|zi) (3.5) onde zi, . . . , zn s˜ao amostras de f (z).

Essa ´e uma t´ecnica de inferˆencia que tira vantagem da estrutura Bayesiana para aumentar a velocidade do processo de simula¸c˜ao.

Nesse tipo de t´ecnica ´e importante ficar atento quanto `a es-tima¸c˜ao de eventos raros, j´a que muitas amostras devem ser geradas para poder obter uma ´unica amostra desse evento (LANGSETH et al., 2009).

3.4 ALGORITMOS GEN ´ETICOS

Algoritmos Gen´eticos (AGs) s˜ao otimizadores de fun¸c˜oes, ou seja, m´etodos que procuram os extremos de uma fun¸c˜ao objetiva f (x) baseando nos princ´ıpios da sele¸c˜ao natural e da gen´etica populacional (GOLDBERG, 1989) (CANT ´U-PAZ, 1995) (WEILE; MICHIELSSEN, 1997). A fun¸c˜ao objetivo do problema ´e usualmente usada para expressar a fun¸c˜ao fitness no AG.

Um aspecto importante em rela¸c˜ao `a fun¸c˜ao fitness est´a na sua responsabilidade de medir a performance da solu¸c˜ao (fun¸c˜ao objetiva) como uma maneira de gerar uma aloca¸c˜ao de recursos para a reprodu¸c˜ao (WHITLEY, 1994).

Um indiv´ıduo ´e definido como uma solu¸c˜ao candidata v´alida no AG, expressa ou por uma string bin´aria ou por um vetor de n´umeros reais (JANIKOW; MICHALEWICZ, 1991) (WRIGHT et al., 1991), onde um conjunto de indiv´ıduos ´e considerado uma popula¸c˜ao. Trˆes operadores

(45)

43

s˜ao comumente usados: sele¸c˜ao, crossover e muta¸c˜ao (Figura 5).

Figura 5 – Fluxograma do Algoritmo Gen´etico.

O operador de sele¸c˜ao usa o fitness de cada indiv´ıduo para esco-lher aqueles que s˜ao os mais adaptados da popula¸c˜ao atual para gerar uma nova popula¸c˜ao. H´a v´arias maneiras de realizar essa sele¸c˜ao de indiv´ıduos, mas ela sempre garante que os indiv´ıduos mais adaptados (melhores fitness) possuam uma maior probabilidade de serem selecio-nados.

A reprodu¸c˜ao ´e feita pelos operadores de crossover e muta¸c˜ao. O primeiro ´e o mecanismo prim´ario de explora¸c˜ao do AG: ele esco-lhe aleatoriamente um par de indiv´ıduos pr´e-selecionados e troca in-forma¸c˜ao (uma substring, no caso de representa¸c˜ao bin´aria) entre os dois indiv´ıduos para criar novos indiv´ıduos.

O operador de muta¸c˜ao ´e geralmente considerado como um ope-rador secund´ario e ´e usado para prevenir que a solu¸c˜ao fique estagnada em algum m´ınimo ou m´aximo local. A muta¸c˜ao ´e feita atrav´es da sele¸c˜ao randˆomica de uma substring em um indiv´ıduo e trocando o va-lor da mesma. O percentual da popula¸c˜ao atingido por esse operador ´

e geralmente muito menor que o percentual atingido pelo operador de crossover.

O AG come¸ca com uma popula¸c˜ao atual e ent˜ao a sele¸c˜ao ´e apli-cada para criar uma popula¸c˜ao intermedi´aria. Recombina¸c˜ao (muta¸c˜ao e crossover) ´e ent˜ao usada para criar a pr´oxima popula¸c˜ao. O processo

(46)

44

entre a popula¸c˜ao atual at´e a pr´oxima popula¸c˜ao.

A convergˆencia do AG tende a evoluir atrav´es de sucessivas gera¸c˜oes at´e que o fitness do melhor indiv´ıduo e a m´edia de fitness da popula¸c˜ao se aproximarem do ´otimo global (BEASLEY; MARTIN; BULL, 1993).

Algoritmos Gen´eticos n˜ao garantem que a solu¸c˜ao ´otima vai ser encontrada, e sua efetividade ´e determinada pelo tamanho da popula¸c˜ao n. O tempo requerido para que o AG convirja ´e de O(n log n) avalia¸c˜oes de fun¸c˜oes (GOLDBERG, 1989).

3.4.1 Representa¸c˜ao de um indiv´ıduo

Um cromossomo representa um indiv´ıduo, que ´e uma solu¸c˜ao candidata do problema a ser resolvido. Entre as representa¸c˜oes mais comuns de um indiv´ıduo no AG, encontram-se: codifica¸c˜ao bin´aria, codifica¸c˜ao em ponto flutuante, m´aquina de estados finitos e ´arvores.

A representa¸c˜ao mais comum ´e a codifica¸c˜ao bin´aria, que des-creve o cromossomo por um vetor de bits. A representa¸c˜ao bin´aria de um n´umero real est´a sujeita `a seguinte precis˜ao:

2l≥ (xmax− xmin) ∗ 10p (3.6) onde l o tamanho da cadeia de bits,s p corresponde `a precis˜ao, k a quantidade de bits e xmin, xmax definem o intervalo real [xmin, xmax] ao qual o valor a ser representado xr pertence. Logo, quanto maior a precis˜ao desejada maior a quantidade de bits necess´aria para obtˆe-la.

´

E necess´ario, por´em, que as cadeias de bits tenham o mesmo tamanho para a execu¸c˜ao dos operadores de reprodu¸c˜ao do AG (cros-sover, muta¸c˜ao). Outro quesito importante est´a na quantidade de bits no cromossomo: ele deve ser grande o suficiente para permitir uma boa troca de informa¸c˜oes durante a reprodu¸c˜ao. Portanto, a t´ecnica de mapeamento ´e utilizada.

A t´ecnica de mapeamento funciona como uma regra de trˆes. Ao pegar um n´umero bin´ario (b2) tradicional, ela aumenta a quantidade de bits necess´aria para represent´a-lo. Para isso, utiliza-se os valores de xmin, xmax de forma similar `a Equa¸c˜ao 3.6:

xr= xmin+ (xmax− xmin) b10

2l− 1 (3.7)

(47)

45

Por exemplo, considere o cromossomo de 16 bits:

xb2 = 1011010101010101 (3.8)

Ao decodific´a-lo da base 2 para a base 10, ´e obtido o valor:

xb10 = 46421 (3.9)

Considere ainda que o intervalo [xmin, xmax] ´e definido por [0, 50]. Logo, o mapeamento na b10desse valor ´e:

xr= 0 + (50 − 0) 46421

216− 1 ∼= 35.42 (3.10) Caso o n´umero representado seja um inteiro, ´e s´o realizar o arre-dondamento, para cima ou para baixo, dependendo do crit´erio definido.

(48)
(49)

47

4 PROCEDIMENTOS METODOL ´OGICOS

No m´etodo de discretiza¸c˜ao Pico e Vale proposto (DPV) assume-se que uma vari´avel num´erica vi ∈ V possui valores em intervalos ex-tremos e em um intervalo intermedi´ario. Ao analisar o intervalo in-termedi´ario ´e poss´ıvel obter os intervalos de valores extremos (valores acima e valores abaixo dos limites do intervalo intermedi´ario) e esta-belecer suas probabilidades condicionais, assim como suas rela¸c˜oes de causa e efeito: “O que causou esse comportamento? O que ele im-plica?”.

Observando o comportamento de uma vari´avel, ´e poss´ıvel inferir se um valor xi est´a fora do intervalo intermedi´ario, seja de forma po-sitiva (alta) ou negativa (baixa). A delimita¸c˜ao dos intervalos utiliza dois pontos de corte expressos em percentil: o primeiro (pico) ´e restrito `

a ´area considerada “alta” e o segundo (vale) cobre a ´area considerada “baixa”.

O uso do percentil como medida para os pontos de corte in-corpora o conceito de frequˆencia dos dados (seguindo a linha do EFD, EMD e FFD). Por´em, o m´etodo DPV n˜ao segue uma regra pr´e-definida de cortes, ou seja, a quantidade de dados em cada classe ´e descoberta em tempo de processamento. Al´em disso, ao utilizar a medida de per-centil ´e poss´ıvel restringir a ´area de cobertura de cada um dos cortes, definindo seus limites de atua¸c˜ao.

O uso dos dois pontos de corte sugere que uma vari´avel num´erica possui trˆes comportamentos distintos: “baixo”, “m´edio” e “alto”. En-tretanto, essa premissa nem sempre ´e verdadeira e a utiliza¸c˜ao desses trˆes comportamentos pode n˜ao trazer benef´ıcios para a cria¸c˜ao de uma RB. Isso acontece quando os pontos de corte est˜ao muito pr´oximos dos valores limites, por exemplo, o corte de vale est´a muito pr´oximo do menor percentil da vari´avel ou o corte de pico est´a muito pr´oximo do maior percentil. ´E poss´ıvel ainda que os dois cortes estejam t˜ao perto um do outro que um intervalo intermedi´ario ´e considerado irrelevante. A Figura 6 mostra dois exemplos de dados classificados com o DPV. O primeiro gr´afico possui trˆes comportamentos distintos: um intermedi´ario, um superior e um inferior. O segundo gr´afico mostra apenas dois comportamentos um superior e outro inferior.

O ponto fundamental para estabelecer os percentis dos cortes est´a no algoritmo de busca, nesse caso, o Algoritmo Gen´etico. A escolha do AG deve-se pela sua implementa¸c˜ao simples, resultados eficientes e adequa¸c˜ao ao problema (WRIGHT et al., 1991).

(50)

48

Figura 6 – Eventos de Pico e Vale.

No m´etodo DPV, cada vari´avel num´erica vido conjunto de dados tem seus dois pontos de corte. Esses pontos s˜ao encontrados atrav´es da busca pelo AG e ´e escolhido o conjunto mais “bem adaptado” `a fun¸c˜ao objetivo no que diz respeito `a RB. O conjunto de pontos, que representa um indiv´ıduo, pode ser visto na Figura 7.

Figura 7 – Representa¸c˜ao de um indiv´ıduo no DPV.

A Figura 8 mostra a vis˜ao geral do m´etodo proposto. ´

E importante ressaltar que o m´etodo DPV ´e de discretiza¸c˜ao visando a descoberta de conhecimento na RB, ou seja, o conjunto de

(51)

49

Figura 8 – Fluxograma do m´etodo DPV.

vari´aveis discretizadas deve refor¸car o processo de aprendizagem. Dessa forma, a distribui¸c˜ao de probabilidade dentro de cada nodo da RB n˜ao necessariamente ser´a sim´etrica.

A escolha do melhor indiv´ıduo no AG est´a diretamente associada ao mecanismo de classifica¸c˜ao na Rede Bayesiana. Cada nodo em uma RB ´e expresso por um vetor probabilidades, sendo que cada um de seus estados tem uma probabilidade de ser “verdadeiro”. Nesta disserta¸c˜ao foi adotado o m´etodo de classifica¸c˜ao que escolhe o maior valor no vetor de probabilidades do nodo de sa´ıda para classificar a instˆancia.

Existem duas situa¸c˜oes poss´ıveis para se estabelecer o fitness de um indiv´ıduo durante a execu¸c˜ao do DPV: quando a vari´avel de sa´ıda ´

e qualitativa e quando a vari´avel de sa´ıda ´e quantitativa.

Quando a vari´avel de sa´ıda ´e qualitativa, um maior desempenho da rede est´a diretamente ligado `a classifica¸c˜ao correta dos dados atrav´es da vari´avel de sa´ıda. Portanto, a medida de desempenho nesses casos ´

e a pr´opria acur´acia e o objetivo do algoritmo ´e a sua maximiza¸c˜ao. Ou seja, o melhor indiv´ıduo de uma popula¸c˜ao ´e aquele que possui a maior acur´acia.

Entretanto, quando a vari´avel de sa´ıda ´e quantitativa, objetiva-se estimar valores atrav´es do seu vetor de probabilidade. Esses valores correspondem aos valores m´edios da distribui¸c˜ao e o desempenho da

(52)

50

rede est´a ligado `a minimiza¸c˜ao da taxa de erro entre os valores esti-mados e os valores num´ericos da vari´avel de sa´ıda.

Outro ponto fundamental para as Redes Bayesianas est´a na sua topologia. Neste trabalho foi utilizada a estrutura Na¨ıve Bayes e, por-tanto, todas as vari´aveis s˜ao consideradas de evidˆencias de entrada com a exce¸c˜ao da vari´avel de sa´ıda. A escolha dessa topologia ´e justificada pela sua efetividade e simplicidade ao facilitar o processo de aprendi-zagem (Se¸c˜ao 3.2.1).

Para avaliar o desempenho do DPV, o m´etodo foi aplicado em trˆes bases de dados com o objetivo de testar os casos onde a vari´avel de sa´ıda ´e qualitativa e onde ela ´e quantitativa.

No primeiro caso (sa´ıda qualitativa), foram utilizadas duas bases de dados p´ublicas que retratam problemas de classifica¸c˜ao, sendo a primeira uma base de caracter´ısticas de diferentes tipos de flores Iris e a segunda uma an´alise qu´ımica de diferentes tipos de vinho.

No segundo caso (sa´ıda quantitativa) foi utilizada uma base de dados de um dom´ınio real que apresenta vari´aveis de um sistema de perfura¸c˜ao de po¸cos de petr´oleo e sua respectiva taxa de perfura¸c˜ao. O objetivo, nesse caso, ´e estimar o valor da taxa de perfura¸c˜ao.

O m´etodo proposto foi comparado com dois outros m´etodos da literatura: EFD e EWD. A escolha desses m´etodos se deve `a sua grande popularidade, eficiˆencia, baixo custo computacional e utiliza¸c˜ao de forma h´ıbrida com uma grande quantidade de m´etodos de discre-tiza¸c˜ao (Se¸c˜ao 2).

(53)

51

5 M ´ETODO PROPOSTO

O m´etodo proposto (DPV) ´e composto de dois mecanismos fun-damentais:

• a an´alise dos pontos de corte (pico e vale) estabelecidos ao de-terminar a sua relevˆancia;

• a escolha dos pontos de corte mais bem adaptados ao problema atrav´es do Algoritmo Gen´etico.

O m´etodo DPV ´e param´etrico e define a relevˆancia dos pontos de corte atrav´es do coeficiente α. Esse coeficiente determina a proxi-midade m´axima permitida entre os pontos de corte e os valores limites da vari´avel (extremos).

Caso os pontos de corte estejam muito pr´oximos, eles ser˜ao uni-dos. Caso um dos pontos de corte esteja muito pr´oximo de um dos valores extremos da vari´avel, este ponto ser´a desconsiderado. E, fi-nalmente, se ambos os pontos de corte estiverem muito pr´oximos dos pontos extremos, ´e criado um novo ponto de corte atrav´es da m´edia dos dois pontos (pico e vale).

As propriedades do m´etodo DPV em rela¸c˜ao aos pontos de corte s˜ao mostradas na Se¸c˜ao 5.1 e as configura¸c˜oes em rela¸c˜ao ao Algoritmo Gen´etico, assim como as fun¸c˜oes objetivo empregadas, s˜ao mostradas na Se¸c˜ao 5.2.

5.1 PROPRIEDADES PICO E VALE

Para descrever as propriedades dos pontos de corte no m´etodo DPV, os seguintes conceitos s˜ao definidos no contexto de uma vari´avel vi:

• p(x) como uma fun¸c˜ao que recebe um valor x como entrada e retorna o percentil que esse valor se encontra;

• p−1(y) como a fun¸ao inversa da fun¸ao p(x): recebe um percentil y como entrada e retorna o valor x que ele representa;

• vale como o percentil expresso pelo ponto de corte vale; • pico como o percentil expresso pelo ponto de corte pico;

(54)

52

• vale < pico; • X∗= x

1, . . . , x∗ncomo o vetor discretizado do conjunto de valores de vi (X = x1, . . . , xn).

• pxmin como o percentil que representa o menor valor (xmin) em

vi;

• pxmax como o percentil que representa o maior valor (xmax) em

vi; ´

E poss´ıvel mesclar ou desprezar pontos de corte se eles n˜ao forem relevantes para a solu¸c˜ao. A relevˆancia dos pontos de corte e sua pro-ximidade com os valores extremos (xmin e xmax) s˜ao expressos por um coeficiente de relevˆancia α (0 < α < 1) definido por parˆametro, que de-termina qu˜ao perto o ponto de corte est´a desses valores. A proximidade para os dois pontos de corte segue as seguintes equa¸c˜oes:

xmin p−1(vale) ≤ α =⇒ p −1(vale) ≥ xmin α (5.1) p−1(pico) xmax < α =⇒ p−1(pico) < xmax∗ α (5.2) como vale < pico, a seguinte inequa¸c˜ao ´e v´alida:

xmin

α < xmax∗ α (5.3)

Ou seja, para que exista um valor v´alido de α ´e necess´ario satis-fazer a inequa¸c˜ao:

α2> xmin xmax =⇒ α >r xmin xmax (5.4) ´

E necess´ario, portanto, aplicar uma corre¸c˜ao em α para assegu-rar que os pontos sempre possuam um intervalo de valores considerado relevante independente da proximidade de xmin e xmax. O valor ajus-tado do coeficiente, α0, ´e definido por:

α0= ((1 − δ) · α) + δ (5.5) onde δ ´e o coeficiente limite entre xmin e xmax, definido por:

δ =r xmin xmax

(55)

53

com essa defini¸c˜ao, ´e poss´ıvel inferir que o limite da Equa¸c˜ao 5.5 quando δ → 0 ´e:

lim

δ→0((1 − δ) · α) + δ = α (5.7) Ou seja, quando a distˆancia entre xmin e xmax for muito grande (tender ao infinito), o valor de δ tende a zero e α0= α. A relevˆancia dos cortes, ´e portanto determinada pelo coeficiente ajustado α0. O menor valor relevante de vale ´e dado por:

p−1(valemin) = xmin

α0 (5.8)

e o maior valor relevante de pico ´e:

p−1(picomax) = xmax· α0 (5.9) Atrav´es das Equa¸c˜oes 5.8 e 5.9 e considerando que ambos os pon-tos de corte possuam diferentes defini¸c˜oes, ´e poss´ıvel definir a seguinte hierarquia:

pxmin≤ vale ≤ γ < pico ≤ pxmax (5.10)

onde γ = valemin+picomax

2 representa o limite entre pico e vale. Os seguintes crit´erios s˜ao usados para mesclar ou desprezar pon-tos de corte:           

caso 1: se pp−1−1(vale)(pico) > α0, ent˜ao mescle por

vale+pico 2 caso 2: se p−1x(pico)

max > α

0, ent˜ao despreze o corte de pico caso 3: se xmin

p−1(vale) > α0, ent˜ao despreze o corte de vale

caso 4: se caso 2 e caso 3 ent˜ao mescle por vale+pico2

(5.11) A caracter´ıstica da RB de representar o conhecimento de forma expl´ıcita cria uma preocupa¸c˜ao quanto ao nome das classes em X∗, que devem ser intuitivas e expressar suas propriedades. Dessa forma, os nomes das classes foram escolhidos levando em considera¸c˜ao a Equa¸c˜ao 5.11.

O c´alculo da relevˆancia dos cortes pico e vale no m´etodo DPV ´e feito de forma param´etrica e ´e necess´ario a defini¸c˜ao de alguns parˆametros, como: a vari´avel a ser discretizada, o valor do coeficiente de relevˆancia α, e os dois pontos de corte respeitando a hierarquia da Equa¸c˜ao 5.5. Esses parˆametros s˜ao definidos como entrada para o c´alculo.

(56)

54

Ap´os a defini¸c˜ao dos parˆametros de entrada, ´e aplicada a corre¸c˜ao do valor alpha pela Equa¸c˜ao 5.5 e s˜ao calculados os valores de caso1, caso2 e caso3 atrav´es da Equa¸c˜ao 5.11. Os valores calculados deter-minar˜ao a quantidade de classes para a discretiza¸c˜ao e o r´otulo das mesmas.

O fluxo geral do c´alculo da relevˆancia dos cortes e sua respectiva discretiza¸c˜ao pelo m´etodo DPV ´e expresso no Algoritmo 3.

Algoritmo 3 Relevˆancia dos cortes de pico e vale e discretiza¸c˜ao

1: v ← a vari´avel quantitativa a ser discretizada

2: α ← algum coeficiente de relevˆancia α, (0 < α < 1)

3: vale ← algum percentil de acordo com a Equa¸c˜ao 5.10

4: pico ← algum percentil de acordo com a Equa¸c˜ao 5.10

5: α0← corre¸c˜ao do α (Equa¸c˜ao 5.5)

6: caso1 ← pp−1−1(vale)(pico)

7: caso2 ← p−1x(pico)

max

8: caso3 ← xmin

p−1(vale)

9: if caso1 > α0 or ( caso2 > α0 and caso3 > α0 ) then 10: discretize v usando “baixo” e “alto” (2 classes)

11: else if caso2 > α0 then

12: discretize v usando “baixo” e “m´edio” (2 classes)

13: else if caso3 > α0 then

14: discretize v usando “m´edio” e “alto” (2 classes)

15: else

16: discretize v usando “baixo”, “m´edio” e “alto” (3 classes)

17: end if

18: return v discretizada (v∗)

5.1.1 Exemplo de Aplica¸c˜ao

Imagine uma situa¸c˜ao onde xmin = 10, xmax = 12 e α = 0.8. Caso fosse aplicado o coeficiente de relevˆancia sem efetuar a corre¸c˜ao (α = α0), o menor valor poss´ıvel para o vale ser considerado relevante, pela Equa¸c˜ao 5.8, ´e:

p−1(valemin) =

(xmin= 10)

(α0 = α = 0.8) = 12.5 (5.12) De forma an´aloga, o maior valor poss´ıvel para o pico ser

(57)

consi-55

derado relevante, pela Equa¸c˜ao 5.9, ´e:

p−1(picomax) = (xmax= 12) · (α0= α = 0.8) = 9.6 (5.13) Esses valores geram uma contradi¸c˜ao, pois nunca seria aceito como relevante nenhum corte de vale ou de pico.

Para realizar a corre¸c˜ao em α ´e necess´ario calcular o δ pela Equa¸c˜ao 5.6 e aplicar a corre¸c˜ao do coeficiente de relevˆancia pela Equa¸c˜ao 5.5: δ = s (xmin= 10) (xmax= 12) ∼ = 0.8334 (5.14) α0= ((1 − (δ = 0.8334)) · (α = 0.8)) + (δ = 0.8334) = 0.96668 (5.15) E por consequˆencia, os valores de p−1(valemin) e p−1(picomax) s˜ao alterados pelas Equa¸c˜oes 5.8 e 5.9:

p−1(valemin) =

(xmin= 10)

(α0 = 0.96668)∼= 10.3447 (5.16)

p−1(picomax) = (xmax= 12) · (α0= 0.96668) ∼= 11, 6001 (5.17) Ap´os definido os pontos de corte ´e necess´ario analisar a relevˆancia dos mesmos (Equa¸c˜ao 5.11).

Vamos supor que o algoritmo tenha definido os pontos de corte, e em uma vari´avel vitenha sido encontrado o valor de vale = 20. Ou seja, o corte de vale encontra-se no percentil 20. Vamos supor ainda, que por interpola¸c˜ao linear fosse encontrada p−1(vale) = 10.3. Da mesma forma para o corte de pico, imagine que pico = 98 e p−1(pico) = 11.9 Observe que nesse caso o corte de pico seria desprezado: o ´unico corte v´alido seria o de vale.

Caso vale = 10, p−1(vale) = 10.15, pico = 80 e p−1(pico) = 11.5, seria desprezado o corte de vale.

Caso os valores estejam pr´oximos, por exemplo,vale = 48, p−1(vale) = 10.98, pico = 52 e p−1(pico) = 11, nesse caso os dois cortes s˜ao unidos e ´e criado um novo corte pela Equa¸c˜ao 5.11:

(vale = 48) + (pico = 52)

(58)

56

e seu percentil estabelecido por interpola¸c˜ao linear. Nesse caso, corte = 50 e p−1(corte) = 10.99.

Se o valor de vale for muito baixo e o de pico muito alto simulta-neamente ´e feito um novo corte de forma similar ao exemplo anterior. Nunca ocorrer´a um caso em que o corte de vale seja muito alto ou que o pico seja muito baixo, pois esses cortes obedecem a hierarquia estabelecida na Equa¸c˜ao 5.10.

5.2 O PROBLEMA DE OTIMIZAC¸ ˜AO

Os seguintes conceitos s˜ao definidos: • vout como a vari´avel de sa´ıda emV ; • V∗ = v

1, . . . , v∗n como o vetor de todas as vari´aveis discretizadas em V : originalmente qualitativas ou discretizadas pelo DPV; • v∗

out como a vari´avel de sa´ıda em V∗;

• ˜X = ˜x1, . . . , ˜xn comos os valores previstos de v∗out pela RB; • ˜X1 = ˜x1

1, . . . , ˜x1n como os valores previstos corretamente de v∗out pela RB;

• ˜X0= ˜x0

1, . . . , ˜x0n como os valores previstos incorretamente de v∗out pela RB; • ev(x) = n X i=1 beliefi· pontomedioi (5.19) como uma fun¸c˜ao que retorna o valor quantitativo esperado de uma classe em vout∗ , baseado nas probabilidades da rede (beliefs) e em uma lista com os n´umeros reais que representam cada classe de vout∗ . A lista de n´umeros reais ´e criada atrav´es dos pontos m´edios de cada classe de v∗out comparados com vout.

A discretiza¸c˜ao de uma vari´avel vi no DPV depende dos pontos de corte pico e vale, al´em de um coeficiente de relevˆancia pr´e-definido (α). Entretanto, a distribui¸c˜ao de probabilidade em vi influencia o processo de inferˆencia de toda a RB (Equa¸c˜ao 3.1).

(59)

57

Portanto, ´e necess´ario discretizar todas as vari´aveis simultane-amente, o que gera um Problema de Otimiza¸c˜ao Global (HORST; RO-MEIJN, 2002), ou seja, encontrar o melhor conjunto de condi¸c˜oes aceit´aveis

para atingir um objetivo formulado por termos matem´aticos.

Nesta disserta¸c˜ao, a fun¸c˜ao objetivo consiste em discretizar todas as vari´aveis do conjunto de dados, de forma que o erro de previs˜ao da vari´avel de sa´ıda seja o menor poss´ıvel.

Assumindo que vout pode tanto ser quantitativa quanto quali-tativa, duas fun¸c˜oes objetivo diferentes podem ser usadas. Se vout for qualitativa,

encontre V∗= max acuracia(v∗out) (5.20) onde

acuracia(v∗out) = | ˜X 1|

| ˜X0| + | ˜X1| (5.21) Por´em, se voutfor quantitativa, a fun¸c˜ao objetivo ´e dada pela mi-nimiza¸c˜ao do erro NRMSE (normalized root mean square error ), dado por

encontre V∗= min N RM SE(vout) (5.22) onde N RM SE(vout) = 100 · q 1 n Pn i=1(xi− ev( ˜xi))2 xmax− xmin (5.23) O erro NRMSE ´e calculado a partir do erro RMSE, que ´e con-siderado uma boa medida de desempenho embora seja dependente de escala. A normaliza¸c˜ao do erro traz a vantagem de independente de escala e a poss´ıvel compara¸c˜ao entre diferentes bases de dados ( HYND-MAN; KOEHLER, 2006).

A execu¸c˜ao do m´etodo DPV segue o fluxo geral de execu¸c˜ao do Algoritmo Gen´etico (Figura 5). Por´em, ´e necess´ario definir o valor de α (o mesmo para toda a execu¸c˜ao), as vari´aveis V do dom´ınio e a vari´avel de sa´ıda vout.

Ap´os a defini¸c˜ao de parˆametros, o algoritmo segue o fluxo do AG, com a cria¸c˜ao randˆomica de indiv´ıduos, a avalia¸c˜ao da popula¸c˜ao atrav´es da fun¸c˜ao fitness, a sele¸c˜ao, o crossover e a muta¸c˜ao.

(60)

58

Para cada indiv´ıduo da popula¸c˜ao, ´e feita a discretiza¸c˜ao de to-das as vari´aveis quantitativas (utilizando o Algoritmo 3), cria-se uma RB utilizando as vari´aveis discretizadas e as qualitativas do tipo na¨ıve Bayes e calcula-se o valor de fitness seja pela acur´acia (voutqualitativa) ou pelo erro (vout quantitativa). Caso vout seja quantivativa, o DPV procura minimizar o fitness (erro) e caso voutseja qualitativa, o DPV procura maximizar o fitness (acur´arica).

O resultado do m´etodo ´e aquele considerado o melhor indiv´ıduo da execu¸c˜ao, ou seja, com o melhor fitness. Portanto s˜ao retornados os pontos de corte para cada vari´avel e a RB criada atrav´es desses pontos de corte.

O algoritmo expresso em Algoritmo 4 mostra o fluxo de trabalho que satisfaz as fun¸c˜oes objetivo (Equa¸c˜oes (5.20) e (5.22)), utilizando a t´ecnica de Algoritmos Gen´eticos (AG).

Algoritmo 4 M´etodo de Discretiza¸c˜ao pico e vale via AG

1: α ← algum coeficiente de relevˆancia α, (0 < α < 1)

2: V ← vari´aveis de algum dom´ınio de aplica¸c˜ao

3: vout ← vari´avel de sa´ıda em V

4: P = ind1, . . . , indn ← o vetor de indiv´ıduos randomicos contendo os cortes de pico e vale para cada vari´avel quantitativa em V (po-pula¸c˜ao)

5: while n˜ao encontrou solu¸c˜ao do

6: for all indi in P do

7: discretize todas as vari´aveis quantitativas (Algoritmo 3)

8: RBi← uma RB com todas as vari´aveis - qualitativas e quan-titativas ap´os discretiza¸c˜ao - topologia Na¨ıve Bayes

9: if vout is qualitativa then

10: f itnessi ← acuracia(vout) (Equ (5.20))

11: else

12: f itnessi ← N RM SE(vout) (Equation (5.22))

13: end if 14: end for 15: sele¸c˜ao() 16: crossover() 17: muta¸c˜ao() 18: end while

19: return o melhor indi em P (aquele com o melhor fitness) e RBi (a RB criada por esse indiv´ıduo)

(61)

59

A complexidade computacional do m´etodo DPV, assim como o fluxo geral do algoritmo, ´e semelhante `a do Algoritmo Gen´etico cl´assico, que, em uma popula¸c˜ao de n indiv´ıduos possui complexidade de O(n log n) ∗ O(f itness) para `a convergˆencia do algoritmo ( GOLD-BERG, 1989).

A fun¸c˜ao fitness no DPV utiliza dois m´etodos fundamentais: a discretiza¸c˜ao de todas as vari´aveis e a pr´opria inferˆencia Bayesiana. A fun¸c˜ao de discretiza¸c˜ao possui a complexidade de O(k ∗ m) onde k ´e a quantidade de vari´aveis cont´ınuas e m ´e a quantidade de registros em cada vari´avel. Portanto a complexidade geral do m´etodo DPV, ´e dada pela f´ormula:

O(n log n) ∗ [O(k ∗ m) + O(inf erence)] (5.24) Sendo que O(inf erence) depende do algoritmo de inferˆencia Bayesiana utilizado, que ´e considerado um problema do tipo NP-hard (COOPER, 1990). O algoritmo utilizado nesse trabalho foi implemen-tado no shell Netica1 da Norsys Software Corp e utiliza t´ecnicas do tipo “join tree” (SPIEGELHALTER et al., 1993).

(62)
(63)

61

6 RESULTADOS E DISCUSS ˜AO

Para avaliar a performance do DPV duas situa¸c˜oes foram testa-das: quando a base de dados tem uma sa´ıda qualitativa (Se¸c˜ao 6.1) e quando a vari´avel de sa´ıda ´e quantitativa (Se¸c˜ao 6.2).

Quando a vari´avel de sa´ıda ´e qualitativa, o objetivo do algo-ritmo ´e realizar a classifica¸c˜ao da vari´avel estimando a probabilidade de cada uma de suas classes. Portanto, a fun¸c˜ao objetivo do problema de otimiza¸c˜ao est´a em maximizar a acur´acia (classifica¸c˜ao correta).

Quando a vari´avel de sa´ıda ´e quantitativa o objetivo do algo-ritmo vai al´em da classifica¸c˜ao: ´e necess´ario que a m´edia estimada pelo vetor de probabilidade reflita o comportamento da vari´avel. Portanto, nesse caso, a fun¸c˜ao objetivo est´a relacionada com a minima¸c˜ao do erro (NRMSE) entre a m´edia estimada e o valor real de cada registro.

O DPV ´e um m´etodo de Aprendizagem Supervisionada ( MIT-CHELL, 1997) e os dados s˜ao divididos em dois conjuntos: treinamento e teste.

O coeficiente de relevˆancia α adotado neste trabalho foi de 0.8. Esse valor foi escolhido ap´os uma busca por coeficientes melhores adap-tados aos problemas apresenadap-tados.

Os resultados obtidos foram comparados com dois m´etodos de discretiza¸c˜ao para Redes Bayesianas: EWD e EFD.

6.1 SA´IDA QUALITATIVA - BASE DE DADOS

Para representar os casos em que a vari´avel de sa´ıda ´e qualitativa, duas base de dados foram usadas: Iris Flower (Se¸c˜ao 6.1.1) e Wine (Se¸c˜ao 6.1.2) e foram separadas randomicamente de forma que (0.5n) dos dados pertencessem ao conjunto de treinamento e (0.5n) dos dados ao conjunto de teste.

A vari´avel de sa´ıda em ambas as bases dados ´e chamada de class (tipo de flor iris ou de vinho).

6.1.1 O Problema Iris Flower

Publicado por Fisher em 1936 (FISHER, 1936), a base de dados Iris Flower ´e uma das mais populares na literatura especializada em reconhecimento de padr˜oes. Existem 150 registros nessa base, que foi

(64)

62

adquirida atrav´es do reposit´orio p´ublico UCI.

A base de dados possui trˆes classes de 50 instˆancias cada, onde cada classe refere ao tipo de planta Iris: Iris-virginica, Iris-versicolor e Iris-setosa. Os parˆametros de entrada possuem valores quantitativos, chamados: sepal length (comprimento da s´epala), sepal width (largura da s´epala), petal length (comprimento da p´etala) e petal width (largura da p´etala).

Foram treinadas trˆes Redes Bayesianas atrav´es do conjunto do treinamento com a topologia Na¨ıve Bayes. A distribui¸c˜ao dos dados entre os conjuntos de treinamento e teste foi feita de forma randˆomica e estratificada, ou seja, a quantidade de dados de cada classe ´e a mesma em ambos os conjuntos. Portanto, cada tipo de flor Iris possui 25 registros no conjunto de treinamento e 25 registros no conjunto de teste.

A RBs treinadas da base Iris Flower podem ser vistas na Figura 9 (DPV), Figura 10 (EFD) e Figura 11 (EWD).

Figura 9 – RB treinada pelo DPV para o Problema Iris Flower.

(65)

63

Figura 11 – RB treinada pelo EWD para o Problema Iris Flower.

6.1.2 O Problema Wine

A base de dados Wine tamb´em ´e muito popular na literatura de reconhecimento de padr˜oes. H´a 178 registros nessa base, tamb´em adquirida atrav´es do reposit´orio UCI.

Essa base de dados possui trˆes classes, onde cada uma se refere a um tipo de vinho cultivado na mesma regi˜ao da It´alia, mas com diferentes caracter´ısticas: a classe 1 possui 59 registros, a classe 2 possui 71 registros e a classe 3 possui 48 registros.

As vari´aveis de entrada possuem valores quantitativos, chama-dos: alcohol (´alcool), malic acid (´acido m´alico), ash (cinza), alkalinity of ash (alcalinidade das cinzas), magnesium (magn´esio), total phenols (fen´ois totais), flavonoids (flavon´oides), non-flavonoid phenols (fen´ois n˜ao flavon´oides), pro-anthocyanins (pr´o-antocianinas), color intensity (intensidade de cor), hue (tonalidade), OD280/OD315 of diluted wines (OD280/OD315 de vinhos dilu´ıdos) e proline (prolina).

De forma similar ao problema Iris Flower, foram treinadas trˆes Redes Bayesianas utilizando a topologia Na¨ıve Bayes. Embora a dis-tribui¸c˜ao de dados tenha sido feita de forma randˆomica e estratificada, algumas classes de vinho possuem uma quantidade ´ımpar de registros. Portanto, a distribui¸c˜ao de dados adotada foi a seguinte:

• wine1 : 30 registros no treinamento, 29 registros no teste • wine2 : 35 registros no treinamento, 36 registros no teste • wine3 : 24 registros no treinamento, 24 registros no teste

A RBs treinadas da base Wine podem ser vistas na Figura 12 (DPV), Figura 13 (EFD) e Figura 14 (EWD).

(66)

64

Figura 12 – RB treinada pelo DPV para o Problema Wine.

Referências

Documentos relacionados

Os supercondutores magnéticos, volantes de inércia e os condensadores são apropriados para aplicações que necessitam de grande potência de saída em pouca

Dessa maneira, os resultados desta tese são uma síntese que propõe o uso de índices não convencionais de conforto térmico, utilizando o Índice de Temperatura de Globo Negro e

Foram coletados 376 espécimes distribuídos por seis famílias, sendo que a família Staphylinidae apresentou a maior abundância seguida por Histeridae, Scarabaeidae, Ptiliidae,

Código Descrição Atributo Saldo Anterior D/C Débito Crédito Saldo Final D/C. Este demonstrativo apresenta os dados consolidados da(s)

Por último, temos o vídeo que está sendo exibido dentro do celular, que é segurado e comentado por alguém, e compartilhado e comentado no perfil de BolsoWoman no Twitter. No

O prescritor pode facultar, ao utente, uma guia de tratamento que contém a mesma informação da mensagem ou email e, ainda, informação adicional, como a informação

Os doentes paliativos idosos que permanecem nas instituições privadas são encaminhados pelos hospitais em que estavam ou internados pelos próprios familiares

Mas ele é ( verbo ser, no Presente do Indicativo ) apenas um gato e não tinha tido ( verbo ter, no Pretérito Mais-Que-Perfeito Simples do Indicativo ) tempo de aprender (