• Nenhum resultado encontrado

Aprendizagem Estrutural de Redes Bayesianas Utilizando Métrica MDL Modificada

N/A
N/A
Protected

Academic year: 2021

Share "Aprendizagem Estrutural de Redes Bayesianas Utilizando Métrica MDL Modificada"

Copied!
7
0
0

Texto

(1)

Aprendizagem Estrutural de Redes Bayesianas

Utilizando M´etrica MDL Modificada

Aderson Cleber Pifer UFRN - Brasil

Email: acpifer@dca.ufrn.br

Luiz Affonso Guedes UFRN - Brasil

Email: affonso@dca.ufrn.br

Resumo— Redes Bayesianas s˜ao ferramentas que des-crevem distribui¸c˜oes de probabilidade atrav´es de uma representa¸c˜ao gr´afica. Tais redes manipulam incertezas existentes em sistemas do mundo real. A partir da ´

ultima d´ecada, surgiu um interesse especial no apren-dizado das estruturas dessas redes a partir de um conjunto de dados, entretanto, o aprendizado da sua estrutura ´e um problema NP-Dif´ıcil, o que demanda a utiliza¸c˜ao de algoritmos de busca heur´ısticos. Muitos desses Algoritmos s˜ao baseados em m´etricas de pon-tua¸c˜ao para estimar o modelo. Este trabalho procura realizar o aprendizado da estrutura da rede ALARM, que ´e um benchmark padr˜ao, utilizando-se o algoritmo de busca K-2 com uma modifica¸c˜ao na medida MDL como m´etrica de pontua¸c˜ao. Os resultados demonstra-ram que a m´etrica de pontua¸c˜ao com parˆametros mais restritivos, ou seja que selecionam estruturas de redes mais simples, apresentam resultados superiores aqueles menos restritivos e que a m´etrica MDL modificada re-torna melhores resultados que a m´etrica MDL original. Palavras chave— Redes Bayesianas, MDL, Apren-dizagem Estrutural, M´etrica de Pontua¸c˜ao, K-2, ALARM.

I. Introdu¸c˜ao

C

OM a evolu¸c˜ao das t´ecnicas de fabrica¸c˜ao, os com-putadores tornaram-se ferramentas de uso cotidiano possibilitando o armazenamento de uma enorme quanti-dade de informa¸c˜ao sobre os diferentes ramos de ativiquanti-dade humana. Essa evolu¸c˜ao t´ecnica implicou em um aumento da competitivade entre as empresas e tornou-se necess´ario para a sobrevivˆencia das mesmas a ado¸c˜ao de mecanismos que pudessem classificar e analisar as informa¸c˜oes arma-zenadas e, assim, auxiliar a tomada de decis˜oes por parte das empresas [1]. Todo esse processo fez ressurgir o in-teresse dos pesquisadores em t´ecnicas de aprendizagem de m´aquina, como: ´arvores de decis˜ao, redes neurais, sistemas especialistas e redes Bayesianas.

Por representarem o formalismo semˆantico da probabi-lidade (probabiprobabi-lidade conjunta) de uma forma compacta e clara aos olhos humanos (estrutura gr´afica) e trabalharem com incertezas em sistemas inteligentes do mundo real, as redes Bayesianas passaram a desempenhar um papel importante em uma vasta ´area de aplica¸c˜oes a partir da d´ecada de noventa [2], [3]. Dentre as principais ´areas de aplica¸c˜ao, pode-se destacar: industrial (sistemas de diag-n´osticos de falhas e predi¸c˜ao), militar (localiza¸c˜ao

auto-m´atica de alvos) e comercial (recupera¸c˜ao de informa¸c˜oes e an´alise do mercado financeiro).

Rede Bayesiana ´e um par (G, Θ), onde G ´e um grafo dirigido ac´ıclico e Θ ´e um conjunto particular de pa-rˆametros. Esse conjunto de parˆametros Θ especifica as distribui¸c˜oes de probabilidade condicional associadas `as vari´aveis representadas em G. O grafo dirigido ac´ıclico G ´e tamb´em conhecido estrutura da Rede Bayesiana [4].

Em muitas situa¸c˜oes reais, o conhecimento pr´evio dos parˆametros e da estrutura de rede que comp˜oem os conjun-tos de dados n˜ao s˜ao plenamente conhecidos e, portanto, a utiliza¸c˜ao do conhecimento de especialistas humanos para descrever a estrutura da rede Bayesiana torna-se restrita. Para esses casos, o aprendizado autom´atico baseado em um conjunto de dados apresenta-se como uma solu¸c˜ao interessante. Este trabalho tem como objetivo explorar justamente o aprendizado da estrutura da rede Bayesiana utilizando-se de um algoritmo de busca baseado em pon-tua¸c˜ao e na m´etrica MDL com a fun¸c˜ao de penaliza¸c˜ao modificada por um parˆametro que fortalece ou enfraquece a fun¸c˜ao de penaliza¸c˜ao logar´ıtmica.

Este artigo encontra-se organizado da seguinte maneira: na segunda se¸c˜ao s˜ao introduzidas as formas de apren-dizagem estrutural das redes Bayesianas a partir de um conjunto de dados e discutida a contribui¸c˜ao deste tra-balho na m´etrica de pontua¸c˜ao MDL. A terceira se¸c˜ao apresenta os resultados pr´aticos obtidos com a m´etrica MDL e sua modifica¸c˜ao para a rede ALARM. Na quarta se¸c˜ao s˜ao discutidos os resultados obtidos e sugeridos trabalhos futuros.

II. Aprendizagem de Rede Bayesiana Conceitualmente, os algoritmos de aprendizagem de redes Bayesianas est˜ao divididos em:

Aprendizagem Param´etrica: Refere-se ao

apren-dizado das distribui¸c˜oes de probabilidade condicional, conjunto Θ de parˆametros da defini¸c˜ao de redes Baye-sianas [4];

Aprendizagem da Estrutura: Refere-se ao

apren-dizado do grafo dirigido ac´ıclico, ou seja, define quais as arestas orientadas ligando os v´ertices devem ser adicionadas ao grafo.

O aprendizado dos parˆametros Θ ´e trivial se for co-nhecida a estrutura da rede ´otima para o conjunto de

(2)

dados completo conhecido, pois recai-se em um problema de maximiza¸c˜ao da fun¸c˜ao de verossimilhan¸ca, ou seja, a minimiza¸c˜ao da Entropia de Kullback-Leibler [5], [6].

J´a o aprendizado da estrutura de redes Bayesianas pode ser separado em duas principais correntes. A primeira basea-se em selecionar a rede que melhor define os dados baseado em uma medida de pontua¸c˜ao como as M´etricas Bayesianas, Medidas de Informa¸c˜ao ou MDL [6], [7], [8]. Essa abordagem ´e conhecida como algoritmos de aprendi-zagem baseados em pontua¸c˜ao. A segunda corrente pro-cura selecionar a estrutura da rede Bayesiana baseando-se no conceito de d-separa¸c˜ao apresentado por [9]. Essa abor-dagem procura identificar as rela¸c˜oes de independˆencia condicional existentes entre os v´ertices atrav´es do uso de testes estat´ısticos como Chi-quadrado e Informa¸c˜ao M´utua e a partir dessas rela¸c˜oes de independˆencia condicional encontrar a estrutura da rede de cren¸ca. M´etodos existen-tes dentro dessa abordagem s˜ao chamados de algoritmos baseados em restritores ou baseados em CI (independˆencia condicional) [5]. Neste trabalho utiliz´a-se a abordagem baseada em pontua¸c˜ao.

Segundo [10], toda a forma de aprendizagem de redes Bayesianas baseadas em pontua¸c˜ao ´e composta por dois elementos: um algoritmo de busca e uma m´etrica de pontua¸c˜ao.

A. Algoritmo de Busca K-2

Descrito em [6], o algoritmo K-2, ´e um m´etodo de busca gulosa que procura maximizar a qualidade da estru-tura da rede Bayesiana. O algoritmo inicializa com uma estrutura simples contendo apenas os v´ertices da rede. Considerando-se que os v´ertices estejam pr´e-ordenados, o algoritmo, a cada passo, adiciona ao conjunto de pais π(xi)

do v´ertice analisado xi, o v´ertice antecessor Anc(xi) que

conduza ao m´aximo incremento na medida de qualidade adotada, realizando este passo sucessivamente enquanto ocorrer um aumento na medida de qualidade ou at´e que a rede esteja completamente conectada.

B. M´etricas de Pontua¸c˜ao

Uma medida de qualidade Q(Bs|D, ξ) ´e um crit´erio pelo

qual pode-se ordenar um conjunto de todas as redes de cren¸ca poss´ıveis por sua qualidade, onde Bs´e a estrutura

da rede Bayesiana, D ´e o conjunto de dados e ξ ´e infor-ma¸c˜ao a priori. Ou seja, o objetivo do uso da m´etrica ´e encontrar a rede que possui a mais alta qualidade, isto ´e, aquela rede de cren¸ca que descreva da melhor forma poss´ıvel o conjunto de dados D e a informa¸c˜ao a priori ξ conhecidos, tornando a aprendizagem estrutural da rede Bayesiana em um problema de maximiza¸c˜ao de uma fun¸c˜ao. Para que uma m´etrica de pontua¸c˜ao seja efetiva ´e necess´ario que ela possua algumas propriedades, as quais est˜ao descritas a seguir [10], [11]:

1) Equivalˆencia de peso para redes isomorfas. Ou seja,

Q(Bsi|D, ξ) = Q(Bsj|D, ξ) para redes que

represen-tem o mesmo modelo de dependˆencia;

2) Redes cujos especialistas definam como mais prov´a-veis devem apresentar valores de qualidade maiores do que aquelas definidas como menos prov´aveis; 3) Redes que representem um Mapa-Perfeito devem ter

valores maiores do que as que n˜ao representam; 4) Redes que representem um I-Mapa M´ınimo devem

ter valores mais altos do que aquelas que representem um I-Mapa. Se todas as rela¸c˜oes de independˆencia presentes no grafo atrav´es do conceito de d-separa¸c˜ao est˜ao presentes no modelo de dependˆencia, este grafo ´e dito um I-Mapa do modelo de dependˆencia; 5) Em caso de igualdade nas propriedades anteriores,

uma rede que possua um menor n´umero de parˆame-tros em suas probabilidades condicionais ´e prefer´ıvel `aquela que possui um n´umero maior de parˆametros; 6) Redes Bayesianas que representem as informa¸c˜oes contidas no conjunto de dados retornam valores maiores que redes de cren¸ca que contradigam as informa¸c˜oes contidas nos dados.

Considerando-se as propriedades apresentadas anterior-mente, define-se que uma medida de qualidade deve ser formada por trˆes componentes (descritas na equa¸c˜ao 1):

Q(Bs) = (f (Ipriori), g(D), h(Complex)) (1)

onde:

f (Ipriori): Representa a informa¸c˜ao a priori que se

tem sobre a rede Bayesiana. A fun¸c˜ao retorna uma probabilidade alta para as prov´aveis redes definidas pelos especialistas e valores de probabilidade baixos para aquelas que s˜ao pouco prov´aveis. Este termo tem seu peso depreciado `a medida que o n´umero de amostras do conjunto de dados aumenta. Usualmente, quando n˜ao se tem conhecimento pr´evio sobre quais redes s˜ao mais prov´aveis utiliza-se a distribui¸c˜ao uni-forme para representar este termo;

g(D): Este termo define o grau de representatividade

dos dados com a estrutura de rede avaliada. Estrutu-ras de redes Bayesianas que representam o conjunto de dados retornam valores mais altos e aquelas es-truturas que n˜ao est˜ao de acordo com a informa¸c˜ao apresentada pelo conjunto de dados retornam valores mais baixos;

h(Complex): Este termo tem por fun¸c˜ao penalizar

redes que apresentam um grau de complexidade maior do que estruturas de redes mais simples. Assim, es-truturas que possuam um n´umero menor de arestas interligando seus v´ertices e/ou parˆametros, desde que satisfa¸cam o modelo de dependˆencia, s˜ao mais dese-j´aveis e apresentam probabilidades maiores do que aquelas que possuam um n´umero alto de arestas e/ou parˆametros. Deste modo, o objetivo deste termo ´e diminuir a complexidade no c´alculo de inferˆencias. De acordo com [10], existe na literatura basicamente trˆes grupos classificat´orios de medidas de qualidade:

Medidas Bayesianas de Qualidade; Medidas de Informa¸c˜ao de Qualidade;

(3)

MDL - Tamanho M´ınimo de Descri¸c˜ao (inglˆes:

Mini-mum Description Length).

As medidas Bayesianas de qualidade necessitam de uma especifica¸c˜ao quanto ao modelo de distribui¸c˜ao a priori, tanto para a estrutura da rede de cren¸ca quanto para os parˆametros. Infelizmente este tipo de informa¸c˜ao nem sempre est´a dispon´ıvel, fazendo com que suposi¸c˜oes sobre o modelo de distribui¸c˜oes sejam necess´arias como o ocorrido em [6], [12] e [13].

Assim como as m´etricas Bayesianas, as medidas de qualidade baseada na Teoria da Informa¸c˜ao procuram selecionar dentre as estruturas de rede poss´ıveis aquela que melhor se adapte ao conjunto de dados, por´em estas n˜ao necessitam nenhum tipo de informa¸c˜ao sobre o modelo de distribui¸c˜ao a priori. A equa¸c˜ao 2 descreve a m´etrica de informa¸c˜ao de forma generalizada, por:

P (Bs, D) = log (P (Bs)) + n X i=1 qi X j=1 ri X k=1 µ

NijklogNijk

Nij−f (N ) n X i=1 qi(ri− 1) (2) onde:

P (Bs) descreve a informa¸c˜ao a priori da estrutura de

rede, ou seja, f (Ipriori) ; n X i=1 qi X j=1 ri X k=1 µ

NijklogNijk

Nij

´e a entropia condicional para redes Bayesianas, ou seja, o termo g(D);

f (N ) ´e uma fun¸c˜ao de penaliza¸c˜ao n˜ao negativa. Esta

fun¸c˜ao tem por objetivo penalizar estruturas de rede que necessitam um n´umero maior de parˆametros para determinar sua probabilidade conjunta;

n

X

i=1

qi(ri− 1) ´e o n´umero de termos de probabilidade

independentes associado `a fun¸c˜ao de probabilidade conjunta. Este termo associado com f (N ) remontam o termo h(Complex).

n n´umero de vari´aveis aleat´orias (v´ertices); ri valores que a vari´avel xi pode assumir;

qi valores que o conjunto de pais da vari´avel xi pode

assumir;

Nijk ´e o n´umero de ocorrˆencias de uma instˆancia de

xi com a determinada valor do conjunto pai; Nij =

ri

X

k=1

Nijk;

N ´e o n´umero total de amostras pertencentes ao

conjunto de dados D.

Substituindo a fun¸c˜ao de penaliza¸c˜ao por f (N ) = 1, obt´em-se o Crit´erio de Informa¸c˜ao de Akaike (AIC - inglˆes: Akaike Information Criterion) [14], caso f (N ) = 0 o crit´erio obtido ´e o de m´axima verossimilhan¸ca e quando f (N ) = (1/2) log(N ) tem-se o Crit´erio de Informa¸c˜ao Bayesiano (BIC - inglˆes: Bayesian Information Criterion) [15], correspondendo a equa¸c˜ao 3 da m´etrica MDL [10], [11].

C. M´etrica MDL - inglˆes: Minimum Description Length Bouckaert [7] prop˜oe em seu trabalho a utiliza¸c˜ao da m´etrica MDL, cuja origem ´e fundamentada na Teoria de Codifica¸c˜ao, como uma medida de qualidade para a esco-lha da estrutura de rede. O princ´ıpio b´asico consiste em reduzir ao m´aximo o n´umero de elementos necess´arios para representar uma mensagem, baseando-se em sua probabili-dade de ocorrˆencia. Assim, mensagens mais freq¨uentes s˜ao representadas por c´odigos menores e as mensagens menos freq¨uentes por c´odigos maiores. No caso do aprendizado estrutural de redes Bayesianas, a id´eia b´asica ´e encontrar a estrutura de rede que melhor descreva o conjunto de dados, utilizando o m´ınimo de elementos poss´ıveis para calcular a probabilidade conjunta da rede de cren¸ca, reduzindo desta maneira o esfor¸co computacional necess´ario no c´alculo das inferˆencias. Essa m´etrica ´e definida pela equa¸c˜ao 2 com a fun¸c˜ao de penaliza¸c˜ao sendo:

f (N ) = 1

2log (N ) (3)

O segundo termo da equa¸c˜ao 2, ´e m´aximo quando o desconhecimento sobre a estrutura de rede ´e m´aximo e m´ınimo quando se tem o completo conhecimento sobre a estrutura de rede. Por isso, ao se adicionar v´ertices ao conjunto de pais de um determinado v´ertice, o termo de entropia da equa¸c˜ao diminui, pois o modelo de distribui¸c˜ao de probabilidade passa a ser descrito com uma maior precis˜ao. Por outro lado, o terceiro termo da equa¸c˜ao, que representa o erro introduzido pela estima¸c˜ao de todas as probabilidades requeridas [16], indica que estruturas de redes com um n´umero reduzido de arcos s˜ao prefer´ıveis `aquelas com um n´umero maior de arcos. A soma resultante do segundo e do terceiro termo garante que a rede com maior ´ındice de qualidade ser´a aquela que possua uma estrutura balanceada com a contribui¸c˜ao de ambos os termos.

Al´em de [7] que utiliza o princ´ıpio de descri¸c˜ao m´ınima (MDL - Minimum Description Length) como uma medida de qualidade, substituindo a m´etrica de Cooper-Herskovits no algoritmo K-2 e renomeando-o por K-3, [17] e [18] tamb´em utilizam o princ´ıpio de descri¸c˜ao m´ınima (MDL) no aprendizado de estrutura de redes Bayesianas, por´em utilizando diferentes algoritmos de busca.

D. MDL Modificada

Bouckaert em [7] demonstra que a medida de qualidade MDL ´e mais restritiva que a m´etrica de Cooper-Herskovits K-2, apresentando um maior n´umero de arestas ausen-tes. Analisando-se a m´etrica MDL, equa¸c˜ao 3, verifica-se que o termo de penaliza¸c˜ao ´e dependente do n´umero de amostras e que sua composi¸c˜ao com o termo de entropia condicional define o n´umero ”m´edio” de elementos neces-s´arios para representar o conjunto de dados. A partir de um determinado tamanho, as distribui¸c˜oes representadas pelo conjunto de dados n˜ao sofrem mais altera¸c˜oes e por conseq¨uˆencia, a entropia condicional para um mesmo con-junto de pais estabiliza. Considerando-se que o termo de

(4)

penaliza¸c˜ao continua aumentando em fun¸c˜ao do tamanho do conjunto de dados, este termo faz com que a rede seja representada por um n´umero menor de arestas do que o necess´ario. De maneira a controlar o efeito do tamanho de amostras no termo de penaliza¸c˜ao, adotou-se neste trabalho substituir a fun¸c˜ao de penaliza¸c˜ao por:

f (N ) = log (Nc) (4)

onde:

c ´e uma constante que define a influˆencia do tamanho

do conjunto de dados na representa¸c˜ao da estrutura da rede.

III. Resultados

Nesta se¸c˜ao s˜ao apresentados e comparados os resulta-dos obtiresulta-dos com a m´etrica de pontua¸c˜ao MDL modificada, descritas na se¸c˜ao II-C, com diferentes parˆametros de pontua¸c˜ao. O algoritmo escolhido para avaliar o desem-penho de cada uma das m´etricas foi o algoritmo K-2. Os parˆametros utilizados na fun¸c˜ao de penaliza¸c˜ao f (N ) foram os seguintes:

f (N ) = log Nc com: c = 0, 500, gera-se os resultados

correspondentes `a m´etrica MDL para compara¸c˜ao;

f (N ) = log Nc com: c = 0, 125; c = 0, 250; c =

0.375; c = 0, 625 e c = 0, 750, verificar o efeito do fortalecimento ou do enfraquecimento da fun¸c˜ao de penaliza¸c˜ao no aprendizado estrutural das redes Baye-sianas.

Esses parˆametros foram avaliados no sitema ALARM, que ´e um benchmark bastante difundido na literatura de redes Bayesianas. O algoritmo e as m´etricas foram implementadas em ambiente Linux com a linguagem de programa¸c˜ao C++. Para a avalia¸c˜ao das m´etricas com os respectivos parˆametros foram gerados atrav´es da ferra-menta Netica da Norsys (http://www.norsys.com) cinco conjuntos de dados para cada uma das duas redes Bayesi-anas analisadas, tendo os respectivos tamanhos de amos-tras: 1000, 2000, 3000, 5000 e 10000.

Os resultados obtidos s˜ao comparados com a rede de

benchmark original atrav´es do n´umero de arcos extras

e ausentes, da diferen¸ca sim´etrica, da entropia cruzada (entropia de Kullback-Leibler) e atrav´es da medida de Informa¸c˜ao M´utua. A diferen¸ca sim´etrica δ entre dois con-juntos de dados ´e um conjunto cujos elementos pertence a um dos dois conjuntos, mas n˜ao a ambos. No caso de redes Bayesianas, tem-se que a diferen¸ca sim´etrica δ entre o modelo original da rede de cren¸ca e o modelo estimado ´e definida pela equa¸c˜ao 5 [13], [19]:

δ = n X i=1 (πxi(Bs) ∪ πxi(Bm)) \ (πxi(Bs) ∩ πxi(Bm)) (5) onde:

πxi(Bs) ´e o conjunto de pais do v´ertice xina estrutura

de rede estimada;

πxi(Bm) ´e o conjunto de pais do v´ertice xi na

estru-tura de rede do modelo original.

Para as medidas de entropia Kullback-Leibler, no caso de redes Bayesianas, tem-se que [13], [19], [20]:

H(p, q) = n X i=1 qi X j=1 ri X k=1 P (xi= k, πi= j) logP (xi= k|πi= j) Q(xi= k|πi= j) (6) O c´alculo das medidas de Informa¸c˜ao M´utua, ´e realizado atrav´es da equa¸c˜ao 7 com o objetivo de comparar a quantidade de informa¸c˜ao compartilhada entre as vari´aveis para os conjuntos de dados utilizados.

I(xi, xj) = rj X k=1 ri X k=1 P (xi, xj) log P (xi, xj) P (xi)P (xj) (7) onde:

ri ´e o n´umero de poss´ıveis ocorrˆencias de xi; rj ´e o n´umero de poss´ıveis ocorrˆencias de xj; P (xi, xj) ´e a probabilidade conjunta de xi e xj; P (xi) ´e a probabilidade marginal de xi;

P (xj) ´e a probabilidade marginal de xj.

A. Rede Bayesiana ALARM

A rede Bayesiana ALARM ´e composta por 37 vari´aveis, 46 arcos e 752 parˆametros. Inicialmente descrita por [21] para o monitoramento de pacientes em centros de trata-mento intensivo (CTI). Cada um dos v´ertices pertencentes `a rede representa vari´aveis de monitoramento do paciente compostas por parˆametros bin´arios, tern´arios ou quatern´a-rios. Neste estudo, adotou-se o pr´e-ordenamento sugerido por [6].

A Tabela I demonstra os resultados obtidos para a rede Bayesiana ALARM, aplicando-se a medida de qualidade MDL modificada com uma constante c para diferentes n´umeros de amostra. Fazendo-se uma an´alise dos dados da Tabela I e de sua representa¸c˜ao gr´afica (Fig.1, Fig.2 e Fig.3) constata-se que apesar da piora nas distribui¸c˜oes ocorridas na gera¸c˜ao do conjunto de dados com 3000 amostras, que estas n˜ao afetam o aprendizado da rede para os parˆametros mais restritivos.

TABELA I

N´umero de arestas extras e ausentes com diferentes parˆametros e diferentes n´umeros de amostra para a rede

ALARM com a m´etrica MDL modificada.

Amostras Parˆametros(c)

0, 125 0, 250 0, 375 0, 500 0, 625 0, 750 1000 E 26 6 2 1 1 1 A 1 3 3 4 5 8 δ 27 9 5 5 6 9 2000 E 18 5 1 1 1 1 A 1 3 3 3 3 4 δ 19 8 4 4 4 5 3000 E 15 5 3 2 1 1 A 1 2 2 3 3 3 δ 16 7 5 5 4 4 5000 E 12 3 1 1 1 1 A 0 1 2 3 3 3 δ 12 4 3 4 4 4 10000 E 11 3 2 2 1 1 A 0 0 1 2 2 2 δ 11 3 3 4 3 3 E arcos extras; A arcos ausentes; δ diferen¸ca sim´etrica.

(5)

A partir da Fig.1, que descreve a rela¸c˜ao entre o n´umero de arestas extras e o tamanho da amostra, verifica-se a ocorrˆencia de picos somente para as curvas referentes aos parˆametros c = 0, 375 e c = 0, 500 com 3000 amostras. Aprofundando-se nas rela¸c˜oes causadoras dos picos na curva, constata-se que essas rela¸c˜oes j´a encontravam-se presentes para os parˆametros c = 0, 125 e c = 0, 250 desde os resultados obtidos com 1000 amostras, demos-trando certa robustez dos parˆametros a pequenas varia¸c˜oes nas distribui¸c˜oes dos parˆametros Θ. Ao se analisar os resultados mostrados na Fig.2, que representa a rela¸c˜ao entre o n´umero de arcos ausentes e o n´umero de amostras, percebe-se que diferentemente da Fig.1, em nenhuma das curvas existiu a gera¸c˜ao de um vale ou um pico entre as amostras. 0 2000 4000 6000 8000 10000 0 5 10 15 20 25 30 Amostras Arcos Extras c=0.25 c=0.50 c=0.75 c=1 c=1.25 c=1.50

Fig. 1. Rela¸c˜ao de arcos extras por n´umero de amostras para m´etrica MDL modificada.

Percebe-se tamb´em atrav´es da Fig.3, com a exce¸c˜ao da curva para c = 0, 125, que a medida MDL modificada aproxima-se mesmo com um n´umero menor de amostras pequeno de amostras da estrutura original da rede, por´em n˜ao apresenta comparando os resultados finais, estes n˜ao s˜ao t˜ao satisfat´orios quanto os apresentados em [6].

A Tabela II apresenta o resultado do c´alculo da entropia cruzada para as redes obtidas atrav´es da aplica¸c˜ao da me-dida de qualidade MDL modificada para a rede Bayesiana ALARM com diferentes n´umeros de amostra. Os n´umeros em it´alico indicam os piores resultados encontrados para cada n´umero de amostras e os resultados em negrito os melhores valores para cada amostra.

Considerando-se o conjunto de dados compostos por 1000, 2000 e 3000, a m´etrica MDL modificada com pa-rˆametros mais restritivos foi a que melhor apresentou resultados em dois dos trˆes conjuntos de dados e visto que o conjunto de 2000 amostras apresenta distribui¸c˜oes dos parˆametros mais pr´oximas da rede original e que seus re-sultados de entropia s˜ao bem pr´oximos da melhor m´etrica para este conjunto de amostras, tem-se a confirma¸c˜ao da robustez da m´etrica MDL modificada para um conjunto de

0 2000 4000 6000 8000 10000 0 2 4 6 8 10 Amostras Arcos Ausentes c=0.25 c=0.50 c=0.75 c=1.00 c=1.25 c=1.50

Fig. 2. Rela¸c˜ao de arcos ausentes por n´umero de amostras para m´etrica MDL modificada. 0 2000 4000 6000 8000 10000 0 5 10 15 20 25 30 Amostras

Arcos ausentes e extras

c=0.25 c=0.50 c=0.75 c=1.00 c=1.25 c=1.50

Fig. 3. Rela¸c˜ao de erros encontrados por n´umero de amostras para m´etrica MDL modificada.

TABELA II

Entropia cruzada entre o modelo original da rede ALARM e o encontrado pelas m´etricas com diferentes parˆametros.

Parˆametros Amostras

1000 2000 3000 5000 10000 c = 0, 125 321.483 133.679 151.703 151.958 118.766 c = 0, 250 72.512 51.159 58.465 49.210 28.791 c = 0, 375 12.795 13.317 32.125 7.254 19.901 c = 0, 500 5.019 13.317 27.260 16.086 21.974 c = 0, 625 5.811 13.317 14.120 16.086 9.189 c = 0, 750 10.035 13.669 14.120 16.086 9.189 N melhor resultado; I pior resultado.

dados menos representativo. Um outro ponto a se destacar na medida de qualidade MDL modificada ´e quando o parˆametro de ajuste ´e c = 0, 375 para 5000 e 10000 amostras. Verificando-se a Tabela I percebe-se a remo¸c˜ao de uma aresta ausente, por´em em contrapartida um arco extra ´e adicionado, ficando n´ıtido, que no geral, a adi¸c˜ao de arestas inexistentes ´e mais prejudicial `a estrutura da

(6)

rede de cren¸ca que a perda de uma aresta.

A Tabela III ilustra as arestas extras e ausentes encon-tradas pelos diferentes parˆametros e m´etricas para a rede ALARM com um conjunto de dados de 10000 amostras. Analisando-se a Tabela III ´e poss´ıvel perceber que cinco arestas repetem-se com mais freq¨uˆencia para as diferentes configura¸c˜oes das m´etricas. Uma an´alise detalhada atra-v´es da entropia de Shannon (fator de normaliza¸c˜ao), do princ´ıpio de Informa¸c˜ao M´utua e do funcionamento dos parˆametros nas m´etricas permite as seguintes conclus˜oes sobre esses arcos:

Apesar dos v´ertices 15 e 35 possu´ırem uma rela¸c˜ao

direta de causa/efeito com o v´ertice 22 no modelo original, esses n˜ao s˜ao adicionados `a estrutura da rede com parˆametros mais restritivos.

Quanto de informa¸c˜ao do v´ertice 22 ´e repassada ao

v´ertice 15, comparando-a com o quanto de informa¸c˜ao dos demais pais πxi individualmente ´e repassada e

observando-se a heur´ıstica de adi¸c˜ao de pais ao v´ertice do algoritmo K-2, tem-se que a rela¸c˜ao dos v´ertices 22 → 15 ´e mais fraca que a rela¸c˜ao 35 → 15. Portanto, o algoritmo seleciona inicialmente a rela¸c˜ao mais forte.

No passo seguinte, a existˆencia de um parˆametro mais

restritivo na m´etrica exige um ganho mais signifi-cativo na qualidade local da rede. Como isso n˜ao ocorre a aresta n˜ao ´e adicionada a estrutura da rede Bayesiana. O mesmo princ´ıpio ocorre com a aresta 22 → 35.

TABELA III

Rela¸c˜ao das arestas ausentes e extras para a rede ALARM.

Parˆametros Extras Ausentes

c = 0, 125 (12 → 24); (12 → 28); (12 → 7) -(18 → 23); -(18 → 30); (19 → 21) (19 → 10); (19 → 31); (26 → 30) (30 → 29); (13 → 35) c = 0, 250 (12 → 28); (13 → 35); (18 → 30) -c = 0, 375 (12 → 28); (13 → 35) (22 → 15) c = 0, 500 (12 → 28); (13 → 35) (22 → 35); (22 → 15) c = 0, 625 (13 → 35) (22 → 35); (22 → 15) c = 0, 750 (13 → 35) (22 → 35); (22 → 15)

De maneira similar, tem-se que os v´ertices 12 e 18 transmitem muito pouca informa¸c˜ao aos v´ertices 28 e 30, respectivamente. No entanto, o enfraquecimento na propriedade de busca por redes mais simples gerado pelos parˆametros permite que haja um aumento na qualidade local da rede e, portanto, a adi¸c˜ao das arestas as estruturas da rede. Verificando-se novamente a Tabela III, percebe-se que a liga¸c˜ao entre os v´ertices 13 e 35 est´a presente independentemente dos parˆametros e m´etrica utilizados. Atrav´es do c´alculo da Informa¸c˜ao M´utua demonstra-se que muito da informa¸c˜ao de 13 ´e transmitida a 35 em um conjunto de dados de 10000 amostras, o que resulta na liga¸c˜ao dos v´ertices na rede Bayesiana obtida, sendo o tamanho do conjunto de dados insuficiente para refletir a rela¸c˜ao de independˆencia condicional existente entre os v´ertices 13 e 35.

IV. Conclus˜oes

Este trabalho teve como objetivo apresentar, atrav´es da an´alise do comportamento dos parˆametros que as comp˜oe, uma altera¸c˜ao no termo de penaliza¸c˜ao da m´etrica MDL de forma a realizar um ”ajuste fino” no aprendizado de es-truturas de redes Bayesianas a partir de dados completos. Atrav´es da investiga¸c˜ao na rede Bayesiana ALARM foi poss´ıvel comprovar que as redes geradas, a partir do conjunto de dados completos representativo de 10000 amostras, utilizando-se o algoritmo K-2 em geral foi pr´o-xima, `a exce¸c˜ao da medida MDL modificada com parˆa-metro c = 0, 125 que apresenta uma redu¸c˜ao excessiva na penaliza¸c˜ao, a estrutura de rede original para ambas as m´etricas com os diferentes parˆametros. Com isso pode-se concluir que o algoritmo K-2 ´e um m´etodo eficiente para aprendizagem da estrutura de rede a partir de dados completos, confirmando assim as conclus˜oes de [6], [20], [22] e [7].

Utilizando-se os da entropia cruzada, verifica-se que a m´etrica MDL modificada apresenta resultados superiores `a metrica MDL quando o conjunto de dados ´e significativo (ex: 10000) e resultados similares quando o conjunto de amostras ´e pouco significativo. Tamb´em ´e poss´ıvel notar que a m´etrica MDL modificada retorna resultados satisfa-t´orios no aprendizado mesmo com um conjunto de dados pouco representativo.

Recorrendo-se novamente `a Tabela II de entropia cru-zada, percebe-se que ´e prefer´ıvel utilizar parˆametros mais restritivos `aqueles que relaxam a m´etrica, esses resultados condizem com [23]. Uma outra caracter´ıstica verificada com o uso dos parˆametros e o n´umero de amostras foi o funcionamento da inclus˜ao de arcos extras e ausentes. Percebeu-se que a inclus˜ao de arestas extras, dada as ca-racter´ısticas das distribui¸c˜oes, ocorre com uma freq¨uˆencia muito maior que a inclus˜ao de arestas ausentes. Portanto, a ado¸c˜ao de um ´unico hiperparˆametro mais restritivo e/ou menos restritivo em todos os parˆametros da rede de cren¸ca, para a adi¸c˜ao de uma aresta ausente ou remo¸c˜ao de arestas extras pode resultar num modelo de rede indesej´avel (ex: c = 0, 125). Essa mesma caracter´ıstica pemite concluir, atrav´es da an´alise da entropia cruzada, que a adi¸c˜ao de arestas extras afeta de maneira muito mais negativa a estrutura de rede Bayesiana do que a perda de alguns arcos ausentes que possuem rela¸c˜ao fraca entre seus v´ertices.

Dado as curvas das Fig.1, Fig.2 e Fig.3 ´e poss´ıvel perceber que o aumento no n´umero de amostras resulta em uma melhora na distribui¸c˜ao dos parˆametros no conjunto de dados e por conseq¨uˆencia uma redu¸c˜ao no n´umero de erros das estruturas obtidas pelas diferentes m´etricas. Comparando a m´etrica MDL modificada com a MDL, a primeira apresentou resultados iguais ou superiores aos da m´etrica MDL e IMDL, esta ´ultima descrita em [19].

Considerando-se os resultados promissores obtidos atrav´es da m´etrica MDL modificada, pretende-se realizar pesquisas futuras de forma a tentar estabelecer um valor ´otimo para a constante c para cada um dos parˆametros da rede de cren¸ca. Um outro estudo seria encontrar uma

(7)

rela¸c˜ao matem´atica entre N0

ijk da m´etrica

Heckerman-Geiger e c baseando-se para isso na rela¸c˜ao do logaritmo da m´etrica Cooper-Herskovits com a m´etrica MDL descrita por [7]. Uma ´ultima sugest˜ao de pesquisa com a constante c seria verificar o comportamento da m´etrica no treinamento de classificadores Bayesianos, visto que a fun¸c˜ao de penaliza¸c˜ao da m´etrica MDL n˜ao corresponde de maneira adequada a esse tipo de classificador [24], [25].

Referˆencias Bibliogr´aficas

[1] Usama M. Fayyad, Data Mining and Knowledge Discovery:

Ma-king Sense Out of Data, IEEE Intelligent Systems Vol.11

pp.20-25, 1996.

[2] John Binder and Daphne Koller and Stuart Russell and Keiji Ka-nazawa, Adaptive Probabilistic Networks with Hidden Variables, Springer Netherlands Vol.29 pp.213-244, 1997.

[3] Nir Friedman and Moises Goldszmidt and David Heckerman and Stuart Russel, Challenge: Where is the Impact of Bayesian

Networks in Learning?, In Proceedings of the 15th

International Joint Conference on Artificial Intelligence, Nagoya, Japan -pp.10-15, 1997.

[4] Robert Castelo and Tom´as Kocka, On Inclusion-Drive Learning

of Bayesian Networks, Machine Learning Research Vol.4

pp.527-574, 2003.

[5] Jie Cheng and Russel Greiner, Learning Bayesian Belief Network

Classifiers: Algorithms and System, Proceedings of the 14th

Biennial Conference of the Canadian Society on Computational Studies of Intelligence: Advances in Artificial Intelligence, Ot-tawa, Canada - Springer-Verlag Vol.2056 pp.141-151, 2001. [6] Gregory F. Cooper and Edward Herskovits, A Bayesian Method

for the Induction of Probabilistic Networks from Data, Knowledge

Systems Laboratory - Stanford University, 1993.

[7] Remco R. Bouckaert, Probabilistic Network Construction Using

the Minimum Description Length Principle, RUU-CS-94-27

Utre-cht University, 1994.

[8] David Heckerman, A Tutorial on Learning With Bayesian

Networks, MSR-TR-95-06 Microsoft Research, 1996.

[9] Judea Pearl, Probabilistic Reasoning in Intelligent Systems:

Networks of Plausible Inference, Morgan Kaufmann, 1988.

[10] Enrique Castillo and Jos´e Manuel Guti´errez and Ali S. Hadi,

Sistemas Expertos y Modelos de Redes Probabil´ısticas, Academia

Espa˜nola de Ingenier´ıa - Madrid, 1998.

[11] Jos´e Miguel Puerta Callej´on, M´etodos Locales y Distribuidos

para la Construcci´on de Redes de Creencia Est´aticas y Din´amicas,

Universidad de Granada, 2001.

[12] Wray Buntine, Theory refinement on Bayesian Networks, Proc. 7th Conf. Uncertainty in Artificial Intelligence, Los Angeles, USA - pp.52-60, 1991.

[13] David Heckerman and Dan Geiger and David M. Chickering,

Learning Bayesian Networks: The Combination of Knowledge and Statistical Data, Microsoft Corporation, 1994.

[14] H. Akaike, A New Look at the Statistical Model Identification, IEEE Transactions on Automatic Control Vol.19 pp.716-723, 1974.

[15] G. Schwarz, Estimating the dimension of a model, Annals of Statistics Vol.6 pp.461-464, 1978.

[16] Remco Ronaldus Bouckaert, Bayesian belief networks: from

construction to inference, Utrecht University, 1995.

[17] Wai Lam and Fahiem Bacchus, Learning Bayesian Belief

Networks An approach based on the MDL Principle,

Computati-onal Intelligence Vol.10 pp.269-293, 1994.

[18] J. Suzuki, A construction of Bayesian networks from databases

based on the MDL principle, Proceedings of the 9th Conference

on Uncertainty in Artificial Intelligence, Washington, D.C, USA pp.266-273, 1993.

[19] Zheng Yun and Kwoh Chee Keong, Improved MDL Score for

Learning of Bayesian Networks, Proceedings of the International

Conference on Artificial Intelligence in Science and Technology -AISAT, Hobart, Australia - pp.98-103, 2004.

[20] Shulin Yang and Kuo-Chu Chang, Comparison of Score Metrics

for Bayesian Network Learning, IEEE Transactions on Systems,

Man and Cybernetics Vol.32 pp.419-428, 2002.

[21] I.A. Beinlich and H.J. Suermondt and R.M. Chavez and G.F. Cooper, The ALARM monitoring system: A case study

with two probabilistic inference techniques for belief networks,

Proceedings of the Second European Conference on Artificial In-telligence in Medical Care, London, UK - Springer-Verlag pp.247-256, 1989.

[22] Jackson P. Matsuura and Takashi Yoneyama, Redes Bayesianas

e Aprendizagem Aplicadas `a Detec¸c˜ao de Falhas em Sistemas Dinˆamicos, XV Congresso Brasileiro de Autom´atica, Gramado, Brasil, 2004.

[23] Christian Borgelt and Rudolf Kruse, An Empirical Investigation

of K2 Metric, Symbolic and Quantitative Approaches to

Rea-soning with Uncertainty: 6th European Conference, Toulouse, France - Springer Berlin pp.240-251, 2001.

[24] Tim Van Allen and Russ Greiner, Model Selection Criteria for

Learning Belief Nets: An Empirical Comparison, Proceedings of

17th International Conference on Machine Learning, Stanford University, USA pp. 1047-1054, 2000.

[25] Daniel Grossman and Pedro Domingos, Learning Bayesian

network classifiers by maximizing conditional likelihood,

Proce-edings of the twenty-first international conference on Machine learning, Banff, Alberta, Canada - ACM Press Vol.69 pp.46-53, 2004.

Aderson Cleber Pifer est´a atualmente tra-balhando em seu doutorado em Engenharia da Computa¸c˜ao pela Universidade Federal do Rio Grande do Norte (UFRN), Brasil. Recebeu seu diploma de bacharel em Ciˆencia da Computa-¸c˜ao pela Pontif´ıcia Universidade Cat´olica do Paran´a (PUCPR), Brasil, em 1996 e o t´ıtulo de mestre em Engenharia da Computa¸c˜ao pela Universidade Federal do Rio Grande do Norte (UFRN), Brasil, em 2006.

Luiz Affonso Guedes graduou-se em Enge-nharia El´etrica pela Universidade Federal do Par´a em 1987 e dotorou-se em Engenharia da Computa¸c˜ao pela Universidade Estadual de Campinas, Brasil, em 1999. Desde 2003, ´e professor associado do Departamento de Enge-nharia da Computa¸c˜ao e Automa¸c˜ao da Uni-versidade Federal do Rio Grande do Norte, Brasil. Seus principais interesses incluem Lin-guagens de Programa¸c˜ao em Alto N´ıvel para Automa¸c˜ao Industrial e Sistemas de Comuni-ca¸c˜ao para Aplica¸c˜oes Industriais.

Referências

Documentos relacionados

Nessa situação temos claramente a relação de tecnovívio apresentado por Dubatti (2012) operando, visto que nessa experiência ambos os atores tra- çam um diálogo que não se dá

Peter Drucker (1998), afirma que o grande avanço no mundo contemporâneo refere-se à aplicação do conhecimento ao próprio co- nhecimento na busca da inovação. Dito

O gráfico nº11 relativo às agências e à escola representa qual a percentagem que as agências tiveram no envio de alunos para a escola Camino Barcelona e ainda, qual a percentagem de

Figure 8 shows the X-ray diffraction pattern of a well-passivated metallic powder and a partially oxidized uranium metallic powder.. Figure 7 - X-ray diffraction pattern of

Assim sendo, o espaço da estrada é determinante como facilitador de um exercício de uma sexualidade mais plena, aberta e satisfatória, pelo menos para Thelma, e ao

[r]

O objetivo deste estudo foi avaliar o comporta- mento clínico de lesões de dermatite digital bovina após tratamento cirúrgico, uso local e parenteral de oxitetraci- clina e passagem

temas de informação: vida sustentável (que inclui economia verde, tecnologia e design, mobilidade, riscos e desafios); natureza (terra e água, flora, fauna, ativi- dades outdoor);