4.17 Resultados das diferentes versões do algoritmo genético, métodos de com-
2.1.3 Aprendizado de Redes Bayesianas para Classificação
Esta subseção apresenta os diversos tipos de classificadores de redes Bayesianas que estão presentes na literatura. A diferença dos algoritmos que serão discutidos nesta subseção em relação à anterior está na existência do atributo classe, já que aqui será tratado de classificadores.
Assim, as conexões entre atributos para classificadores são diferenciadas, depen- dendo em grande parte do atributo classe. O algoritmo de aprendizado de RBCs mol- dará as relações entre os n atributos da base (A1, ..., An) e também as relações causais
entre este conjunto de atributos A e o atributo classe C. Algoritmos de aprendizado da estrutura de redes Bayesianas gerais não consideram como parte do processo um nó especial como o nó classe. Sendo assim, algoritmos de RBs gerais apenas podem ser modificados para poder gerar um classificador não-específico.
O que torna esses classificadores específicos importantes frente aos demais (RNAs, KNNs e Árvores de Decisão) é a questão da geração de um modelo adequado de classi- ficação, visto que grande parte deles leva em consideração as dependências (influências) entre pares de atributos.
De acordo com Cheng & Greiner [1999], redes Bayesianas não eram consideradas classificadores até o surgimento do Naïve Bayes (NB), um tipo simples de RBs que assume que os atributos da base são independentes dado o nó de classificação. Uma descrição completa sobre o NB está presente em Langley et al. [1992], onde é visto que esse classificador possui resultados surpreendentemente efetivos frente a outros classi- ficadores sofisticados. Como o NB considera a independência entre os atributos, não existe um processo de aprendizado da estrutura da RB, visto que essa é fixa. Apenas os parâmetros (Tabela de Probabilidade Condicional) e a sua saída são aprendidos.
apresentado. Ele supõe que a variável classe não possui predecessores causais (“pais”), e que cada atributo deve ter como predecessor a variável classe e, no máximo, um outro atributo. Tanto no trabalho de Friedman et al. quanto nos trabalhos de Cheng & Greiner (descritos posteriormente) são utilizadas modificações do trabalho de Chow & Liu [1968] para mapear as relações causais entre atributos de uma base de dados.
O trabalho de Friedman et al. também apresenta uma discussão a respeito de classificadores Bayesianos não-restritivos, ou seja, aqueles que assumem a estrutura de uma rede Bayesiana geral. Para isso, foi desenvolvido nesse trabalho um classificador baseado na minimização da métrica de pontuação MDL. Foi comprovado, via resul- tados experimentais, que classificadores Bayesianos não-restritivos podem melhorar a precisão dos resultados em bases de dados que contêm fortes iterações (relações) entre atributos. Também é apontado no texto sobre a importância da escolha de uma métrica de pontuação, visto os problemas encontrados na métrica MDL: não necessariamente otimiza a precisão de classificação das redes aprendidas.
Na sequência de trabalhos, em Cheng & Greiner [1999] e Cheng & Greiner [2001] são definidos cinco algoritmos para aprendizado de classificadores Bayesianos. Dois deles são o NB e o TAN. Os três algoritmos restantes são descritos nos três próximos parágrafos.
O Bayesian network Augmented Naïve Bayes (BAN) estende o classificador TAN permitindo que os atributos formem um grafo arbitrário em vez de somente uma árvore. Aprender tal tipo de estrutura é menos eficiente. Friedman et al. [1997] apresenta uma métrica baseada no conceito de MDL para aprender um BAN. Já Cheng & Greiner [1999] estudam um algoritmo distinto baseado em testes de independência condicional (restrições de dependência da RB).
Já a Bayesian Multi-net (BM) pode ser vista como uma generalização do BAN. Para isso, a BM distingue como as relações entre nós características são criadas. Os nós características representam os atributos previsores da base de dados. Desse modo, enquanto o BAN força os relacionamentos entre os nós características serem os mesmos para todos os valores possíveis do nó classe, a BM permite que as relações entre os nós características sejam diferentes, ou seja, para diferentes valores do nó classe, os nós características podem formar uma rede local de diferentes estruturas. Mesmo que exis- tam várias redes, BM é menos complexa que BAN devido à simplicidade da rede criada, pois o BAN precisa ter uma estrutura complexa para ditar todos os relacionamentos entre atributos.
Por último, o General Bayesian Network (GBN) é um tipo de classificador de BN não-restritivo que considera, diferente dos últimos classificadores apresentados, o nó classe como um nó comum. Assim, todos os nós da RB utilizada para classificação
são equivalentes.
Em Santos et al. [2011] é proposta uma abordagem baseada nos conceitos de co- bertura de Markov, bem como no de cobertura aproximada de Markov (ver Subseção 2.1.1). Ambos conceitos são utilizados para reduzir o número de nós que forma a rede Bayesiana a ser induzida de dados. Dois algoritmos de classificação foram propostos no artigo referenciado: DMBC (Dynamic Markov Blanket Classifier) e A-DMBC (Appro- ximate DMBC). Como discutido durante o texto, ambos os algoritmos foram baseados no K2, que pode ser desenvolvido especificadamente para problemas de classificação. O DMBC (A-DMBC) utiliza a cobertura (aproximada) de Markov do nó classe para poder eliminar atributos não relevantes para classificação, gerando classificadores bem específicos. Os resultados obtidos por ambos os algoritmos foram competitivos com o NB e com o TAN, mas não foram melhores que o K2. Contudo, percebeu-se pelos resultados do DMBC e A-DMBC que esses conseguem prover boas acurácias de clas- sificação e também diminuir o custo computacional em relação ao K2 para aprender o classificador.
Em Sacha [1999b] e Sacha et al. [2002] é apresentada outra família de classifica- dores de Redes Bayesianas. As ideias propostas por ambos os trabalhos é interessante pois considera que a combinação de primitivas de algoritmos (ou operadores dos algo- ritmos) podem ser combinadas e modificadas para produzir diversos tipos de algoritmos de aprendizado de redes Bayesianas. Essas primitivas são, por exemplo, técnicas de busca do algoritmo ou sua ponderação (métrica de pontuação) para avaliar a estrutura da rede candidata.
Essa família é composta por cinco classificadores, que são brevemente descritos nos itens que seguem:
1. Selective Tree-Augmented Naïve Bayes (STAN): Um algoritmo de busca que decide quais nós atributos dependem do nó classe. Utiliza uma busca gulosa para adicionar arestas à RB, assumindo inicialmente um conjunto vazio de “filhos” de cada nó. A cada passo adiciona um novo “filho” a um outro nó, caso esse “filho” gere um melhor resultado da métrica de pontuação utilizada. Como o TAN, uma árvore é a estrutura que representa as dependências entre os atributos.
2. Selective Tree-Augmented Naïve Bayes with Discarding (STAND): É similar ao STAN, fazendo uso de uma algoritmo de busca para decidir quais nós atributos dependem do nó classe. A diferença é que o STAND descarta atributos que não são ditos dependentes da variável classe. Em outras palavras, aplica uma seleção de atributos que determina quais são insignificantes para o objetivo da classificação, removendo-os da rede Bayesiana de classificação.
3. Forest-Augmented Naïve Bayes (FAN): Assume que todos os nós atributos dependem do nó classe. As dependências entre os atributos tem a forma de uma floresta (um número de árvores). A expansão da floresta é feita com base no algoritmo de Kruskal modificado para árvore geradora de peso máximo. O algoritmo original de Kruskal é descrito em Cormen et al. [2009]. Em alguns casos, a expansão da floresta pode ser vazia, produzindo a estrutura de um Naïve Bayes; ou também pode ter somente uma árvore geradora, sendo assim o classificador terá a estrutura de um TAN.
4. Selective Forest-Augmented Naïve Bayes (SFAN): Algoritmo semelhante ao FAN, diferenciando na utilização de um algoritmo de busca que decide quais nós atributos dependem do nó classe. É importante mencionar que a floresta criada pode abranger todos os nós atributos.
5. Selective Forest-Augmented Naïve Bayes (SFAND): Um algoritmo de busca que decide quais atributos dependem do nó classe, enquanto outros nós são descartados da rede Bayesiana caso esses não influenciem no processo de classificação. A floresta criada pode conter somente atributos que dependam da variável classe.
Cada um dos algoritmos descritos nos itens diferem em termos de um dilema entre complexidade computacional e qualidade da estrutura de rede criada. A Figura 2.6 ilustra a riqueza em termos das estruturas (diferentes tipos de relações causais) que podem ser produzidas por tais algoritmos, e suas relações com os classificadores Naïve Bayes e TAN.