2.5 APLICAÇÃO DE REDES BAYESIANAS
2.5.3 Redes Bayesianas
Uma Rede Bayesiana é representada por um grafo direcionado acíclico, contendo nós que representam variáveis aleatórias e de arcos que os conectam representando as relações de dependência, onde cada variável aleatória possui um conjunto limitado de estados mutuamente exclusivos. Além disso, é importante observar que para cada variável A que possui como pais variáveis B1, ..., Bn existe uma tabela de probabilidades condicionais4 P(A| B1, ..., Bn), e se A não possuir pais, a tabela é reduzida a uma probabilidade incondicional P(A) (MARQUES & DUTRA, 1999). Dentre os motivos para o uso de Redes Bayesianas, Luna (2004) enumera os seguintes: (i) a RB permite a expressão de assertivas de independência de forma visual e de fácil percepção; (ii) uma RB representa e armazena uma distribuição conjunta de forma econômica, explorando a difusão de relacionamentos entre as variáveis; e (iii) uma RB torna o processo de inferência mais eficiente computacionalmente.
As Redes Bayesianas podem ser representadas por três estruturas gerais, a Ligação Divergente, Ligação Convergente e Ligação em Série, conforme apresentado na Figura 4. Uma ligação divergente descreve o caso em que a variável V1 é uma evidência para V2 e V3, o que as torna condicionalmente independentes dado V1. Na ligação convergente, se nada é conhecido sobre V3 exceto que pode ser inferido com base em V1 ou V2, então estes são ditos independentes, isto é, a evidência de um deles não influencia a certeza de outros. Finalmente, a ligação em série
3 Representa a descrição completa de um domínio de problema.
4 Constitui uma representação distribuída da MPC.
representa o caso em que V1 influencia a certeza em V2, que por sua vez exerce influência sobre V3 (RABENSCHLAG, 2005).
Figura 3. Estruturas gerais de uma Rede Bayesiana Fonte: Rabenschlag (2005).
Uma RB possui dois componentes principais: uma estrutura (S), a qual define o relacionamento qualitativo causal entre os nós, e parâmetros numéricos (θ), os quais identificam a relação probabilística causal entre os nós e a estrutura. Juntos definem uma distribuição conjunta de probabilidade P para um conjunto de variáveis aleatórias X, a qual é dada pela Equação 7, tal que (LUNA, 2004): os nós de S se encontram em uma relação 1-1 com as variáveis em X; cada variável xi denota uma variável em X e corresponde a um nó em S; e Pai denota os nós pais de xi e também as variáveis correspondentes a esses pais.
Equação 7
Onde xi é uma instância de X; e pai é uma instância de Pai e pai ⊂⊂⊂⊂ {x1, x2, ..., xi - 1}.
Uma vez definida a topologia de uma rede bayesiana, é necessário definir a tabela de probabilidades condicionais (TPC) para cada nó, onde cada linha da tabela contém uma probabilidade a posteriori para cada caso condicional5 proveniente dos nós pais. Todas as entradas da matriz de probabilidade conjunta podem ser calculadas a partir de informações disponíveis na rede bayesiana, sendo que o valor de cada entrada pode ser calculado a partir da Equação 7. Dessa
5 Trata-se de uma possível combinação de valores para os nós pais.
forma, cada entrada da matriz é representada pelo produto dos elementos adequados das TPCs (RUSSEL & NORVIG, 2004).
A construção de uma RB requer muito cuidado para que a MPC resultante seja uma representação correta do problema. Uma rede bayesiana representa corretamente um domínio se, e somente se, cada nó for condicionalmente independente6 de seus predecessores, dado um nó pai.
Assim, para que uma rede seja construída de forma a representar devidamente o domínio do problema, é necessário que esta propriedade seja satisfeita para cada nó da rede. Portanto, o seguinte procedimento pode ser utilizado para a construção de Redes Bayesianas, baseado em Marques e Dutra (1999):
1. Definir um conjunto de variáveis xi que descrevam o domínio do problema;
2. Estabelecer uma ordem para as variáveis;
3. Enquanto existirem variáveis: a) escolher uma variável xi e adicionar um nó na rede; b) determinar os nós pais dentre os nós que se encontram na rede; e c) definir a tabela de probabilidades condicionais para xi.
As Redes Bayesianas permitem a análise de grandes quantidades de dados, por isso são utilizadas para extração de conhecimentos úteis em tomadas de decisão, controle ou previsão do comportamento de um sistema e diagnóstico das causas de um fenômeno, entre outros. Além disso, são aplicadas em diversos domínios, entre eles o da educação, saúde, indústria, computação e redes, marketing, finanças e gestão. Conforme o tipo de aplicação, alguns aspectos tornam as RBs preferíveis a outras técnicas de IA, conforme explanado a seguir baseado em Luna (2004):
• Aquisição de conhecimentos – trata-se da possibilidade que as RBs apresentam de unir em um mesmo modelo conhecimentos de diversas naturezas, tais como dados históricos ou empíricos, experiências expressas sob a forma de regras lógicas, equações, estatísticas ou probabilidades subjetivas, e observações;
• Representação de conhecimentos – a representação gráfica de uma RB é explícita, intuitiva e compreensível a um indivíduo não especialista, o que torna mais fácil a validação do modelo, suas eventuais evoluções e principalmente sua utilização;
6 A independência condicional formaliza a noção qualitativa de irrelevância. Se P(A | B,C) = P(A | C), então A e B são condicionalmente independentes dada a ocorrência de C.
• Utilização de conhecimentos – uma Rede Bayesiana é multifuncional, ou seja, é possível utilizar o mesmo modelo para a avaliar, prever, diagnosticar ou otimizar decisões; e
• Qualidade dos programas disponíveis – atualmente existem diversos programas que permitem aproveitar e tratar as Redes Bayesianas, os quais apresentam funcionalidades como aprendizagem de probabilidades, aprendizagem da estrutura da RB, possibilidade de integração de variáveis contínuas, variáveis de utilidade e de decisão, etc.
2.5.3.1 Inferência em Redes Bayesianas
Considerando uma rede bayesiana construída, um dos mais importantes procedimentos para tratar a incerteza existente no relacionamento entre as variáveis de um domínio de dados consiste na denominada Inferência em Redes Bayesianas. Através deste processo, obtém-se estimativas de probabilidades de eventos relacionados aos dados, conforme novas evidências tornam-se conhecidas. A inferência em RBs é realizada a partir do cálculo de probabilidades a posteriori, permitindo a obtenção de respostas sobre um domínio de dados a partir de novas evidências conhecidas. Para isso, existem três tipos distintos de algoritmos de propagação: Exatos, Aproximados e Simbólicos (LUNA, 2004).
Os Métodos Exatos são aqueles que realizam o cálculo de probabilidades a posteriori através de somatórios e combinações de valores, sem a existência de outros erros além do de arredondamento no cálculo. Dentro deste grupo têm-se os métodos de Propagação de Evidências, Propagação em Poliárvores e Propagação em Redes Multiconectadas (LUNA, 2004), os quais encontram-se explanados no Anexo I.
Os Métodos Aproximados fazem uso de distintas técnicas de simulação para obtenção de valores aproximados das probabilidades, sendo geralmente aplicados em casos em que os algoritmos exatos não são aplicáveis ou há um elevado custo computacional. Esses algoritmos podem ser classificados em Algoritmos de Simulação Estocástica, Métodos de Simplificação de Modelos, Métodos Baseados em Busca e Propagação de Crença em Ciclos.
Segundo Castillo et al (1997 apud LUNA, 2004), os métodos Exatos e Aproximados reque- rem que sejam atribuídos valores numéricos fixos a todos os parâmetros, porém existem situações em que a especificação numérica não é adequada. Neste caso, os métodos numéricos devem ser substituídos pelo uso de métodos simbólicos que lidem com os parâmetros sem atribuir-lhes valores. Os métodos de Propagação Simbólica conduzem a soluções que se expressam como funções dos parâmetros, onde as respostas gerais podem ser dadas de modo simbólico em função
dos parâmetros e as perguntas específicas podem ser obtidas a partir da substituição dos valores dos parâmetros na solução simbólica, não havendo necessidade de refazer a propagação. Métodos deste grupo podem ser úteis nos seguintes casos: quando a especificação numérica dos parâmetros da RB não se encontra disponível; quando é possível especificar somente intervalos de parâmetros ao invés de valores exatos, caso em que esses métodos podem ser aplicados para obtenção de cotas inferiores e superiores das probabilidades para todo valor pertencente aos intervalos; e quando é necessária uma análise de sensibilidade, sendo comum neste caso a questão de quão sensíveis são os resultados a mudanças nos parâmetros e às evidências.
2.5.3.2 Aprendizagem de Redes Bayesianas
A aprendizagem de RBs consiste em induzir, a partir de uma amostra de dados, as distribuições de probabilidade a priori e a posteriori e/ou identificar as relações de interdepen- dência entre as variáveis de um domínio de dados. Este processo de aprendizagem indutiva pode ser de dois tipos: aprendizagem da estrutura e aprendizagem de parâmetros.
Quando a estrutura da rede é desconhecida, deve-se primeiramente induzir o aprendizado desta para depois realizar a indução do aprendizado de parâmetros numéricos (θ). Caso a estrutura já seja conhecida, o problema se restringe ao aprendizado de parâmetros (LUNA, 2004). No presente trabalho será dada maior ênfase à aprendizagem de parâmetros, pelo fato de a estrutura da rede bayesiana envolvida neste projeto já se encontrar definida, não necessitando ser aprendida, conforme será melhor descrito no Capítulo 3 deste trabalho.
Aprendizagem de Estrutura
Este processo de aprendizagem é geralmente complexo e ainda não se encontra totalmente resolvido, pois sua indução automática enfrenta um problema de explosão combinatória. O espaço de busca para uma rede com n variáveis apresenta uma dimensão mais do que exponencial (SILVA
& LADEIRA, 2002 apud LUNA, 2004). Além disso, há o fato de que geralmente não é possível derivar causalidade baseada em apenas uma distribuição de probabilidade (PEARL, 1993 apud LUNA, 2004). Embora não tenha se chegado à solução definitiva desses problemas, atualmente existem dois enfoques básicos para aprendizagem de estrutura em redes bayesianas: Busca e Pontuação e Independência Condicional.
O enfoque de Busca e Pontuação consiste em selecionar uma métrica para pontuação da aderência de cada rede aos dados e um algoritmo para escolha das redes mais promissoras dentre todas as possíveis no espaço de busca. Assim, a aprendizagem da estrutura se dá pela busca de uma
estrutura que seja aderente aos dados, sendo este um processo que geralmente é iniciado com um grafo sem arcos. Então utiliza-se um algoritmo de busca que adicione um arco ao grafo, sendo aplicada em seguida uma função de pontuação para determinar se a estrutura atual é melhor do que a anterior. Caso seja melhor, o novo arco é mantido na estrutura e inicia-se novamente o processo para que o próximo arco seja adicionado, e assim se repetirá até que nenhuma nova estrutura seja considerada melhor do que as anteriores.
Já no enfoque de Independência Condicional, o problema da aprendizagem é abordado de modo diferente. Seus algoritmos procuram descobrir as relações de dependência a partir dos dados e as utilizam para inferir a estrutura da rede, devido ao fato muitas dependências do modelo subjacente virem embutidas na estrutura (LUNA, 2004).
Aprendizagem de Parâmetros
Quando a estrutura de uma rede é conhecida e o parâmetro numérico ainda não se encontra especificado, é possível fazer uso de técnicas para o aprendizado das distribuições de probabilidade com base nos dados disponíveis. Na aprendizagem de parâmetros existem duas situações possíveis, as quais serão explanadas nesta seção: quando os dados são completos e quando são incompletos (LUNA, 2004).
Segundo Heckerman (1996 apud LUNA, 2004), o caso de dados completos é o mais simples, estudado e compreendido no contexto de Redes Bayesianas. Uma vez especificada a estrutura da rede, basta apenas estimar os parâmetros numéricos a partir da distribuição de probabilidade conjunta, sendo este um problema bem definido para o qual existem algoritmos muito eficientes, que são a base da aprendizagem bayesiana. Assim, a aprendizagem deste tipo é alcançada a partir do cálculo de estimativas de máxima verossimilhança e Bayesianas para cada entrada das Tabelas de Probabilidade Condicional das variáveis. As estimativas de máxima verossimilhança consideram somente os dados disponíveis e ignoram o conhecimento a priori sobre as distribuições de probabilidade, já as estimativas Bayesianas utilizam os dados disponíveis e também algum conhecimento a priori expresso a partir de distribuições de Dirichlet para estimar os parâmetros a posteriori.
Considerando a segunda situação possível na aprendizagem de parâmetros em uma rede bayesiana, raramente os dados disponíveis para a aprendizagem encontram-se completos.
Geralmente apresentam dois tipos de variável: as variáveis com dados faltosos (missings), cujos estados nem sempre se encontram registrados no banco de dados, e as variáveis ocultas (hidden), cujos estados nunca são observados em uma amostra de dados (SINGH, 1998 apud LUNA, 2004).
Uma solução bastante utilizada no tratamento da aprendizagem de parâmetros com dados incompletos em redes cuja estrutura é conhecida consiste no uso do algoritmo EM (Expectation Maximization), também chamado algoritmo EM paramétrico (LAURITZEN, 1995; FRIEDMAN, 1997 apud LUNA, 2004). Este algoritmo é um método utilizado para estimar funções de máxima verossimilhança dos parâmetros a partir de dados incompletos, o qual faz uso de casos em que variáveis foram observadas com o objetivo de aprender a prever seus possíveis valores quando estas não são observadas, já que os parâmetros em geral descrevem características de uma população.
(LUNA, 2004).