APÊNDICE I Extratos da planilha utilizada para simulações do Modelo de Inferência
2 REVISÃO DE LITERATURA
2.5 Redes Bayesianas
2.5.4 Redes Bayesianas e o processo de classificação
2.5.4.1 Aspectos Estruturais das Redes Bayesianas
Conforme descrito em (Marques; Dutra, 2008) uma Rede Bayesiana consiste das seguintes características:
• Um conjunto de variáveis e um conjunto de arcos associados a estas variáveis;
• Cada variável possui um número finito de estados mutuamente exclusivos;
• Variáveis e arcos formam um Grafo Dirigido Acíclico (DAG);
• Para cada variável A que possui como pais B1,..., Bn existe uma
Tabela de Probabilidades Condicionais (CPT), que fornece P(A|B1∩...∩Bm).
Para Neapolitan (2003) uma Rede Bayesiana é a representação correta de um domínio caso a condição de Markov seja satisfeita. Na mesma obra o autor define:
Definição (Condição de Markov): Suponha a distribuição de probabilidade conjunta das variáveis aleatórias em um conjunto de nodos V em um DAG G = (V, E). Então dizemos que (G, P) satisfazem a condição de Markov se cada variável X ∈ V, X é condicionalmente independente dos nodos não descendentes dados seus pais.
É notável que a Teoria da Probabilidade provê consistência às Redes Bayesianas sendo adequada para representar o raciocínio humano sobre “o acaso”. Isso se deve ao fato dos seres humanos não trabalharem com grandes quantidades de proposições. Quando este conjunto se torna amplo então o processo de tomada de decisão torna-se complexo. A representação gráfica inerente a especificação das Redes Bayesianas pode trabalhar localmente o conceito de dependência, aproximando-se desta forma, a maneira que ocorre o raciocínio humano a causalidade (PEARL, 1988).
A composição da parte estrutural da Rede Bayesiana reflete as relações causais entre as variáveis e os valores de probabilidade que denotam a força desta relação. De uma forma geral, a estrutura de uma Rede Bayesiana é dada por:
1 Parte Qualitativa: é a representação gráfica por meio de um DAG cujas variáveis são os nodos e os arcos direcionados representam as relações de dependência entre as variáveis;
2 Parte Quantitativa: é o conjunto das probabilidades condicionais associadas aos arcos existentes no modelo gráfico e as probabilidades estimadas à priori das variáveis independentes (variáveis de saída da Rede).
Os nodos de uma Rede Bayesiana podem estar dispostos e conectados de modo a defini-la em uma estrutura denominada hierárquica, onde as relações de dependência são mais complexas. Esta proposta discorre sobre a utilização de uma estrutura simplificada de representação de uma Rede Bayesiana, apropriada a processos de classificação, conhecida como estrutura Naive Bayes (SAHAMI, 1996).
Ao passo em que a topologia da Rede Bayesiana é definida, a sequência é especificar as probabiliades condicionais dos nodos que possuem dependências diretas e utilizar o mecanismo de inferência
bayesiana para obter novos valores de probabilidade, como sendo um novo conhecimento produzido.
Segundo Pearl (1988) a Rede Bayesiana pode ser considerada uma base de conhecimento abstrata que contém uma grande variedade de composições diferentes, pois representa a estrutura geral dos processos causais do domínio em lugar de qualquer detalhe da população de indivíduos. A vantagem desta representação é que permite ao especialista expressar diretamente a relação qualitativa fundamental de “dependência direta” entre as variáveis.
No desenvolvimento de uma Rede Bayesiana, o direcionamento das setas é essencial para exibir as dependências de não-transitividade. Dois eventos não chegam a ser relevantes entre si somente pelo fato de predizerem uma consequência comum, mas tornam-se relevantes quando esta consequência é realmente observada. Se os arcos forem despojados das setas, algumas dessas relações não serão representadas.
Exibindo as irrelevâncias do domínio, o raciocínio causal minimiza o número de relações que precisam ser consideradas na construção do modelo e em muitas das conclusões futuras. Sobre este aspecto, Pearl (1988) discorre que a codificação de um conhecimento por meio de regras e evidências, uma prática prevalecente dos Sistemas Especialistas baseados em regras, falha neste ponto. Ao tentar representar todas as exceções de um domínio, o número de regras torna-se exaustivo e intratável. Assim sendo, o mecanismo de raciocínio bayesiano, apoiado pela Teoria da Probabilidade, em termos de praticidade na manipulação numérica de valores de probabilidade, torna-se imensamente mais propício para dar suporte ao processamento do conhecimento nas Redes Bayesianas.
Seguindo com uma abordagem sobre a forma de representação do conhecimento e das relações existentes entre variáveis em um domínio descrito pela causalidade, recorremos ao exemplo relatado em (Russel e Norvig, 1995):
Exemplo: Um alarme está sendo instalado e mesmo sendo confiável na detecção de assaltos, ele pode disparar também devido a um terremoto. Dois vizinhos, João e Maria se disponibilizaram a telefonar caso o alarme dispare. João sempre liga quando ouve o alarme, contudo, em algumas vezes ele confunde o alarme com o telefone e também avisa. Maria, por sua vez, gosta de ouvir música alta e às vezes não ouve o alarme disparar e não avisa.
O grafo resultante da descrição do problema é dado pela figura 14:
Figura 14 – Grafo de representação do problema do Alarme Fonte: Adaptado de Russel e Norvig (1995)
Definida a topologia da rede será necessário fornecer os valores à sua Parte Quantitativa que especificará as probabilidades condicionais para cada variável (nodo) dado seus pais que são seus predecessores imediatos. A tabelas, 2 e 3 mostram as CPTs (Tabelas de Probabilidades Condicionais) que explicitam o conhecimento das relações causais entre as variáveis do problema descrito.
A partir do exemplo retratado por Russel e Norvig (1995), Marques e Dutra (2008) descrevem fatos ou relações que não estão sendo expressas na representação, contudo, são condições implícitas diante da incerteza presente em alguns arcos. O autor afirma ser um trabalho dispendioso e até mesmo impossível e que um sistema bayesiano pode calcular um grande número de probabilidades, mesmo que de forma aproximada.
Marques e Dutra (2008) descrevem que, para os nodos que não possuem pai, no caso, Assalto e Terremoto, as probabilidades incondicionais são atribuídas por especialista ou por meio de tratamento estatístico que forneça as estimativas mais fidedignas possíveis sobre as variáveis e relações no domínio tratado.
Ocorrência de Assalto
Ocorrência de Terremoto
João Avisa Maria Avisa
Tabela 2 - CPT da variável Alarme
Assalto Terremoto P(Alarme|Assalto^Terremoto) (%)
SIM NÃO
SIM SIM 95 5
SIM NÃO 95 5
NÃO SIM 29 71
NÃO NÃO 0,1 99,9
Fonte: Adaptado de Marques e Dutra (2008)
Tabela 3 - CPTs das variáveis JoãoAvisa e MariaAvisa
JoaoAvisa P(JoaoAvisa| AlarmeDisparou) (%) MariaAvisa P(MariaAvisa| AlarmeDisparou) (%) SIM 90 SIM 70 NÃO 5 NÃO 1
Fonte: Adaptado de Marques e Dutra (2008)
Com estas tabelas é possível realizar inferências sobre a Rede Bayesiana obtendo-se assim novos conhecimentos produzidos a partir de incertezas implícitas nas relações dispostas pelos arcos.
Para exemplificar o processo de produção de novos conhecimentos a partir da inferência bayesiana aplicaremos o exemplo citado em (Russel e Norvig, 1995) utilizando o software Netica, uma shell com distribuição em versão limitada pela Netica Norsys (Netica, 2012) e que utilizaremos nas demonstrações futuras. A figura 15 mostra a Rede Bayesiana do problema do Alarme implementada no software Netica:
Figura 15 – Rede Bayesiana do problema do Alarme no Shell Netica Norsys Fonte: (do autor)