Aspectos Estruturais das Redes Bayesianas

APÊNDICE I Extratos da planilha utilizada para simulações do Modelo de Inferência

2 REVISÃO DE LITERATURA

2.5 Redes Bayesianas

2.5.4 Redes Bayesianas e o processo de classificação

2.5.4.1 Aspectos Estruturais das Redes Bayesianas

Conforme descrito em (Marques; Dutra, 2008) uma Rede Bayesiana consiste das seguintes características:

• Um conjunto de variáveis e um conjunto de arcos associados a estas variáveis;

• Cada variável possui um número finito de estados mutuamente exclusivos;

• Variáveis e arcos formam um Grafo Dirigido Acíclico (DAG);

• Para cada variável A que possui como pais B1,..., Bn existe uma

Tabela de Probabilidades Condicionais (CPT), que fornece P(A|B1∩...∩Bm).

Para Neapolitan (2003) uma Rede Bayesiana é a representação correta de um domínio caso a condição de Markov seja satisfeita. Na mesma obra o autor define:

Definição (Condição de Markov): Suponha a distribuição de probabilidade conjunta das variáveis aleatórias em um conjunto de nodos V em um DAG G = (V, E). Então dizemos que (G, P) satisfazem a condição de Markov se cada variável X ∈ V, X é condicionalmente independente dos nodos não descendentes dados seus pais.

É notável que a Teoria da Probabilidade provê consistência às Redes Bayesianas sendo adequada para representar o raciocínio humano sobre “o acaso”. Isso se deve ao fato dos seres humanos não trabalharem com grandes quantidades de proposições. Quando este conjunto se torna amplo então o processo de tomada de decisão torna-se complexo. A representação gráfica inerente a especificação das Redes Bayesianas pode trabalhar localmente o conceito de dependência, aproximando-se desta forma, a maneira que ocorre o raciocínio humano a causalidade (PEARL, 1988).

A composição da parte estrutural da Rede Bayesiana reflete as relações causais entre as variáveis e os valores de probabilidade que denotam a força desta relação. De uma forma geral, a estrutura de uma Rede Bayesiana é dada por:

1 Parte Qualitativa: é a representação gráfica por meio de um DAG cujas variáveis são os nodos e os arcos direcionados representam as relações de dependência entre as variáveis;

2 Parte Quantitativa: é o conjunto das probabilidades condicionais associadas aos arcos existentes no modelo gráfico e as probabilidades estimadas à priori das variáveis independentes (variáveis de saída da Rede).

Os nodos de uma Rede Bayesiana podem estar dispostos e conectados de modo a defini-la em uma estrutura denominada hierárquica, onde as relações de dependência são mais complexas. Esta proposta discorre sobre a utilização de uma estrutura simplificada de representação de uma Rede Bayesiana, apropriada a processos de classificação, conhecida como estrutura Naive Bayes (SAHAMI, 1996).

Ao passo em que a topologia da Rede Bayesiana é definida, a sequência é especificar as probabiliades condicionais dos nodos que possuem dependências diretas e utilizar o mecanismo de inferência

bayesiana para obter novos valores de probabilidade, como sendo um novo conhecimento produzido.

Segundo Pearl (1988) a Rede Bayesiana pode ser considerada uma base de conhecimento abstrata que contém uma grande variedade de composições diferentes, pois representa a estrutura geral dos processos causais do domínio em lugar de qualquer detalhe da população de indivíduos. A vantagem desta representação é que permite ao especialista expressar diretamente a relação qualitativa fundamental de “dependência direta” entre as variáveis.

No desenvolvimento de uma Rede Bayesiana, o direcionamento das setas é essencial para exibir as dependências de não-transitividade. Dois eventos não chegam a ser relevantes entre si somente pelo fato de predizerem uma consequência comum, mas tornam-se relevantes quando esta consequência é realmente observada. Se os arcos forem despojados das setas, algumas dessas relações não serão representadas.

Exibindo as irrelevâncias do domínio, o raciocínio causal minimiza o número de relações que precisam ser consideradas na construção do modelo e em muitas das conclusões futuras. Sobre este aspecto, Pearl (1988) discorre que a codificação de um conhecimento por meio de regras e evidências, uma prática prevalecente dos Sistemas Especialistas baseados em regras, falha neste ponto. Ao tentar representar todas as exceções de um domínio, o número de regras torna-se exaustivo e intratável. Assim sendo, o mecanismo de raciocínio bayesiano, apoiado pela Teoria da Probabilidade, em termos de praticidade na manipulação numérica de valores de probabilidade, torna-se imensamente mais propício para dar suporte ao processamento do conhecimento nas Redes Bayesianas.

Seguindo com uma abordagem sobre a forma de representação do conhecimento e das relações existentes entre variáveis em um domínio descrito pela causalidade, recorremos ao exemplo relatado em (Russel e Norvig, 1995):

Exemplo: Um alarme está sendo instalado e mesmo sendo confiável na detecção de assaltos, ele pode disparar também devido a um terremoto. Dois vizinhos, João e Maria se disponibilizaram a telefonar caso o alarme dispare. João sempre liga quando ouve o alarme, contudo, em algumas vezes ele confunde o alarme com o telefone e também avisa. Maria, por sua vez, gosta de ouvir música alta e às vezes não ouve o alarme disparar e não avisa.

O grafo resultante da descrição do problema é dado pela figura 14:

Figura 14 – Grafo de representação do problema do Alarme Fonte: Adaptado de Russel e Norvig (1995)

Definida a topologia da rede será necessário fornecer os valores à sua Parte Quantitativa que especificará as probabilidades condicionais para cada variável (nodo) dado seus pais que são seus predecessores imediatos. A tabelas, 2 e 3 mostram as CPTs (Tabelas de Probabilidades Condicionais) que explicitam o conhecimento das relações causais entre as variáveis do problema descrito.

A partir do exemplo retratado por Russel e Norvig (1995), Marques e Dutra (2008) descrevem fatos ou relações que não estão sendo expressas na representação, contudo, são condições implícitas diante da incerteza presente em alguns arcos. O autor afirma ser um trabalho dispendioso e até mesmo impossível e que um sistema bayesiano pode calcular um grande número de probabilidades, mesmo que de forma aproximada.

Marques e Dutra (2008) descrevem que, para os nodos que não possuem pai, no caso, Assalto e Terremoto, as probabilidades incondicionais são atribuídas por especialista ou por meio de tratamento estatístico que forneça as estimativas mais fidedignas possíveis sobre as variáveis e relações no domínio tratado.

Ocorrência de Assalto

Ocorrência de Terremoto

João Avisa Maria Avisa

Tabela 2 - CPT da variável Alarme

Assalto Terremoto P(Alarme|Assalto^Terremoto) (%)

SIM NÃO

SIM SIM 95 5

SIM NÃO 95 5

NÃO SIM 29 71

NÃO NÃO 0,1 99,9

Fonte: Adaptado de Marques e Dutra (2008)

Tabela 3 - CPTs das variáveis JoãoAvisa e MariaAvisa

JoaoAvisa P(JoaoAvisa| AlarmeDisparou) (%) MariaAvisa P(MariaAvisa| AlarmeDisparou) (%) SIM 90 SIM 70 NÃO 5 NÃO 1

Fonte: Adaptado de Marques e Dutra (2008)

Com estas tabelas é possível realizar inferências sobre a Rede Bayesiana obtendo-se assim novos conhecimentos produzidos a partir de incertezas implícitas nas relações dispostas pelos arcos.

Para exemplificar o processo de produção de novos conhecimentos a partir da inferência bayesiana aplicaremos o exemplo citado em (Russel e Norvig, 1995) utilizando o software Netica, uma shell com distribuição em versão limitada pela Netica Norsys (Netica, 2012) e que utilizaremos nas demonstrações futuras. A figura 15 mostra a Rede Bayesiana do problema do Alarme implementada no software Netica:

Figura 15 – Rede Bayesiana do problema do Alarme no Shell Netica Norsys Fonte: (do autor)

No documento Um modelo para suporte ao raciocínio diagnóstico diante da dinâmica do conhecimento sobre incertezas (páginas 90-95)