• Nenhum resultado encontrado

lnteligência Artificial Raciocínio Probabilístico - Introdução a Redes Bayesianas

N/A
N/A
Protected

Academic year: 2021

Share "lnteligência Artificial Raciocínio Probabilístico - Introdução a Redes Bayesianas"

Copied!
68
0
0

Texto

(1)

lnteligência Artificial

Raciocínio Probabilístico -

Introdução a Redes

Bayesianas

(2)

Inteligência Artificial CTC-17

Referências Adicionais

 Russel e Norvig cap. 14 e 15

Pearl, Judea. Probabilistic Reasoning in

Intelligent Systems: Network of Plausible Inference. Morgan Kaufmann, San Mateo,

California. 1988.

 Witten, I.H., Frank, E. Data Mining Practical Machine Learning Tools and Techniques. 2a. Ed. Elsevier.

(3)

Inteligência Artificial CTC-17

Sumário

 Revisão de probabilidade

 Redes Bayesianas ou Redes de crença

 Inferência probabilística

 Aprendizado em método probabilísticos

 Métodos simplificados: Bayes ingênuo e Noisy-OR

 Decisão baseado em probabilidades: De probabilidades para ação

(4)

Inteligência Artificial CTC-17

Revisão de Conceitos Básicos de Probabilidade

P(A | K) – probabilidade condicional ou posterior.

Crença em A, dado o corpo de informação K.

P(A) – probabilidade a priori: Crença em A, na falta de informação adicional

proveniente de K.

Uma Variável aleatória tem um domínio (conjunto de valores)e associada a cada um a probabilidade de ocorrência daquele valor. Essa função é chamada de

distribuição de Probabilidade. Exemplo:

Variável Tempo = {Sol, Chuva, Nublado}

P(Tempo) – é uma distribuição de probabilidade P(Tempo) = <0,7;0,2;0,1>

P(Tempo=Sol) = 0.7 P(Tempo=Chuva) = 0.2 P(Tempo=Nublado) = 0.1

No caso contínuo, usa-se o termo função de densidade de probabilidade. Vamos focar no caso discreto.

(5)

Inteligência Artificial CTC-17

Probabilidade condicional

Probabilidade condicional ou posterior, e.g., P(cárie|dordedente) = 0.8

i.e., dado que dordedente é tudo que conheço, a chance de cárie (vista por mim) é de 80%.

P(Cárie | Dordedente) = Vetor de 2 elementos cada um com dois elementos. Por Exemplo: P(Cárie | Dordedente) = <<0,8;0,2>;<0,01;0,99>>

Se sabemos mais, e.g., cárie é também observada, então

P(cárie|dordedente, cárie) = 1

OBS:

1) A crença menos específica permanece válida, mas pode ficar inútil. 2) A nova evidência pode ser inútil:

P(cárie|dordedente, Corinthians derrotado) = P(cárie|dordedente) = 0.8

NOTE A IMPORTÂNCIA DO CONHECIMENTO DO DOMÍNIO PARA QUALQUER PROCESSO DE INFERÊNCIA.

(6)

Inteligência Artificial CTC-17

O Axioma Básico

(7)

Inteligência Artificial CTC-17

Regra da Cadeia

(8)

Inteligência Artificial CTC-17

Inversão Bayesiana (Regra de Bayes)

P(H|e): Probabilidade posterior P(H): Probabilidade a priori

Por quê a fórmula é importante?

Muitas vezes P(e|H) é fácil de calcular, ao contrário de P(H|e)?

Outro Exemplo?: Pense sobre as probabilidades a priori e posterior no caso Meningite x DordePescoço.

(9)

Inteligência Artificial CTC-17

Rede Bayesiana ou Rede de Crença

(Belief Network)

(10)

Inteligência Artificial CTC-17

(11)

Inteligência Artificial CTC-17

(12)

Inteligência Artificial CTC-17

(13)

Inteligência Artificial CTC-17

(14)
(15)
(16)
(17)
(18)
(19)

Inteligência Artificial CTC-17

(20)

Inteligência Artificial CTC-17

Exemplo: Seguro de Carro

 Problema: Estimar custos (Medical, Liability, Property) dados as informações do segurado e outras disponíveis por outras fontes (em Cinza)

(21)

Inteligência Artificial CTC-17

Sumário

 Revisão de probabilidade

 Redes Bayesianas ou Redes de crença

 Inferência probabilística

 Aprendizado em método probabilísticos

 Métodos simplificados: Bayes ingênuo e Noisy-OR

 Decisão baseado em probabilidades: De probabilidades para ação

(22)

Inteligência Artificial CTC-17

Inferência em Redes Bayesianas

 Dada uma rede, devemos ser capaz de inferir a partir dela isto é :

 Busca responder questões simples, P(X| E=e)

 Ex.:

 Ou questões conjuntivas: P( Xi , Xj | E=e)

 Usando o fato:

 A inferência pode ser feita a partir da distribuição conjunta total ou por enumeração

(23)

Inteligência Artificial CTC-17

Inferência com Distribuição Conjunta

Total: Exemplo

 Por exemplo para saber

 P(A|b) temos  P(A|b)= P(A,b)/P(b)=  <P(a, b)/P(b);P(⌐a , b)/P(b) > =  = α <

P(a, b);P(⌐a , b)

>  = α [ <P(a,b,c)+P(a,b,⌐c); P(⌐a,b,c)+P(⌐a,b, ⌐c)>] Observe que α pode ser visto como um fator de normalização para o vetor resultante da distribuição de probabilidade, pedida P(A|b). Assim pode-se evitar seu cálculo, Simplesmente normalizando <P(a,b); P(⌐a , b) >

(24)

Inteligência Artificial CTC-17

(25)

Inteligência Artificial CTC-17

Inferência por Enumeração - 2

 Pode ser melhorada através do armazenamento dos valores já calculados (Programação Dinâmica)

(26)

Inteligência Artificial CTC-17

(27)

Inteligência Artificial CTC-17

Inferência por Enumeração

 Algoritmo de Enumeração permite determinar uma distribuição de probabilidade condicional

 P(variável de saída| evidências conhecidas)

 Também é possível responder perguntas conjuntivas usando o fato:

(28)

Inteligência Artificial CTC-17

Demonstração

(29)

Inteligência Artificial CTC-17

Inferência por Eliminação de Variável

 Como observado, a enumeração tende a recalcular várias vezes alguns valores

 Pode-se eliminar o retrabalho através da técnica de eliminação de variável ( programação dinâmica).

Basicamente, os valores já calculados são armazenados em uma tabela e selecionados

quando novamente necessários…(mais informações Russel, cap. 14)

(30)

Inteligência Artificial CTC-17

Sumário

 Revisão de probabilidade

 Redes Bayesianas ou Redes de crença

 Inferência probabilística

 Aprendizado em método probabilísticos

 Métodos simplificados: Bayes ingênuo e Noisy-OR

 Decisão baseado em probabilidades: De probabilidades para ação

(31)

Inteligência Artificial CTC-17

Aprendizado em modelos probabilísticos

 Aprender em redes bayesianas é o processo de determinar a topologia da rede (isto é, seu grafo direcionado) e as tabelas de probabilidade

condicional

 Problemas?

 Como determinar a topologia?

 Como estimar as probabilidades ?

 Quão complexas são essas tarefas?

 Isto é quantas topologias e quantas probabilidades precisariam ser determinadas….

(32)

Inteligência Artificial CTC-17

Tamanho das Tabelas de Probabilidade Condicional e Distribuição Conjunta Total

 Vamos supor que cada variável é influenciada por no máximo k outras variáveis (Naturalmente, k<n=total de variáveis).

 Supondo variáveis booleanas, cada tabela de probabilidade condicional (CPT) terá no máximo 2k entradas (ou probabilidades). Logo ao total haverá no máximo n* 2k entradas

 Enquanto, na distribuição conjunta

Total haverá 2n entradas. Por exemplo, para n=30 com no máximo cinco pais (k=5) isto significa 960 ao invés de mais um bilhão (230)

(33)

Inteligência Artificial CTC-17

Número de “entradas” da Distribuição

Conjunta e na Rede Bayesiana - 2

Em domínios onde cada variável pode ser diretemante influenciada por

todas as outras, tem-se a rede totalmente conectada e assim exige-se a quantidade de entradas da mesma ordem da distribuição conjunta total

Porém se essa dependência for tênue, pode não valer a pena a

complexidade adicional na rede em relação ao pequeno ganho em exatidão

Via de regra, se nos fixarmos em um modelo causal acabaremos tendo de especificar uma quantidade menor de números, e os números

frequentemente serão mais fáceis de calcular. (Russel,Norvig, 2013, pg. 453)

Modelos causais são aqueles onde se especifica no sentido causa efeito,

isto é P(efeito|causa) ao invés de P(causa|efeito), oque geralmente é necessário para diagnóstico

(34)

Inteligência Artificial CTC-17

Simplificando a representação tabelas

de probabilidade condicional (CPT)

 Vimos que que o número de entradas de uma CPT cresce exponencialmente

 Para o caso binário e K pais, a CPT de um nó terá 2k

probabilidades a serem calculadas

 Vejamos duas abordagens para simplificar a rede através da adoção de hipóteses simplificadoras

 Bayes Ingênuo e

(35)

Inteligência Artificial CTC-17

Naïve Bayes (Bayes Ingênuo)

 Uma classe particular e simples de redes

bayesianas é chamada de Bayes Ingênuo (Naïve Bayes)

 Ela é simples por supor independência condicional entre todas as variáveis X dada a variável Class

 As vezes, chamado também de classificador Bayes, por ser frequentemente usado como abordagem

(36)

Inteligência Artificial CTC-17

Naïve Bayes (Bayes Ingênuo) - 2

 A topologia simples traz a vantagem da

representação concisa da Distribuição Conjunta Total.

 Como todo os nós tem no máximo um pai, cada CPT de no X tem apenas duas entradas e uma entrada no nó classe. Logo, (2n-1) entradas para toda a rede. Naïve Bayes é linear em relação ao número de nós (n) !!!!

 “Na prática, sistemas de Bayes ingênuos podem

(37)

Inteligência Artificial CTC-17

Exemplo de Naïve Bayes

 Vamos retomar o exemplo do jogo de tênis

NÃO Forte Alta Boa Chuvoso X14 SIM Fraco Normal Quente Nublado X13 SIM Forte Alta Boa Nublado X12 SIM Forte Normal Boa Ensolarado X11 SIM Fraco Normal Boa Chuvoso X10 SIM Fraco Normal Fria Ensolarado X9 NÃO Fraco Alta Boa Ensolarado X8 SIM Forte Normal Fria Nublado X7 NÃO Forte Normal Fria Chuvoso X6 SIM Fraco Normal Fria Chuvoso X5 SIM Fraco Alta Boa Chuvoso X4 SIM Fraco Alta Quente Nublado X3 NÃO Forte Alta Quente Ensolarado X2 NÃO Fraco Alta Quente Ensolarado X1 JogarTênis Vento Umidade Temperatura Céu Ex

(38)

Inteligência Artificial CTC-17

Usando a abordagem Bayes ingênuo

(39)

Inteligência Artificial CTC-17

Solução:

 P(Play|Outlook,Temp,Hum,Wind)=

 P(Outlook,Temp,Hum,Wind|Play)P(Play)/P(Outlook,T emp,Hum,Wind)=

 Regra da cadeia e indepêndencia:

 P(Outlook|Play)P(Temp|Play)P(Hum|Play)P(Wind|Pl ay)P(Play)/ P(Outlook,Temp,Hum,Wind)

 O método de inferência por enumeração já visto é aplicável!!!

 Estima-se as probabilidades pelo conjunto de treinamento

(40)

Inteligência Artificial CTC-17

Solução 2: Contagens e probabilides

estimadas pelo conjunto de treinamento

 P(Play=s|Outlook=sunny,Temp=cool,Hum=high,Wind =true)=

 P(sunny|play)P(cool|play)P(high|play)P(true|play)P(P lay)/P(e) = 2/9*3/9*3/9*3/9*9/14/P(e) =0.0053/P( e)

(41)

Inteligência Artificial CTC-17

Solução 3 - continuação

 Da mesma forma,

 P(sunny|play)P(cool|play)P(high|play)P(true|play)P(P lay)/P(e) = 3/5*1/5*4/5*3/5*5/14/P(e) =0.0206/P( e)

(42)

Inteligência Artificial CTC-17

Estimativas de Probabilides

 Qual a estimativa da probabilidade P(Outlook=overcast|Play=no)?

 Isto é razoável? Como resolver?

 Uma Solução: estimador de Laplace (Laplace smoothing). Seja V o número de valores possíveis para A, estima-se P(A|B) :

(43)

Inteligência Artificial CTC-17

Criando Distribuições Condicionais

Conjuntas Compactadas….

 Alguns problemas permitem adotar uma abordagem do tipo Noisy-OR (ou ruidoso). A técnica parte de duas hipóteses:

 Todas as causas de uma variável ser acionada estão listadas (pode-se

adicionar uma causa geral “outros”)

 Isto é, P (Fever | F,F,F) = 0

 Há independência condicionais entre oque causa a “falha” da variável pai

acionar a variável filho (efeito). Exemplo: o que impede a gripe de causar febre em alguém é independente do que impede o resfriado de causar febre.

 Isto é, P (not Fever| Cold,Flu,Malaria) = P( not Fever|Cold)P(not Fever| Flu)P(not Fever | Malaria)

(44)

Inteligência Artificial CTC-17

Noisy -OR

 P(X | U1,…Uj, ⌐Uj+1, …. ⌐Uk ) = <1- ∏j

i=1 qi; ∏ji=1 qi >  qi is the probability of cause i fails !!

(45)

Inteligência Artificial CTC-17

Sumário

 Revisão de probabilidade

 Redes Bayesianas ou Redes de crença

 Inferência probabilística

 Aprendizado em método probabilísticos

 Métodos simplificados: Bayes ingênuo e Noisy-OR

 Decisão baseado em probabilidades: De probabilidades para ação

(46)

Inteligência Artificial CTC-17

Decidindo baseado em probabilidades…

 A teoria da decisão sob incerteza é bastante ampla e tem suas bases em Teoria da Utilidade Esperada, na hipótese de agentes racionais oriundas da área de economia

 Vamos falar um pouco sobre isso sobre o ponto de vista de quem deseja automatizar a decisão (fazer um agente que decida de acordo com as

(47)

Inteligência Artificial CTC-17

Decisões Racionais

Preferências Racionais

Utilidades

Dinheiro

Utilidades multiatributos

Redes de decisão

Valor da Informacão

(48)

Inteligência Artificial CTC-17

(49)

Inteligência Artificial CTC-17

(50)

Inteligência Artificial CTC-17

Violação das Restrições leva a

“Irracionalidade”

(51)

Inteligência Artificial CTC-17

(52)

Inteligência Artificial CTC-17

(53)

Inteligência Artificial CTC-17

 Dado o intervalo [0,1] entre a “pior catastrofe

possível” e “o melhor prêmio possível”, ao encontrar uma loteria [p,1;1-p,0] que seja indiferente a uma

situação S o número p é a utilidade de S

 Em ambientes, com prêmios determinísticos pode-se apenas estabelecer a ordem de preferências, nesse caso usa-se o termo utilidades ordinais

 Funções de utilidades ordinais podem ser chamadas de funções de valor e são invariantes para qualquer

transformação monotônica

Definindo Funções de Utilidades através

de loterias

(54)

Inteligência Artificial CTC-17

Preferências de um grupo sobre

dinheiro certo (x) e loteria [p,M;1-p,0]

Utilidade do dinheiro

(55)

Inteligência Artificial CTC-17

Dinheiro vs Utilidade

 Dinheiro não tem uma relação linear (ou simples) com utilidade!

 Ao estimar a utilidade em vários experimentos, observa-se que dada uma loteria L com valor esperado EMV(L) tem-se U(L) < U (EMV(L)), isto é as pessoas são aversas a risco

(56)

Inteligência Artificial CTC-17

The Saint Petersburg Paradox

 The paradox is named from Daniel Bernoulli's presentation of the problem and his solution, published in 1738 in St. Petersburg

 A casino offers a game of chance for a single player in which a fair coin is tossed at each stage. The pot starts at 1 dollar and is doubled every time a head appears. The first time a tail appears, the game ends and the player wins whatever is in the pot.

 Thus the player wins 1 dollar if a tail appears on the first toss, 2 dollars if a head appears on the first toss and a tail on the second.

 Two questions:

 How much would you accept to pay for playing this game?

(57)

Inteligência Artificial CTC-17

The Saint Petersburg Paradox

 As Bernoulli stated:

 The determination of the value of an item must not be based on the price, but rather on the utility it yields…. There is no doubt that a gain of one thousand ducats is more significant to the pauper than to a rich man though both gain the same amount

 Bernoulli proposed that utility of money should be logarithmic. U(M)= a*log2(M)+b

 This makes EMV to be a finite value.

 But it’s always possible to recreate the paradox by changing the function!!!

 Alternative theories may provide a better description model (Prospect Theory)

(58)

Inteligência Artificial CTC-17

Problemas na Teoria da maximização da

utilidade esperada

 A teoria da maximização da utilidade esperada é

uma teoria normativa. Ela descreve como um agente deve reagir. Entretanto, não é uma teoria descritiva da tomada de decisões reais

 Há evidências experimentais que as pessoas violam os axiomas da teoria da utilidade

(59)

Inteligência Artificial CTC-17

Escolha A ou B

 A: 80% de chance de ganhar $4000

(60)

Inteligência Artificial CTC-17

Escolha C ou D

 C: 20% de chance de ganhar $4000

(61)

Inteligência Artificial CTC-17

Supondo U(0)=0

 Se maioria escolhe B em detrimento de A e C em detrimento de D,

 De A e B, temos que 0,8*U(4000)<U(3000)

 De C e D temos que 0,8U(4000)>U(3000)

(62)

Inteligência Artificial CTC-17

Teorias alternativas

 Em linhas gerais as pessoas divergem da teoria da maximização da utilidade esperada em situações de probabilidade muito alta e/ou muito baixa

 Há algumas teorias alternativas que se propõem a descrever o comportamento humano real. Uma das mais relevantes foi proposta por Kahneman e

Tversky. Esta teoria propõe um modelo alternativo que descreve esse efeito “certeza” e outros

(63)

Inteligência Artificial CTC-17

Rede de Decisão

 Nós de acaso: (elipses) representam variáveis

aleatórias. Cada nó de acaso tem um distribuição de probabilidade condicional (dados os nós pais)

 Nós de Decisão : (retângulos) representam as possíveis ações

 Nós de utilidade: (losangos) representam as

preferências do agente e podem ser usadas para definir as ações através da seleção da ação que maximiza a utilidade esperada

(64)

Inteligência Artificial CTC-17

Exemplo: Escolha da localização de um

aeroporto

 Dependendo da posição pode-se alterar:

O risco de acidentes (logo, o número esperado de mortes..

Deaths

 O incômodo causado pelo barulho dos aviões, quanto mais próximo de uma cidade pior….Noise

É fácil perceber que Deaths e Noise serão diretamente afetados pelo volume de tráfego aéreo no aeroporto.

 Naturalmente, o custo também é alterado pela localização do aeroporto (Cost)

 a desapropriação de um determinado terreno pode ser mais ou menos litigioso….e os custos de ligação de transportes do aeroporto a cidade podem ser maiores ou menores afetando a construção

(65)

Inteligência Artificial CTC-17

(66)

Inteligência Artificial CTC-17

Podemos determinar distribuições de

variáveis, mas como decidir?

(67)

Inteligência Artificial CTC-17

 pi = P(deaths=i| ASite=s, Noise=n) Ou

 P(outcome| action,evidence)

 Utilidade Esperada (action=a) = ∑i U(outcomei)*P(outcome i|action=a,evidence)

 Escolher ação que maximiza a utilidade esperada

(68)

Inteligência Artificial CTC-17

Resumo

 Regra de Bayes permite que probabilidades desconhecidas sejam calculadas a partir de probabilidades condicionais conhecidas (no sentido causal geralmente)

 Independência condicional pode permitir a fatoração da distribuição conjunta total em distribuições condicionais menores. O modelo Bayes ingênuo pressupõe a independência do efeito dada uma única variável causal

 Eliminação de variáveis pode ser bastante eficiente em redes unicamente conectadas (apenas um caminho entre dois nós), mas são intratáveis em redes multiplamente conectadas

 Voltaremos a estudar construção de redes Redes Bayesianas e cálculo de probabilidades quando estivermos falando de Aprendizado

 Há outras alternativas a abordagem probabilística para tratar incerteza, Teoria de Dempster-Shafer, Lógica Nebulosa (difusa ou fuzzy)

Referências

Documentos relacionados

– Agentes que usam a função utilidade são mais racionais (ex. Qual o grau de satisfação do Agente neste estado AGENTE estado do mundo Sensores próxima acção ? Efectuadores A

97 RICHARD LUCAS CARVALHO DOS SANTOS 120 RITA APARECIDA GONÇALVES DE SOUZA 170 ROSENILDA PEREIRA DE ANDRADE 190 SIMONE HONORIO BUENO.. 160 SONIA WANDRESEN ANTUNES 189 VEREDIANE

‡ Fixação em teto com 4 furos de 4mm; ‡ Versão emergência com bateria NiCa; ‡ Conexão 2P+T para cabos de até 2,5mm²; ‡ Entrada de cabo pela parte traseira através.

Este estudo retratará a influência do processo construtivo na redistribuição dos esforços de primeira ordem em pórticos espaciais, sendo que foram modelados no

itens estabeleceu-se que pessoas com nível de θ até -0,7 (ou escore total 12) devem ser classifi ca- das como baixo nível de percepção de apoio so- cial do

• Quando as passagens aéreas, tanto para o voo nacional quanto para o voo internacional, fo- rem conjugadas, ou seja, quando houver apenas um contrato de transporte (mesmo se

O comportamento da abing mudou quando as posições do transmissor e do receptor foram trocadas, em um sentido os pacotes de 9000B não retornaram os resultados e no sentido oposto,

E, é com base no exposto, que o Tribunal a quo decidiu pelo indeferimento da pretensão do Recorrente, alegando que “Não resultando dos autos, nem do procedimento administrativo,