PGM – Redes Bayesianas - Intro
Renato Assunção DCC - UFMG
Propriedades
BN e’ uma distribuição conjunta de
probab: tem valores 0 e somam 1.
– Prova: ver vídeos de DK
BN representa a distribuição conjunta
como um produto de fatores.
Esta representação e’ econômica: ao
usar a indep condicional na regra da cadeia, várias variáveis podem ser
BN
Pela regra da cadeia, SEMPRE
podemos escrever a conjunta como
um produto de n fatores.
Mais ainda: podemos assumir
QUALQUER ORDEM para as variáveis.
A fatoração da distrib conjunta em n
Fatoração via regra da cadeia
Por exemplo, se tivermos 4 v.a.’s:
p(x,y,z,w)=p(x)*p(y|x)*p(z|x,y)*p(w|x,y,z)
Mas podemos escolher outra ordem:
p(x,y,z,w)=p(w)*p(y|w)*p(x|w,y)*p(z|w,y,x)
Podemos escolher QUALQUER ordem
Indep condicional simplifica
E’ que CERTAS ORDENACOES levam a
expressões mais simples.
As melhores ordens são aquelas obtidas via relações causais.
Relações causais DAG
Neste caso, a distribuição de uma v.a. (ou
vértice) X vai depender de um SUBCONJUNTO dos vértices prévios: apenas seus pais.
Indep condicional simplifica
Suponha que usemos a seguinte ordem
p(x,y,z,w)=p(x)*p(y|x)*p(z|x,y)*p(w|x,y,z)
Infelizmente, não há simplificação nesta ordem.
Mas nesta outra ordem podemos ter:
p(x,y,z,w) = p(w)*p(y|w)*p(x|w,y)*p(z|w,y,x) =
= p(w)*p(y)*p(x|w)*p(z|x)
Isto é:
– Y W, X Y | W e Z (W,Y) | X
“ICU Alarm” BN
Monitoring Intensive-Care Patients37 variables 509 parameters
Versão reduzida e com marginais
Beinlich, Ingo, H. J. Suermondt, R. M. Chavez, and G. F. Cooper (1989)
"The ALARM monitoring system: A case study with two probabilistic inference techniques for belief networks“ in Proc. of the Second European Conf. on Artificial Intelligence in Medicine (London, Aug.), 38, 247-256.
Also Tech. Report KSL-88-84, Knowledge Systems Laboratory, Medical Computer Science, Stanford Univ., CA.
Not to be read in class
ALARM is a diagnostic application used to explore probabilistic reasoning techniques in belief networks. ALARM implements an alarm message system for patient monitoring; it calculates probabilities for a differential diagnosis based on available evidence. The medical knowledge is encoded in a graphical structure connecting 8 diagnoses, 16 finding and 13 intermediate variables.
Three types of variables are represented in ALARM. Diagnoses and other qualitative information are at the top level of the network. These variables have no predecessors and they are assumed to be mutually independent a priori. All nodes are associated with a set of mutually exclusive and
exhaustive values representing the presence or absence or the severity of a particular disease. Measurements represent any available quantitative information. All continuous variables are
represented categorically with sets of discrete intervals dividing the value range. Depending on the necessary level of detail, three to five categories are used per node. Intermediate variables are inferred entities that cannot be measured directly.
The probabilities in a belief network can represent objective as well as subjective knowledge. ALARM contains statistical data on prior probabilities, logical conditional probabilities computed from equations relating variables, and a number of subjective assessments. It is necessary to obtain conditional probabilities for the states of a node, given all different states of the parent nodes.
Expressões mais simples: e daí?
limita o crescimento exponencial da conjunta Se tivermos n v.a.’s binárias, a conjunta requer a
especificação de 2n valores.
Suponha uma representação BN em que cada fator multiplicativo envolva uma variável (um nó) e no máximo dois pais.
Teremos conjunta = produto de n fatores
Cada fator envolve 3 variáveis: o nó e 2 pais.
Requer a especificação de n*22 termos
Fatoração sobre grafo
VAMOS SUPOR QUE P FATORA SOBRE G. E DAÍ?
Relembre: Indep condicional
Para (conjuntos de) v.a.’s X, Y, Z
temos X Y | Z se:
– f(x,y | z) = f(x | z) * f(y | z) – f(x | y,z) = f(x | z)
– f(y | x,z) = f(y | z)
– f(x,y,z) g(x,z) * h(y,z)
Relembre: Indep condicional
Para (conjuntos de) v.a.’s X, Y, Z
temos X Y | Z se:
– f(x,y | z) = f(x | z) * f(y | z) – f(x | y,z) = f(x | z)
– f(y | x,z) = f(y | z)
– f(x,y,z) g(x,z) * h(y,z)
Podemos “ver” diretamente esta importante propriedade a partir do grafo de uma BN.
Caso de 3 variáveis
Considere os seguintes DAGs com 3 v.a.’s:
X Z Y X Y Z X Y Z Independência total
Não há’ nenhuma independência Y independente de X e Z.
Caso de 3 variáveis
Casos com 2 arestas: mais interessantes
X Z Y X Y Z X Y Z Chain Garfo:
Third hidden variable Common Cause
Colisão Common Effects
3 variáveis encadeadas
Z é variável intermediária
X e Y estão associadas ATRAVÉS de Z
Fumar causa (probabilisticamente) câncer
de pulmão?
Inúmeros estudos parecem indicar que sim
X Z Y Chain
Fumante? Câncer de Pulmão
3 variáveis encadeadas
Mas fumante passivo tem
(probabilisticamente) mais câncer de
pulmão que fumantes não passivos.
Fumante passivo não fuma.
É o ato de fumar que causa diretamente o câncer de pulmão?
Possível explicação: alcatrão na fumaça do cigarro que fica depositado nos pulmões
3 variáveis encadeadas
Z é variável intermediária
X e Y estão associadas ATRAVÉS de Z
Fuma? depositado no Alcatrão pulmão
Câncer de pulmão
3 variáveis: chain
BN para este grafo p(x,y,z)=p(x)*p(z|x)*p(y|z)
Flow of influence, belief propagation, evidence propagation:
– quando o conhecimento do valor assumido por uma v.a. afeta
a DISTRIBUICAO de probab dos valores de outra v.a.?
– Não estamos perguntando como se da’ a influencia, apenas
se ela ocorre.
– Saber o valor de Z afeta a distribuição de Y? E de X?
– Saber o valor de X afeta a distribuição de Y? E de Y em X?
3 variáveis: chain
BN para este grafo p(x,y,z)=p(x)*p(z|x)*p(y|z)
Flow of influence, belief propagation, evidence propagation:
– Suponha que sabemos o valor de Z.
– Isto afeta X e Y: a distribuição de (X,Y |Z=z) e’ de (X,Y). – A seguir, aprendemos também que o valor de X e’ x.
– Isto e’, sabemos agora que Z=z e que X=x.
– A distribuição de Y muda? Não: veja a seguir.
Se fatora em G X Y | Z
p(x,y,z)=p(x)*p(z|x)*p(y|z) X Y | Z
Prova: p(x,y,z) = p(x)*p(z|x)*p(z|y) g(x,y) * h(y,z)
Outra prova: X Z Y Chain g(x,z) ) | ( ) | ( ) ( ) | ( ) | ( ) ( ) ( ) | ( ) , ( ) ( ) | ( ) | ( ) ( ) ( ) , , ( ) | , ( z y p z x p z p z y p z x p z p z p z y p z x p z p z y p x z p x p z p z y x p z y x p
Se fatora em G X Y | Z
Assim, se a conjunta fatora no grafo abaixo – isto e’, se p(x,y,z)=p(x)*p(z|x)*p(y|z)
Então teremos SEMPRE X Y | Z
E’ possível descobrir outras independências
que serão validas sempre nesta BN?
Por exemplo, e’ verdade que X Y sempre? Ou que X Z | Y?
Se fatora em G Outras ’s ???
Se p(x,y,z)=p(x)*p(z|x)*p(y|z) podemos deduzir que X Y ??
Não, isto não pode ser deduzido da fatoração
Se fosse verdade, deveríamos ter p(x,y)=p(x)p(y)
E isto não será verdade sempre.
Basta fornecer um único contra-exemplo:
– Um único caso em que p(x,y,z)=p(x)*p(z|x)*p(y|z) mas
NÃO E’ VALIDO X Y.
Exemplo simples
Considere o seguinte (contra)-exemplo:
X Z Y x0 x1 0.7 0.3 z0 z1 x0 0.5 0.5 x1 0.1 0.9 y0 y1 Z0 0.2 0.8 z1 0.6 0.4
Contra-exemplo
Conjunta: x y z p(x,y,z) x0 y0 z0 0.7*0.5*0.2=0.07 x0 y0 z1 0.7*0.5*0.8=0.28 x0 y1 z0 0.7*0.5*0.6=0.21 x0 y1 z1 0.7*0.5*0.4=0.14 x1 y0 z0 0.3*0.1*0.2=0.006 x1 y0 z1 0.3*0.1*0.8=0.024 x1 y1 z0 0.3*0.9*0.6=0.162 x1 y1 z1 0.3*0.9*0.4=0.108 TOTAL 1Contra-exemplo
Conjunta: x y z p(x,y,z) x0 y0 z0 0.7*0.5*0.2=0.07 x0 y0 z1 0.7*0.5*0.8=0.28 x0 y1 z0 0.7*0.5*0.6=0.21 x0 y1 z1 0.7*0.5*0.4=0.14 x1 y0 z0 0.3*0.1*0.2=0.006 x1 y0 z1 0.3*0.1*0.8=0.024 x1 y1 z0 0.3*0.9*0.6=0.162 x1 y1 z1 0.3*0.9*0.4=0.108 TOTAL 1 x y p(x,y) x0 y0 0.280 x0 y1 0.420 x1 y0 0.168 x1 y1 0.132 TOTAL 1 Marginalizando ZContra-exemplo
p(x,y) p(x)*p(y) X não e’ indep de Y
x y p(x,y) x0 y0 0.280 x0 y1 0.420 x1 y0 0.168 x1 y1 0.132 TOTAL 1 x p(x) x0 0.7 x1 0.3 y p(y) y0 0.448 y1 0.552
Temos p(x,y) p(x)*p(y) Por exemplo:
p(x=x0, y=y0)=0.28 mas
Chain: X Y | Z
p(x,y,z)=p(x)*p(z|x)*p(y|z) ’s ???
Podemos mostrar via contra-exemplos que
NÃO vale sempre: X Y, X Z, Y Z
NÃO vale sempre: XZ|Y YZ|X
Demonstramos: X Y | Z e’ SEMPRE VALIDO
Forquilha: causa comum
Studies showed that women taking combined hormone replacement
therapy (HRT) also had a lower-than-average incidence of coronary heart
disease (CHD), leading doctors to propose that HRT was protective against CHD.
But randomized controlled trials showed that HRT caused a small but statistically significant increase in risk of CHD.
X Y
Forquilha: causa comum
Re-analysis of the data showed that women
undertaking HRT were more likely to be from higher socio-economic groups.
These women have better-than-average diet and
exercise regimens.
The use of HRT and decreased incidence of
coronary heart disease were coincident effects of a common cause (i.e. the benefits associated with a higher socioeconomic status), rather than a
direct cause and effect, as had been supposed.
HRT CHD
Mais um exemplo
X = dormir com luz acesa na infância
Y = desenvolver miopia mais tarde
Z = Miopia dos pais
X Y
Outro exemplo
X = dormir com sapatos
Y = acordar com dor de cabeça
Z = dormir bebâdo
X Y
Forquilha: causa comum
Considere agora o seguinte DAG
p(x,y,z) fatora sobre G:
– p(x,y,z) = p(z)*p(x|z)*p(y|z)
O que podemos concluir acerca das independências condicionais?
X Y
Z
Fork:
Third hidden variable Common cause
Forquilha: causa comum
p(x,y,z) = p(z)*p(x|z)*p(y|z)
Então X Y | Z
Prova: p(x,y,z) = p(z)*p(x|z)*p(y|z)
X Y
Z
Garfo:
Third hidden variable Common cause
Forquilha: causa comum
p(x,y,z) = p(z)*p(x|z)*p(y|z)
Alem de X Y | Z existe alguma outra independência que valha sempre?
Resposta: Não (mostra-se via contra-exemplos)
X Y
Z
Garfo:
Third hidden variable Common cause
Colisão: efeitos comuns
Considere o DAG ao lado:
P fatora sobre G:
p(x,y,z)=p(x)*p(y)*p(z|x,y)
Quais as independências que podemos
concluir?
Apenas que X Y
Nenhuma outra pode ser deduzida.
X Y
Z
Colisão Efeitos comuns
Colisão: efeitos comuns
p(x,y,z)=p(x)*p(y)*p(z|x,y)
X Y pois
p(x,y) = z p(x,y,z) = = z p(x)*p(y)*p(z|x,y)
= p(x)*p(y) * z p(z|x,y) = p(x)*p(y) * 1
O que mais podemos deduzir? Nada mais
Podemos fornecer contra-exemplos que mostram que não valem sempre:
– Z Y e Z X
– Z Y | X e Z X | Y
– E também não vale X Y | Z APESAR DE X Y
X Y
Z
Colisão Efeitos comuns
Colisão: efeitos comuns
p(x,y,z)=p(x)*p(y)*p(z|x,y)
X Y mas ....
X depende de Y se Z for conhecido
Perdemos a independência entre X e Y!!
Estranho? Nem tanto.
Veja exemplo a seguir.
X Y
Z
Colisão Efeitos comuns
Colisão: efeitos comuns
P(Intelig=alta | Dific=alta) = P(Intelig = alta)
pois Dificuldade Inteligência
Mas é intuitivo que
P(Intelig=alta | Dific=alta, Grade=alto) > P(Intelig = alta)
Dificuldade Inteligência
Explaining away
Nesta situação diz-se que uma causa explain away outra causa.
Dado que o Grade foi alto, existe uma probab razoável de que seja Intel = alta.
Entretanto, se além do grade alto, também soubermos que o curso foi difícil, a probab de ter Intel alta fica maior ainda.
Dificuldade Inteligência
Caso de 3 variáveis
Assim X Y mas X Y | Z nos casos chain e causa comum
– Observar Z implica em desativar a influencia de X em Y (ou de Y em
X)
No caso de colisão: X Y mas X Y | Z
– Observar Z ativa a influência de X em Y (e de Y em X)
X Z Y X Y Z X Y Z Chain Garfo: Causa comum Colisão Efeitos comuns
Trilhas ativas
Uma trilha entre X e Y esta’ ativa se ela não possuir
nenhuma colisão no meio. (v-structures).
Intubation Shunt SAO2 Catechol HR
Esta trilha esta’ ativa Isto significa que a
influência de Intubation pode fluir para HR
Trilhas ativas
Intubation Shunt SAO2 Catechol HR esta’ ativa
De outro modo: saber o valor de Intubation
ALTERA a distribuição de probab para os valores de HR
Trilhas ativas – mais um exemplo
Uma trilha entre X e Y esta’ ativa se ela não possuir
nenhuma colisão no meio. (v-structures).
TPR Catechol Artco2 Ventalv
Ela não esta’ ativa. Isto significa que a
influencia de TPR NÃO pode fluir para Ventalv por esta trilha.
Trilhas ativas – mais um exemplo
TPR Catechol Artco2
Ventalv não esta’ ativa.
Alem disso:
Não existe nenhuma outra trilha ativa entre TPR e Ventalv
Então: saber o valor de TPR NÃO ALTERA a distribuição de probab
para os valores de Ventalv
Trilhas ativas – ultimo exemplo
Uma trilha entre X e Y esta’ ativa se ela não possuir
nenhuma colisão no meio. (v-structures).
Ventalv Artco2 Catechol Sao2
Esta trilha não esta’
ativa
Venatlv não afeta Sao2 através desta trilha.
Podemos concluir que Venatlv Sao2? Não.
Trilhas ativas – ultimo exemplo
Uma trilha entre X e Y esta’ ativa se ela não possuir
nenhuma colisão no meio. (v-structures).
Ventalv Artco2 Catechol Sao2: trilha não ativa
Mas existe outra trilha ativa entre Ventalv e Sao2
Ventalv Pvsat Sao2
Então: saber o valor de Ventalv ALTERA a distribuição de
probab para os valores de Sao2
Trilhas ativas dado Z
Vamos agora especificar quando
uma variável X afeta outra variável Y dado que sabemos o valor de Z
Se não afetar então teremos X Y | Z
No caso de 3 v.a.’s:
Caso de 3 v.a.’s
Z Y X Blocked Y X Z Blocked Y X Z Blocked Z Y Case 1:chain causal effect
X Active Y X Case 2: Common cause Z Active Y X Z Case 3: Common effect Active
Trilha ativa
Veremos + a frente o seguinte resultado:
– Suponha que Z seja conhecido
– X Y | Z se todos as trilhas de X para Y
estiverem bloqueadas (não ativas)
Vimos qdo uma trilha esta’ aberta no caso de 3 v.a.’s
Vamos definir o que e’ uma trilha aberta
Gg dd
Vamos checar a definição no grafo ao lado.
Verifique se esta’ ativa a trilha
KinkedTube Press Venitube Ventmach Minvolset
Gg dd
KinkedTube Press Venitube Ventmach Minvolset
Existe uma única v-structure (colisão):
KinkedTube Press Venitube
Para a trilha estar aberta devemos ter Press Z
Isto e’, o valor de Press tem de ser
Gg dd
KinkedTube Press Venitube Ventmach Minvolset
Trilha aberta implica Press e’
conhecido. Para que saber se uma
trilha está aberta?
Se a trilha estiver aberta, isto vai significar que, se alem de conhecer Z, nos também conhecermos o
valor de KinkedTube , então a distribuição de probab de
Minvolset será alterada. (veremos este teorema)
Gg dd
KinkedTube Press Venitube
Ventmach Minvolset
Gg dd
KinkedTube Press Venitube
Ventmach Minvolset
Gg dd
KinkedTube Press Venitube
Ventmach Minvolset
Gg dd
KinkedTube Press Venitube
Ventmach Minvolset
Se Z={Venitube, Ventmach} bloqueada
Gg dd
KinkedTube Press Venitube
Ventmach Minvolset
Gg dd
KinkedTube Press Venitube
Ventmach Minvolset
Gg dd
KinkedTube Press Venitube
Ventmach Minvolset
Em suma: trilha ativa se, e somente se,
-Press Z
Gg dd
Vamos ver a questão dos
descendentes de uma colisão:
Pulmembolus Shunt SAO2
Catechol ArtCO2 Ventalv
-Existe uma única v-structure
(colisão) na trilha:
Gg dd
Pulmembolus Shunt SAO2 Catechol ArtCO2 Ventalv
-v-structure na trilha:
-SAO2 Catechol ArtCO2 -Portanto, para ter trilha ativa e’
necessário que:
- OU Catechol Z (e’ conhecida ) - OU um (qualquer um) dos
descendentes de Catechol Z (seja conhecido)
Gg dd
Pulmembolus Shunt SAO2 Catechol ArtCO2 Ventalv
-Trilha ativa implica que:
- OU Catechol Z (e’ conhecida ) -OU um (qualquer um) dos
descendentes de Catechol Z (seja conhecido):
Gg dd
Pulmembolus Shunt SAO2 Catechol ArtCO2 Ventalv
-Condição e’ necessária mas não
suficiente.
-Trilha ativa se, e só se:
- Catechol OU um dos seus
descendentes Z
-e, ao mesmo tempo, Shunt,
Gg dd
Pulmembolus Shunt SAO2 Catechol ArtCO2 Ventalv
-Suponha que trilha NÃO esta’ ativa.
-Por exemplo, SAO2 Z
-Podemos concluir então que não
existe fluxo de influencia de
Pulmembolus para Ventalv dado que SAO2 e’ observado?
-Isto e’, podemos concluir que
observar o valor de Pulmembolus não altera as probabs de Ventalv?
Gg dd
Pulmembolus Shunt SAO2 Catechol ArtCO2 Ventalv
Trilha NÃO esta’ ativa: SAO2 Z
Pulmembolus não causa Ventalv dado que SAO2 e’ observado?
Não, isto não e’ verdade.
Existe outra trilha entre Pulmembolus e Ventalv que esta’ ativa:
Pulmembolus Shunt SAO2 PVSAT Ventalv
d-separation
Precisamos considerar TODAS as trilhas entre X e Y (dado Z).
Isto leva ao conceito de d-separação
d-separation
Isto e’, d-sepG(X, Y |Z) se TODAS as trilhas entre X e Y (dado que Z foi observado) estão bloqueadas.
Finalmente podemos então declarar
Corolário
Vamos
entender a primeira sentença
Corolário
LETTER e’ d-separado de seus não-descendentes (excetuando os pais)
dado o valor de seu pai GRADE
Não-descendentes: Coherence, Difficulty, Intelligence, SAT Descendentes: Job, Happy
Não existe nenhuma trilha ativa que leve um dos não-descendentes a LETTER
Fatoracao Indep em BNs
BN: conjunta p(x) fatora sobre G
Então podemos VER muitas
propriedades de indep condicional
diretamente a partir do grafo G
Não será preciso fazer nenhum cálculo.
A partir da simples topologia do grafo deduzimos muitas independências.
Utilidade de saber que X Y | Z
BN: Imagine que sabemos o valor de Z.
Não existe trilha ativa entre X e
Y dado Z
Podemos deduzir que X Y | Z
E daí?
Se agora soubermos o valor de X não precisamos atualizar a distribuição de Y pois ela não
muda.
Y e’ independente de X dado
que já sabemos o valor de Z.
Z X
X Y | Z : podem ser vetores
Relembre o Teorema:
X, Y e Z podem ser conjuntos de v.a.’s
Exemplo
X={PULMEMBOLUS, PAP, SHUNT} Y = {HR, ERRCAUTER, HRBP, HREKG, HRSAT} Z = {CATECHOL, BP}I(G)
DAG G
I(G) = conjunto de independências condicionais que podem ser lidas
como d-separação no grafo I(G) = { d-sepG(X,Y|Z)}
I(G) = { d-sep
G(X,Y|Z)}
Exemplo:
I(G) = {d-sepG(X,Y|Z)} = {X Y | Z}
I(G) = { d-sep
G(X,Y|Z)}
Exemplo: I(G) = { X Z | Y, X Z | Y,W, X W | Y, Z X W | Y X W | Z, Y W | Z, Y W | Z,X } X Y Z WI(G) e I(P)
Vimos que G induz o conjunto I(G) de d-separacao lida do grafo
– I(G) = { indep via d-sepG(X,Y|Z) }
Vamos definir o conjunto de TODAS as
indep conditionais de uma distribuicao
– I(P) = { X Y | Z} em P
Os dois conjuntos são iguais?
O Teorema que vimos fornece parte da
I-map
G I(G) = { indep via d-sepG(X,Y|Z) }
P I(P) = { X Y | Z} em P
Teorema que vimos antes pode ser
refraseado assim:
– Se P fatora sobre G (isto e’, se temos uma
BN sobre G) então I(G) I(P)
Podemos ter I(G) < I(P)??
Podemos ter P fatorando sobre G e I(G) “menor” que I(P)?
Isto e’, ter X Y | Z mas isto não ser “visto” no grafo G onde P e’
fatorada?
Ou ainda: ter X Y | Z mas não ter d-sepG(X,Y|Z)?
Sim, e’ possível. G pode ter arestas
I(G) < I(P)
Suponha que p(x,y,z,w) e’ dada por:
p(x,y,z,w) = p(x) p(y) p(z|y) p(w|z)
Para ser mais especifico, imagine que seja
p(x,y,z,w) = Cte * exp(-3x) * exp(-2y) * exp(-2z/y) * exp(-w*z)
Como seria um grafo G para capturar esta estrutura de probabilidade?
I(G) < I(P)
Suponha que p(x,y,z,w) e’ dada por:
Cte * exp(-3x) * exp(-2y) * exp(-2z/y) * exp(-w*z)
Isto e’, da forma p(x) p(y) p(z|y) p(w|z)
Um grafo que representa esta distribuição e’ o seguinte:
X e’ independente de todas as demais variáveis.
X Y Z
I(G) < I(P)
p(x,y,z,w) = p(x) p(y) p(z|y) p(w|z)
p(x,y,z,w) = Cte * exp(-3x) * exp(-2y) * exp(-2z/y) * exp(-w*z)
MAS...sendo REDUNDANTE podemos dizer que
p(x,y,z,w) = p(x) * p(y|x) * p(z|y) * p(w|z)
Na verdade, p(y|x) e’ função apenas de y mas não esta
I(G) < I(P)
p(x,y,z,w) = p(x) p(y) p(z|y) p(w|z)
MAS...sendo REDUNDANTE escrevemos
p(x,y,z,w) = p(x) * p(y|x) * p(z|y) * p(w|z)
Ninguém fará isto se souber que a forma mais simples e’ a
correta.
Mas...nunca teremos certeza.
A rede pode estar sendo criada a partir do nosso
conhecimento acumulado e nos ACREDITAMOS (pelo menos ate agora) que y dependa de x.
I(G) < I(P)
p(x,y,z,w) = p(x) p(y) p(z|y) p(w|z)
MAS...sendo REDUNDANTE podemos dizer que
p(x,y,z,w) = p(x) * p(y|x) * p(z|y) * p(w|z)
Qual o grafo associado com a fatoração redundante acima?
I(G) < I(P)
p(x,y,z,w) = p(x) p(y) p(z|y) p(w|z) MAS usamos p(x,y,z,w) = p(x) * p(y|x) * p(z|y) * p(w|z).
GRAFO: Deveria ser
Mas usamos
TODA d-sep do grafo redundante e’ d-sep no grafo menor
Mas existem d-seps no grafo menor que não podem ser lidas no grafo maior
X Y Z
W
X Y Z
I-map minimo
O ideal e’ ter um I-map minimo.
Isto e’, ter um grafo com o menor
numero possível de arestas.
Queremos a representação mais
esparsa possível.
Este e’ chamado de I-map perfeito. Não veremos estes conceitos
(consulte o livro de DK, se interessado).
Uma dificuldade
Uma distribuição p(x) pode ser
representada com grafos com I-maps perfeitos mas muito diferentes.
Grafos causais equivalentes
Para qualquer DAG G abaixo temos
I(G) = { X Y | Z}
Qualquer distribuição que fatore por um
desses grafos também poderá ser fatorada pelos outros dois grafos
X Z Y X Y
Z
Prova:
Suponha que p(x,y,z)=p(x)*p(z|x)*p(y|z)
Isto e’, o grafo chain.
Como p(x)*p(z|x) = p(x,z) = p(x|z)*p(z)
Temos então:
p(x,y,z) = p(z) * p(x|z) * p(y|z)
Mais...
Suponha o grafo de causa comum
p(x,y,z) = p(z) * p(x|z) * p(y|z)
Como p(z) * p(y|z) = p(y,z) = p(y) * p(z|y)
Temos então
p(x,y,z) = p(y) * p(z|y) * p(x|z)
Classes de equivalência
Com 3 v.a.’s e 2 arestas temos duas
classes de grafos: X Z Y X Y Z X Y Z X Z Y
De fato...
Suponha que p(x,y,z) fatora sobre o grafo de colisão:
p(x,y,z) = p(x) * p(y) * p(z | x,y)
NÃO PODEMOS deduzir que ele fatore
sobre o grafo chain ou causa comum.
Isto e’, não podemos deduzir que
podemos escrever p(x,y,z) também como p(x) * p(y|x) * p(z|y)
Implicação
Isto indica que não conseguiremos diferenciar alguns modelos causais a partir da distribuição conjunta.
Se dois grafos estão na mesma classe de equivalência, não e’ possível distingui-los.
Mais prático: com uma amostra das variáveis x,y,z, não seremos capazes de distinguir QUAL dos dois modelos causais gera os dados.
Isto terá algumas implicações quando formos aprender a ESTRUTURA da rede bayesiana.