Observáveis e Gramáticas
Estocásticas Regulares
Ana L. N. Fred
HMM
vs
SFSG:
•São instâncias de uma classe mais geral de modelos: redes estocásticas de estados finitos (Stochastic
Finite-State Networks)
•conj. finito de estados
•distribuições de probabilidade que definem transições entre estados e a produção de sequências finitas de observações
•baseados na teoria dos processos estocásticos, as suas origens são diferentes:
•teoria da informação - modelos de Markov •extensões da teoria das linguagens formais
•gramáticas estocásticas regulares
•autómatos estocásticos de estados finitos
•Ambos geram uma sequência interna (não-observável) de símbolos (estados) e uma sequência externa (observável) de símbolos usando regras probabilísticas.
•Assumem fomalismos diferentes e mecanismos distintos de inferência.
•A probabilidade de uma sequência é calculada de
(Stochastic Finite State Grammars) Gramáticas Estocásticas de Estados Finitos
(Hidden Markov Models) Modelos de Markov Não Observáveis
Relações formais entre modelos no
contexto das linguagens geradas
[ ]
regular
a
estocástic
linguagem
finitos)
estados
de
autómato
um
por
aceite
(
regular
é
que
tal
)
,
(
1
)
(
se
0
)
(
1
,
0
:
a
estocástic
linguagem
)
,
(
linguagem
-em
símbolos
de
ão
concatenaç
-alfabeto
* * * *
=
=
=
∉
=
→
Σ
Σ
⊆
=
Σ
⊆
Σ
Σ
Σ
∑
∈L
p
L
SRL
language
weighted
WL
x
p
L
x
x
p
p
L
p
L
SL
L
L x{
a ,
,
b
c
}
=
Σ
bba
aa
acc
aabbacbabb
Modelos de Markov
{ }
[ ]
[ ]
[ ]
∑
∑
∑
∈ ∈ Σ ∈ ∈ ∈ ′ = ≡ → = ∀ ≡ → Σ × = ∀ ′ ≡ → × ≡ Σ = ≡ Σ = Q q Q q a Q q Q q i (q Q B(q,a Q B q A(q, Q Q A q Q B A Q H 1 ) inicial estado do ade probabilid de ão distribuiç 1 , 0 : , 1 ) símbolo de observação de ade probabilid de ão distribuiç 1 , 0 : , 1 ) transição de ade probabilid de matriz 1 , 0 : observação de símbolos de conjunto estados de finito conjunto ) , , , , ( π π π∑
−=
=
n q q n n n n Hx
q
B
q
q
A
x
q
B
q
q
A
x
q
B
q
x
p
H
x
p
1(
,
)
(
,
)
)
,
(
)
,
(
)
,
(
)
(
)
(
)
|
(
1 2 2 2 1 1 1 1π
Probabilidade de observação da sequência
Σ
∈
=
x
x
x
nx
ix
1,
2,
HMM Proposição: . cada para em ade probabilid de ão distribuiç uma define , em definido HMM um Dado n N n pH ∈ Σ Σ
))
))
,
(
(
)(
,
(
)
(
))
)
)
,
(
(
)(
,
(
)
,
(
)(
(
)
,
(
)
,
(
)
,
(
)
,
(
)
,
(
)
(
)
(
2 1 1 1 1 1 1 2 1 1 2 1 1 1 1 1 2 2 2 1 1 1 1 1=
=
=
=
∑
∑
∑
∑ ∑
∑
∑
∑
∑
∑
− − Σ ∈ q q n n q x x n n q q x q q n n n n x x x x H n n n n n n nq
q
A
q
q
A
q
x
q
B
q
q
A
x
q
B
q
x
q
B
q
q
A
x
q
B
q
q
A
x
q
B
q
x
x
p
π
π
π
HMM usando restrições temporais
LRHMM (left-to-right HMM)
q 0 q1 q2 qn{ }
final
estado
inicial
estado
0
)
,
(
então
se
que
tal
ordenados
estados
de
finito
conjunto
)
,
,
,
,
,
(
≡
≡
<
′
′
=
≡
=
=
Σ
f i i f i LRq
q
q
q
A
q
q
q
Q
q
q
B
A
Q
H
∑
− −=
1 2(
,
)
(
,
)
)
,
(
)
,
(
)
,
(
)
(
1 2 2 2 1 n q q n f f n i i HLRx
q
B
q
q
A
x
q
B
q
q
A
x
q
B
x
p
Probabilidade de observação da sequência
Σ
∈
=
x
x
x
nx
ix
1,
2,
LRHMM - modelo esquerda-direita
HLR define uma função
p
HLR:
Σ
*→
[ ]
0
,
1
A introdução do conceito de estado final modifica as propriedades de geração estatística de strings
Proposição: HMM HLR HLR HMM HLR HMM
Γ
⊄
Γ
Γ
⊄
Γ
∅
≠
Γ
Γ
HMMT -
HMM with observation probability
distribution in the transitions
HMMT - definição alternativa (equivalente) de um HMM
em que a distribuição de probabilidade de observação de símbolo é atribuída às transições em vez de aos estados.
[ ]
0
)
,
(
se
,
1
)
,
,
(
1
,
0
:
te
anteriomen
definidos
como
,
,
)
,
,
,
,
(
,′
≠
∀
=
′
→
×
Σ
×
Σ
=
∈ ′ Σ ∈∑
B
q
a
q
A
q
q
Q
Q
B
A
Q
B
A
Q
HT
Q q q aπ
π
∑
− −=
n q q n n n n n HTq
x
q
B
q
q
A
q
x
q
B
q
q
A
q
x
p
0(
,
)
(
,
,
)
)
,
,
(
)
,
(
)
(
)
(
1 1 1 1 0 1 0 0π
Probabilidade de observação da sequência
Σ
∈
=
x
x
x
nx
ix
1,
2,
Proposição: ) ( ) ( , que tal ) , , , , ( HMMT um existe ) , , , , ( HMM cada Para * p x p x B A Q HT B A Q H HT H x = ∀ ′ ′ ′ Σ ′ = π= Σ ∈πΣ Proposição: ) ( ) ( , que tal ) , , , , ( HMM um existe ) , , , , ( HMMT cada Para * p x p x B A Q H B A Q HT HT H x = ∀ ′ ′ ′ Σ ′ = π = Σ ∈Σ π
Demonstração:
a) As novas distribuições verificam a definição de HMMT:
b)A equivalência é mostrada por: para todo o x com |x|=n Proposição: ) ( ) ( , que tal ) , , , , ( HMMT um existe ) , , , , ( HMM cada Para * p x p x B A Q HT B A Q H HT H x = ∀ ′ ′ ′ Σ ′ = π= Σ ∈πΣ
{ }
Q q q q Q q a q a B q a q B Q q q a q a B q a q B Q q q q q A Q q q q q A q q A Q q q Q Q ∈ ∀ = ′ = ′ ∈ ∀ Σ ∈ ∀ = ′ ∈ ′ ∀ Σ ∈ ∀ ′ = ′ ′ ∈ ∀ = ′ ∈ ′ ∀ ′ = ′ ′ ′ = ∉ 0 ) ( e 1 ) ( , ) , ( ) , , ( , , ) , ( ) , , ( ) ( ) , ( , ) , ( ) , ( com Seja 0 0 0 0 0 π π π Q q q a B q a q B Q q q a B q a q B q q q A Q q q q A q q A a a a a Q q Q q Q q Q q ∈ ∀ = = ′ ∈ ′ ∀ = ′ = ′ ′ = = ′ ∈ ∀ = ′ = ′ ′∑
∑
∑
∑
∑
∑
∑
∑
Σ ∈ Σ ∈ Σ ∈ Σ ∈ ∈ ∈ ∈ ′ ∈ ′ 1 ) , ( ) , , ( 1 ) , ( ) , , ( 1 ) ( ) , ( 1 ) , ( ) , ( 0 0 π)
(
)
,
(
)
,
(
)
,
(
)
,
(
)
(
)
,
,
(
)
,
(
)
,
,
(
)
,
(
)
(
)
(
1 0 1 2 1 1 1 1 1 1 1 1 0 1 0 0x
p
q
x
B
q
q
A
q
q
A
q
x
B
q
q
x
q
B
q
q
A
q
x
q
B
q
q
A
q
x
p
H q q n n n n q q n n n n n HT n n=
=
′
′
′
′
′
=
∑
∑
− − −π
π
q1 q3 q2 B(a,q1) π(q1) π(q3) π(q2) A(q1,q3) A(q2,q3) A(q1,q2) B(a,q3) H M M q1 q3 q2 B(a,q1) A(q2,q3) A(q1,q2) B(a,q3) H M M T q0 π(q1) π(q2) π(q3) B(a,q2) B(q0,a,q2)= B(a,q2) A(q1,q3) B(a,q3) B(a,q3) B(a,q2)
Demonstração:
a) As novas distribuições verificam a definição de HMM:
b)A equivalência é mostrada por: para todo o x com |x|=n Proposição:
{
}
) , ( ) ( )) , (( ) , , ( )) , ( , ( contrário caso 0 se ) , ( )) , ( )), , (( 0 ) , ( e , | ) , ( Seja q q A q q q q a q B q q a B q q q q A q q q q A q q A Q q q q q Q ′ = ′ ′ ′ = ′ ′ = ′′ = ′ ′′′ ′′ = ′′′ ′′ ′ ′′= ′ ′∈ ′ ≠ π π∑
∑
∑
∑
∑
∑
′ ′ Σ ∈ Σ ∈ ′′′ ′′′ ′′ = ′ = ′ ′ ∈ ′ ∀ = ′ = ′ ′ ∈ ′ ∀ = ′′′ ′ = ′′′ ′′ ′ ′ q q q q a a q q q q q A q q q Q q q q a q B q q a B Q q q q q A q q q q A , ) , ( ) , ( 1 ) , ( ) ( ) ) , (( , 1 ) , , ( )) , ( , ( , 1 ) , ( )) , ( , ) , (( π π)
(
)
,
,
(
)
,
(
)
,
,
(
)
,
(
)
,
,
(
)
,
(
)
(
))
,
(
,
(
))
,
(
),
,
((
))
,
(
,
(
))
,
(
),
,
((
))
,
(
,
(
)
,
(
)
(
1 1 2 2 1 2 1 1 1 0 1 0 0 1 1 1 2 2 1 2 2 1 1 0 1 0 1 1 0 0 0x
p
q
x
q
B
q
q
A
q
x
q
B
q
q
A
q
x
q
B
q
q
A
q
q
q
x
B
q
q
q
q
A
q
q
x
B
q
q
q
q
A
q
q
x
B
q
q
x
p
HT n n n n n q q n n n n n n n q q H n n=
=
′
′
′
′
′
′
=
− − − − − −∑
∑
π
π
) ( ) ( , que tal ) , , , , ( HMM um existe ) , , , , ( HMMT cada Para * p x p x B A Q H B A Q HT HT H x = ∀ ′ ′ ′ Σ ′ = π = Σ ∈Σ πq0 q1 q2 π0 π1 π2 A(q2,q1) A(q0,q2) H M M T A(q1,q2) A(q2,q1) H M M A(q2,q1) B(q2,a,q1) B(q0,a,q2) A(q1,q2) B(q1,a,q2) q0q2 q2q1 q1q2 B(q0,a,q2) π0A(q0q2) π1A(q1q2) π2A(q2q1) B(q2,a,q1) B(q1,a,q2)
HMMTF -
HMM with observation
probability distribution in the transitions and
final state
HMMTF -HMMTF com a restrição de um estado final
“absorvente” { }
[ ]
final
estado
no
terminam
sequências
as
Todas
proibidas
são
s
transiçõe
as
todas
qual
no
final,
estado
inicial
estado
0
)
,
(
se
,
1
)
,
,
(
1
,
0
:
1
)
,
(
)
,
,
,
,
,
(
,≡
≡
≠
′
∀
=
′
→
×
Σ
×
∀
=
′
Σ
=
∈ ′ Σ ∈ ′ ∈ −∑
∑
f i Q q q a q q Q q f iq
q
q
q
A
q
a
q
B
Q
Q
B
q
q
A
q
q
B
A
Q
HTF
f∑
− − −=
1 1(
,
)
(
,
,
)
)
,
,
(
)
,
(
)
(
1 1 1 1 1 n q q n f n n f i i HTFq
x
q
B
q
q
A
q
x
q
B
q
q
A
x
p
Probabilidade de observação da sequência
Σ
∈
=
x
x
x
nx
iHMMTF <=> SFSG
Proposição: Proposição: ) ( ) ( , que tal ), , , , ( com ), , ( SFSG uma existe ) , , , , , ( HMMTF um Dado * p x p x S R N G G G q q B A Q HTF HTF Ge x e f i = ∀ Σ = = µ = Σ ∈Σ{ }
{
}
{
}
)
,
,
(
)
,
(
)
(
)
,
,
(
)
,
(
)
(
0
)
,
,
(
|
)
(
e
0
)
,
,
(
|
)
(
;
f f f f i f
q
a
q
B
q
q
A
a
q
q
a
q
B
q
q
A
q
a
q
q
a
q
B
a
q
q
q
q
a
q
B
q
a
q
R
q
S
q
Q
N
=
→
′
=
′
′
→
→
≠
≠
′
≠
′
′
→
=
=
−
=
µ
µ
) ( ) ( , que tal , ) , , , , , ( HMMTF, um existe ), , ( SFSG, uma Dado * p x p x q q B A Q HTF G G HTF Ge x f i e = ∀ Σ = = µ ∈Σ{ }
R
a
q
q
q
A
R
q
a
q
q
q
A
q
q
A
a
q
q
a
q
B
a
q
q
q
A
q
q
A
q
a
q
q
a
q
B
q
a
q
q
q
A
S
q
q
q
N
Q
N a N q f f N q a f N a N q q N q q a i N f f∉
→
=
∉
′
→
=
′
∀
∀
→
=
∀
→
=
∀
∀
′
′
→
=
′
∀
′
→
=
′
=
=
∈ ∈ ∈ ∈ ∈ ′ ∈ ′ ∉∑
∑
)
(
se
0
)
,
(
)
(
se
0
)
,
(
,
)
,
(
/
)
(
)
,
,
(
)
(
)
,
(
,
)
,
(
/
)
(
)
,
,
(
)
(
)
,
(
,
, ,µ
µ
µ
µ
qi q1 qf A(q1,qf) A(qi,q1) H M M T S F S G B(qi,a,q1) B(qi,b,q1) qi q1 T a a µ(qi->a q1)= A(qi,q1)B(qi,a,q1) B(q1,a,qf) b µ(qi->b q1)= A(qi,q1)B(qi,b,q1) µ(q1->a )= A(q1,qf)B(q1,a,qf)
qi q1 qf A ( q1,qf)= µ(q1->a) A ( qi,q1)= µ(qi->a q1)+ µ(qi->b q1) H M M T S F S G B(qi,a,q1)= µ(qi->a q1)/A(qi,q1) qi q1 T a a µ(qi->a q1) b µ(qi->b q1) µ(q1->a ) B(qi,b,q1)= µ(qi->b q1)/A(qi,q1) B(q1,a,qf)=1
HMM SFSG:
• inferida a partir do conjunto de treino
•Método da apresentação estocástica (equivalente a ML para gramáticas não ambíguas)
Prob. de observação de uma sequência: Estrutura • definida a priori Estimação de Parâmetros •Viterbi •Baum-Welch (EM) p x A qt q B q xt t t t n q qn ( )= ( − , ) ( , ) =
∏
∑
1 1 1 p x At x At t t n i D ( )= Pr( − → ) = =∏
∑
1 1 1 σ 0 0 , 1 , 2 , 3 , 7 0 1 2 1 0 T 0 0 1 0 , 1 1 2 1Gramáticas de Estados Finitos
• 0010010010014 • 0010010014 • G=(N,Σ,R,S) • N={n1,n2,n3,n4} Σ={0,1,4} S=n1 • R: n1 -> 0 n2 n2 -> 0 n3 n3 -> 1 n4 | 1 n1 n4 -> 4• Derivação de uma sequência: n1 0 n2 00 n3 001 n1 0010 n2 00100 n3 001001 n4 n 1 n 2 n 3 n 4 0 0 1 T 4 1 n1 0 n2 0 n3 1 n1 0 n2 0 n3 1 n4 4
SFSG - Gramáticas estocásticas de
estados finitos
SFSG
Derivação de x a partir de S de acordo com G é uma sequência de regras D(x)=(r1,r2,…,rn(x) que permite obter x a partir de S por sucessiva aplicação de regras em
D(x).
Probabilidade associada à derivação D(x):
[ ]
{ }∑
∈Σ ∈→
=
→
Σ
=
=
εµ
µ
µ
N B a eaB
A
R
S
R
N
G
G
G
,(
)
1
1
,
0
:
regular
gramática
)
,
,
,
(
)
,
(
)
(
)
(
)
(
))
(
(
D
x
r
1r
2r
n(x)p
=
µ
µ
µ
Probabilidade de geração da sequência
Σ
∈
=
x
x
x
nx
ix
1,
2,
=
0
∑
(
(
))
se
para
não
todas
existe
as
uma
derivações
derivação
(
para
)
)
(
) (x
D
x
D
p
x
x
p
x D GeProposição:
∑
Σ ∈≤
*1
)
(
SFSG
uma
Dada
x Gex
p
e
consistent
se
-diz
gramática
a
1
)
(
se
SFSG,
uma
Dada
*∑
Σ ∈=
x Gex
p
1
)
(
)
(
,
Quando
))
(
)
(
(
1
* * 2 1 1 2 1 1 1≤
∴
→
∞
→
→
→
−
=
∑
∑
∑
∑
Σ ∈ Σ ∈ − ∈ x Ge x Ge n n n n a a a C C C N nx
p
x
p
P
n
C
a
C
C
a
S
P
n nµ
µ
Reconhecimento de Objectos
Metodologia
Extração de Contornos Descrição em string Classificação MAP Treino HMM/SFSG Baseado num método de comparação com limiar 8 directional differential chain codeExtração de contornos
•O contorno do objecto é amostrado em 50 pontos equi-espaçados
•o ângulo entre segmentos consecutivos é quantifcado em 8 níveis.
Base de Dados de Imagem
•15 tipos de ferramentas
•50 imagens por ferramenta, divididas em conjunto de treino e de teste
•incluem-se diferentes poses
Exemplos de Ferramentas
00000000500000000000040120500001700000166000000003 00000000570000000100076030760001000000005000000003 00000000500000000000050030500001700000075000000003 00000000500000000010000060000016100000076000000003 00000000500000000010000660000100000000166000000003 00000000660000001610000067000010000000066000000003 t1 t2 t3t4 t5 t6
t7 t8 t9
t11 t12 t13
Aparato Experimental
Aprendizagem do Modelo
•Cada objecto é modelado por um HMM ou uma SFSG, treinado de acordo com:
HMM: Topologias:
•Totalmente ligada (10 & 20 estados) •Esquerda-direita (20 & 50 estados)
Estimação de Parâmetros: •Baum-Welch
•Viterbi
SFSG: Topologia:
•inferida a partir dos dados de treino usando o método das k-tails (k=1, … 10)
•o número de estados depende da estrutura dos dados
Estimação de Parâmetros:
Resultados
HMM:Os melhores resultados foram obtidos com o
algoritmo de BW
SFSG:
Ponto inicial fixo Ponto inicial arbitrário
Totalmente ligada
99.7 99.5
Esquerda-direita 100 98.9
Pe: % erro; Pm: % não reconhecimento; Pec: % erro com prob-NN
Rec: % global de reconhecimento
Conclusões
•A abordagem sintáctica permite uma automatização total dos processos de modelação e reconhecimento => as estruturas obtidas por SFSGs e HMMs são diferentes, as primeiras dependendo da complexidade estrutural dos dados. • No respeitante à estimação de parâmetros o método de apresentação estocástica é semelhante ao algoritmo de Viterbi usado no treino dos HMMs.
Os resultados experimentais revelam:
•elevados níveis de reconhecimento por ambos os métodos •HMMs são mais robustos no sentido em que possuem uma maior capacidade de generalização do que as SFSGs. Esta dificuldade é ultrapassada usando parsers correctores de erros (regra de decisão o vizinho mais próximo probabilistico) à custa de um maior custo computacional.
•As SFSGs conduzem geralmente a modelos de menor dimensão.