Ana L. N. Fred Instituto Superior Técnico

(1)

Observáveis e Gramáticas

Estocásticas Regulares

Ana L. N. Fred

(2)

HMM

vs

SFSG:

•São instâncias de uma classe mais geral de modelos: redes estocásticas de estados finitos (Stochastic

Finite-State Networks)

•conj. finito de estados

•distribuições de probabilidade que definem transições entre estados e a produção de sequências finitas de observações

•baseados na teoria dos processos estocásticos, as suas origens são diferentes:

•teoria da informação - modelos de Markov •extensões da teoria das linguagens formais

•gramáticas estocásticas regulares

•autómatos estocásticos de estados finitos

•Ambos geram uma sequência interna (não-observável) de símbolos (estados) e uma sequência externa (observável) de símbolos usando regras probabilísticas.

•Assumem fomalismos diferentes e mecanismos distintos de inferência.

•A probabilidade de uma sequência é calculada de

(Stochastic Finite State Grammars) Gramáticas Estocásticas de Estados Finitos

(Hidden Markov Models) Modelos de Markov Não Observáveis

(3)

Relações formais entre modelos no

contexto das linguagens geradas

[ ]

regular

a

estocástic

linguagem

finitos)

estados

de

autómato

um

por

aceite

(

regular

é

que

tal

)

,

(

1 )

(

se

0 )

(

1 ,

0 :

a

estocástic

linguagem

)

,

(

linguagem

-em

símbolos

de

ão

concatenaç

-alfabeto

* * * *

=

∉

=

→

Σ

⊆

=

Σ

⊆

Σ

∑

∈

L

p

L

SRL

language

weighted

WL

x

p

L

x

p

L

p

L

SL

L

L x

{

a ,

,

b

c

}

=

Σ

bba

aa

acc

aabbacbabb

(4)

Modelos de Markov

{ }

[ ]

∑

∈ ∈ Σ ∈ ∈ ∈ ′ = ≡ → = ∀ ≡ → Σ × = ∀ ′ ≡ → × ≡ Σ = ≡ Σ = Q q Q q a Q q Q q i (q Q B(q,a Q B q A(q, Q Q A q Q B A Q H 1 ) inicial estado do ade probabilid de ão distribuiç 1 , 0 : , 1 ) símbolo de observação de ade probabilid de ão distribuiç 1 , 0 : , 1 ) transição de ade probabilid de matriz 1 , 0 : observação de símbolos de conjunto estados de finito conjunto ) , , , , ( π π π

∑

−

=

n q q n n n n H

x

q

B

q

A

x

q

B

q

A

x

q

B

q

x

p

H

x

p

1

(

,

)

(

,

)

,

(

)

,

(

)

,

(

)

(

)

(

)

|

(

1 2 2 2 1 1 1 1

π

Probabilidade de observação da sequência

Σ

∈

=

x

n

x

i

x

₁

,

₂

,

HMM Proposição: . cada para em ade probabilid de ão distribuiç uma define , em definido HMM um Dado n N n p_H ∈ Σ Σ

))

,

(

)(

,

(

)

(

))

)

,

(

)(

,

(

)

,

(

)(

(

)

,

(

)

,

(

)

,

(

)

,

(

)

,

(

)

(

)

(

2 1 1 1 1 1 1 2 1 1 2 1 1 1 1 1 2 2 2 1 1 1 1 1

=

∑

∑ ∑

∑

− − Σ ∈ q q n n q x x n n q q x q q n n n n x x x x H n n n n n n n

q

A

q

A

q

x

q

B

q

A

x

q

B

q

x

q

B

q

A

x

q

B

q

A

x

q

B

q

x

p

π

(5)

HMM usando restrições temporais

LRHMM (left-to-right HMM)

q 0 q1 q2 qn

{ }

final

estado

inicial

estado

0 )

,

(

então

se

que

tal

ordenados

estados

de

finito

conjunto

)

,

(

≡

<

′

=

≡

=

Σ

f i i f i LR

q

A

q

Q

q

B

A

Q

H

∑

− ₋

=

1 2

(

,

)

(

,

)

,

(

)

,

(

)

,

(

)

(

1 2 2 2 1 n q q _n _f _f _n i i HLR

x

q

B

q

A

x

q

B

q

A

x

q

B

x

p

Σ

∈

=

x

_n

x

_i

x

₁

,

₂

,

LRHMM - modelo esquerda-direita

H_LR define uma função

p

_HLR

:

Σ

*

→

[ ]

0 ,

1

A introdução do conceito de estado final modifica as propriedades de geração estatística de strings

Proposição: HMM HLR HLR HMM HLR HMM

Γ

⊄

Γ

⊄

Γ

∅

≠

Γ

(6)

HMMT -

HMM with observation probability

distribution in the transitions

HMMT - definição alternativa (equivalente) de um HMM

em que a distribuição de probabilidade de observação de símbolo é atribuída às transições em vez de aos estados.

[ ]

0 )

,

(

se

,

1 )

,

(

1 ,

0 :

te

anteriomen

definidos

como

,

)

,

(

,

′

≠

∀

=

′

→

×

Σ

×

Σ

=

∈ ′ Σ ∈

∑

B

q

a

q

A

q

Q

B

A

Q

B

A

Q

HT

Q q q a

π

∑

− −

=

n q q n n n n n HT

q

x

q

B

q

A

q

x

q

B

q

A

q

x

p

0

(

,

)

(

,

)

,

(

)

,

(

)

(

)

(

1 1 1 1 0 1 0 0

π

Σ

∈

=

x

_n

x

_i

x

₁

,

₂

,

Proposição: ) ( ) ( , que tal ) , , , , ( HMMT um existe ) , , , , ( HMM cada Para * p x p x B A Q HT B A Q H HT H x = ∀ ′ ′ ′ Σ ′ = π= Σ _∈π_Σ Proposição: ) ( ) ( , que tal ) , , , , ( HMM um existe ) , , , , ( HMMT cada Para * p x p x B A Q H B A Q HT HT H x = ∀ ′ ′ ′ Σ ′ = π = Σ _∈_Σ π

(7)

Demonstração:

a) As novas distribuições verificam a definição de HMMT:

b)A equivalência é mostrada por: para todo o x com |x|=n Proposição: ) ( ) ( , que tal ) , , , , ( HMMT um existe ) , , , , ( HMM cada Para * p x p x B A Q HT B A Q H HT H x = ∀ ′ ′ ′ Σ ′ = π= Σ _∈π_Σ

{ }

Q q q q Q q a q a B q a q B Q q q a q a B q a q B Q q q q q A Q q q q q A q q A Q q q Q Q ∈ ∀ = ′ = ′ ∈ ∀ Σ ∈ ∀ = ′ ∈ ′ ∀ Σ ∈ ∀ ′ = ′ ′ ∈ ∀ = ′ ∈ ′ ∀ ′ = ′ ′ ′ = ∉ 0 ) ( e 1 ) ( , ) , ( ) , , ( , , ) , ( ) , , ( ) ( ) , ( , ) , ( ) , ( com Seja 0 0 0 0 0 π π π Q q q a B q a q B Q q q a B q a q B q q q A Q q q q A q q A a a a a Q q Q q Q q Q q ∈ ∀ = = ′ ∈ ′ ∀ = ′ = ′ ′ = = ′ ∈ ∀ = ′ = ′ ′

∑

Σ ∈ Σ ∈ Σ ∈ Σ ∈ ∈ ∈ ∈ ′ ∈ ′ 1 ) , ( ) , , ( 1 ) , ( ) , , ( 1 ) ( ) , ( 1 ) , ( ) , ( 0 0 π

)

(

)

,

(

)

,

(

)

,

(

)

,

(

)

(

)

,

(

)

,

(

)

,

(

)

,

(

)

(

)

(

1 0 1 2 1 1 1 1 1 1 1 1 0 1 0 0

x

p

q

x

B

q

A

q

A

q

x

B

q

x

q

B

q

A

q

x

q

B

q

A

q

x

p

H q q n n n n q q n n n n n HT n n

=

′

=

∑

− − −

π

(8)

q₁ q3 q₂ B(a,q₁) π(q₁) π(q3) π(q₂) A(q₁,q₃) A(q₂,q₃) A(q₁,q₂) B(a,q₃) H M M q₁ q3 q₂ B(a,q₁) A(q₂,q₃) A(q₁,q₂) B(a,q₃) H M M T q₀ π(q₁) π(q₂) π(q3) B(a,q₂) B(q₀,a,q₂)= B(a,q₂) A(q₁,q₃) B(a,q₃) B(a,q₃) B(a,q₂)

(9)

Demonstração:

a) As novas distribuições verificam a definição de HMM:

b)A equivalência é mostrada por: para todo o x com |x|=n Proposição:

{

}

) , ( ) ( )) , (( ) , , ( )) , ( , ( contrário caso 0 se ) , ( )) , ( )), , (( 0 ) , ( e , | ) , ( Seja q q A q q q q a q B q q a B q q q q A q q q q A q q A Q q q q q Q ′ = ′ ′ ′ = ′ ′ = ′′ = ′ ′′′ ′′ = ′′′ ′′ ′ ′′= ′ ′∈ ′ ≠ π π

∑

′ ′ Σ ∈ Σ ∈ ′′′ ′′′ ′′ = ′ = ′ ′ ∈ ′ ∀ = ′ = ′ ′ ∈ ′ ∀ = ′′′ ′ = ′′′ ′′ ′ ′ q q q q a a q q q q q A q q q Q q q q a q B q q a B Q q q q q A q q q q A , ) , ( ) , ( 1 ) , ( ) ( ) ) , (( , 1 ) , , ( )) , ( , ( , 1 ) , ( )) , ( , ) , (( π π

)

(

)

,

(

)

,

(

)

,

(

)

,

(

)

,

(

)

,

(

)

(

))

,

(

,

(

))

,

(

),

,

((

))

,

(

,

(

))

,

(

),

,

((

))

,

(

,

(

)

,

(

)

(

1 1 2 2 1 2 1 1 1 0 1 0 0 1 1 1 2 2 1 2 2 1 1 0 1 0 1 1 0 0 0

x

p

q

x

q

B

q

A

q

x

q

B

q

A

q

x

q

B

q

A

q

x

B

q

A

q

x

B

q

A

q

x

B

q

x

p

HT n n n n n q q n n n n n n n q q H n n

=

′

=

− − − − − −

∑

π

) ( ) ( , que tal ) , , , , ( HMM um existe ) , , , , ( HMMT cada Para * p x p x B A Q H B A Q HT HT H x = ∀ ′ ′ ′ Σ ′ = π = Σ _∈_Σ π

(10)

q₀ q1 q₂ π0 π1 π2 A(q₂,q₁) A(q₀,q₂) H M M T A(q₁,q₂) A(q2,q1) H M M A(q₂,q₁) B(q₂,a,q₁) B(q₀,a,q₂) A(q₁,q₂) B(q₁,a,q₂) q₀q₂ q₂q₁ q₁q₂ B(q₀,a,q₂) π₀A(q₀q₂) π1A(q1q2) π₂A(q₂q₁) B(q₂,a,q₁) B(q₁,a,q₂)

(11)

HMMTF -

HMM with observation

probability distribution in the transitions and

final state

HMMTF -HMMTF com a restrição de um estado final

“absorvente” { }

[ ]

final

estado

no

terminam

sequências

as

Todas

proibidas

são

s

transiçõe

as

todas

qual

no

final,

estado

inicial

estado

0 )

,

(

se

,

1 )

,

(

1 ,

0 :

1 )

,

(

)

,

(

,

≡

≠

′

∀

=

′

→

×

Σ

×

∀

=

′

Σ

=

∈ ′ Σ ∈ ′ ∈ −

∑

f i Q q q a q q Q q f i

q

A

q

a

q

B

Q

B

q

A

q

B

A

Q

HTF

f

∑

− ₋ ₋

=

1 1

(

,

)

(

,

)

,

(

)

,

(

)

(

1 1 1 1 1 n q q _n _f _n _n _f i i HTF

q

x

q

B

q

A

q

x

q

B

q

A

x

p

Σ

∈

=

x

_n

x

_i

(12)

HMMTF <=> SFSG

Proposição: Proposição: ) ( ) ( , que tal ), , , , ( com ), , ( SFSG uma existe ) , , , , , ( HMMTF um Dado * p x p x S R N G G G q q B A Q HTF HTF Ge x e f i = ∀ Σ = = µ = Σ _∈_Σ

{ }

{

}

{

}

)

,

(

)

,

(

)

(

)

,

(

)

,

(

)

(

0 )

,

(

|

)

(

e

0 )

,

(

|

)

(

;

f f f f i f

q

a

q

B

q

A

a

q

a

q

B

q

A

q

a

q

a

q

B

a

q

a

q

B

q

a

q

R

q

S

q

Q

N

=

→

′

=

′

→

≠

′

≠

′

→

=

−

=

µ

) ( ) ( , que tal , ) , , , , , ( HMMTF, um existe ), , ( SFSG, uma Dado * p x p x q q B A Q HTF G G HTF Ge x f i e = ∀ Σ = = µ _∈_Σ

{ }

R

a

q

A

R

q

a

q

A

q

A

a

q

a

q

B

a

q

A

q

A

q

a

q

a

q

B

q

a

q

A

S

q

N

Q

N a N q f f N q a f N a N q q N q q a i N f f

∉

→

=

∉

′

→

=

′

∀

→

=

∀

→

=

∀

′

→

=

′

∀

′

→

=

′

=

∈ ∈ ∈ ∈ ∈ ′ ∈ ′ ∉

∑

)

(

se

0 )

,

(

)

(

se

0 )

,

(

,

)

,

(

/

)

(

)

,

(

)

(

)

,

(

,

)

,

(

/

)

(

)

,

(

)

(

)

,

(

,

, ,

µ

(13)

q_i q₁ q_f A(q₁,q_f) A(q_i,q₁) H M M T S F S G B(q_i,a,q₁) B(q_i,b,q₁) q_i q₁ T a a µ(q_i->a q₁)= A(q_i,q₁)B(q_i,a,q₁) B(q₁,a,q_f) b µ(q_i->b q₁)= A(q_i,q₁)B(q_i,b,q₁) µ(q₁->a )= A(q₁,q_f)B(q₁,a,q_f)

(14)

q_i q₁ q_f A ( q₁,q_f)= µ(q₁->a) A ( q_i,q₁)= µ(q_i->a q₁)+ µ(q_i->b q₁) H M M T S F S G B(q_i,a,q₁)= µ(q_i->a q₁)/A(q_i,q₁) q_i q₁ T a a µ(q_i->a q₁) b µ(q_i->b q₁) µ(q₁->a ) B(q_i,b,q₁)= µ(q_i->b q₁)/A(q_i,q₁) B(q₁,a,q_f)=1

(15)

HMM SFSG:

• inferida a partir do conjunto de treino

•Método da apresentação estocástica (equivalente a ML para gramáticas não ambíguas)

Prob. de observação de uma sequência: Estrutura • definida a priori Estimação de Parâmetros •Viterbi •Baum-Welch (EM) p x A q_t q B q x_t _t _t t n q qn ( )= ( ₋ , ) ( , ) =

∏

∑

1 1 1 p x A_t x A_t _t t n i D ( )= Pr( ₋ → ) = =

∏

∑

1 1 1 σ 0 0 , 1 , 2 , 3 , 7 0 1 2 1 0 T 0 0 1 0 , 1 1 2 1

(16)

Gramáticas de Estados Finitos

• 0010010010014 • 0010010014 • G=(N,Σ,R,S) • N={n1,n2,n3,n4} Σ={0,1,4} S=n1 • R: n1 -> 0 n2 n2 -> 0 n3 n3 -> 1 n4 | 1 n1 n4 -> 4

• Derivação de uma sequência: n1 0 n2 00 n3 001 n1 0010 n2 00100 n3 001001 n4 n 1 n 2 n 3 n 4 0 0 1 T 4 1 n1 0 n2 0 n3 1 n1 0 n2 0 n3 1 n4 4

(17)

SFSG - Gramáticas estocásticas de

estados finitos

SFSG

Derivação de x a partir de S de acordo com G é uma sequência de regras D(x)=(r1,r2,…,rn(x) que permite obter x a partir de S por sucessiva aplicação de regras em

D(x).

Probabilidade associada à derivação D(x):

[ ]

{ }

∑

∈Σ ∈

→

=

→

Σ

=

ε

µ

N B a e

aB

A

R

S

R

N

G

,

(

)

1

1 ,

0 :

regular

gramática

)

,

(

)

,

(

)

(

)

(

)

(

))

(

D

x

r

₁

r

₂

r

_n₍_x₎

p

=

µ

Probabilidade de geração da sequência

Σ

∈

=

x

n

x

i

x

₁

,

₂

,









=

0 _∑

₍

₎₎

se

_para

não

_todas

existe

_as

uma

_derivações

derivação

₍

para

₎

)

(

) (

x

D

x

D

p

x

p

x D Ge

(18)

Proposição:

∑

Σ ∈

≤

*

1 )

(

SFSG

uma

Dada

x Ge

x

p

e

consistent

se

-diz

gramática

a

1 )

(

se

SFSG,

uma

Dada

*

∑

Σ ∈

=

x Ge

x

p

1 )

(

)

(

,

Quando

))

(

)

(

1

* * 2 1 1 2 1 1 1

≤

∴

→

∞

→

−

=

∑

Σ ∈ Σ ∈ − ∈ x Ge x Ge n n n n a a a C C C N n

x

p

x

p

P

n

C

a

C

a

S

P

n n

µ

(19)

Reconhecimento de Objectos

Metodologia

Extração de Contornos Descrição em string Classificação MAP Treino HMM/SFSG Baseado num método de comparação com limiar 8 directional differential chain code

Extração de contornos

•O contorno do objecto é amostrado em 50 pontos equi-espaçados

•o ângulo entre segmentos consecutivos é quantifcado em 8 níveis.

(20)

Base de Dados de Imagem

•15 tipos de ferramentas

•50 imagens por ferramenta, divididas em conjunto de treino e de teste

•incluem-se diferentes poses

Exemplos de Ferramentas

00000000500000000000040120500001700000166000000003 00000000570000000100076030760001000000005000000003 00000000500000000000050030500001700000075000000003 00000000500000000010000060000016100000076000000003 00000000500000000010000660000100000000166000000003 00000000660000001610000067000010000000066000000003 t1 t2 t3

(21)

t4 t5 t6

t7 t8 t9

t11 t12 t13

(22)

Aparato Experimental

Aprendizagem do Modelo

•Cada objecto é modelado por um HMM ou uma SFSG, treinado de acordo com:

HMM: Topologias:

•Totalmente ligada (10 & 20 estados) •Esquerda-direita (20 & 50 estados)

Estimação de Parâmetros: •Baum-Welch

•Viterbi

SFSG: Topologia:

•inferida a partir dos dados de treino usando o método das k-tails (k=1, … 10)

•o número de estados depende da estrutura dos dados

Estimação de Parâmetros:

(23)

Resultados

HMM:Os melhores resultados foram obtidos com o

algoritmo de BW

SFSG:

Ponto inicial fixo Ponto inicial arbitrário

Totalmente ligada

99.7 99.5

Esquerda-direita 100 98.9

Pe: % erro; Pm: % não reconhecimento; Pec: % erro com prob-NN

Rec: % global de reconhecimento

(24)

Conclusões

•A abordagem sintáctica permite uma automatização total dos processos de modelação e reconhecimento => as estruturas obtidas por SFSGs e HMMs são diferentes, as primeiras dependendo da complexidade estrutural dos dados. • No respeitante à estimação de parâmetros o método de apresentação estocástica é semelhante ao algoritmo de Viterbi usado no treino dos HMMs.

Os resultados experimentais revelam:

•elevados níveis de reconhecimento por ambos os métodos •HMMs são mais robustos no sentido em que possuem uma maior capacidade de generalização do que as SFSGs. Esta dificuldade é ultrapassada usando parsers correctores de erros (regra de decisão o vizinho mais próximo probabilistico) à custa de um maior custo computacional.

•As SFSGs conduzem geralmente a modelos de menor dimensão.