Modelos de Markov e Aplicações

(1)

Modelos de Markov e Aplicac¸˜oes

∗

Graçaliz P. Dimuro1 , Renata H. S. Reiser1, Antônio C. R. Costa12 , Paulo L. R. Sousa3 1_{Escola de Informática – Universidade Católica de Pelotas}

Rua Felix da Cunha 412 – 96010-140 Pelotas, RS

2_{Programa de Pós-Graduação em Computação – Universidade Federal do Rio Grande do Sul}

Caixa Postal 15064 – 90501-970 Porto Alegre, RS

3_{Mestrado em Sa´ude e Comportamento – Universidade Cat´olica de Pelotas}

Rua Felix da Cunha 412 – 96010-140 Pelotas, RS

{liz,reiser,rocha}@atlas.ucpel.tche.br

Abstract. This tutorial presents the basic concepts concerning Markov chains,

in particular, regular and absorbing chains. The principal concepts of Hid-den Markov Models are also presented. Some applications of these models are shown.

Resumo. Este tutorial apresenta os conceitos b´asicos das cadeias de Markov,

ressaltando principalmente, as cadeias regulares e as absorventes. Também apresentam-se os principais conceitos sobre os modelos de Markov ocultos. Exemplos ilustrativos foram inclu´ıdos, para mostrar as potencialidades de aplicação destes modelos.

1. Introduc¸˜ao

Um processo de Markov é um processo estocástico cujo comportamento dinâmico é tal que as distribuições de probabilidade para o seu desenvolvimento fututo depende somente do estado presente, não levando em consideração como o processo chegou em tal estado. Os processos markovianos são modelados formalmente por sistemas de transições

de estados, onde os estados s˜ao representados em termos de seus vetores probabil´ısticos,

que podem variar no espaço temporal (discreto ou cont´ınuo), e as transições entre estados são probabil´ısticas e dependem apenas do estado corrente.

Se o espaço de estados é discreto (enumerável), então o modelo de Markov é de-nominado de cadeia de Markov [17, 19]. As propriedades desses modelos são estudadas em termos das propriedades das matrizes de transições de estados que são utilizadas na sua descrição.

Existem processos de Markov que são modelados como aproximações do mundo real, onde nem todos os estados são perfeitamente conhecidos. Nestes casos, diz-se que o modelo é escondido, e a questão central em torno desses modelos é o grau com que são capazes de capturar a essência do processo escondido sob eles.

(2)

O estudo dos modelos de Markov têm uma aplicação muito ampla em várias áreas, como, por exemplo, ciências sociais, biológicas e administrativas. Os modelos de Markov escondidos, que surgiram originalmente no dom´ınio de reconhecimento da fala, atual-mente têm sido empregados como modelos de computação natural – the so-called brain’s programs [2], em trabalhos sobre visão computacional [4] e reconhecimento de manuscri-tos, de formas, gestos e expressões faciais, em biologia computacional, entre outros (veja emhttp://www-sig.enst.fr/_∼cappe).

Este tutorial é fruto dos estudos sobre os modelos de Markov, visando a sua aplicação em processos de tomada de decisão, que está sendo desenvolvido junto ao Me-strado em Saúde Mental e Comportamento da UCPel.

2. Modelos de Markov

Uma modelo de Markov é um sistema de transições de estados, onde a probabilidade do sistema estar em um certo estado futuro depende apenas do estado corrente do sistema. Esta seção resume os principais conceitos básicos e propriedades desses modelos. As provas das proposições e teoremas podem ser encontradas em [17, 19].

2.1. Cadeias de Markov

Um modelo de Markov onde o espaço de estados I é discreto é denominado de Cadeia de

Markov e é completamente descrito por sua matriz de transição de estados. Esta matriz

é dinâmica, pois permite que as probabilidades de transição se modifiquem em função do

tempo t, onde t ´e discreto.

Considere uma cadeia de Markov com N estados xn ∈ I e sejam xi, xj ∈ I.

Denota-se xi(t) para significar que o processo est´a no estado xi no tempo t.

Definição 1 Se pij é a probabilidade de transição do estado xi(t) para o estado xj(t+1), então a matriz N × N , dada por

P = [pij],

denomina-se matriz de transic¸˜ao de estados da cadeia de Markov.

Observa-se que, na Definic¸˜ao 1, a soma das linhas da matriz P deve ser sempre igual a 1.

A matriz de transição também pode ser dada por um diagrama de transições de

estados. A Figura 1 mostra o diagrama de transic¸˜oes de estados para uma cadeia de

Markov com apenas 2 estados.

Proposição 1 Para t arbitrário, tem-se que:

(i) A probabilidade de transição do estado xi(t) para o estado xj(t + n) (em n passos) é dada por pn

i,j;

(ii) A matriz de transição de n passos, denotada por Pn, é calculada como a potência n da matriz de transição P , isto é,

(3)

x

₀

x

1 p11

p₀₀

p

₀₁

p

₁₀

Figura 1: Diagrama da matriz de transic¸ ˜oes de estados de uma cadeia de Markov de dois estados.

Para simular um processo de Markov, considerando um estado inicial x0, pode-se

escolher um estado sucessor de acordo com as probabibilidades p0j, para j = 1, . . . , N ,

determinando um novo estado x1. Repite-se o processo para gerar o pr´oximo estado, e

assim sucessivamente. Devido à natureza probabil´ıstica do modelo, cada ves que esta simulação for repetida, é provável que uma sequência diferente de estados seja obtida como resultado. Portanto, a única forma de analisar o proceso é manter o registro das probabilidades de estar em um estado.

Definição 2 Seja Si(t) a probabilidade de que um processo de Markov esteja em um estado xino tempo t. Então o vetor

s(t) =      S1(t) S2(t) .. . SN(t)     

é denominado de vetor de distribuição de probabilidades de estado da cadeia de Markov no tempo t.

Seja sT_{(0) a distribuição inicial do processo}1_{. A evolução do vetor de distribuição} é governada pela matriz de transição em t passos.

Proposic¸˜ao 2 Para qualquer tempo t, tem-se que

sT(t) = sT(0)Pt,

onde Pt ´e calculada como em ?? e sT _{´e o vetor transposto de s.} 2.2. Cadeias Regulares

Considerando que o vetor de distribuição evolui no tempo, observa-se que há cir-cunstâncias em que ocorre uma distribuição de probabilidade de equil´ıbrio v tal que

lim

t→∞s(t) = v,

independentemente da distribuic¸˜ao inicial s(0). Isto ocorre em processos de Markov de-nominados de regulares.

(4)

Definição 3 Diz-se que um modelo de Markov é regular se sua matriz de transição inicial

P é regular, isto é, alguma potência de P contém somente entradas positivas.

Segue da Definição 3 que um processo de Markov é regular se, para algum t, tem-se que Pt > 0. Isto significa que, em uma cadeia de Markov regular, todo estado é acess´ıvel a partir de outro, existindo um caminho de comprimento finito entre quaiquer dois estados, possibilitando a comunicação entre todos os estados.

Seja wT = [w1, w2, . . . , wN] um vetor de comprimento N . Diz-se que w ´e um vetor probabi´ıstico se w1, w2, . . . , wN ≥ 0 e w1+ w2+ . . . + wN = 1.

Teorema 1 Se um processo de Markov é regular, então exite único vetor probabil´ıstico

v, denominado de distribuic¸˜ao de equil´ıbrio, tal que:

(i) vT_{P = v}T_;

(ii) limt→∞Pt= P∗, onde P∗ ´e formada por t linhas iguais a vT. 2.3. Cadeias N˜ao-Regulares

Existem processos que podem apresentar estados que não acess´ıveis a partir de algum outro estado, isto é, a probabilidade de transição para tais estados é igual a zero. Além disso, um estado de um processo de Markov finito poderá eventualemnte atingir um estado de comunicação fechada, absorvente, cuja probabilidade é igual a 1.

Um estado xi de uma cadeia de Markov ´e denominado de estado absorvente se,

uma vez nesse estado, ´e imposs´ıvel sair dele, isto ´e, pii = 1. Segue que pij = 0, para

i 6= j.

Definição 4 Diz-se que uma cadeia de Markov é absorvente se ela apresenta um estado absorvente e se de cada estado não absorvente é poss´ıvel ir para algum estado absor-vente em algum tempo t, isto é, para cada estado não absorabsor-vente xi(t), existe um estado absorvente xj(t + 1) tal que pij > 0, para algum t.

Observa-se que, e uma cadeia de Markov absorvente, o estado do sistema ser´a eventualemente um dos estados absorventes.

Dada uma cadeia de Markov com k estados absorventes, é poss´ıvel redistribuir as linhas da matriz de transição P , de modo que os estados absorventes fiquem nas k primeiras linhas. Com isso, um processo de Markon não regular pode ser sempre re-organizado em quatro submatrizes.

Definição 5 Seja P a matriz de transição de uma cadeia de Markov com k estados ab-sorventes. Então:

(i) A matriz canˆonica da cadeia ´e dada por:

P∗ =

Ik θ

Px→a Px→x

(ii) A matriz fundamental ´e obtida por:

(5)

(iii) A matriz de probabilidade de absorção é calculada como o produto:

A = F Px→a

onde Ik ´e uma matriz diagonal unit´aria k × k que representa os k estados absorventes,

θ é uma matriz nula, Ps→a representa as probabilidades de transição de qualquer estado para todos os estados absorventes, Ps→srepresenta as probabilidades de transição entre todos os estados não absorventes, e aij é a probabilidade de que o sistema venha a estar no estado absorvente xj(t), para algum tempo t, dado que esteja inicialmente no estado não absorvente xi.

2.4. Aplicações de Cadeias Regulares à Genética

Nesta seção introduz-se uma aplicação trivial das cadeias de Markov em problemas de Genética, através de um exemplo extra´ıdo de [19].

Certas caracter´ısticas das plantas e dos animais são determinadas por um par de genes, cada um dos quais podendo ser de dois tipos, denotados porAe a. Existem três genótipos poss´ıveis:AA,Aaeaa(os genótiposAaeaAsão idênticos).

Em alguns casos esses três genótipos resultam em três caracter´ısticas distintas e em outros o AA e o Aa exibem uma mesma forma observável. Nesta última situação, diz-se que o geneAdomina o genea.

O indiv´ıduo chama-se dominante se tem o genótipo AA, heterozigoto se tem genótipoAae recessivo se tem o genótipoaa. Por conveniência, denota-se um indiv´ıduo

AApor D, umAapor H e umaapor R.

No caso de cruzamento, o filho herda um gene de cada um dos pais. Admita-se que as probabilidades dos gen´otipos dos filhos de acordo com os dos pais sejam as dadas nas Tabelas 1, 2 e 3, a seguir.

Tabela 1: Probabilidades dos gen ´otipos do filho de dois indiv´ıduosH

D (AA) H (Aa) R (aa)

0.25 0.50 0.25

Tabela 2: Probabilidades dos gen ´otipos do filho de um indiv´ıduoH com outroD

0.50 0.50 0.00

Tabela 3: Probabilidades dos gen ´otipos do filho de um indiv´ıduoH com outroR

0.00 0.50 0.50

(6)

Exemplo 1 Suponha que no tempo 0, um indiv´ıduo é acasalado com outro, sendo este do tipo H. No tempo 1, o produto do acasalamento é novamente acasalado com um indiv´ıduo H. O processo repete-se então da mesma maneira. Considera-se como estado do sistema no tempo t o genótipo do t-ésimo filho. Tem-se como resultado uma cadeia de Markov com três estados (D, H, R), cuja matriz de transição é dada por:

P =   0.5 0.5 0 0.25 0.5 0.25 0 0.5 0.5  ,

sendo a matriz de transição de 2 passos calculada como (com precisão igual a 2 no Maple): P2 =   0.38 0.50 0.13 0.25 0.50 0.25 0.13 0.50 0.38  . (1)

Observa-se que, em 1, devido a erros de arredondamento, tem-se queP3

j=1p1j 6=

1.

Pela observação da matriz de transição de dois passos P2 dada em 1, que apre-senta todas as entradas positivas, conclui-se que esta matriz aproxima uma matriz real regular que tem uma distribuição de equil´ıbrio v aproximada pelo vetor probabil´ıstico

V = [v1, v2, v3], tal que V P ≡ V . O sistema correpondente ´e:

5v1+ 0.25v2 = v1

5v1+ 5v2+ 5v3 = v2

0.25v2+ 0.5v3 = v3

v1+ v2+ v3 = 1

A solução do sistema resulta na distribuição real de equil´ıbrio v = [.25, .5, .25]. 2.5. Aplicações de Cadeias Absorventes na Aprendizagem por Pares Associados

Nesta seção apresenta-se o clássico modelo de Bower [3] de aprendizagem por pares as-sociados. Neste modelo, uma lista de est´ımulos é apresentada a um paciente em ordem aleatória. Os est´ımulos podem ser palavras, números, s´ılabas sem nexo, figuras ou ´ıtens similares. A cada est´ımulo corresponde uma resposta correta que se supões que o paciente aprenda. Antes que a experiência comece realmente, o paciente pode ser informado de algum modo sobre o conjunto das respostas ou pode tomar cinhecimento delas gradula-mente no decorrer da experiência.

(7)

uma resposta incorreta. Depois de apresentada toda a lista de est´ımulos, ela é novamente apresentada, porém em ordem aleatória diferente da anterior.

Na situação experimental modelada por Bower os est´ımulos consistiam em 10 pares de consoantes, enquanto as respostas eram os números 1 e 2. A cada par de con-soantes atribu´ıa-se aleatoriamente um desses números como resposta, antes do in´ıcio da experiência. Os est´ımulos eram apresentados e pedia-se que o paciente para responder 1 ou 2. Após dar sua resposta, o paciente era informado da resposta correta ao est´ımulo apresentado. Depois de exibidos os 10 pares de consoantes (constituindo um ensaio) os 10 cartões com est´ımulos eram baralhados e novamente apresentados ao paciente. Esse processo era repetido até que o paciente coseguisse passar sem erros pela lista de est´ımulos, por duas vezes consecutivas. Ao acontecer isso, considerava-se que o paciente tinha aprendido as respostas corretas.

Para analisar esse tipo de experiˆencia utilizando cadeias de Markov, considera-se os seguintes axiomas:

1. Cada par est´ımulo-resposta encontra-se em um estado dentre dois poss´ıveis, em qualquer ensaio n: condicionado (C(n)) ou palpite (P (n)). O estado de

condi-cionamento do par est´ımulo-resposta corresponde ao paciente ter aprendido o par.

Caso contr´ario, o paciente estar´a simplesmente adivinhando.

2. Em qualquer ensaio n, a probabilidade de transição de P (n) para C(n + 1) é uma constante c(0 ≤ c ≤ 1); segue que a probabilidade de uma transição de P (n) para P (n + 1) é 1 − c.

3. Em qualquer ensaio n, a probabilidade de transição de C(n) para C(n + 1) é 1; segue que a probabilidade de uma transição de C(n) para P (n + 1) é 0.

4. Se estiver em P (n), em qualquer ensaio n, a probabilidade de sucesso S(n) (res-posta correta ao est´ımulo) é 1/N , onde N ó número total de res(res-postas poss´ıveis. 5. Cada ´ıtem está no estado não condicionado (palpite) no ensaio inicial.

Numa primeira modelagem, considere uma cadeia de Markov com dois estados: condicionado (1) e palpite (2). De acordo com o axioma 5, a distribuição inicial é então:

sT = 0.00 1.00 .

Pelos axiomas 2 e 5, a matriz de transic¸ao inicial da cadeia de Markov ´e:

P = 1.00 0.00 c 1 − c

. (2)

Fazendo c = 0.30 na equac¸˜ao 2, tem-se:

P = 1.00 0.00 0.30 0.70

.

Calcula-se algumas potˆencias da matriz P (com precis˜ao igual a 2):

(8)

Calcula-se a distribuic¸˜ao da cadeia de Markov nos diversos ensaios realizados: s(1) = s(0)P1 = 0.30 0.70 , s(5) = s(0)P5 = 0.83 0.17 ,

s(10) = s(0)P10 = 0.97 0.028 , s(15) = s(0)P15= 1.00 0.0047 , . . . .

Observa-se que os resultados obtidos indicam, por exemplo, que no tempo 10 (ou seja, logo após o décimo ensaio), há uma probabilidade de aproximadamente 97% de um paciente sob teste estar no estado condicionado. Já no tempo 15 há uma probabilidade virtual (pois o valor 1 está sujeito há erros de arredondamento) de 100% de um paciente estar no estado condicionado.

Refina-se agora o modelo, considerando-o como uma cadeia de Markov com três estados: condicionado (1), palpite errado (2) e palpite certo (3). Para determinar a matriz de transição da cadeia de Markov correpondente utiliza-se o axioma 4, juntamente com os outros axiomas. Assim, tem-se que p11 = 1, p12= 0, p13= 0, p21 = c, p31= c.

Para calcular p23, sejam Gn+1 o evento “o paciente tenta adivinhar no ensaio n +

1”, Sn+1 o evento “o paciente responde corretamente no ensaio n + 1” e Tno evento “o

paciente faz um palpite errado no ensaio n”. Se P r(x) denota a probabilidade de x e P r(x|y) denota a probabilidade condicional de x dado que y tenha ocorrido, tem-se que:

p23= P r(Sn+1∩ Gn+1|Tn) = P r(Sn+1|Gn+1∩ Tn)P r(Gn+1|Tn). (3)

Pelo axioma 2, tem-se que P r(Gn+1|Tn) = 1 − c, e, pelo axioma 4, ´e v´alido

que P r(Sn+1|Gn+1 ∩ Tn) = 1/N , onde N ´e o n´umero total de respostas poss´ıveis. Da

equac¸˜ao 3, segue que:

p23=

1

N(1 − c) .

De forma an´aloga, conclui-se que:

p22= (1 − 1 N)(1 − c), p32 = (1 − 1 N)(1 − c), p33= 1 N(1 − c). Assim, a matriz de transição dessa cadeia de Markov é

P =   1.00 0.00 0.00 c (1 −_N1)(1 − c) _N1(1 − c) c (1 −_N1)(1 − c) _N1(1 − c)  , (4)

(9)

Os axiomas 4 e 5 implicam que a distribuição inicial dessa cadeia é:

s(0) = 0.00 1 −_N1 _N1 .

Sejam c = 0.30 e N = 4. Então a equação 4 torna-se (com precisão igual a 3):

P =   1.000 0.000 0.000 0.30 0.525 0.175 0.30 0.525 0.175  

e a distribuição inicial é s(0) = 0.000 0.750 0.250 .

Calcula-se a distribuição da cadeia em vários tempos, obtendo-se, por exemplo:

s(2) = 0.510 0.368 0.123 , s(15) 0.995 0.356 0.119.10−2 ,

s(30) = 1.000 0.169.10−4 0.563.10−5 , . . .

Observa-se que, no trigésimo ensaio, é virtualmente certo que (a incerteza é devido aos erros de arredondamento) que o paciente esteja no estado condicionado.

Uma importante questão é saber qual o número de vezes em que o paciente se encontra no estado 2, ou seja, o número de respostas incorretas dadas pelo paciente ao par estimulo-resposta em questão. Em [19] há a prova de que o número de vezes que o paciente se encontra nos estados 2 ou 3 é finito, isto é, eventualmente ele estará no estado condicionado.

Observe que a matriz canˆonica dessa cadeia de Markov ´e:

P∗ =   1.000 0.000 0.000 0.300 0.525 0.175 0.300 0.525 0.175   onde Px→x = 0.525 0.175 0.525 0.175 , Px→a= 0.300 0.300 .

O número médios esperado de vezes em que o paciente se encontra no estado 2 ou 3 é dado por

(10)

Tem-se que I − Px→x = 1.000 0.000 0.000 1.000 0.525 0.175 0.525 0.175 = 0.475 −0.175 −0.525 0.825 , e, portanto, F = [I − Px→x]−1 = 2.750 0.583 1.750 1.583 .

Consequentemente, tem-se que

0.750 0.250 F = 2.500 0.833 ,

o que significa que, por exemplo, o número esperado de respostas incorretas dadas pelo paciente ao ´ıtem em questão é 2.5. Além disso, tem-se que a matriz de probabilidade de absorção é dada por:

A = F Px→a =

1.000 1.000

,

significando que, desconsiderando os erros de arredondamento, h´a 100% de probabilidade de que o paciente venha a estar no estado condicionado eventualmente.

3. Modelos de Markov Ocultos

Em alguns casos existe a possibilidade de que se tenha uma descrição incompleta do ambiente em que ocorre um processo Markoviano, onde o espaço de estados é des-conhecido. Nestes casos, é poss´ıvel definir um modelo de Markov considerando uma aproximação desse espaço. Modelos deste tipo são denominados Modelos de Markov

Ocultos (HMM) [15]. Esta seção apresenta uma discussão sobre esses modelos, 3.1. Conceitos Básicos

Definição 6 Um Modelos de Markov Ocultos (HMM) é uma tripla M = (s, P, B), onde consideram-se:

(i) Um conjunto espec´ıfico Okde observações do tipo k que resultam de um experimento; (ii) Um conjunto X de estados xi, onde em cada estado xi é poss´ıvel realizar uma

observac¸˜ao bi(k), com i = 1, . . . , N e k ∈ Ok;

(iii) Uma distribuic¸˜ao de probabilidade para o estado inicial dada pelo vetor s = [si],

onde si = P r(xi(0));

(iv) Uma distribuição de probabilidade para as transições de estados dada pela matriz

P = [pij], onde pij = P r(xj(t + 1)|xi(t));

(11)

p₂₂ x1 x2 p₁₁ _p 12 p₂₁ b₁(m) b₁(n) _b 2(n) b2(m) x_end p2-end xbegin pbegin-1

Figura 2: Diagrama de transiç ões de estados de um modelo de Markov oculto de dois estados n ão terminais, onde h á a probabilidade de emiss ão de dois s´ımbolos (m e n).

Pode-se pensar nesse tipo de modelo como um autômato finito (não deter-min´ıstico) com sa´ıda [9], cujas transiçoes são vazias e probabil´ısticas, sendo que, em cada estado poderá haver a emissão de s´ımbolos (´ıtens observáveis) segundo uma certa probabilidade.

Exemplo 2 Os modelos ocultos podem ser representados como diagramas de esta-dos, como, por exemplo, o modelo oculto com conjunto de estados X = {xbegin, x1,

x2, xend} da Figura 2, onde somente os estados n˜ao terminais x1e x2emitem os simbolos (´ıtens observ´aveis) m e n.

Simulando um experimento, a partir do estado x1 ´e poss´ıvel ir para o outro estado

x2ou não, de acordo com as probabilidades de transição p12ou P11, respectivamente. O mesmo acontece no estado x2. Segue-se assim sucessivamente, até atingir o estado final. Em cada estado não terminal observa-se a emissão do s´ımbolo m ou m, de acordo com as probabilidades de emissão do s´ımbolo m ou n no estado x1 (b1(m), b1(n)) e no estado x2(b2(m), b2(n)).

Como resultado, obtém-se uma seqüencia oculta (que não é observada) de estados percorridos e um seqüência de s´ımbolos (que é observada). Uma seqüência de s´ımbolos que pode ser observada, por exemplo, é O = m, n, m; uma seqüência poss´ıvel de estados ocultos é I = xbegin, x1, x1, x2, xend. A probabilidade do modelo percorrer os estado de

I para produzir a seqüência de observações O é dada por:

P r(O, I|M ) = pbegin−1· b1(m) · p11· b1(n) · p12· b2(m) · p2−end.

Assim, dada uma seqüência de observações, não se conhece a seqüência de esta-dos pela qual passa o modelo, mas somente uma função probabil´ıstica deste caminho. Exemplo 3 Um exemplo extraido de [2] consiste no modelo das urnas. Suponha que exitem N urnas contendo L bolas coloridas (preto, branco e cinza). Uma pessoa inicia por uma das urnas, retira uma bola e observa a sua cor, recoloca-a na urna, e vai para outra urna ou permanece na mesma urna, com uma certa probabilidade, e toma outra bola, e assim sucessivamente. O processo termina após W seqüencias de passos deste tipo.

Considere uma configurac¸˜ao espec´ıfica de N = 2 urnas e um tempo de

(12)

Estado 1 Estado 2 .7 .3 t = 1 t = 2 t = 3 .8 .2 .1 .9

Figura 3: Esquema do experimento com o modelo de urna com 2 estados em 3 fases de tempo.

s = 0.7 0.3

.

A matriz B define as probabilidades das poss´ıveis observac¸˜oes para cada estado:

B = b1(Branco) b1(P reto) b1(Cinza) b2(Branco) b2(P reto) b2(Cinza)

= 0.1 0.4 0.5 0.6 0.2 0.2

.

A matriz das probabilidades de transição de estado é dada por:

P = 0.8 0.2 0.1 0.9

.

A Figura 3 mostra um esquema do experimento. O modelo está representado na Figura 4. O algoritmo dado na Tabela 4 é utilizado para gerar as seqüências de observações. Salienta-se que a seqüência mais provável é O = {Cinza, Cinza, Cinza}. Isto ocorre porque o estado inicial mais provável é o Estado 1 (urna 1), Cinza é a cor mais provável de ser observada no Estado 1, e, a partir do Estado 1, o estado mais provável é ainda o Estado 1. A probabilidade de ocorrer esta seqüência dada a seqüência

I = {Estado1, Estado1, Estado1} de estados ´e calculada ent˜ao como:

P r(O, I|M ) = s1· b1(cinza) · p11· b1(cinza) · p11· b2(cinza) = 0.056.

Exemplo 4 Considere um jogo de cara de cara (h) ou coroa (t) no qual sabe-se que o lanc¸ador pode utilizar duas moedas, uma normal e uma viciada. A moeda normal ofe-rece probabilidade de 50% tanto para cara como para coroa, enquanto a moeda viciada oferece 75% de chance para cara e apenas 25% para coroa.

Sabe-se também o lançador pode iniciar o processo escolhendo qualquer uma das moedas com igual probabilidade, entretanto, uma vez tendo utilizado uma das moedas (normal ou viciada) a probabilidade de que o lançador a troque por outra é de apenas

(13)

.1

.7

.3

.8 .2 .9 branco = .1 preto = .4 cinza = .5 branco = .1 preto = .4 cinza = .5 Estado 1 Estado 2

Figura 4: Modelo de urna com 2 estados.

Tabela 4: Algoritmo gerador de seq ü ências de observaç ões.

t = 1

Escolha um estado inicial utilizando s Enquanto t <= W :

Escolha uma observac¸˜ao O utilizando B

Escolha um novo estado utilizando P t = t + 1

O modelo está representado na Figura 5. Tem-se então o conjunto de observações

O = {h, t}, o conjunto de estados X = {N = normal, V = viciada}, a matriz B das

poss´ıveis observac¸˜oes para cada estado:

B = bN(h) = 0.50 bN(t) = 0.50 bV(h) = 0.75 bV(t) = 0.25 a matriz de transição: P = 0.8 0.2 0.2 0.8 e a distribuição inicial: s = 0.5 0.5 .

Observe que, neste caso, é mais dif´ıcil descobrir qual a seqüência mais provável observada em um dado experimento. Considere então uma dada seqüência de observações O = {h, h, t, t}. Em princ´ıpio não sabe-se a seqüência de estados que a ge-rou. Entretanto, considerando uma dada seqüência de estados (por exemplo, a seqüência

I = {N, N, V, N }), é poss´ıvel estimar qual a probabilidade da seqüência O ter sido

gerada pelo modelo a partir desse caminho de estados:

(14)

N = .5 b_N(h) = .5 b_N(t) = .5 .8 V = .5 .2 0.2 b_V(h) = .25 b_V(h) = .75 .8

Figura 5: Modelo das moedas.

3.2. A Probabilidade de uma Seq üência de Observações

Uma discussão interessante, que pode ser feita a partir da análise dos exemplos 2, 3 e 4, é o problema relacionado à descoberta da probabilidade de que uma dada seqüência de observações O tenha sido gerada por M . Para calcular a probabilidade de que tal seqüência venha a ser observada, deve-se considerar a soma das probabilidades da geração dessa seqüência sobre todos os poss´ıveis caminhos que a geram. Assim, seja I = x1, x2, . . . , xW uma seqüência particular de estados poss´ıvel em W passos e

consi-dere a expans˜ao de P r(O|M ) em todos os estados, dada por:

P r(O|M ) =X

∀I

P r(O, I|M ). (5)

Para qualquer seqüência individual de estados, pode-se usar a regra de Bayes na equação 5, obtendo:

P r(O, I|M ) = P r(O|I, M )P r(I, M ). (6) O primeiro termo do lado direito da equação 6, P r(O|I, M ), é a probabilidade de se ver uma dada seqüência de observações, considerando um dado conjunto de estados. Para os estados conhecidos, considerando Ok, o cálculo é realizado como:

P r(O|I, M ) =Y

j∈I

bj(k).

O segundo termo do lado direito da equação 6 é dado pelo produto da probabili-dade de iniciar no estado x1 e passar pelos estados x2, . . . , xW:

P r(I|M ) = s1p12p23. . . p(W −1)W.

Assim, a equac¸˜ao 5 pode ser escrita como:

P r(O, I|M ) = s1b1(k) W −1

Y

i=1

(15)

Tabela 5: Algoritmo para computarP r(O|M ).

Vers˜ao Iterativa Vers˜ao Recursiva

α1 = [sibi(1)] Definaα(W ): Paratem{1, . . . , W − 1}: seW == 1: αt+1 _{= P · [α}t ibi(t + 1)] [sibi(1)] P r(O|M ) =PN i=1α W i sen˜ao: P · [αW −1_i bi(W )] P r(O|M ) =PN i=1α W i

Considerando um modelo onde se tem os estados disting¨u´ıveis xbegine xend(como

o modelo da Figura 2), então a equação 7, para W +2 passos, onde a sqüência é observada nos estados não terminais, torna-se:

P r(O, I|M ) = pbegin−1 W

Y

i=1

bi(k)pi(i+1),

onde xW +1 = xend.

Uma cr´ıtica grave a esta formulação é que o custo computacional do somatório da equação 5 é muito alto (da ordem NW). Entretanto, é poss´ıvel usar resultados parciais, que são acumulados em um vetor αt_{, conforme descrito no procedimento “forward” do}

algoritmo da Tabela 5.

Exemplo 5 Considere o modelo das urnas apresentado no Exemplo 3. Define-se αt i como a probabilidade de acontecer a observação Otno estado xi. Então, se

s = 0.7 0.3 e B(Cinza) = 0.5 0.2 ,

tem-se que o vetor inicial α1 ´e dado por:

(16)

e α3 = P [α_i2bi(3)] = 0.8 0.2 0.1 0.9 α2 1b1(Cinza) α2 2b2(Cinza) = 0.8 0.2 0.1 0.9 .0712 .00566 = .0581 .0122 .

Finalmente, a probabilidade de ver a seqüência Cinza,Cinza,Cinza é dada por:

P r(O|M ) = N X i=1 αW_i = 2 X i=1 α3_i = 0.0703.

Exemplo 6 Considere o modelo das moedas apresentado no Exemplo 4. Define-se αt_i como a probabilidade de acontecer a observação Otno estado xi. Então, se

s = 0.5 0.5 e B(h) = 0.5 0.75 ,

tem-se que o vetor inicial α1 ´e dado por:

(17)

α4 = P [α3_ibi(4)] = 0.8 0.2 0.2 0.8 α3 1b1(t) α3 2b2(t) = 0.8 0.2 0.2 0.8 .0375 .0164 = .0333 .0206 .

Finalmente, a probabilidade de ver a seqüência h,h,t,t é dada por:

P r(O|M ) = N X i=1 αW_i = 2 X i=1 α4_i = 0.0539.

3.3. Caminho Gerador ´Otimo

Outra questão fundamental é, dada um seqüência de observações O, descobrir a seqüência de estados I mais provável, que seja capaz de gerar O. Um critério simples para tratar este problema é considerar a seqüência que torna cada um dos estados o mais provável2_.

Observa-se que, de forma análoga ao procedimento dado no algoritmo da Tabela 5, é poss´ıvel definir um procedimento “backward”, através de um vetor β(t) que registra a probabilidade de alcançar um dos estados finais, dado um determinado estado corrente. Este vetor β(t) pode ser utilizado para definir um algoritmo para prever a probabilidade de seqüências de estados de forma análoga ao algoritmo da Tabela 5.

Seja γt

i a probabilidade de terminar no estado xi no tempo t, dada a seq¨uˆencia de

observac¸˜oes O, calculada como:

γ_it= P r(xi(t) = si|O, M ). (8)

Em 8, pode-se utilizar os vetores α(t) e β(t) para expressar γt

i, obtendo:

γt=

[αt iβit]

P r(O|M ), (9)

onde P r(O|M ) é um fator de normalização tal quePN

i=1γit= 1.

Dado γt, os estados mais prov´aveis s˜ao expressados pelos seus ´ındices, como:

indext= ´ındice do max1≤i≤N{γit}.

Para computar a equação 9, pode-se utilizar o algoritmo de Viterbi, onde, para registrar os estados mais prováveis, define-se um vetor r(t), como mostra o algoritmo dado na Tabela 6.

2_{Pode acontecer que n˜ao exista um caminho entre estados sucessores, mas isto geralmente n˜ao ocorre}

(18)

Tabela 6: Algoritmo para computar o caminho gerador ´otimo.

Ves˜ao Iterativa Vers˜ao Recursiva

γ1 = [sibi(1)] Definar(W):

r(1) = [index1_] _Se_{W == 1:}

Paratem{1, . . . , W − 1}: γ1 _{= [s} ibi(1)]

γt+1= P · [γ_itbi(t + 1)] r(1) = [index1]

r(t + 1) =anexe(indext+1_{, r(t))} _Sen˜ao:

γW = P · [γ_iW −1bi(W )]

r(W ) =anexe(indexW_{, r(W − 1))}

Exemplo 7 Considerando o modelo das urnas trabalhado nos Exemplos 3 e 5, dada a seqüência de observações O = {Cinza, Cinza, Cinza}, pode-se calcular a seqüência de estados mais provável para produz´ı-la. Primeiramente, calcula-se:

γ1 = [sibi(1)] = s1b1(Cinza) s2b2(Cinza) = .35 .06 ,

onde max1≤i≤N{γi1} = .35, logo index1 = 1(x1(1)), e, portanto,

r(1) = [index1] = 1(x1(1)) .... .... . Calcula-se sucessivamente: γ2 = P [γ_i1bi(2)] = .8 .2 .1 .9 γ1 1b1(Cinza) γ1 2b2(Cinza) = .8 .2 .1 .9 .175 .012 = .142 .0283 , onde max1≤i≤N{γ2

i} = .142, logo index2 = 1(x1(2)), e, portanto,

r(2) = 1(x1(1)) 1(x1(2)) .... ;

(19)

= .8 .2 .1 .9 γ2 1b1(Cinza) γ₂2b2(Cinza) = .8 .2 .1 .9 .0712 .00566 = 0.0581 0.0122 , onde max1≤i≤N{γ3 i} = .0581, index3 = 1(x1(3)), e, portanto, r(3) = 1(x1(1)) 1(x1(2)) 1(x1(3)) .

Logo o caminho gerador ótimo da sequência cinza,cinza,cinza é x1, x1, x1, como era esperado.

Exemplo 8 Considerando o modelo das moedas trabalhado nos Exemplos 4 e 6, dada a seqüência de observações O = {h, h, t, t}, pode-se calcular a seqüência de estados mais provável para produz´ı-la. Primeiramente, calcula-se:

γ1 = [sibi(1)] = s₁b1(h) s2b2(h) = .25 .675 ,

onde max1≤i≤2{γi1} = .675, logo index1 = 2(x2(1)), e, portanto,

r(1) = [index1] = 2(x2(1)) .... .... . Calcula-se sucessivamente: γ2 = P [γ_i1bi(2)] = .8 .2 .2 .8 γ1 1b1(h) γ1 2b2(h) = .8 .2 .2 .8 .125 .281 = .156 .250 ,

onde max1≤i≤2{γi2} = .250, logo index2 = 2(x2(2)), e, portanto,

r(2) = 2(x2(1)) 2(x2(2)) .... ;

(20)

= .8 .2 .2 .8 γ2 1b1(t) γ₂2b2(t) = .8 .2 .2 .8 .0781 .0625 = 0.0750 0.0656 ,

onde max1≤i≤2{γi3} = .075, index3 = 1(x1(3)), e, portanto,

r(3) = 2(x2(1)) 2(x2(2)) 1(x1(3)) ; γ4 = P [γ_i3bi(4)] = .8 .2 .2 .8 γ3 1b1(t) γ3 2b2(t) = .8 .2 .2 .8 .0375 .0164 = 0.0333 0.0206 ,

onde max1≤i≤2{γi4} = .0333, index4 = 1(x1(4)), e, portanto,

r(4) = 2(x2(1)) 2(x2(2)) 1(x1(3)) 1(x1(4)) .

Logo o caminho gerador ótimo da sequência h,h,t,t é x2, x2, x1, x1. 3.4. Aperfeiçoando o Modelo

O principal problema em HMM é descobrir o melhor modelo M , o que é muito dif´ıcil e não tem solução anal´ıtica conhecida. Pode-se derivar uma aproximação que é melhor que a versão corrente. Este procedimento pode ser repetido até que nehuma melhoria possa ser verificada.

Em linhas gerais, esta estratégia iniciará com um conjunto inicial M = (s, P, B) e executar o modelo um número suficiente de vezes para estimar um novo conjunto de parâmetros M0 = (s0, P0, B0). Estas estimativas são então utilizadas como o novo modelo, e, então, o processo é repetido.

As estimativas de s e B s˜ao simples de calcular:

(21)

Tabela 7: Algoritmo de Baum-Welch.

Repita os seguintes passos at´e que os

parˆametros do modelo estejam de acordo

com a tolerˆancia considerada:

Estimarsutilizando a equac¸˜ao10

EstimarButilizando a equac¸˜ao11

EstimarP utilizando a equac¸˜ao12

Para estimar pij, calcula-se ηij como:

ηij = P r(xi(t) = si, xi(t + 1) = sj|), M ) resultando em ηij = αt ipijbj(t + 1)βjt+1 P r(O|M ) ,

de tal forma que a estimativa pode ser obtida como uma m´edia ao longo do tempo:

p0_ij = PW t=1ηij PW t=1γjt . (12)

A Tabela 7 apresenta o algoritmo de Baum-Welch para aperfeiçoamento do mo-delo pelo cálculo sucessivo de estimativas para os parâmetros.

Referˆencias

[1] J. F. F. Araújo, G. P. Dimuro, M. A. Campos, “Probabilidades Intervala-res com Aplicações no Maple”, ESIN/UCPel, Pelotas, RS, 2001. (http://gmc.ucpel.tche.br/fmc)

[2] D. H. Ballard, “An Introduction to Natural Computation”, MIT Press, Cambridge, 1997. [3] G. H. Bower, Applications of a Model to Paired-Associate Learning, “Psychometrika”,

Vol. 26, pp. 225-2380, 1961,

[4] H. Bunke, T. Caelli (Eds), “Hidden Markov Models Applied in Computer Vision”, in Ma-chine Perception and Artificial Intelligence, Vol. 45, World Scientific, N. J., 2001. [5] M. A. Campos, “Uma Extens˜ao Intervalar para a Probabilidade Real”, Tese de Doutorado,

Centro de Inform´atica/UFPE, 1997.

(22)

[7] M. A. Campos, G. P. Dimuro, A. C. R. Costa, J. F. F. Araujo, A. M. Dias, “Probabilidade Intervalar e Cadeias de Markov Intervalares no Maple”, “Seleta do XXIV CNMAC” (E.X.L. de Andrade, J. M. Balthazar, S. M. Gomes, G. N. Silva, A. Sri Langa, eds.), TEMA, SBMAC, 2002.

[8] A. M. Dias, G. P. Dimuro, “Matemática Intervalar com Aplicações no Maple”, ESIN/UCPel, Pelotas, 2000. (http://gmc.ucpel.tche.br/mat-int) [9] J. Hopcroft and J. D. Ullman, “Introduction to Automata Theory, Languages and

Compu-tation”, Addison-Wesley, Reading, 1979).

[10] U. W. Kulisch, W. L. Miranker, “Computer Arithmetic in Theory and Practice”, Academic Press, New York, 1981.

[11] H. E. Kyburg, Jr., Interval-valued Probabilities,http://www.ensmain.rug.ac.be/ ipp. [12] M. B. Monagan, K. O. Geddes, K. M. Heal, G. Labahn, and S. M. Vorkoetter, “Maple V:

Program. Guide”, Springer, N. York, 1998.

[13] R. E. Moore,“Methods and Applications of Interval Analysis”, SIAM, Philadelphia, 1979. [14] A. Neumaier, “Interval Methods for Systems of Equations”, Cambridge University Press,

Cambridge, 1990.

[15] L. R. Rabiner and B. H. Juang, An Introduction to Hidden Markov Models, “IEEE ASSP Magazine”, 3(4):4-16, 1986.

[16] B. Tessem, Interval Probability Propagation, “International Journal of Approximate Rea-soning”, 7:95-120, 1992.

[17] K. S. Trivedi, “Probability and Statistics with Reliability, Queuing, and Computer Science Applications”, Prentice-Hall, Englewood Cliffs, NJ, 2000.

[18] K. Weichselberger, Axiomatic foundations of the theory of interval-probability, “Sympo-sia Gaus“Sympo-siana”, Conference B: Statistical Sciences, pp. 47-64, Munich, Germany, August 2-7, 1993.

[19] W. Yoselogff, “Finite Mathematics”, Worth Publishing, New York, 1975.