Desenvolvimento de uma interface humano-robô utilizando visão computacional e sistemas a eventos discretos

(1)

DESENVOLVIMENTO DE UMA INTERFACE

HUMANO-ROBÔ UTILIZANDO VISO

COMPUTACIONAL E SISTEMAS A EVENTOS

DISCRETOS

(2)

Instituto de Ciênias Exatas

Programa de Pós-Graduação em Ciênia da Computação

DESENVOLVIMENTO DE UMA INTERFACE

HUMANO-ROBÔ UTILIZANDO VISO

COMPUTACIONAL E SISTEMAS A EVENTOS

DISCRETOS

Dissertação apresentada ao Curso de

Pós-Graduação em Ciênia da Computação da

Universidade Federal de MinasGerais omo

requisito parialparaaobtenção dograude

Mestre emCiênia da Computação.

RAONI MAÍRA RESENDE

(3)

Este trabalho apresenta umanova abordagem para o desenvolvimento de interfaes

vi-suaishumano-rob baseadas em visãoomputaional. Ométodo proposto sebaseia na

utilização de uma linguagem omposta por gestos simples, onde um gesto isolado não

possui qualquer signiado, mas uma palavra, omposta por uma seqüênia de gestos

realizados na ordem orreta, gera umaresposta. Dessamaneira, pode serdenida uma

gramátia e assoiada uma ação do rob a ada uma dessas palavras, permitindo ao

operadorhumanoomandar o robde maneiraintuitiva.

Considerando apenas gestos simples, o sistema de visão omputaional privilegia a

robustez sebaseando emténias qualitativas, menos preisas porém mais robustas. A

saída do sistemade visão omputaionalé proessada por um sistemaa eventos

disre-tos estoástio que deteta a exeução de omandos. O reonheimento é realizado de

maneiraontínua, sendoo iníioe o mdeada gesto identiados impliitamente pelo

modelo. Foram utilizados doistiposde sistemasa eventosdisretos: adeiasde Markov

e Modelos Oultos de Markov (MOMs,do inglês, Hidden Markov Models). Para ambos

ostiposfoidesenvolvidaumametodologia para a onstruçãoautomátia do modelo.

Ostestesrealizadosomprovamaeáiadométodomesmoemambientesomplexos

eomoexeutordosgestossemovendo. Foiomprovadaarobustezdométodoeabaixa

inidênia defalsospositivos,prinipalmente para osMOMs. A utilização de MOMsno

ontextopropostoapresentou desempenho superiorao dasadeiasde Markov. Também

foiidentiada aimportâniadaesolhaorretadosomandos dagramátia,para evitar

umadeterioração signiativa dataxade reonheimento àmedida queaquantidade de

(4)

Thisworkpresentsaomputervisionhuman-robotinterfaebasedongesturereognition.

A grammaromposed ofstrings ofsimple gesturesis dened sothatan isolatedgesture

hasnomeaning to the system, andonly asequene ofgestures performedintheorret

order, aording to the grammar, will issue a ommand to the robot. Eah of these

words, made of gestures, an be assoiated to a ommand, whih will be issued to the

roboteverytimeit'sreognized. Through theuseofthis interfae, ahumanoperator an

ontrol arobot ina natural andintuitive way.

Sine only simple gestures are onsidered, the omputer vision system is based on

qualitative tehniques that exhibits robustness properties. The output of theomputer

vision systemispassed on to a stohastidisrete event systemwhih is responsible for

theommands reognition. Continuousgesture reognition is performed and themodel

impliitly identies the beginning and the end of eah gesture. Two types of disrete

event systemswereemployed: Markovhainsand Hidden MarkovModels(HMM). The

models werebuilt automatially for both ofthese types.

Experimentalresultsshowsthattheproposedmethodology yieldsrobustreognition

withlowourreneoffalsepositiveseveninomplexbakgroundsandwiththeoperator

moving. The HMMs outperformed the Markov hains in the proposed methodology

ontext. The ommands must be orretly hosen to avoid serious degradation of the

(5)

Agradeço primeiramente aosmeus pais,Maria JoséMendes eHeliéser JoséResende e à

minhaavó AnaMendesFerreira, poiseles sãoosresponsáveispor todaaaminhadaaté

esse ponto.

ÀminhaesposaDaniellepeloompanheirismoeàminhalhaFernandapelaalegriae

portermeemprestadoosbrinquedosparaqueeupudesserealizardiversosexperimentos.

AgradeçoaomeuorientadorGuilhermePereirapelainndávelompreensão,

disponi-bilidadee paiênia. Ao LuizChaimowiz peloaprendizadoe orientaçãono projeto

ori-entado,essenialnessa aminhada. Ao Máriopeladisussãoiniial, responsávelpor que

eumeenveredasseporessaárea,epelosprimeirospassosnomestrado. AoCareronipor

sempreterdespendidotodaaatençãoneessária,sendotãoriteriosoquanto neessário.

Agradeço à ATAN por todo oapoioduranteosmomentos emquemaispreisei.

Agradeço tambémàsdemais pessoas queforamtão importantes na minhaformação

aadêmia, prossional e pessoal, em ordem ronológia, Renato Mesquita, Ana Liddy,

MareloSzuter,GuilhermeSalles,LeandroBarbosa,EbenezerOliveiraetodososdemais

olegasda ATAN omquem tive aoportunidade de trabalhar.

Aos olegas do VERLab, prinipalmente ao Pedro Shiroma, pela disponibilidade e

introdução ao Pioneer.

(6)

1 Introdução 1

1.1 Contribuições . . . 3

1.2 Organização da dissertação . . . 3

2 Revisão Bibliográa 4 3 Coneitos Preliminares 11 3.1 Sistemasa EventosDisretos . . . 11

3.2 Cadeias deMarkov . . . 12

3.3 ModelosOultos de Markov . . . 14

3.3.1 Motivação . . . 15

3.3.2 Denição . . . 16

3.3.3 Os três problemasbásios dosMOMs . . . 18

3.3.4 Solução parao Problema1 . . . 19

4 Metodologia 26 4.1 Sistema deVisão Computaional . . . 26

4.1.1 Pré-Proessamento . . . 27

4.1.2 Identiaçãodosblobs . . . 28

4.1.3 Identiação/Rastreamento doobjeto . . . 28

4.1.4 Cálulo do vetordesloamento . . . 29

4.1.5 Consideraçõessobre aordem deomplexidade . . . 29

4.2 Máquina de EstadosFinitos . . . 29

(7)

4.4 ModelosOultos de Markov . . . 33

4.4.1 Formulação . . . 34

4.4.2 Treinamento e Preparação . . . 35

4.4.3 Proessamento . . . 36

4.4.4 Treinamento do MOM omo Comando Completo. . . 37

4.4.5 Treinamento Independente de CadaGesto . . . 38

5 Resultados 45 5.1 AmbienteeImplementação . . . 45

5.2 Avaliação . . . 46

5.4 MOMs . . . 53

5.4.1 Treinamento . . . 53

5.4.2 Reonheimento ontínuo . . . 55

5.5 Análise rítiadosresultados . . . 57

6 Conlusões e Trabalhos Futuros 59

(8)

3.1 Exemplo de autmato om três estados onde

X

=

{

0,

1,

2 }

,

E

=

{

a, b, c

}

,

q

0

= 0

(marado pela seta)e

Xm

=

{

0,

2 }

. . . 12

3.2 CadeiadeMarkov omquatro estados(

0

a

3

). . . 13

3.3 Trêspossíveismodelos deMarkovparaoexperimentodo lançamentode uma moeda. (a)Modelode umamoeda. (b)Modelode duasmoedas. ()Modelo detrês moedas. . . 16

4.1 Diagramade bloosdo sistemautilizado.. . . 26

4.2 Sistemade Visão Computaional - diagramade bloos. . . 27

4.3 MEFquereonhee o gestodireita (d). . . 30

4.4 MEFquereonhee a seqüêniade gestosdireita (d) epara ima ().. . . 30

4.5 MEFquereonhee a seqüêniadireita (d), para ima ()e esquerda (e). . . 31

4.6 CadeiadeMarkovquereonheea seqüêniadireita,para ima,esquerda. A probabilidadedeadatransição

a

ij

éaluladaapartirdasprobabilidadesde ada gesto. . . 32

4.7 Classiação dos ângulos de desloamento em intervalos. Por exemplo, os ângulosentre

π/8

e

3π/8

orrespondemao intervalo1. . . 35

4.8 Topologia esquerdaparadireita semomissões(left right withno skips).. . . . 35

4.9 MOMdotipoesquerdaparadireitasemomissões(leftright withno skips)de doisestados. . . 38

4.10 MOM om seis estados, resultante da união dos três MOMs de dois estados treinados. . . 41

5.1 Seqüênia de gestos para ima, direita, para baixo. A trajetória perorrida peloobjetorastreado é apresentada naorbrana. . . 47

(9)

4.1 Exemplode omportamento do buer onsiderando umtamanho mínimo de

seqüênia de 4 e máximo de 6. Para ada quadro é apresentado o símbolo

identiado,oonteúdodo buer, oonjuntode seqüêniasproessadaspelo

MOMe sehouve ou não algumomando identiado nesse quadro. . . 37

4.2 Seqüênias de observações utilizadas no treinamento do MOM para o

reo-nheimento dogesto direita.. . . 39

4.3 Seqüêniasde observaçõesutilizadasno treinamento do MOM para

reonhe-imento dogesto para ima. . . 40

4.4 Seqüêniasde observaçõesutilizadasno treinamento do MOM para

reonhe-imento dogesto esquerda. . . 41

4.5 Símbolosque podemsergerados por ada estado,deaordo oma matriz

B

apóso treinamento. . . 43

4.6 Seqüênias de observações utilizadas na validação do MOM onstruído para

reonheimento doomandodireita,para ima,esquerda eprobabilidadesde

adaumaserreonheidautilizandotantoametodologiaproposta(penúltima

oluna)quanto atradiional(última oluna). Asseqüêniasquerepresentam

esseomando, eportanto deveriam serreonheidas, sãoexibidas emnegrito. 44

5.1 Conjuntosde dadosutilizados nosexperimentos. . . 47

5.2 Exemplo de probabilidades de ada gesto a partir do setor no qual o vetor

desloamento foilassiado. Probabilidadesobtidas parao onjunto

NUM-REPpormeio de inferênia bayesiana. . . 49

5.3 Taxasde reonheimento dasadeiasdeMarkovparaadaumdosonjuntos

de testes onsiderando diversos limiares para a seqüênia de gestos direita,

para ima e esquerda. Foram utilizados diversoslimiares de reonheimento

(10)

refereàsiniiais dosgestos. . . 51

5.5 Resultados do reonheimento para múltiplos omandos utilizando adeias

de Markov. Para ada onjunto de omandos utilizado são apresentados os

resultados paraada umdosonjuntos de treinamento.. . . 52

5.6 Taxadereonheimento deaordooma quantidade deelementos utilizados

paratreinamentoutilizandooonjuntoNUMREP.Paraadatamanhodo

on-juntodetreinamentosãoapresentadosotamanhodoonjuntodevalidação,a

taxade reonheimento TR(Equação (5.2))e oaumento perentualrelativo

à linha anterior. O proedimento de treinamento e validação foi exeutado

20 e 30 vezes para ada tamanho de onjunto de treinamento, sendo que as

seqüêniasutilizadasparatreinamentoforamesolhidasaleatoriamentesendo

asdemaisutilizadasparavalidação. . . 54

5.7 Resultados do reonheimento para múltiplos omandos utilizando MOMs.

Para ada onjunto de omandos utilizado são apresentados os resultados

paraada umdosonjuntos de treinamento. . . 56

5.8 Comparação dasduasmetologiasutilizadas, baseadas em adeiasde Markov

(11)

Γ

função deestadosativos.

a

ij

probabilidade de atingiroestado

j

oriundo do estado

i

.

αt(i)

probabilidade de observaçãodaseqüênia parial

O

=

O

0

O

1

· · ·

Ot

atéoinstante

t

e doestado

i

no instante

t

,dado o modelo

λ

.

β

t

(i)

probabilidade de observaçãodaseqüênia parial de

t

+ 1

a

T

−

1

dado o estado

i

noinstante

t

eo modelo

λ

.

bj

(k)

probabilidade de seobservar o símbolo

v

k

noestado

j

.

N

real

número de omandos quedeveriam tersidoidentiados(ground truth).

γ

t

(i)

probabilidade de se estar no estado

i

no instante

t

dadas a seqüênia de obser-vações

O

eo modelo

λ

.

q

0

estadoiniial.

λ

onjunto ompleto de parâmetros de umMOM.

X

m

onjunto de estadosmarados ounais.

q

k

estadono instante

k

.

v

k

k-ésimosímbolo doonjunto de símbolos distintos

V

.

V

onjunto de símbolosdistintosobserváveisdo modelo.

ξt(i, j)

probabilidadedeseestarnoestado

i

noinstante

t

enoestado

j

noinstante

t

+ 1

, dadoo modeloe a seqüêniade observações.

(12)

B

matrizda distribuiçãoprobabilístia de observação dossímbolos nosestados.

E

onjunto de eventos.

f

função detransição.

h

altura daimagem empixels.

T

omprimento daseqüênia de observações.

T

avg

tamanhomédio dasseqüênias utilizadaspara treinaro modelo.

T

max

tamanhoda maiorseqüênia utilizada paratreinaro modelo.

Tmin

tamanhoda menor seqüênia utilizada para treinaromodelo.

w

largura daimagem empixels.

X

onjunto de estados.

MOMs ModelosOultos de Markov.

AEFD autmato deestados nitosdeterminístio.

D número de erros dedeleção.

GSMS Generalized Semi-Markov Sheme.

H número de omandos identiadosorretamente.

I número de erros deinserção.

MEF Máquinade Estados Finitos.

S número de erros desubstituição.

SED Sistemaa EventosDisretos.

(13)

Introdução

A Robótia pessoal e de serviço é atualmente uma das áreas de pesquisa mais ativas

em robótia, om grande potenial de resimento de aordo om a aeitação da

so-iedade. Robsde serviço interagemdiretamente om aspessoas, tornando a existênia

de interfaes naturais e fáeis de usar fundamental. O foo de grande parte dos

traba-lhospassadosé predominantemente navegaçãoe manipulação epouo foio interesseem

sistemas robótios equipados om interfaes exíveis, que permitam ao usuário

ontro-lar o rob por meios naturais. Um rob om interfae natural possibilitaria toda uma

nova gama de apliações, omo por exemplo um rob de limpeza, guiado para limpar

loais espeíos e pegar o lixo [Waldherr etal., 2000 ℄. Diferentemente de robs

indus-triais, que são enontrados prinipalmente em linhas de produção, os robs de serviço

sãoutilizadospelasmassas,milhõesde usuáriosemtodosostiposde loais,do hospital

à asa, dorestaurante ao esritório[Pransky,1996 ℄. Diversosespeialistas apontam que

emumfuturopróximo, entreinoe dezanos, robsde serviçosetornarão ummerado

multibilionário [Bishop,2006 ℄.

Autilizaçãoresentederobsnasmaisdiversasapliações,algumasdestasexigindo

alta interatividade, demanda interfaesintuitivas om o homem,uma vez que estas

po-demreduzirorisodeerroemapliaçõesrítias, onsiderandoumainterfaenatural de

aordoomosreexosondiionados doserhumano. Umexemplodissoseriamosrobs

irúrgios[Pransky,1996 ℄.

Ariaçãodeinterfaesnaturaishomem-robéumassuntoquedespertaadavezmais

ointeressedaomunidadeientíamundialdevidotambémàextensagamadeapliações

queelapossibilita. Entretanto podemosonsiderarqueestasaindaseenontramemseu

estágio iniial. À medida que aumenta a apaidade dos robs de realizar maistarefas

(14)

paraaomodar essaevolução [Sholtz, 2002 ℄.

Na robótia atual, prinipalmente na robótia industrial, existe poua ou nenhuma

interaçãodiretaentrehomemerob. Osrobssãoprogramadosparadeterminada

ativi-dade e se limitam a exeutar tais atividades, o que gera uma segmentação do trabalho

entrehomense robs. Essa exlusividadedehumanos ourobsaabalimitando as

apli-ações dos robs, uma vez que o uso de robs aaba se tornando viável somente em

ambientes totalmente ontrolados. As tarefas devem ser inteiramente desempenhadas

pelo rob,situaçõesemque asapaidades de deisãoeplanejamento deum supervisor

sãoneessáriasnão podemsurgiroudevemser resolvidasremotamente, devidoà

ausên-ia de interfae om o ser humano. Sistemas robótios projetados para interagir om

sereshumanos abrem um novo leque de apliações abrangendo tarefasomplexas e não

repetitivas que requerem supervisão humana e podem ser exeutadas por robs, porém

devemseroordenadaspelosoperadores(autonomia supervisionada). Taissistemas

pre-isariam permitiruma interação natural entre o robe o operador tornando ainterfae

visual fundamental. Para isso o sistema preisa ser apaz de loalizar o operador no

ambiente erastrear osseusmovimentosem tempo real.

A área de busa e resgate urbano é uma área em que humanos devem interagir

om robs e om a informação produzida por eles. Pesquisas baseadas em dados reais

apontamqueoserrosdeexeução(i.e.,ontrole dorob)sãomuitomaioresqueoserros

deintenção (i.e,onde eomoutilizar orob) [Murphye Casper,2002 ℄,oque indiaque

umainterfae natural poderia reduziroserros nessatarefa.

Além disso, interfaes baseadas em visão omputaional possuem outras apliações

menos óbvias, omo por exemplo os omputadores usáveis (wearable omputers). A

utilização desse tipo de interfae nesses dispositivos pode forneer usabilidade mesmo

quandoo usuário está emmovimento [Kölsh etal.,2004 ℄.

Este trabalho propõe umainterfae visual humano-rob baseada emvisão

omputa-ional. Aomuniaçãoéfeitaporumalinguagemompostaporgestossimples,denindo

umagramátia ondeumgestoisoladonãopossuiqualquersigniado, masumapalavra,

omposta por umaseqüênia de gestosrealizados naordem orreta, gera umaresposta.

Umaaçãodorobpodeserassoiadaaadaumadessaspalavras,permitindoaooperador

humano omandar orob de maneiraintuitiva.

Dois módulos prinipais ompõem o sistema, o de visão omputaional e o de

pro-essamento estoástio dosgestos. Busou-se a utilizaçãode métodosestoástios,uma

vez que estes forneem níveis de onança em vez de apenas suesso ou falha, o que

(15)

A interfae é baseada em algoritmos tradiionais de visão omputaional, simples e

eientes, uma vez que a tarefa aloada para o sistema de visão, da maneira que foi

formulada, pode seronsideradasimples. Sendosimples, podeser resolvidapor ténias

qualitativasquesãorobustas. Dessamaneira, omódulodevisãoomputaionalfoaem

identiar apenasasaraterístiasimportantes, neessárias paraatingiroseuobjetivo,

emvez de tentarreonstruir omundo.

Para o proessamento dos gestos foram utilizados reonheedores de linguagens

es-toástios, sendo seleionadas as adeias de Markov, por se tratarem de máquinas de

estados nitos probabilístias e Modelos Oultos de Markov(MOMs, do inglês, Hidden

MarkovModels). MOMsforamutilizadoslargamenteao longodasúltimas deádaspara

oreonheimentodepadrõeselassiaçãoeformamhojeabaseparaumagrandegama

de soluções para análise de dados e modelagem estatístia. MOMs são utilizados nas

maisdiversasapliaçõesomo,porexemplo,guiarmísseis[Niluboletal.,1998℄,predição

derisesnoOrienteMédio[Shrodt,2000℄epesquisasbiomédiasenvolvendoseqüênias

de genes[Kulpetal.,1996 , Yada eHirosawa,1996,Pedersen etal.,1996 ℄.

1.1 Contribuições

Asprinipaisontribuições destetrabalho são:

•

desenvolvimento de uma interfae visual utilizando visão omputaional baseada

na utilização de sistemas a eventos disretos estoástios para o reonheimento

ontínuo de gestos;

•

desenvolvimento de uma metodologia para o proessamento estoástio de gestos

utilizando tanto adeiasde Markovquanto MOMs;

•

utilizaçãodeumanovaabordagemparaoálulodaprobabilidade deuma

seqüên-iade observaçõesserreonheida utilizando MOMs.

1.2 Organização da dissertação

Este trabalho está organizado da maneira que será desrita a seguir. O Capítulo 2

apresenta os trabalhos relaionados e o Capítulo 3 apresenta os oneitos neessários

para o orreto entendimento da metologia proposta, que por sua vez é apresentada no

Capítulo 4. OCapítulo 5apresenta osresultados obtidose oCapítulo6,asonlusõese

(16)

Revisão Bibliográa

Asinterfaesbaseadas emvisão omputaional(IBVC)omeçaram aserlargamente

ex-ploradas em meados da déada de noventa, quando foram desenvolvidos desde mouses

baseados em gestos [Fukumotoetal., 1994, Quek etal.,1995 ℄ até interfaes para jogos

baseadas em visão omputaional [Freeman etal.,1996℄. Devido às limitações de

pro-essamento omputaional, essas interfaes baseavam-se em ténias simples para que

pudessemresponderemtemporeal aosgestosdousuário, omohistogramas de

orienta-ção emomentos da imagem[Horn,1986℄.

Paraavaliar aqualidade e usabilidade de umaIBVCdevem seronsideradas quatro

araterístias prinipais, de aordo om Kölsh [Kölshetal.,2004 ℄: veloidade,

exati-dão, preisão e robustez. De aordo om Sheridan e Ferrell [Sheridan eFerrell, 1963℄ o

tempo delatêniamáximo entreaoorrêniadeumeventoe arespostado sistemadeve

ser de 45 ms para que o usuário não pereba nenhum atraso. A partir de 300 ms de

atraso asinterfaes passama pareer lentas, pondendo provoar osilações e resultando

numefeito onheido omo osintoma movae espere.

Asinterfaesbaseadasemgestospodemserlassiadaspordiversosparâmetros. Os

gestos a serem identiados podem ser estátios, identiados pela posição e forma, ou

dinâmios, identiados por sua trajetória. A abordagem pode ser bottom-up baseada

nasaraterístiasdebaixoníveldaimagemoutop-down omométodosdereonstrução

geométria do orpo. Oreonheimento pode aindaser realizado em três dimensões ou

simpliadamente em duasdimensões.

A maioria dossistemas que emprega a abordagem top-down utiliza ummodelo

geo-métrio doorpo humano. Partes do orposãomodeladas,porexemplo, omoilindros

[Hogg,1983 ℄esuper quadris[Horowitz ePentland, 1991 ℄,entreoutros,eosparâmetros

(17)

[Yamamoto, 1991 ℄, propagação de restrições [O'Rourke e Badler, 1980 ℄ ou análises

mo-dais [Horowitze Pentland, 1991 ℄. A reonstrução da postura do orpo humano (i.e.,

extração dos parâmetros do modelo) fornee uma grande gama de informações aso a

reonstrução tenha suesso, omo por exemplo, os ângulos das juntas. Entretanto os

algoritmosde reonstrução não sãorobustosparaimagens reais,poisestasem geralsão

muitoruidosasparapermitirumasamento fáildo modelo[Yamato etal.,1992 ℄. Além

disso, métodos baseados na deteção de arestas e formasnão sãoreomendados para a

identiaçãoerastreamento embakgrounds omplexospoissuaexatidãoédeterminada

peloontrasteexistenteentreosplanosdefundo efrontal, oque nãopode sergarantido

nesse aso[Kölsh etal., 2004 ℄.

Umexemplodeabordagemtop-down éorastreamento eidentiaçãodemovimentos

damãoemtrêsdimensões(3D)realizadoporDaviseShah[Davise Shah,1994a ℄. Amão

foimodelada por ino ilindrosque eram ajustados àfalange distal dosdedos da mão.

Atrajetóriadosilindroseraaluladanoespaço3Dpodendoserutilizadano

reonhei-mento degestos. Cominformações3Dépossívelsaberaloalizaçãoexatadosdedos,em

oordenadasdomundo,aqualquermomento. Esseonheimentopodeserexploradosem

apreoupaçãode ambigüidade,omooorreomainformação bidimensional(2D),uma

vezqueumatrajetória2Dpodeorresponderadiversastrajetórias3Ddevidoà

transfor-maçãoperspetiva. Além disso, autilização demodelos3De parâmetros de movimento

evitaaneessidade da orrespondêniado movimento paramapeararaterístias àsua

orreta trajetória 2D [Rangarajan eShah,1991 ℄. A informação 3D pode ser utilizada

pararemoveressasinertezas quesurgem em2D. Oalgoritmo implementado por Davis

eShah exigequea mãosejao objetodominantena imagemdevendo tambéminiiarem

posição pré-denida.

Entretanto, deaordoomoparadigmadavisãoqualitativapropostoporAloimonos

[Aloimonos,1990 ℄, a reonstrução do orpo não é essenial para o reonheimento das

açõeshumanas. A visãoomputaional geralmente é tratada omo umproblema de

re-uperação [Horn,1986 ℄,busando reuperar (reonstruir) o mundoe suas propriedades,

omo a posição 3D e formatos dos objetos, de modo a realizar ações e tomar deisões

baseados nessasinformações. Aloimonosquestionou a tradiionalabordagem

reonstru-ionistae propso paradigmadavisãoqualitativa-objetiva(purposive-qualitative) omo

umaalternativa. Nesseparadigmaavisãonãoé vistaomoumm,massimomoparte

de um proesso maior que visa, por exemplo, realizar determinadas tarefas. A

abor-dagem deve serobjetiva paraformularassoluções orretas(simples) paraos problemas

(18)

de baixo nível extraídas de imagens reais, têm sido objeto de numerosos estudos

[Yamato etal.,1992 ℄ sendo utilizadas, por exemplo, para ontagem de pessoas a

par-tir da identiação de regiões andidatas. Em geral, as araterístias de baixo nível

não forneem desrições tão rias quanto as representações baseadas em modelos, mas

seu proesso de extração é mais simples e robusto que os proedimentos de ajuste dos

modelos.

Freeman[Freeman etal.,1996 ℄utilizouaabordagembottom-up paraimplementar

in-terfaes para jogos baseadas em visão omputaional. Foram implementadas interfaes

baseadas em ténias omo momentos da imagem, histogramas de orientação e uxo

óptio,queapartirdosgestosdousuário ontrolavaosjogos. Apliaçõesgráas

intera-tivastêm a grandevantagem de permitir aexploração do feedbak visual da tela,pois o

usuário vê imediatamente o resultadodo seugesto e pode alterá-loasoneessário. Por

exemplo,seumusuário seinlinaparafazerumaurvanojogoevêqueainlinação não

foisuiente, elepode seinlinar umpouo mais.

Uma desvantagemda abordagem bottom-up équea desriçãode ategorias deações

em representações de baixo nível é mais difíil que em representações de alto nível

(baseadas em modelos), pois as relações entre as dimensões do vetor de

araterísti-aseadesriçãodealtoníveldasategoriasnãoéexplíita. Alémdisso,asdimensõesdo

vetor de araterístias podemser muito grandes para serem entendidasintuitivamente

[Yamato etal.,1992 ℄.

Gestos estátios são denidos omo o reonheimento de uma posição da mão

ou do orpo enquanto gestos dinâmios são identiados por trajetórias do braço ou

da mão. Um dos prinipais problemas no aso dos gestos estátios é a

identi-ação da mão. A maioria dos trabalhos restringe fortemente o ambiente de

utiliza-ção exigindo bakground uniforme [Segen eKumar, 1998 ℄, bakground estátio, luvas

oloridas ou maradores na mão [Cipollaetal.,1993 , Davise Shah,1994 ℄. Deteção

de mãos em quaisquer bakgrounds foi realizado, por exemplo, por Triesh e Malsburg

[Triesh evon derMalsburg, 1996 ℄ obtendo uma taxa de aerto de 86.2% e por Cui e

Weng [Cuie Weng, 1999 ℄,porémnenhumdessesmétodosé apazderealizar adeteção

em tempo real, requisito das interfaes om o usuário. Alguns trabalhos apresentam

métodosapazesde reonheera posturadamãoindependentementedoângulodevisão

[Wue Huang,2000 , Rosales etal.,2001, Onge Bowden, 2004 ℄,porém esses artigos não

fazem nenhuma ressalva quanto à exeuçãoemtemporeal.

Para o reonheimento de gestos dinâmios é feito em geral o rastreamento de um

(19)

omplexo, uma vez que os dados amostrados da trajetória de qualquer gesto variam

para ada exeução do mesmo. Isso é justiado por várias razões omo freqüênia de

amostragem, erros de rastreamento, ruído e, prinipalmente, variações na exeução do

gesto peloser humano, tanto espaial quanto temporal[Hong etal.,2000a ℄.

Reentemente algumas abordagens baseadas em sistemas a eventos disretos foram

propostas paraamodelageme reonheimento de gestos. Umadasprinipaisvantagens

dessa abordagem é que a mesmanão requerum grandeonjunto de dados paratreinar

o modelo[Hong etal.,2000a ℄. Bobike Wilson [Bobik eWilson, 1997 ℄utilizaram uma

abordagem baseada em estados para representar e reonheer gestos onde ada gesto

foi modelado omo uma seqüênia de estados em um espaço de ongurações. Os

dados para treinamento foram alinhados temporalmente e segmentados manualmente.

Primeiro,diversasamostrasdeumgestosãoutilizadasparaomputarsuaprinipalurve

[Hastie eStuetzle, 1989 ℄queéparametrizadapeloomprimento doaro. Omapeamento

de ada ponto da amostra do gesto exemplo para umomprimento de aroao longo da

urvaé umprodutodesse áluloda urva. Aseguir,segmentosderetadeomprimento

uniforme são utilizados para aproximar a urva disretizada. Cada segmento de reta é

representado porumvetor etodosossegmentosde retasãoagrupados emlusters. Um

estadoédenidoparaindiaroluster aoqualumsegmento deretapertene. Umgesto

entãoé denido por umaseqüênia de estados. O proesso de reonheimento onsiste

emavaliarseumatrajetóriapassaou nãopelosestadosna ordemorreta. Cadagesto é

umatrajetóriaúniano espaço.

Hong et al. [Hongetal.,2000b ℄ utilizaram MEFs (Máquinas de Estados Finitos)

parareonheergestosdinâmios. Asposições2Ddaabeçaedasmãosforamutilizadas

omo araterístias, sendo loalizadas utilizando segmentação por or e rastreamento.

Cada gesto foi modelado omo uma seqüênia de estados no espaço espaial-temporal

(spatial-temporal),sendoadaestadomodeladoomoumaGaussianamulti-dimensional.

Hong onsiderouque astrajetórias de umgestosão umonjunto de pontos distribuídos

espaialmente, podendoportantoser representadospor umonjunto deregiõesespaiais

Gaussianas. Um limiar foi seleionado para representar a variânia espaial permitida

para ada estado, determinando a variânia espaial do gesto. O número de estados e

seus parâmetros foram alulados utilizando k-means dynami lustering nos dados de

treinamento do gesto, sem informação temporal (as informações espaiais e temporais

dos dados de treinamento sãoprimeiro desaopladas). O resultado desse primeiro

trei-namento é utilizado para a segmentação e alinhamento dos dados. O modelo então é

(20)

iade estadosé umaMEFreonheedora deumgesto. Toda essa etapade treinamento

é realizada o-line. Quando um novo vetor de araterístias é omputado, ada MEF

deideseontinuanoestadoatualouvaiparaopróximoestadobaseadonosparâmetros

espaiais e temporais. Quando o estado nal é atingido o gesto é onsiderado

reonhe-ido. Caso o estado nal de mais de uma MEF seja atingido ao mesmo tempo, aquele

om a menor distânia média aumulada é onsiderado o venedor. O reonheimento

é realizado on-line. Essa ténia foi testada om suesso em gestos omo aenar om a

mão esquerda, aenar om a mãodireita, desenhar um írulo, desenhar um oito,entre

outros. A omplexidade omputaional do proessamento foi reduzida por meio do

ar-mazenamento do ontexto nas MEFs, sendo proessados apenas os novos dados a ada

quadro.

Posteriormente, Hong [Hongetal., 2000a ℄ utilizou uma variação do algoritmo de

asamento de padrões Knuth-Morris-Pratt(KMP) para aelerar o proessamento,

on-siderandooreonheimento degestosomo umasamento deadeia dearateres entre

umaseqüênia de dadosea seqüênia de estadosdaMEF.

Davis e Shah[Davise Shah,1994b ℄ utilizaram umamáquina de estadosnitos para

modelar quatro fases diferentes de um gesto genério qualitativamente. Se a mão está

emmovimento para a posição do gesto são riadastrajetórias dosdedosusando

orres-pondênia dospontos daspontasdosdedosdomovimentono planoda imagem. Vetores

sãoutilizadosentãoparaaproximar astrajetórias eosgestosdesonheidos sãoasados

om os gestosde umabibliotea usando esses vetores. Foram reonheidos sete gestos,

querepresentamasaçõesesquerda,direita, paraima,parabaixo,agarrar,girareparar,

sema utilizaçãode hardwareespeial.

Siskind e Morris [Siskinde Morris,1996 ℄ propuseram uma metodologia para

lassi-ação de eventos visuais utilizando uma abordagem de máxima verossimilhança. Seu

trabalho se baseou na modelagem das araterístias dos pers de movimentação,

va-riando ao longo do tempo, de objetos que partiipam emdiferente eventos simples. Os

eventosonsiderados foram pegar, deixar,empurrar, puxar,soltare lançar (pik up, put

down, push, pull, drop, throw). Em vez de formular lógias detalhadas e modelos

geo-métrios de lasses de eventos manualmente, os parâmetros de um modelo genériosão

determinados empiriamente a partirdos dadosde treinamento. Orastreador utilizado

usaumonjunto deténiasbaseadas emore movimento,operandoquadroaquadro e

rastreandodemaneiraindependenteobjetosoloridosequesemovimentam. Cadaregião

identiada no quadro é modelada omo uma elipse, abstraindo-se assim dos dados da

(21)

nheimento de eventos. Utiliza-se ténias de aprendizado supervisionado para treinar

um modelo gerador para ada lasse de eventos a partir de um onjunto de exemplos

de treinamento para ada lasse. O modelo gerador obtido é utilizado para lassiar

asnovasobservações em lasses existentes. Um dos vídeos do onjunto de treinamento

é esolhido para ser o evento annio. Esse vídeo deve onter o mesmo número de

se-qüênias de elipses tais quaisexistem objetos partiipando no evento. Essasseqüênias

sãoutilizadasomoreferêniaparaidentiar osonjuntosdeelipsesnasdemais

seqüên-ias de treinamento. Os vídeos foram ajustados manualmente paraque o iníio e o m

do vídeo oinidissemom o iníio e mdo evento e também para que todosos vídeos

representando o mesmo evento tivessem o mesmo número de quadros. O experimento

utilizou umonjunto de72 vídeos, sendo12 paraada gesto. Desses,6 foramutilizados

paratreinamento e6 paravalidação, esolhidosaleatoriamente.

AsprinipaisdiferençasdaabordagemdeSiskindeMorrisparaaquelapropostanesta

dissertaçãosãooreonheimentoontínuoon-line,semneessidadedaindiaçãodoiníio

e m de ada evento e a utilização de Modelos Oultos de Markov (MOMs, do inglês,

Hidden Markov Models) disretos no lugar dos ontínuos. O método de rastreamento

utilizado por Siskind e Morris também restringe queos objetos partiipantes do evento

sejampratiamenteosúniosnaenaeexigepós-proessamentoparaaidentiaçãodos

objetos queestãoem todaa seqüênia.

Vogler e Metaxas[Vogler e Metaxas,1998 ℄ apresentaram umarabouço parao

reo-nheimento isolado e ontínuo da linguagem de sinais ameriana (ASL- Amerian Sign

Language). Os dadosforam obtidos por umsistemade rastreamento 3De apresentados

omo entrada paraMOMs realizarem o reonheimento. Três âmeras posiionadas

or-togonalmente eram responsáveis pela identiação e rastreamento em 3D. O algoritmo

de rastreamento baseou-se no ltro de Kalman objetivando evitar problemas ausados

por olusão. Paraotreinamento foramutilizadosdadosdevisãoomputaionaledeum

aparatode apturademovimento,devido àgrandequantidadede dadosneessáriapara

treinar os MOMs e o alto usto omputaional do sistema de visão. O reonheimento

ontínuo é omplexo pois as fronteiras entre os gestos individuais não são laras. A

utilização de MOMspermite apturar as variações estatístias tanto na posição quanto

na duração dos movimentos, bem omo a segmentação dos dados. A identiação das

fronteiras entre os símbolos foi realizada utilizando informações geométrias e da

tra-jetóriaperorrida juntamenteomoalgoritmo deViterbi[Viterbi, 1967 ℄para identiar

o iníio de ada gesto. Vogler utilizou a topologia esquerda paradireita por aomodar

(22)

zando486 frases,totalizando2345 sinais. Dessasfrases,389(80%) foramutilizadaspara

treinamento e 97 (20%) para validação, esolhidas aleatoriamente. O reonheimento

obtevetaxa de aerto de89,91%.

AabordagempropostanestadissertaçãodiferedadeVoglerpoissugereproedimento

paragerarosmodelosautomatiamente,inlusivedeterminandooseunúmerodeestados.

Também não neessita da informação de posição, pois o rastreamento 3D é omplexo.

Além disso, não exige segmentação para identiar o iníio de ada gesto, sendo essa

identiação realizadaimpliitamentepelomodelo.

Redes Neuraistambém foram utilizadasno reonheimento de gestos. Por exemplo,

Yang e Narendra [Yang e Ahuja,1999 ℄ utilizaram redes neurais om atraso de tempo

(TDNN - time-delay neural network) para o reonheimento de 40 gestos da

lingua-gens de sinais ameriana (ASL- Amerian Sign Language). TDNN é uma rede neural

multi-amadasfeedforward queutilizaatrasosentreasamadaspararepresentarrelações

temporais entreoseventosnotempo. Osistemasebaseouemalgoritmospara

reonhei-mento eextraçãodepadrõesdemovimento utilizando trajetórias. Foramutilizados80%

dos dados paratreinamento e 20% paravalidação, obtendo taxa de reonheimento de

96.21% nosdadosde validação.

Esteapítuloapresentouostrabalhosrelaionadosidentiandoasprinipais

diferen-ças entre estes e a metodologia proposta neste trabalho. O próximo apítulo apresenta

(23)

Coneitos Preliminares

Esteapítulotemporobjetivointroduzirosoneitosneessáriosparaoentendimentoda

metodologiapropostanestadissertação. Eleédivididoemtrêsseçõesprinipais: sistemas

aeventosdisretos,adeiasdeMarkoveMOMs. Ostextosdasseçõestemaráterapenas

introdutóriosendoreomendadasasreferêniasitadasparamaisinformaçõesedetalhes.

AsprimeirasseçõessãobreveseaquetratadeHiddenMarkovModels (ModelosOultos

de Markov) é mais detalhada por ser um assunto ainda não tão disseminado quanto os

demais.

3.1 Sistemas a Eventos Disretos

UmSistema a Eventos Disretos(SED) deve satisfazerasseguintes ondições: o espaço

de estados deve ser um onjunto disreto e o meanismo de transição entre estados

deve ser dirigido por eventos. Portanto um SED pode ser denidoomo umsistema de

estadosdisretos, dirigidoporeventos, uja evolução dosestadosdepende daoorrênia

de eventosdisretosassínronosdurante otempo[Cassandras e Lafortune,1999 ℄.

Oomportamento deumSEDpodesermodeladoporumalinguagem,se

onsiderar-mosoonjunto deeventos

E

omooalfabeto easseqüênias(nitas) deeventosomo aspalavras. Umeventopodeserdenidoomoalgoqueoorreinstantaneamenteeque

ausatransiçõesde umvalor de estadopara outro.

A utilizaçãode autmatos é umformalismo paraa modelagemde eventos disretos,

assimomoautilizaçãoderedesdePetri. Ambososformalismosrepresentamlinguagens

utilizando umaestrutura de transição de estados. A diferença entre osdois é omoeles

(24)

0 a

1 b

b

2 a, c

c

2

0

Figura 3.1: Exemplo de autmato om três estados onde

X

=

{

0,

1,

2 }

,

E

=

{

a, b, c

}

,

q

0

= 0

(maradopelaseta) e

Xm

=

{

0,

2 }

.

Um autmato é umdispositivo apazde representaruma linguagem de aordo om

regras bemdenidas. Umautmatodeterminístio,representadopor

G

,é umatuplade seiselementos

G

≡

(X, E, f,

Γ, q

0

, X

m

)

,

(3.1)

onde:

X

é oonjunto de estados;

E

é o onjunto nitode eventosassoiados omastransiçõesem

G

;

f

:

X

×

E

→

X

é a função de transição;

f

(x, e) =

y

signia que há uma transição do estado

x

para oestado

y

denidapeloevento

e

;

Γ :

X

→

2

E

é a função de eventos ativos (ou fatíveis);

Γ(x)

é o onjunto de todosos

eventos

e

para os quais

f

(x, e)

é denida, denominada onjunto de eventos ativos (ou fatíveis) de

G

em

x

;

q

0

éo estado iniial;

X

m

∈

X

éo onjunto de estadosmaradosou nais. A Figura3.1exemplia essasdenições.

Se

X

é um onjunto nito,

G

é denominado um autmato de estados nitos deter-minístio (AEFD) . Esse modelo também é onheido omo Generalized Semi-Markov

Sheme (GSMS) .

3.2 Cadeias de Markov

A análise de adeias de Markov fornee um arabouço para o estudo de diversos SEDs

de interesse prátio, variando de jogos de azar e do merado de ações até o projeto de

sistemasde omputadores e redes deomuniação [Cassandrase Lafortune,1999℄.

(25)

0

1 a

₀₁

a

₀₀

a

₁₁

2 a

12 a

02

3 a

₂₃

a

₂₀

a

31

Figura3.2: Cadeiade Markovom quatro estados(

0

a

3

).

estadodo onjuntode

N

estadosdistintos

0,

1,

· · ·

, N

−

1

,omo ilustradona Figura3.2, onde

N

= 4

. Em instantes disretos, uniformemente espaçados, o sistema passa por uma transição (possivelmente para o mesmo estado) de aordo om um onjunto de

probabilidadesassoiadas aoestado. Osinstantesde tempo assoiadosàstransiçõessão

denidos omo

t

=

t

0

, t

1

,

· · ·

, e o estado no instante

t

é representado por

qt

. Em geral, umadesriçãoompleta dessesistemarequeraespeiaçãodoestado atualnoinstante

t

, bem omo todos os estados predeessores. Para o aso espeial de uma adeia de Markovdisretadeprimeira ordem,essadesrição probabilístiaétrunadaparaapenas

oestado atual e seupredeessor,i.e.,

P

[qt

=

Sj

|

qt

−

1

=

Si, qt

−

2

=

Sk,

· · ·

] =

P

[qt

=

Sj

|

qt

−

1

=

Si].

(3.2)

Oproesso desrito onstitui um modelode Markovobserváveluma vez quea saída

do proesso é o onjunto de estados em ada instante de tempo, onde ada estado

or-responde a umevento observável.

AprinipalaraterístiadasadeiasdeMarkovéqueseuomportamentoestoástio

é denido pelas probabilidades de transição da forma

P

[q

k

+1

=

x

′

|

q

k

=

x]

, onde

x

é o estado atual e

x

′

é o próximo estado, para todos os valores de

x

,

x

′

. Dadas essas

probabilidadesdetransiçãoeumadistribuiçãoparaoestadoiniialépossíveldeterminar

aprobabilidade deseestar em qualquerestado emqualquer instante.

Uma adeiade Markové denidapor [Cassandras eLafortune, 1999 ℄:

1. Umespaço deestados

X

.

2. Adistribuição iniial de probabilidades

p

0

(x) =

P[q

0

=

x],

∀

x

∈

X

. 3. As probabilidades de transição

p(x

′

, x)

onde

x

é o estado atual e

x

′

é o próximo

(26)

As probabilidades de transição podem ser representadas na forma de uma matriz,

denominadamatriz deprobabilidades de transição,

A

,

A

≡

[aij

(k)],

i, j

= 0, . . . , N

−

1

(3.3)

onde

aij

(k)

é aprobabilidade de seatingiro estado

j

oriundo doestado

i

noinstante

k

, formalmente

aij

(k)

≡

P

[q

k

+1

=

j

|

q

k

=

i].

(3.4)

Como

a

ij

(k)

é uma probabilidade temos

0 ≤

a

ij

(k)

≤

1

e

P

∀

j

a

ij

(k) = 1

paraqualquer estado

i

.

O funionamento dasadeias deMarkov arámaislaro quando a metodologia for

apresentada(Seção 4.3).

3.3 Modelos Oultos de Markov

Modelos OultosdeMarkov(MOMs,doinglês,Hidden MarkovModels) 1

sãoumtipode

modelo estoástio, também onheidos omo fontes de Markov ou funções

probabilís-tias de adeias de Markov. MOMs tem sido largamente utilizados ao longo das duas

últimas déadasparao reonheimento de padrõese lassiação. Com a popularidade,

diversoslivrosontendo abordagens baseadas na utilização de MOMs foram publiados

em diversas áreas omo biomediina [Baldie Brunak, 1998 , Durbin etal.,1998 ℄, onde

sãoutilizados, porexemplo, paralassiação deproteínas emlasses, e inteligênia

ar-tiial[Russelle Norvig, 2002 ℄,ondesãoutilizados,porexemplo,paraoreonheimento

de falaegestos.

AteoriabásiafoipubliadaporBaumetal. entre1966e1972[Baume Petrie, 1966,

Baum eEgon, 1967,Baume Sell,1968 ,Baum etal.,1970 ,Baum,1972℄efoi

implemen-tadaparao reonheimento de falapor diversosautores na déadade 1970 omo Baker

[Baker, 1975 ℄. Entretanto, a popularização dos MOMs oorreu somente no iníio da

déadade 1980 oma publiaçãode diversostutoriais.

Porbrevidadeessaseçãoseráfoadanostrêsproblemas fundamentaisparaoprojeto

deMOMs,asaber: oálulodaprobabilidadedeumaseqüêniadeobservaçõesdadoum

MOM espeío; a determinação da melhor seqüênia de estadosdo modelo; e o ajuste

dosparâmetros do modelode modoa melhorrepresentar asobservaçõesforneidas.

1

Otextodessaseçãoébaseadoprinipalmentenasreferênias[Rabiner,1989,RabinereJuang,1986 ,

(27)

3.3.1 Motivação

Alimitaçãodeada estadoorresponderaumevento observávelpresentenasadeiasde

Markoveautmatosdeestadosnitosdeterminístioémuitorestritivaparaqueomodelo

setorne apliável a diversosproblemas. Nessa seção ooneito de modelo de Markov é

estendido paraonsiderar os asos emque a observação é uma função probabilístia do

estado,sendoomodeloresultante umMOM,queé umproessoduplamenteestoástio

embutido onde o proesso estoástio subjaente não é observável (é oulto) e pode

somente ser observado por meio de um outro onjunto de proessos estoástios que

produzema seqüênia de observações.

Podemos exempliar modelando o problemado lançamento de umamoeda no qual

há um quarto om uma barreira (e.g., uma ortina) de modo que não é possível ver

o que oorre do outro lado, onde uma pessoa está lançando uma moeda (ou diversas

moedas diferentes). Essa pessoa não irá dizer exatamente o que está fazendo, apenas

o resultado de ada lançamento. Dessa maneira uma seqüênia de lançamentos oultos

serárealizada,omoresultadoonsistindonumasériedearase oroas. Umaseqüênia

de observações poderiaser, por exemplo:

O

=

O

0

O

1

O

2

· · ·

OT

−

1

(3.5)

=

CaCaCoCoCoCaCoCoCa

· · ·

Ca

(3.6)

onde

Ca

representa ara,

Co

representa oroa e

T

éo omprimento da seqüênia. Para onstruir umMOM paramodelar a seqüênia de aras e oroas observada

de-vemos primeirodeidir oqueosestadosdomodelorepresentam eentão quantosestados

o modelo deve ter. Uma possibilidade seria assumir que apenas uma moeda está sendo

lançada,utilizandoummodelode2estadosondeadaumdessesestadosorresponderia

aumdosladosdamoeda(i.e.,araouoroa). EssemodeloémostradonaFigura3.3(a).

Nesseasoo modelode Markové observável, sendo portanto umMOM degenerado,e o

únio parâmetro neessário para espeiaro modelo ompletamente é a probabilidade

de umdoslados.

UmaoutramaneiraseriamodelaromonaFigura3.3(b)ondesãoutilizadostambém

doisestados,porémadaestadoorrespondeaumamoedaomprobabilidadesdiferentes

paraara e oroa. Cada estado é araterizado por uma distribuição de probabilidades

dearaseoroase astransiçõesentreosestadossãodadasporumamatrizdetransição.

Omeanismofísioquedeterminaastransiçõesentreosestadosquesãoativadaspoderia

(28)

0

1 P(Ca)

1-P(Ca)

P(Ca)

0

1 a

₀₀

a

11 .

1-a

₀₀

1-a

₁₁

P(Ca) = P

₀

P(Co) = 1-P

₀

P(Ca) = P

₁

P(Co) = 1-P

₁

0

1 a

₀₀

a

11 .

a

₀₁

a

₁₀

2 a

₀₂

a

₂₀

a

₂₁

a

₁₂

a

₂₂

Estado: 0 1 2

P(Ca): P

₀

P

₁

P

₂

P(Co): 1-P

₀

1-P

₁

1-P

₂

(a)

(b)

(c)

Cara

Coroa

Figura3.3: TrêspossíveismodelosdeMarkovparaoexperimentodolançamentodeuma

moeda. (a) Modelo de uma moeda. (b) Modelo de duas moedas. () Modelo de três

moedas.

Uma tereira maneira de modelar a seqüênia de lançamentos observada utilizando

umMOM é apresentadana Figura3.3(). Nessemodelo sãoonsideradas 3moedase a

esolhaentreastrês é feitabaseada emumevento probabilístio.

Dados ostrês modelos mostrados na Figura3.3paraexpliar aseqüênia de aras e

oroasobservadasurgeumadúvidanatural: qualdelesrepresentamelhoressaseqüênia.

Omodelo de umamoeda possui apenas umparâmetro desonheido; o modelode duas

moedaspossuiquatroparâmetros desonheidos; eomodelodetrês moedaspossuinove

parâmetros desonheidos. Com maisgraus de liberdade osMOMsmaiores seriam

nat-uralmente maisapazes de modelar uma sériede lançamentos que osmodelos menores.

Apesar disso ser teoriamente verdade, algumas onsiderações prátias impem fortes

restriçõesquantoaotamanhodosmodelosquepodemserutilizados. Além disso,utilizar

o modelo de 3 moedas seria inapropriado no aso de apenas uma moeda estar sendo

lançada uma vez que o evento físio propriamente dito não orresponderia ao modelo

sendoutilizado.

3.3.2 Denição

UmMOM é araterizadopor:

(29)

ou ao onjunto de estados do modelo. Os estados são representados por

X

=

{

0,

1,

2,

· · ·

, N

−

1 }

,e oestado no instante

t

por

q

t

.

2.

M

,onúmerodesímbolosdistintosobserváveisporestado(i.e.,otamanho do alfa-beto). Os símbolos observados orrespondem à saída físia do sistema modelado.

Para o experimento do lançamento da moeda ossímbolos sãosimplesmentes ara

e oroa. Os símbolos sãorepresentados pelo onjunto

V

=

{

v

0

, v

1

,

· · ·

, vM

−

1

}

. 3. A distribuição de probabilidades de transição entre osestados

A

=

{

aij

}

onde

aij

é aprobabilidade de atingiro estado

j

oriundodo estado

i

,formalmente

aij

=

P

[qt

+1

=

j

|

qt

=

i],

0 ≤

i, j < N.

(3.7)

Paraoasoespeialdequalquerestadopoderseratingidodequalqueroutroestado

em uma únia transição temos

a

ij

>

0

para todo

i, j

e o modelo é denominado ergódio. Para os demais tipos de MOMs temos

aij

= 0

para um ou mais pares

(i, j)

.

4. Adistribuiçãoprobabilístiadeobservaçãodossímbolosnosestados,

B

=

{

b

j

(k)

}

, onde

b

j

(k)

éa probabilidade deseobservar osímbolo

v

k

noestado

j

,formalmente

bj

(k) =

P[Ot

=

vk

|

qt

=

j],

0 ≤

j < N

0 ≤

k < M

.

5. Adistribuição de estadosiniial

π

=

{

πi

}

,onde

πi

=

P

[q

0

=

i],

0 ≤

i < N

(3.8)

Dados valores apropriados para

N

,

M

,

A

,

B

e

π

o MOM pode ser utilizado omo gerador paraforneer umaseqüênia deobservações

O

=

O

0

O

1

O

2

· · ·

OT

−

1

(3.9)

(ondeadaobservação

Ot

éumsímbolode

V

e

T

éonúmerodeobservaçõesnaseqüênia) omodesrito a seguir:

1. Seleione um estado iniial

q

0

=

i

de aordo om a distribuição de estadosiniial

(30)

2. Seleione

Ot

=

vk

de aordoom a distribuiçãode probabilidades dossímbolos no estado

i

(i.e.,

b

i

(k)

).

3. Váparao novo estado

q

t

+1

=

j

de aordoomadistribuição deprobabilidades de transição doestado

i

(i.e.,

aij

).

4.

t

=

t

+ 1

;retorne aoitem2 aso

t < T

,senãotermine.

Esseproedimentopodeserutilizadotantoomogeradordeobservaçõesquantoomo

modeloparamostraromoumadadaseqüênia deobservaçõespodetersidogeradapor

umMOM espeío.

A espeiação ompletade umMOM requerportanto a espeiação dedois

parâ-metros do modelo (

N

e

M

), espeiação dossímbolos observáveis e a espeiação de três distribuições de probabilidades

A

,

B

e

π

. Por onveniênia é utilizada a notação ompata

λ

= (A, B, π)

(3.10)

paraindiaro onjunto ompletode parâmetros do modelo.

3.3.3 Os três problemas básios dos MOMs

Trêsproblemasbásiosdevemserresolvidos paraqueomodeloapresentado nasubseção

anterior possa serapliado, a saber:

Problema 1: Dada a seqüênia de observações

O

=

O

0

O

1

O

2

· · ·

OT

−

1

e o modelo

λ

, omo

P

(O

|

λ)

pode sereientementeomputado?

O

=

O

0

O

1

O

2

· · ·

O

T

−

1

e o modelo

λ

, omopode serdenidaaseqüênia deestados

Q

=

q

0

q

1

· · ·

qT

−

1

quemelhor repre-senta a seqüêniaobservada, ouseja, queé ótima emalgum sentido.

O

=

O

0

O

1

O

2

· · ·

O

T

−

1

e o modelo

λ

, omoosparâmetros do modelopodemserajustados paramaximizar

P

(O

|

λ)

? O Problema 1 se resume a alular a probabilidade de uma seqüênia ter sido

pro-duzidapelomodelo, dadososparâmetros domodelo ea seqüênia de observações. Esse

problema também pode ser visto omo identiar omo determinado modelo asa om

uma seqüênia de observações. A solução deste problema nos permite seleionar entre

diversosmodelospossíveisqual melhorrepresenta asobservações.

(31)

não há uma seqüênia de estados orreta a ser enontrada. Em geral é utilizado um

ritério de otimalidade pararesolveresse problemada melhormaneira possível. Porém,

existemdiversosritériosquepodemser adotadoseessa esolhaéfeitade aordooma

apliaçãona qual seráutilizada a seqüênia deestadosutilizada.

OProblema3envolveaotimizaçãodosparâmetros domodeloparamelhordesrever

umaseqüêniadeobservações. Aseqüêniautilizadaparaajustaromodeloédenominada

seqüênia de treinamento, uma vez queé utilizada paratreinar o MOM.Esse problema

em geral é o mais importante, pois permite a adaptação de modelos para representar

fenmenosreais.

A seguirserá desritaa solução paraada umdessesproblemas.

3.3.4 Solução para o Problema 1

Amaneiradiretade alularaprobabilidadeda seqüênia

O

=

O

0

O

1

O

2

· · ·

O

T

−

1

dadoo modelo

λ

= (A, B, π)

seriaenumerartodasasseqüêniasdeestadospossíveisdetamanho

T

(número de observações). Considerando umaseqüênia de estadosxa

Q

=

q

0

q

1

· · ·

qT

−

1

,

(3.11)

onde

q

0

éoestadoiniial. Aprobabilidade daseqüênia deobservações

O

paraa seqüên-iade estadosda Equação (3.11)é

P

(O

|

Q, λ) =

T

−

1 Y

t

=0

P

(O

t

|

q

t

, λ)

,

(3.12)

supondo que asobservações sãoestatistiamenteindependentes. Então, lembrando que

b

j

(k)

éa probabilidade de seobservar osímbolo

v

k

no estado

j

,obtemos

P

(O

|

Q, λ) =

bq

0

(O

0

)

· bq

1

(O

1

)

· · ·

bq

T

−

1

(OT

−

1

).

(3.13)

A probabilidade daseqüênia de estados

Q

podeser esritaomo

P

(Q

|

λ) =

π

q

0

· a

q

0 q

1

· a

q

1 q

2

· · · ·

a

q

T

₋

2 q

T

₋

1

.

(3.14)

Aprobabilidade onjunta de

O

e

Q

,ouseja, aprobabilidade de

O

e

Q

oorrerem simul-taneamente, édada peloproduto dosdoistermos aima

(32)

A probabilidade de

O

pode ser nalmenteobtida somando essa probabilidade onjunta de todasaspossíveisseqüênias deestado

Q

,resultando em

P

(O

|

λ) =

X

∀

Q

P

(O

|

Q, λ)

· P(Q

|

λ)

=

X

∀

Q

πq

0

bq

0

(O

0

)

· aq

0 q

1

bq

1

(O

1

)

· · ·

aq

T

−

2 q

T

−

1

bq

T

−

1

(OT

−

1

)

.

(3.16)

A Equação (3.16) pode ser interpretada da sequinte maneira. No instante iniial

(

t

= 0

) o sistema enontra-se no estado

q

0

om probabilidade

π

q

0

e gerando o símbolo

O

0

om probabilidade

bq

0

(O

0

)

. É então feita a transição do estado

q

0

para o estado

q

1

om probabilidade

aq

0 q

1

, gerando o símbolo

O

1

om probabilidade

bq

1

(O

1

)

. O proesso

ontinuadessamaneiraatéquesejafeitaaúltimatransição,noinstante

T

−

1

,doestado

qT

−

2

parao estado

qT

−

1

oma probabilidade

aq

T

₋

2 q

T

₋

1

gerandoo símbolo

OT

−

1

om a probabilidade

bq

T

−

1

(OT

−

1

)

.

De aordo om a Equação (3.16) a ada instante

t

existem

N

estados que podem ser atingidos, ou seja, existem

N

T

seqüênia de estadospossíveis. Para ada seqüênia

são neessárias

(2T

−

1)

multipliações e o somatório delas requer

(N

T

₋

₁₎

adições.

Portanto o número de operações neessárias para o álulo de

P

(O

|

λ)

é da ordem de

O(T N

T

₎

sendo omputaionalmente inviável até mesmo para pequenos valores de

N

e

T

(e.g., para

N

= 5

e

T

= 100

sãoneessáriasaproximadamente

10

72

operações).

Felizmente existe um algoritmo mais eiente para efetuar esse álulo hamado

forward-bakward [Baume Egon,1967 , Baum eSell, 1968 ℄. Considerando a variável

di-reta (do inglês, forward)

αt(i)

denida omo

αt(i) =

P(O

=

O

0

O

1

· · ·

Ot, qt

=

i

|

λ),

(3.17)

que representa a probabilidade de observação da seqüênia parial

O

=

O

0

O

1

· · ·

Ot

até o instante

t

e do estado

i

no instante

t

, dado o modelo

λ

. Podemos alular

α

t

(i)

reursivamente da seguinte maneira:

1) Iniialização

α

0

(i) =

π

i

b

i

(O

0

),

0 ≤

i < N

(3.18)

2) Reursão

αt

+1

(j) =

"

_N

−

1 X

i

=0

(αt(i)aij

)

#

(33)

3) Terminação

P(O

|

λ) =

N

−

1 X

i

=0

α

T

−

1

(i)

(3.20)

Opasso1iniializaasprobabilidadesdiretasomoaprobabilidadeonjuntadoestado

i

e daobservaçãoiniial

O

0

. Opasso dareursão, quepodeseronsiderado o núleo do algoritmo,éaluladoonsiderandoqueoestadoatualpodeseratingidodequalquerum

dos demais

N

estados, fator que é levado em onta pelo somatório da Equação (3.19). Uma vez que

αt(i)

é a probabilidade de que

O

=

O

0

O

1

· · ·

Ot

sejam observados e o estado no instante

t

seja

i

, o produto

αt(i)aij

é a probalidade de que seja observado

O

=

O

0

O

1

· · ·

O

t

eoestado

j

sejaatingidonoinstante

t

+ 1

apartirdoestado

i

. Asoma dessesprodutosparatodosospossíveis

N

estados

i

,

0 ≤

i < N

,noinstante

t

resultana probabilidade de

j

no instante

t

+ 1

inluindo todas asobservações pariais anteriores. Assim que isso é feito e

j

é onheido, a óbvio que

α

t

+1

(j)

é obtido ontabilizando a probabilidade de ser observado o símbolo

Ot

+1

no estado

j

, ou seja, multipliando o somatóriopor

bj

(Ot

+1

)

. AEquação(3.19)éaluladaparatodososestados

j

,

0 ≤

j < N

, para um dado

t

; sendo então iterada para

t

= 0,

1,

2,

· · ·

, T

−

2

. Finalmente o passo 3 fornee ovalorde

P

(O

|

λ)

omoa soma daprobabilidades direta terminais

αT

−

1

(i)

.

Esse algoritmorequer

N

(N

+ 1)(T

−

1) +

N

multipliaçõese

N

(N

−

1)(T

−

1) +

N

adições,realizandoportantodaordemde

N

2

T

operações(e.g.,para

N

= 5

e

T

= 100

são neessáriasaproximadamente

3000

operações,umaeonomiade 69ordensdemagnitude

emrelaçãoao métodoforça brutaapresentadoanteriormente).

Demaneirasimilarpodemosdenirumavariávelreversa (do inglês,bakward)

β

t

(i)

, que apesar de não ser utilizada na solução do Problema 1 é importante na solução dos

demaisproblemas, omo

βt(i) =

P(Ot

+1

Ot

+2

· · ·

OT

−

1

|

qt

=

i, λ),

(3.21)

queéaprobabilidade deobservaçãodaseqüêniaparialde

t

+ 1

a

T

−

1

dado oestado

i

no instante

t

e omodelo

λ

. Utilizando novamente reursão: 1) Iniialização

βT

−

1

(i) = 1,

0 ≤

i < N

(3.22)

2) Reursão

β

t

(i) =

N

−

1 X

j

=0

(34)

Nainiialização

βT

−

1

(i)

éarbitrariamentedenidoomo

1

paratodo

i

[Rabiner, 1989℄. O passo 2 onsidera que para que se tenha passado pelo estado

i

no instante

t

e para levar emonta asobservaçõesdo instante

t

+ 1

emdiante,devemseronsiderados todos os estados

j

possíveis no instante

t

+ 1

levando em onta a probabilidade de transição de

i

para

j

(o termo

a

ij

) bem omo a observação

O

t

+1

noestado

j

(o termo

b

j

(O

t

+1

)

). Entãodevemserlevadasemontaasdemaisobservaçõespariaisapartir doestado

j

(o termo

βt

+1

(j)

).

O álulo de

β

t

(i)

,

0 ≤

t < T

,

0 ≤

i < N

, também requer da ordem de

N

2

_T

operações, omopode seridentiado seguindo raioínio similar aodo áluloanterior.

Eisner [Eisner, 2002 ℄apresentou umaplanilhadidátiaparao aprendizadodoalgoritmo

forward-bakward quemostratodososseuspassoseapresentaosresultadosgraamente.

Hádiversasmaneirasde resolvero Problema2pois,diferentementedo Problema1,esse

problema,queonsisteemenontraraseqüêniadeestadosótimaassoiadaaumadada

seqüênia observada, não possui solução exata. Diversos ritérios podem ser adotados

para identiar o ótimo. Por exemplo, um ritério possível é seleionar os estados

qt

que são individualmente mais prováveis. Esse ritério maximiza o número esperado de

estados orretos individualmente. Entretanto, pode haver problemas om a seqüênia

de estados resultante. Por exemplo, aso o MOM possua transições om probabilidade

zero (

a

ij

= 0

para algum

i, j

), a seqüênia enontrada omo ótima pode não ser uma seqüênia válida.

Umasoluçãopossíveléalteraroritériodeotimalidade. Porexemplo,poderiaser

en-ontradaaseqüêniadeestadosquemaximizaonúmerodeparesdeestado

(q

t

, q

t

+1

)

or-retos,ou triplasde estados

(qt, qt

+1

, qt

+2

)

orretas, et. Apesar dessesritériospoderem fazersentido paraalgumas apliações, oritério maisutilizado é enontrar amelhor

se-qüêniade estados (aminho),ou seja, maximizar

P

(Q

|

O, λ)

. Uma téniaformalpara enontrar a melhor seqüênia de estados existe, baseada no método da programação

dinâmia, denominadaalgoritmo deViterbi [Viterbi,1967 ℄.

Esse algoritmo, apesar de importante no ontexto dos MOMs, não será desrito

por não ter sido utilizado na metodologia proposta nesta dissertação. Para deixar

laro a importânia desse algoritmo podemos itar o trabalho de Vogler e Metaxas

(35)

Otereiroemaisomplexoproblemaonsisteemajustarosparâmetrosdomodelo(

A

,

B

,

π

) demodoa maximizar aprobabilidade dedeterminada seqüênia ser observada. Esse problemanãopossuisolução analítia. Dadaumaseqüênia deobservaçõesnitaparao

treinamento, nãohámaneiraótimadeestimarosparâmetrosdomodelo[Rabiner,1989 ℄.

Podemos,entretanto, esolher

λ

= (A, B, π)

talque

P(O

|

λ)

sejamaximizadoloalmente utilizando umalgotirmoiterativo omoo métodode Baum-Welh (ou equivalentemente

o EM - Expetation-Maximization), ou utilizar ténias baseadas no gradiente. Nessa

subseção será apresentado um método iterativo para seleionar os parâmetros do

mo-delobaseado nos trabalhosiniiais de Baum [BaumePetrie, 1966 ,Baum e Egon,1967,

Baum eSell,1968 , Baum etal.,1970 ,Baum,1972 ℄, ompiladopor [Rabiner,1989℄.

Paradesrever oproedimento de reestimação (melhoriaeatualização iterativa) dos

parâmetros do MOM será denida

ξ

t

(i, j)

, a probabilidade de se estar no estado

i

no instante

t

e noestado

j

no instante

t

+ 1

, dadoo modeloe aseqüênia de observações.

ξ

t

(i, j) =

P

(q

t

=

i, q

t

+1

=

j

|

O, λ)

(3.24)

Partindo da denição das variáveis direta e reversa podemos esrever

ξt(i, j)

da seguintemaneira

ξt(i, j) =

αt(i)aij

bj(Ot

+1

)βt

+1

(j)

P(O

|

λ)

(3.25)

=

_P

_N

₋

₁

α

t

(i)a

ij

b

j

(O

t

+1

)β

t

+1

(j)

i

=0

P

N

−

1 j

=0

α

t

(i)a

ij

b

j

(O

t

+1

)β

t

+1

(j)

(3.26)

ondeonumeradorésimplesmente

P

(qt

=

i, qt

+1

=

j, O

|

λ)

eadivisãopor

P

(O

|

λ)

fornee aprobabilidade desejada.

Podemos denir a variável

γt(i) =

P(qt

=

i

|

O, λ)

(3.27)

que representa a probabilidade de se estar no estado

i

no instante

t

dadas a seqüênia deobservações

O

eomodelo

λ

. A Equação(3.27)podeserexpressadasimplesmenteem termosdasvariáveisdireta ereversa da seguinte maneira