• Nenhum resultado encontrado

Algumas distˆancias adotadas `as sequˆencias temporais

2.2 Classificac¸˜ao autom´atica por ´arvore de classificac¸˜ao e ´arvore de decis˜ao

3.2.2 Algumas distˆancias adotadas `as sequˆencias temporais

A distˆancia euclidiana ´e uma das distˆancias mais utilizadas. Ela apresenta a vantagem de ser intuitiva e simples de se implementar, no entanto, encontra-se rapidamente limitada frente aos dados ruidosos, peri´odicos ou de comprimentos diferentes. A distˆancia euclidiana d(Si,Sj) entre duas sequˆencias temporais Si= ei,1, . . . ,ei,Ti e Sj= ej,1, . . . ,ej,Tj (ei,t ´e a t-esima observac¸˜ao da

sequˆencia Sj) de comprimentos diferentes (Ti6= Tj) ´e definida como segue:

d(Si,Sj) = v u u t min(Ti,Tj)

t=1 (ei,t− ej,t)2 (3.1)

Dynamic Time Warping (DTW)

Para superar os problemas associados `a distˆancia Euclidiana, Sakoe (1979) introduziu a distˆancia DTW: Dynamic Time Warping (alinhamento dinˆamico temporal) no dom´ınio de reco- nhecimento de fala. Esta foi utilizada para medir a similaridade entre qualquer palavra falada por um locutor humano e uma v´arias palavras de referˆencia, permitindo, em particular, superar o ritmo de pron´uncia.

A DTW (KRUSKAL, 1983) ´e reconhecida posteriormente como uma medida muito fi´avel para avaliar a distˆancia entre duas sequˆencias n˜ao necessariamente de comprimento idˆentico, tendo em conta o efeito de translac¸˜ao (dilatac¸˜ao) presentes nos dados, isto ´e, a presenc¸a ou ausˆencia de estados intermedi´arios entre estados estudados nas duas sequˆencias. Semantica- mente, para comparar duas sequˆencias temporais com a distˆancia DTW, o processo consiste em deformar as duas sequˆencias atrav´es da inserc¸˜ao de′′ (concretamente isto equivale a um estiramento de uma e/ou da outra sequˆencia) at´e que se obtenha o ”melhor”matching (corres- pondˆencia) entre sequˆencias modificadas. Este processo ´e chamado de alinhamento temporal.

O algoritmo de c´alculo de DTW realiza esse alinhamento, buscando entre todos os alinha- mentos poss´ıveis, qual minimiza uma func¸˜ao de custoγ integrando a diferenc¸a entre os dados alinhados e um custo de deformac¸˜ao temporal. A distˆancia escolhida ´e a correspondente ao custo m´ınimo de alinhamento.

Longest Common Subsequence: LCS

Proposta, inicialmente, para a comparac¸˜ao de cadeia de caracteres, a medida da mais longa subsequˆencia comum (LCS, Longest Common Subsequence) de Paterson (PATERSON; DAN ˇC´IK, 1994) foi considerada em seguida como um caso particular da Dynamic Time Warping espec´ıfica aos dados qualitativos (categoriais). Utilizando o mesmo princ´ıpio que a DWT, o algoritmo de busca da mais longa subsequˆencia comum reduz a distˆancia de c´umulo para cada comparac¸˜ao entre os s´ımbolos das sequˆencias a 1 ou 0, consoante a presenc¸a ou a ausˆencia do mesmo s´ımbolo.

Definic¸˜ao

Sejam S1e S2duas sequˆencias de dados sequenciais (ditas cadeias de caracteres). Uma sub-

sequˆencia comum a S1e S2´e uma cadeia de caracteres c cujos elementos aparecem tanto em S1

como em S2respeitando a ordem pr´e-estabelecida nestas duas sequˆencias. Nota-se LCS(S1,S2),

o comprimento de uma subsequˆencia comum relativa a S1e S2.

O problema da avaliac¸˜ao da distˆancia entre duas cadeias de caracteres ´e um generalizac¸˜ao do problema da avaliac¸˜ao do comprimento da mais longa subsequˆencia comum a estas duas ca- deias de caracteres. Esta distˆancia chamada distˆancia de edic¸˜ao ´e um meio t´ıpico de abordagens de reconhecimento de escrita manuscrita, mas tamb´em foi utilizado para medir a quantidade de evoluc¸˜ao entre duas sequˆencias biol´ogicas na classificac¸˜ao autom´atica de diferentes tipos de trajet´orias (BUZAN et al., 2004).

Mais precisamente, a distˆancia de edic¸˜ao entre duas sequˆencias de dados categoriais ou simb´olicos Sie Sjse escreve: dE(Si,Sj) =|Si| + Sj − 2 ∗ LCS(Si,Sj) (3.2) Algoritmo

A medida da mais longa subsequˆencia comum relativa a duas sequˆencia de dados simb´olicos pode ser igualmente calculada por um algoritmo de programac¸˜ao dinˆamica, de complexidade

Algorithm 1 Algoritmo de busca da mais longa subsequˆencia comum

Entrada: Duas sequˆencias de dados categoriais Si= ei,1, . . . ,ei,Ti e Sj= ej,1, . . . ,ej,Tj

Sa´ıda: o comprimento m´aximo de uma subsequˆencia comum relativa a Sie Sj: LCS (Si,Sj)

1: L[0][0] ← 0;

2: L[0 . . . Ti][0] ← 0;

3: L[0][. . . Tj][0] ← 0;

4: para u← 1 at´e Tifac¸a

5: para v← 1 at´e Tjfac¸a

6: se(ei,u = ej,v) ent˜ao

7: devolve L[u][v] ← L[u − 1][v − 1] + 1;

8: sen˜ao

9: se L[u − 1][v] > L[u][v − 1] ent˜ao

10: devolve L[u][v] ← L[u − 1][v];

11: sen˜ao

12: devolve L[u][v] ← L[u][v − 1];

13: fim se

14: fim se

15: fim para 16: fim para

17: devolve(L[Ti][Tj])

A t´ıtulo de exemplo, seja as duas sequˆencias S1 = CATCAGTA e S2 = ACTCCATGCA. A

tabela 3.1 ilustra a matriz de c´umulo das distˆancias L[][] de tamanho 9x11. Tem-se LCS(S1,S2) =

6 e dE(Si,Sj) =|Si| + Sj

− 2 ∗ LCS(Si,Sj) = 7 + 10 − 2 ∗ 6 = 6.

As subsequˆencias m´aximas comuns relativas a S1,S2 s˜ao, por exemplo, CTCAGA e AT-

Figura 3.1: Matriz de c ´umulo de distˆancia L para calcular LCS (ELGHAZEL, 2007)

3.3

Conclus˜ao

As abordagens de classificac¸˜ao autom´atica baseadas em ´ındice de proximidade s˜ao particu- larmente adaptadas para busca de diferentes perfis de indiv´ıduos que constituem a populac¸˜ao. Para isso, elas buscam descobrir uma partic¸˜ao de dados em classes homogˆeneas e bem separa- das, de modo que as sequˆencias mais pr´oximas (no sentido da m´etrica utilizada) encontrarem- se na mesma classe (coes˜ao intra-classe), enquanto sequˆencias dissimilares s˜ao distribu´ıdas em classes diferentes (separac¸˜ao inter-classes). No entanto, as classes obtidas por classificac¸˜ao de abordagens baseadas em um ´ındice proximidade nem sempre s˜ao f´aceis de interpretar. Na ver- dade, a maioria desses m´etodos s˜ao muitas vezes capazes de fornecer uma descric¸˜ao das classes atrav´es de sequˆencias ditas ”tipos”(ou seja, as sequˆencias centrais da classe, por exemplo), mas n˜ao conseguem desenvolver modelos que resumem as informac¸˜oes contidas nas sequˆencias da classe e as relac¸˜oes entre elas. Mas para muitas aplicac¸˜oes de apoio `a decis˜ao, faz-se necess´ario ser-se capaz de descrever as classes da populac¸˜ao sob uma forma compacta permitindo uma poss´ıvel abstrac¸˜ao de dados. Por conseguinte, destaca-se a dificuldade de considerar as novas sequencias introduzidas no sistema para deduzir suas classes e prever a progress˜ao do compor- tamento dos seus indiv´ıduos correspondentes.

Cap´ıtulo 4

MODELOS DE

MARKOV

Este cap´ıtulo apresenta uma s´ıntese sobre a teoria das cadeias de Markov, assim como a identificac¸˜ao de t´ecnicas de modelizac¸˜ao em diferentes dom´ınios de aplicac¸˜ao.

4.1

Introduc¸˜ao

A modelagem estoc´astica permite usar modelos probabil´ısticos para resolver problemas com informac¸˜oes incertas ou incompletas. Assim, os Modelos de Markov despertam um inte- resse em ambos os aspectos te´oricos e aplicados.

A teoria de cadeias de Markov nasceu em 1913, e cuja primeira aplicac¸˜ao foi desenvolvida por Markov para analisar a linguagem. Este trabalho foi regularmente utilizado, mas as pri- meiras aplicac¸˜oes utiliz´aveis foram realizadas nos anos 60, como os modelos probabil´ısticos de urnas por Neuwirtch, c´alculo direto da m´axima verossimilhanc¸a ou a observac¸˜ao da progress˜ao da s´erie de estados em uma cadeia de Markov. Isso permitiu a comunidade cient´ıfica explorar todo o potencial desses modelos. Foi nos anos 70 que os investigadores fizeram algoritmos poderosos para resolver os problemas de reconhecimento, de an´alise e de aprendizagem.

Desde 1975, os Modelos Ocultos de Markov (Hidden Markov Models em inglˆes ou HMMs) s˜ao usados em muitas aplicac¸˜oes, principalmente no dom´ınio de reconhecimento de voz. Essas aplicac¸˜oes n˜ao se contentam com o apoio a apenas da teoria dos HMMs, mas desenvolvem v´arias extens˜oes te´oricas, a fim de melhorar os modelos. Isto ´e o que os tornou bem sucedidos. Neste cap´ıtulo ´e apresentada uma s´ıntese sobre a teoria das cadeias de Markov, Mode- los Ocultos de Markov e identificac¸˜ao de t´ecnicas de modelagem em diferentes dom´ınios de aplicac¸˜ao.