Algumas distâncias adotadas às sequências temporais

2.2 Classificação automática por árvore de classificação e árvore de decisão

3.2.2 Algumas distâncias adotadas às sequências temporais

A distância euclidiana é uma das distâncias mais utilizadas. Ela apresenta a vantagem de ser intuitiva e simples de se implementar, no entanto, encontra-se rapidamente limitada frente aos dados ruidosos, periódicos ou de comprimentos diferentes. A distância euclidiana d(Si,Sj) entre duas sequências temporais Si= ei,1, . . . ,ei,Ti e Sj= ej,1, . . . ,ej,Tj (ei,t é a t-esima observação da

sequˆencia Sj) de comprimentos diferentes (Ti6= Tj) ´e definida como segue:

d(Si,Sj) = v u u t min(Ti,Tj)

∑

t=1 (ei,t− ej,t)2 (3.1)

Dynamic Time Warping (DTW)

Para superar os problemas associados à distância Euclidiana, Sakoe (1979) introduziu a distância DTW: Dynamic Time Warping (alinhamento dinâmico temporal) no dom´ınio de reco- nhecimento de fala. Esta foi utilizada para medir a similaridade entre qualquer palavra falada por um locutor humano e uma várias palavras de referência, permitindo, em particular, superar o ritmo de pronúncia.

A DTW (KRUSKAL, 1983) é reconhecida posteriormente como uma medida muito fiável para avaliar a distância entre duas sequências não necessariamente de comprimento idêntico, tendo em conta o efeito de translação (dilatação) presentes nos dados, isto é, a presença ou ausência de estados intermediários entre estados estudados nas duas sequências. Semantica- mente, para comparar duas sequências temporais com a distância DTW, o processo consiste em deformar as duas sequências através da inserção de′₋′ (concretamente isto equivale a um estiramento de uma e/ou da outra sequência) até que se obtenha o ”melhor”matching (corres- pondência) entre sequências modificadas. Este processo é chamado de alinhamento temporal.

O algoritmo de cálculo de DTW realiza esse alinhamento, buscando entre todos os alinha- mentos poss´ıveis, qual minimiza uma função de custoγ integrando a diferença entre os dados alinhados e um custo de deformação temporal. A distância escolhida é a correspondente ao custo m´ınimo de alinhamento.

Longest Common Subsequence: LCS

Proposta, inicialmente, para a comparação de cadeia de caracteres, a medida da mais longa subsequência comum (LCS, Longest Common Subsequence) de Paterson (PATERSON; DAN ˇCÍK, 1994) foi considerada em seguida como um caso particular da Dynamic Time Warping espec´ıfica aos dados qualitativos (categoriais). Utilizando o mesmo princ´ıpio que a DWT, o algoritmo de busca da mais longa subsequência comum reduz a distância de cúmulo para cada comparação entre os s´ımbolos das sequências a 1 ou 0, consoante a presença ou a ausência do mesmo s´ımbolo.

Definic¸˜ao

Sejam S1e S2duas sequˆencias de dados sequenciais (ditas cadeias de caracteres). Uma sub-

sequˆencia comum a S1e S2´e uma cadeia de caracteres c cujos elementos aparecem tanto em S1

como em S2respeitando a ordem pr´e-estabelecida nestas duas sequˆencias. Nota-se LCS(S1,S2),

o comprimento de uma subsequˆencia comum relativa a S1e S2.

O problema da avaliação da distância entre duas cadeias de caracteres é um generalização do problema da avaliação do comprimento da mais longa subsequência comum a estas duas ca- deias de caracteres. Esta distância chamada distância de edição é um meio t´ıpico de abordagens de reconhecimento de escrita manuscrita, mas também foi utilizado para medir a quantidade de evolução entre duas sequências biológicas na classificação automática de diferentes tipos de trajetórias (BUZAN et al., 2004).

Mais precisamente, a distância de edição entre duas sequências de dados categoriais ou simbólicos Sie Sjse escreve: dE(Si,Sj) =|Si| + S_j − 2 ∗ LCS(S_i,S_j) (3.2) Algoritmo

A medida da mais longa subsequência comum relativa a duas sequência de dados simbólicos pode ser igualmente calculada por um algoritmo de programação dinâmica, de complexidade

Algorithm 1 Algoritmo de busca da mais longa subsequˆencia comum

Entrada: Duas sequˆencias de dados categoriais Si= ei,1, . . . ,ei,Ti e Sj= ej,1, . . . ,ej,Tj

Sa´ıda: o comprimento m´aximo de uma subsequˆencia comum relativa a Sie Sj: LCS (Si,Sj)

1: L_{[0][0] ← 0;}

2: L[0 . . . Ti][0] ← 0;

3: L[0][. . . Tj][0] ← 0;

4: para u← 1 at´e Tifac¸a

5: para v_{← 1 at´e T}jfac¸a

6: se(ei,u = ej,v) ent˜ao

7: devolve L[u][v] ← L[u − 1][v − 1] + 1;

8: sen˜ao

9: se L_{[u − 1][v] > L[u][v − 1] ent˜ao}

10: devolve L_{[u][v] ← L[u − 1][v];}

11: sen˜ao

12: devolve L[u][v] ← L[u][v − 1];

13: fim se

14: fim se

15: fim para 16: fim para

17: devolve(L[Ti][Tj])

A t´ıtulo de exemplo, seja as duas sequˆencias S1 = CATCAGTA e S2 = ACTCCATGCA. A

tabela 3.1 ilustra a matriz de c´umulo das distˆancias L[][] de tamanho 9x11. Tem-se LCS(S1,S2) =

6 e dE(Si,Sj) =|Si| + S_j

− 2 ∗ LCS(S_i,S_j) = 7 + 10 − 2 ∗ 6 = 6.

As subsequências máximas comuns relativas a S1,S2 são, por exemplo, CTCAGA e AT-

Figura 3.1: Matriz de c ´umulo de distˆancia L para calcular LCS (ELGHAZEL, 2007)

3.3 Conclus˜ao

As abordagens de classificação automática baseadas em ´ındice de proximidade são particu- larmente adaptadas para busca de diferentes perfis de indiv´ıduos que constituem a população. Para isso, elas buscam descobrir uma partição de dados em classes homogêneas e bem separa- das, de modo que as sequências mais próximas (no sentido da métrica utilizada) encontrarem- se na mesma classe (coesão intra-classe), enquanto sequências dissimilares são distribu´ıdas em classes diferentes (separação inter-classes). No entanto, as classes obtidas por classificação de abordagens baseadas em um ´ındice proximidade nem sempre são fáceis de interpretar. Na ver- dade, a maioria desses métodos são muitas vezes capazes de fornecer uma descrição das classes através de sequências ditas ”tipos”(ou seja, as sequências centrais da classe, por exemplo), mas não conseguem desenvolver modelos que resumem as informações contidas nas sequências da classe e as relações entre elas. Mas para muitas aplicações de apoio à decisão, faz-se necessário ser-se capaz de descrever as classes da população sob uma forma compacta permitindo uma poss´ıvel abstração de dados. Por conseguinte, destaca-se a dificuldade de considerar as novas sequencias introduzidas no sistema para deduzir suas classes e prever a progressão do compor- tamento dos seus indiv´ıduos correspondentes.

Cap´ıtulo 4

MODELOS DE

MARKOV

Este cap´ıtulo apresenta uma s´ıntese sobre a teoria das cadeias de Markov, assim como a identificação de técnicas de modelização em diferentes dom´ınios de aplicação.

4.1 Introduc¸˜ao

A modelagem estocástica permite usar modelos probabil´ısticos para resolver problemas com informações incertas ou incompletas. Assim, os Modelos de Markov despertam um inte- resse em ambos os aspectos teóricos e aplicados.

A teoria de cadeias de Markov nasceu em 1913, e cuja primeira aplicação foi desenvolvida por Markov para analisar a linguagem. Este trabalho foi regularmente utilizado, mas as pri- meiras aplicações utilizáveis foram realizadas nos anos 60, como os modelos probabil´ısticos de urnas por Neuwirtch, cálculo direto da máxima verossimilhança ou a observação da progressão da série de estados em uma cadeia de Markov. Isso permitiu a comunidade cient´ıfica explorar todo o potencial desses modelos. Foi nos anos 70 que os investigadores fizeram algoritmos poderosos para resolver os problemas de reconhecimento, de análise e de aprendizagem.

Desde 1975, os Modelos Ocultos de Markov (Hidden Markov Models em inglês ou HMMs) são usados em muitas aplicações, principalmente no dom´ınio de reconhecimento de voz. Essas aplicações não se contentam com o apoio a apenas da teoria dos HMMs, mas desenvolvem várias extensões teóricas, a fim de melhorar os modelos. Isto é o que os tornou bem sucedidos. Neste cap´ıtulo é apresentada uma s´ıntese sobre a teoria das cadeias de Markov, Mode- los Ocultos de Markov e identificação de técnicas de modelagem em diferentes dom´ınios de aplicação.

No documento ARVORE DE DECIS ˜ AO E MODELOS DE MARKOV: APLICAC ¸ ˜ AO NA LOG´ISTICA DE TRANSPORTE (páginas 68-73)