• Nenhum resultado encontrado

6.2 Vis˜ao da abordagem para an´alise de dados sequenciais

6.2.3 Classificac¸˜ao de sequˆencias

As sequˆencias a serem analisadas s˜ao doravante associadas a uma matriz de dissimilaridade sim´etrica D=d(Si,Sj) | Si,Sj∈ S de tamanho nxn. Trata-se nesta parte da definic¸˜ao de um m´etodo h´ıbrido de classificac¸˜ao autom´atica do conjunto de sequˆencias S={S1,S2, . . . ,Sn}. O intuito ´e de n˜ao apenas definir e construir uma tipologia de sequˆencias em classes homogˆeneas e bem separadas, mas tamb´em resumir a informac¸˜ao que elas contˆem nos modelos para inter- pretar e aplic´a-las mais tarde para fins de classificac¸˜ao e previs˜ao. O m´etodo ´e composto pelos processos:

Etapa a: Classificac¸˜ao autom´atica por ´arvore de classificac¸˜ao

Esta abordagem visa estruturar as sequˆencias contidas em S={S1,S2, . . . ,Sn} em func¸˜ao de suas similaridades, sob forma de um conjunto de classes homogˆeneas e disjuntas, cada uma caracterizada por um conjunto de sequˆencias dominantes. Estas s˜ao um reflexo das propriedades de sua classe, mas tamb´em garantem uma clara separac¸˜ao das ´ultimas com relac¸˜ao a outras classes de partic¸˜ao.

Etapa b: Modelo de mistura e ´arvore de decis˜ao

Visto as performances significativas consider´aveis das cadeias de Markov no que con- cerne `a elaborac¸˜ao de modelos probabil´ısticos de gerac¸˜ao de dados que resumem as relac¸˜oes entre os estados das sequˆencias tratadas, e tendo em vista as dificuldades de classificac¸˜ao autom´atica por modelo de mistura no que tange `as probabilidades iniciais e o n´umero de classes, prop˜oe-se utilizar os resultados de classificac¸˜ao obtido na etapa (a), como alternativa ao problema de inicializac¸˜ao dos parˆametros dos modelos a esti- mar. Al´em disso, usar-se as probabilidades com base na modelagem de um processo estoc´astico markoviano observ´avel que representa o comportamento do tempo do dia. A inicializac¸˜ao se faz ent˜ao a partir da classificac¸˜ao obtida por ´arvore de classificac¸˜ao para distribuir os indiv´ıduos nas classes. Assim sendo, as probabilidades iniciais P(ci= c |

Si, Φ) s˜ao iguais a 1 para a classe de pertencimento dada pela ´arvore de classificac¸˜ao, e nulas para todas as outras classes da partic¸˜ao.

Etapa c: Previs˜ao da progress˜ao de sequˆencia

Uma vez que o modelo de mistura tenha aprendido sobre o conjunto das sequˆencias tem- porais S={S1,S2, . . . ,Sn}, pode servir-se disto para fazer a previs˜ao em tempo real da progress˜ao de uma sequˆencia Sa (nova ou existente) ap´os ter observado seu hist´orico ga,1,ga,2, . . . ,ga,Ta (ga,1 ´e o grupo associado ao estado ea, j). Os passos do modelo de

mistura (markoviano observ´avel) s˜ao:

1. Atribuir esta sequˆencia para classe camais suscet´ıvel de reproduzi-la (a classe `a qual

Satem a maior probabilidade de pertencer P(Sa| ca= c, Φa)): propriedade em linha de classificac¸˜ao.

ca= argmax1≤c≤k{P(Sa| Φc) = P(Sa| ca= c, Φc)} (6.4) 2. Utilizar Aca, a matriz nxn (n ´e o n´umero de estados poss´ıveis) de transic¸˜ao, associada

temporal Sa.

ga,Ta+1 = argmax1≤z≤m{aca(ea,Ta,Z)} (6.5)

6.3

Conclus˜ao

O presente cap´ıtulo apresentou a fundamentac¸˜ao conceitual empregada nos m´odulos de Aderˆencia e Previs˜ao para an´alise e previs˜ao de dados sequenciais heterogˆeneos, com base no acoplamento entre uma abordagem de classificac¸˜ao por ´arvore de classificac¸˜ao, os Modelos de Markov e c´alculo de distˆancia de similaridade. A ´arvore de classificac¸˜ao permite que se clas- sifique dados em conjuntos de classes homogˆeneas e disjuntas, por exemplo, uma trajet´oria percorrida em um instante t pode pertencer em apenas uma classe de aderˆencia, isto ´e, ou `a classe ”Normal”, ”Atrasado”ou ”Adiantado”. Enquanto o c´alculo de similaridade entre duas circulac¸˜oes ou sequˆencias ´e feito com base na f´ormula de distˆancia DeFlex proposta, que re- sulte em qu˜ao aderente uma circulac¸˜ao realizada ´e com relac¸˜ao ao planejado. Al´em do mais, apresentou-se os modelos de mistura de Markov para a elaborac¸˜ao de modelos probabil´ısticos para se fazer a previs˜ao do comportamento futuro de ve´ıculos em tempo real ap´os ter observado seu hist´orico.

O cap´ıtulo a seguir apresenta um estudo de caso onde aplica-se detalhadamente os conceitos aqui expostos.

Cap´ıtulo 7

EXPERIMENTOS E VALIDAC¸ ˜AO

Neste cap´ıtulo, apresentam-se a aplicac¸˜ao completa da abordagem proposta nesta dissertac¸˜ao, os procedimentos de coleta de dados, e o prot´otipo de uma ferramenta de apoio a decis˜ao baseada nesta abordagem. Tal abordagem foi aplicada ao planejamento de rotas para trens, a an´alise de trajet´orias, assim como as previs˜oes de planejamentos e comportamen- tos futuros do trem. Al´em de avaliar a relevˆancia da abordagem proposta, esta aplicac¸˜ao ferrovi´aria permite desenvolver novas perspectivas para o apoio a decis˜ao para o planeja- mento de rotas. Portanto, na ´ultima etapa, apresenta-se o simulador, constru´ıdo como um prot´otipo para realizar uma prova de conceito, para o apoio a decis˜ao de planejamentos de trens desenvolvido para caracterizar, a n´ıvel t´ecnico, as diferentes contribuic¸˜oes te´oricas deste trabalho. Conclui-se o cap´ıtulo expondo as perspectivas que j´a foram consideradas para a metodologia.

7.1

Introduc¸˜ao

Neste cap´ıtulo, aplica-se a metodologia de an´alise de dados sequenciais proposta. Para isso, partiu-se de um conjunto de dados ferrovi´arios relativos `a Empresa ABC, contendo um conjunto de trajet´orias (circulac¸˜oes) de trens em diversas regi˜oes brasileiras. Uma trajet´oria Si= ei,1,ei,2. . . ,ei,Ti ´e definida como um conjunto des Ticirculac¸˜oes efetuadas sucessivamente por

um trem i, uma circulac¸˜ao ei, j sendo caracterizada pelo conjunto de informac¸˜oes gerais sobre o trem (prefixo, tipo) e as informac¸˜oes respeitantes a seus percursos (a classe de aderˆencia de cada segmento (via) percorrido, diferentes informac¸˜oes clim´aticas, condic¸˜ao da malha, o tempo gasto em cada segmento, etc.)

de planejamento de rotas de trens”, dedicada `a an´alise de planejamento de rotas e previs˜ao de circulac¸˜oes com base no acoplamento entre a abordagem de classificac¸˜ao por ´arvore de

decis˜ao e cadeias de Markov. A abordagem por ´arvore de classificac¸˜ao fornece classes de

circulac¸˜oes homogˆeneas, cada uma caracterizada por um conjunto de trajet´orias padr˜oes (tipo

de aderˆencia), ao passo que as Cadeias de Markov permitem interpretar e descobrir (caso fal-

tem algumas informac¸˜oes) as classes por interm´edio dos modelos probabil´ısticos, que formam, assim, uma estrutura autom´atica de previs˜ao de comportamento de trajet´orias de trens. De Fato, para um trem com uma s´erie de circulac¸˜oes, trata-se, inicialmente, de identificar as clas- ses de trajet´orias que se aproxima mais, levando-se em considerac¸˜ao as suas caracter´ısticas e outras informac¸˜oes relevantes que influenciam uma circulac¸˜ao (condic¸˜oes clim´aticas, por exem- plo). Em seguida, se necess´ario, pode-se prever como ser´a o comportamento mais prov´avel da pr´oxima circulac¸˜ao, e estimar suas caracter´ısticas principais (Tipo de aderˆencia, tempo gasto, etc.). A cada propriedade ´e atribu´ıda as probabilidades obtidas a partir do modelo de Markov estabelecido para a classe de trajet´orias.