Antonio Jose de Castro Filho. Dissertação apresentada ao Programa de

(1)

Antonio Jose de Castro Filho

Dissertaç ão apresentada ao Programa de P ós-Graduaç ão em Ci ência da Computaç ão, do Centro Federal de Educaç ão Tecnol ógica Celso Suckow da Fonseca, CEFET/RJ, como parte dos requisitos necess ários à obtenç ão do t´ıtulo de mestre.

Orientador(a): Rafaelli Coutinho Coorientador(a): Eduardo Ogasawara

Rio de Janeiro, Fevereiro 2021

(2)

Dissertaç ão apresentada ao Programa de P ós-Graduaç ão em Ci ência da Computaç ão, do Centro Federal de Educaç ão Tecnol ógica Celso Suckow da Fonseca, CEFET/RJ, como parte dos requisitos necess ários à obtenç ão do t´ıtulo de mestre.

Antonio Jose de Castro Filho

Banca Examinadora:

Presidente, Professora D.Sc. Rafaelli Coutinho (CEFET/RJ) (Orientador(a))

Professor D.Sc. Eduardo Ogasawara (CEFET/RJ) (Coorientador(a))

Professor D.Sc. Jorge de Abreu Soares (CEFET/RJ)

Professora D.Sc. Esther Pacitti (INRIA)

Rio de Janeiro, Fevereiro 2021

(3)

Elaborada pela bibliotecária Tania Mello – CRB/7 nº 5507/04 Mineração de sequências restritas no espaço e no tempo / Antonio Jose de Castro Filho — 2021.

78f : il. , enc.

Dissertação (Mestrado) Centro Federal de Educação Tecnológica Celso Suckow da Fonseca , 2021.

Bibliografia : f. 73-78 Orientador: Rafaelli Coutinho Coorientador: Eduardo Ogasawara

1. Análise de séries temporais. 2. Mineração de dados (Computação). 3. Algoritmos. I. Coutinho, Rafaelli (Orient.). II.

Ogasawara, Eduardo (Coorient.). III. Título.

CDD 519.55

(4)

Mineraç ão de Sequ ências Restritas no Espaço e no Tempo

Os padr ões espaço-temporais trazem conhecimento sobre o tempo e a posiç ão onde eles est ão presentes. Encontr á-los é uma tarefa importante para diferentes dom´ınios.

No entanto, nem todos os padr ões s ão frequentes por todo um conjunto de dados, eles podem ocorrer restritos no espaço e no tempo. A mineraç ão desses padr ões tem como objetivo descobrir a faixa de tempo e o conjunto de posiç ões espaciais em que as sequ ências de eventos s ão frequentes. Este trabalho prop õe o algoritmoGeneralized Spatial-Time Sequence Miner (G-STSM) como uma soluç ão para a descoberta de sequ ências frequentes que s ão restritas no espaço e no tempo, trazendo a formalizaç ão do problema, definiç ões, provas e algoritmos. At é onde se sabe, ap ós busca na literatura relacionada, o G-STSM é a primeira abordagem capaz de encontrar tais sequ ências trabalhando com uma dimens ão de tempo e tr ês dimens ões de espaço. O G-STSM foi comparado com uma abordagem intuitiva que busca sequ ências de eventos frequentes com suporte muito baixo e agrupa suas ocorr ências para encontrar padr ões restritos no espaço e no tempo usando algoritmos conhecidos. Foi escolhido um conjunto de dados s´ısmicos espaço-temporal do mundo real para comparar ambas as abordagens usando m étricas de classificaç ão e registro de uso de recursos. Como resultado, o G-STSM apresentou melhor desempenho computacional com qualidade semelhante mostrando-se uma ferramenta de mineraç ão de dados eficiente para encontrar sequ ências restritas no espaço e no tempo.

Palavras-chave: S éries Espaço-Temporais; Padr ões Sequenciais; Mineraç ão de Sequ ências;

Minerac¸ ˜ao de Dados

(5)

Mining of Space and Time Constrained Sequences

Spatio-temporal patterns bring knowledge about time and position where they are present. Finding them is an important task for different domains. However, not all patterns are frequent over an entire dataset, they can occur constrained in space and time. Mining these patterns have as objective to discover the time range, and the set of spatial positions in which event sequences are frequent. This work proposesGeneralized Spatial-Time Sequence Miner (G-STSM) algorithm as a solution for the discovery of frequent sequences that are constrained in space and time, bringing the formalization of the problem, definitions, proofs and algorithms As far as is known, after searching the related literature, G-STSM is the first approach able to find such sequences working with one dimension of time and three dimensions of space. G-STSM has been compared with an intuitive approach that searches for sequences of frequent events with very low support and groups its occurrences to find patterns constrained in space and time using known algorithms. A set of real world space-time seismic dataset was chosen to compare both approaches using classification metrics and resource usage records. As a result, G-STSM presented better computational performance with similar quality and it proved to be an efficient data mining tool for finding tight space-time sequences.

Keywords: Space-Temporal Series; Sequential Patterns; Sequence Mining; Data Mi- ning

(6)

Figura 1 – Exemplo de sequ ência com marcaç ões de tempo usada na medicina: eletrocardiograma. Fonte: ENEM 2016. 16 Figura 2 – Exemplo de sequ ência com marcaç ões de tempo usada na eco-

nomia: taxa de c ˆambio US$ X R$. Fonte: tradingeconomics.com. 17 Figura 3 – Diagrama UML referente as estruturas de dados utilizadas. Um

candidato cpossui um conjunto de Ranged Groupsc.rgs. Ran- ged Group generaliza Kernel Range-Group, que por sua vez

generaliza Solid Range-Group. 36

Figura 4 – Distribuiç ão das posiç ões utilizadas no exemplo. 51 Figura 5 – Processo de mineraç ão utilizado pelo G-STSM. Ret ângulos com

cantos arredondados e fundo cinza representam dados. Ret ângulos com fundo branco se referem a processamento. 53 Figura 6 – Obtenç ão de dados s´ısmicos marinhos. Ondas de som s ão

enviadas ao fundo do mar, a partir de canh ões de ar, refletidas e registradas por hidrofones. Fonte: gov.br/anp. 60 Figura 7 – Conjunto de dados T401, marcaç ão dos padr ões (linhas colori-

das), e divis ão em quadrantes (linhas retas verticais e horizontais em preto com numeraç ão em vermelho). Fonte: OpendTect [2020]. 61 Figura 8 – Tempo total de execuç ão para cada abordagem usando diferentes

n ´umeros de quadrantes. 65

Figura 9 – acuracia´ dados β, σ e tamanho da sequ ência para ambas as abordagens. Áreas em cinza representam aus ência de valor, ou seja, para os par âmetros de entrada n ão foram encontradas

sequ ˆencias frequentes. 66

Figura 10 – Correlaç ão entre os par âmetros de entrada (γ,β eσ), o uso de

recursos, e os resultados. 68

(7)

nho da sequ ência para o G-STSM. 68 Figura 12 – Tempo de execuç ão do G-STSM usando diferentes configuraç ões

e tamanhos de conjunto de dados. 70

Figura 13 – Uso m áximo de mem ória durante a execuç ão do G-STSM para diferentes tipos de configuraç ões e tamanhos de conjunto de

dados. 70

(8)

Tabela 1 – Classificaç ão dos trabalhos relacionados apresentando informaç ões do m étodo utilizado e das restriç ões aplicadas. 30 Tabela 2 – Conjunto de Dados STS. Nove TS, cada uma com tr ês observaç ões. 50 Tabela 3 – Estrutura de dados referente aos candidatos. 51 Tabela 4 – Resultado da execuç ão do passo 1.a - Criaç ão dos grupos de

posiç ões para a primeira marcaç ão de tempo. 52 Tabela 5 – Resultado da execuç ão do processo at é o passo1.b- Geraç ão

dos RGs referentes aos grupos de posiç ões gerados. 54 Tabela 6 – Resultado da execuç ão do passo 1.a - Criaç ão dos grupos de

posiç ões, para a segunda marcaç ão de tempo. 54 Tabela 7 – Resultado da execuç ão do passo1.b - Novos RGs criados a partir

dos grupos de posiç ões referentes à segunda marcaç ão de tempo

para todas as sequ ˆencias candidatas. 55

Tabela 8 – Resultado da execuç ão do processo at é o passo1.c - Uni ão dos RGs abertos referentes à segunda marcaç ão de tempo. 55 Tabela 9 – Resultado da execuç ão do processo at é o passo1.d - Validaç ão

dos RGs referentes à segunda marcaç ão de tempo. 56 Tabela 10 – Resultado da execuç ão do passo 1.a - Criaç ão dos grupos de

posiç ões para a terceira marcaç ão de tempo. 56 Tabela 11 – Resultado do passo1.b - Geraç ão dos RGs referentes aos grupos

de posiç ões da terceira marcaç ão de tempo. 56 Tabela 12 – Resultado da conclus ão do passo1.creferente à terceira marcaç ão

de tempo. 57

Tabela 13 – Resuldado da execuç ão do passo1- Todos os KRGs ao fim da busca utilizando sequ ências de tamanho um. 57 Tabela 14 – Resultado do passo2 - SRGs gerados a partir dos KRGs. 58

(9)

dois gerados a partir dos SRGs de sequ ˆencias de tamanho um. 58

Tabela 16 – Variac¸ ˜ao de quadrantes. 63

Tabela 17 – Par ˆametros usados nos experimentos. 64

Tabela 18 – M édia e desvio padr ão das m étricas qualitativas para ambas abor-

dagens. 67

Tabela 19 – Configuraç ão utilizada no cen ário C. 69

(10)

Algoritmo 1 – G-STSM 38

Algoritmo 2 – FindKernelRangeGroup 39

Algoritmo 3 – SplitGroups 40

Algoritmo 4 – CreateGroup 41

Algoritmo 5 – MergeOpenKernelRangeGroups 42

Algoritmo 6 – ValidateKernelRangeGroups 43

Algoritmo 7 – ValidateAndClose 44

Algoritmo 8 – MergeKernelRangeGroups 47

Algoritmo 9 – GenerateCandidates 49

(11)

CRAN The Comprehensive R Archive Network G-STSMGeneralized Spatial-Time Sequence Miner KRG Kernel Range-Group

RG Ranged Group SRG Solid Range-Group

STS Sequ ência Com Marcaç ão De Tempo E Espaço (do Ingl êsSpatial Time-stamped Sequence)

TS Sequ ência Com Marcaç ão De Tempo (do Ingl êsTime-stamped Sequence)

(12)

1 Introduc¸ ˜ao 13

2 Referencial Te ´orico 16

2.1 Fundamentos 16

2.2 Mineraç ão de Sequ ências 19

3 Trabalhos Relacionados 21

3.1 Bases de Dados de Trajet ´oria 22

3.2 Bases de Dados de Posic¸ ˜oes Fixas 24

3.3 Comparac¸ ˜ao 28

4 Metodologia 32

4.1 Formalizac¸ ˜ao do Problema 32

4.2 Algoritmo G-STSM 35

4.2.1 Princ´ıpio Geral 37

4.2.2 Selec¸ ˜ao dos Kernel Range-Groups 39

4.2.3 Uni ˜ao dos Kernel Range-Groups 46

4.2.4 Gerac¸ ˜ao dos Candidatos 48

4.3 Exemplo 49

5 Avaliac¸ ˜ao Experimental 59

5.1 Conjunto de Dados 59

5.2 M ´etricas 61

5.3 Configurac¸ ˜ao Experimental 63

5.4 An ´alise Comparativa 65

5.5 An ´alise de Sensibilidade 67

6 Conclus ˜oes 71

(13)

(14)

1- Introduc¸ ˜ao

A popularizaç ão de dispositivos digitais com sensores e GPS contribui para o surgimento de extensos conjuntos de dados acerca de diversas áreas de conhecimento com eventos relevantes que acontecem em um determinado momento no tempo e posiç ão no espaço. Contudo, com o crescimento desses conjuntos de dados, torna- se dif´ıcil ou mesmo imposs´ıvel analis á-los de forma n ão automatizada. Ainda assim a capacidade de analisar esses dados abre oportunidades para extrair padr ões espaço- temporais interessantes [Huang et al., 2008]. Ser capaz de obter conhecimento de padr ões existentes nesses conjuntos de dados é um diferencial importante. Dada a ocorr ência de um eventoApoder prever ou quantificar a probabilidade de um eventoB, é uma informaç ão de grande utilidade para tomada de decis ões.

O uso de mineraç ão de dados, dentro de um processo multidisciplinar como forma de descoberta de estruturas de interesse em grandes conjuntos de dados, possibilita tal an álise [Hand, 2007; Fayyad et al., 1996; Alatrista-Salas et al., 2015]. Portanto, os algoritmos de mineraç ão de dados t êm sido aplicados para descoberta de padr ões em uma grande diversidade de problemas. Estes algoritmos começaram com a busca de regras de associaç ão e evolu´ıram para mineraç ão de padr ões sequenciais [Agrawal et al., 1993; Agrawal and Srikant, 1995]. Dessa forma a mineraç ão de sequ ências restritas no espaço e no tempo tem se tornado importante para diversos dom´ınios [Alatrista-Salas et al., 2016; Li and Fu, 2014; Huang et al., 2008; Geng and Hamilton, 2006].

No entanto, nem sempre a frequ ência de ocorr ência de alguns padr ões é grande por todo o conjunto de dados. Surge, ent ão, a ideia de extrair eventos que sejam frequentes n ão por todo um conjunto de dados, mas por uma janela de tempo e de espaço.

Considere, por exemplo, que em dias normais de trabalho as ruas do Centro, assim como v árias outras na cidade do Rio de Janeiro apresentam congestionamento antes e depois do expediente. N ão é diferente para as ruas ao redor do est ádio do Maracan ã, onde um grande fluxo de ve´ıculos tamb ém causa congestionamento. De manh ã, o fluxo intenso é no sentido centro da cidade e no final do dia, o sentido é o inverso. Um padr ão que poderia ser facilmente encontrado para uma ferramenta de mineraç ão de dados

(15)

devido ao alto suporte ´e que nas ruas do Rio de Janeiro, de manh ˜a (no sentido centro da cidade) e ao final do dia (no sentido oposto), antes e depois do expediente, o grande fluxo de ve´ıculos causa congestionamento.

Por ém, às quartas-feiras à noite, quando acontecem partidas de futebol no est ádio do Maracan ã, por volta das 22h com o t érmino da partida, carros de transporte de passageiros começam a se aproximar para atender os torcedores que v ão deixar o est ádio, resultando em novos engarrafamentos nas ruas ao redor do est ádio (em ambos os sentidos, indo e vindo do centro da cidade), n ão s ó pelo grande n úmero de carros, mas tamb ém porque se movem lentamente à espera dos clientes. Esse tipo de padr ão dificilmente seria encontrado usando m étodos tradicionais devido ao seu suporte muito baixo. O objetivo deste trabalho é justamente encontrar essas sequ ências de eventos (a proximidade do final da partida de futebol gera congestionamento), o conjunto de posiç ões (ruas pr óximas ao est ádio do Maracan ã) e o intervalo de tempo (final da partida de futebol) onde esse padr ão é frequente. Saber da exist ência desse padr ão é de grande import ância para o planejamento e gest ão da cidade.

Uma soluç ão intuitiva para encontrar padr ões que s ão restritos no espaço e no tempo é buscar sequ ências de eventos frequentes com suporte muito baixo, encontrar suas ocorr ências e agrupar essas ocorr ências para cada sequ ência frequente, obtendo grupos restritos no espaço e no tempo onde essas sequ ências t êm suporte alto. Esta soluç ão é inspirada em Alatrista-Salas et al. [2015] e uma poss´ıvel implementaç ão dela

é combinar algoritmos bem conhecidos para mineraç ão de sequ ência e agrupamento.

Contudo, tal soluç ão pode gerar muitos itens frequentes devido ao suporte muito baixo usado para encontrar as sequ ências, impactando no seu desempenho. Neste trabalho, esta abordagem foi utilizada para fins de comparaç ão com o algoritmo desenvolvido e foi nomeada de SPADE+DBSCAN, pois utiliza os algoritmos SPADE (Sequencial PAttern Discovery using Equivalence classes) [Zaki, 2001] e DBSCAN (Density Based Clustering of Applications with Noise) [Ester et al., 1996].

Campisano et al. [2018] propuseram uma soluç ão para a descoberta de sequ ências restritas em uma dimens ão do espaço e no tempo. O presente trabalho generaliza este problema considerando o espaço de forma tridimensional e apresenta uma soluç ão eficiente com o algoritmoGeneralized Spatial-Time Sequence Miner (G-STSM). Desta forma, buscam-se n ão s ó as sequ ências que s ão padr ões, mas tamb ém o per´ıodo de tempo e uma regi ão do espaço (tridimensional) onde tais sequ ências s ão frequentes. Portanto,

(16)

as principais contribuiç ões deste trabalho podem ser resumidas em: i) a formalizaç ão da generalizaç ão do problema para descoberta de sequ ências restritas no espaço e no tempo, eii)a soluç ão do problema atrav és da proposta do algoritmo G-STSM.

O algoritmo G-STSM foi comparado com a abordagem SPADE+DBSCAN. Todos os experimentos realizados usam um conjunto de dados s´ısmico espac¸o-temporal real.

A qualidade das abordagens foi avaliada usando m étricas de classificaç ão, al ém disso o desempenho computacional de ambas as abordagens foi comparado. Os resultados obtidos indicam que o G-STSM teve um desempenho melhor do que o SPADE+DBSCAN, com m étricas de classificaç ão semelhantes.

Acredita-se que o G-STSM seja uma ferramenta importante para encontrar sequ ências restritas no espaço e no tempo. Desta forma, foi conduzida uma an álise extensa para avaliar sua sensibilidade com o objetivo de entender a influ ência dos par âmetros de entrada e diferentes tamanhos de conjuntos de dados na sa´ıda e no desempenho do algoritmo proposto.

O restante deste trabalho é organizado como segue: O Cap´ıtulo 2 descreve os principais conceitos para a compreens ão deste trabalho. O Cap´ıtulo 3 apresenta levantamento e revis ão de artigos relacionados ao tema. O Cap´ıtulo 4 traz detalhes sobre a abordagem utilizada neste trabalho apresentando o algoritmo G-STSM. O Cap´ıtulo 5 mostra os resultados da aplicaç ão do G-STSM e sua comparaç ão com a abordagem SPADE+DBSCAN. Por fim, o Cap´ıtulo 6 discute os resultados obtidos e aponta trabalhos futuros.

(17)

2- Referencial Te ´ orico

Este cap´ıtulo tem como objetivo apresentar conceitos importantes para compreens ão dos assuntos contidos neste trabalho. A Seç ão 2.1 introduz fundamentos necess ários sobre sequ ências com marcaç ão de tempo e espaço e a Seç ão 2.2 descreve o processo de mineraç ão de sequ ências.

2.1- Fundamentos

Uma sequ ência com marcaç ão de tempo é uma sequ ência ordenada de observaç ões obtidas por meio de mediç ões repetidas ao longo do tempo [Han et al., 2011]. O estudo de sequ ências com marcaç ão de tempo é comum em diversas áreas e aplicaç ões, como por exemplo:i)na medicina, para avaliaç ão da atividade el étrica do coraç ão, atrav és de um eletrocardiograma, conforme ilustrado na Figura 1; eii)na economia, para avaliar as relaç ões comerciais e financeiras entre dois pa´ıses, a taxa de c âmbio, conforme ilustrado na Figura 2 [Mooney and Roddick, 2013; Han et al., 2007; Chen and Hu, 2006;

Klemettinen et al., 1994].

Figura 1 – Exemplo de sequ ência com marcaç ões de tempo usada na medicina: eletrocardiograma. Fonte: ENEM 2016.

(18)

Figura 2 – Exemplo de sequ ência com marcaç ões de tempo usada na economia: taxa de c âmbio US$ X R$. Fonte: tradingeconomics.com.

Sejat=<v1, v2, . . . , vn> umaSequ ência com Marcaç ão de Tempo (do ingl ês Time-stamped Sequence) (TS), ondev_i é um item, |t|=n é o n úmero de itens em t, ev_n é o item mais recente em t[Shumway and Stoffer, 2017]. Uma subsequ ência é uma amostra cont´ınua de uma TS com um comprimento definido. Dessa forma, uma subsequ ência de uma TStque começa na marcaç ão de tempope de tamanhom é uma sequ ência ordenada de itens representada por:subm,p(t) =<vp, vp+1, . . . , vp+m−1>, onde

|sub_m,p(t)|=me1≤p≤ |t| −m.

Uma sequ ência s =<w1, w2, . . . , w_k> est á inclu´ıda a partir da marcaç ão de tempo inicial q em uma TS t =<v₁, v₂, . . . , v_n>, se existir uma posiç ão inicial q tal que w1 = vq, w2 = vq+1, . . . , w_k = vq+k−1. Assim, uma sequ ência s é definida por:

s=<w₁, w₂, . . . , w_k>,∃q|s=sub_k,q(t), onde|s|=k.

Diversos tipos de eventos envolvem n ão s ó dados temporais, como tamb ém dados espaciais, como por exemplo i) na sismologia, para levantamentos s´ısmicos e ii)na epidemiologia, para registro do n úmero de infectados por uma dada doença em diferentes regi ões ao longo do tempo [Alatrista-Salas et al., 2015]. Uma base de dados espaço-temporal é um conjunto estruturado de informaç ões, em que dimens ões espaciais e temporais est ão inclusas [Alatrista-Salas et al., 2016]. Dados espaço-temporais podem ser indexados por localizaç ões espaciais e marcaç ões de tempo. O espaço pode ser geogr áfico ou socioecon ômico, e as escalas de tempo podem variar de microssegundos

(19)

a mil ênios. As possibilidades de relacionamentos temporais e espaciais s ão complexas e geram dificuldades em sua an álise e busca por padr ões [Han et al., 2007].

Uma posiç ão espacial (por simplicidade, posiç ão) p é definida como um trio ordenado(x, y, z), ondex,yezindicam valores das coordenadas no sistema Cartesiano.

Sejamf ehduas posiç ões, tais quef = (xf, yf, zf)eh= (xh, yh, zh). A dist ância entre f eh, denotada pordist(f, h), é calculada usando a dist ância euclideana: dist(f, h) = p(xh−xf)²+ (yh−yf)²+ (zh−zf)².

SejaP ={p₁, p₂, ..., p_m}um conjunto de posiç ões, umaSequ ência com Marcaç ão de Tempo e Espaço (do ingl êsSpatial Time-stamped Sequence) (STS)sté uma du- pla(p, t), ondep∈P é uma posiç ão et é a TS associada. Desta forma, um conjunto de dados de STSD é um conjunto de STS. Diz-se que uma STSst= (p, t) suporta uma sequ ências, ses é uma subsequ ência emt: sup(s, st) =|Q|,∀q ∈Q|s=sub_|s|,q(st.t). O suportede uma sequ ênciasemD é o n úmero de marcaç ões de tempo emDem ques est á inclu´ıdo, denotado por:sup(s, D) =|Q|,∀q ∈Q,∃st_i ∈D|s=sub_|s|,q(sti.t), ondeQ é o conjunto de marcaç ões de tempo da sequ ênciasemD.

A frequ ência de uma sequ ênciasem uma STSst é a fraç ão dest.tque apresenta suportes: f req(s, st) = ^sup(s,st)_|st.t| . Saleh and Masseglia [2008] definem a frequ ência de um conjunto de itens aplicada sobre uma base de dados como sendo o n úmero de transaç ões que apresentam a ocorr ência dos itens dividido pelo tamanho total do conjunto de dados.

Desta forma, afrequ ênciade uma sequ ência semD é a fraç ão de tempo emD que suporta s, representada por: f req(s, D) = ^sup(s,D)_|st.t| , st ∈ D, assumindo que |st.t| é o mesmo em todas as STS. Dado um valor m´ınimo definido pelo usu árioγ ∈]0,1], uma sequ ência é dita frequente, sef req(s, D)≥γ.

Umper´ıodo de tempo(por simplicidade,per´ıodo)r= (rs, re) é definido por uma marcaç ão de tempo inicialr_se uma marcaç ão de tempo finalr_e. O tamanho do per´ıodor

´e dado por: |r|=re−rs+ 1.P R ´e o conjunto de todas os poss´ıveis per´ıodos de tempo sobre o conjunto de dadosD.

(20)

2.2- Mineraç ão de Sequ ências

A mineraç ão de dados é um processo de descoberta de padr ões significativos em um conjunto de dados. A área de conhecimento de mineraç ão de sequ ências é uma especializaç ão da mineraç ão de dados, focada em encontrar sequ ências ou s éries de eventos em bases de dados, os quais ocorrem formando algum tipo de padr ão, um conjunto de atributos que aparecem persistentemente em meio ao conjunto de dados [Aydin and Angryk, 2016]. Para efetuar tal tarefa s ão utilizados conceitos de diferentes

áreas de conhecimento, como a estat´ıstica, aprendizado de m áquina, reconhecimento de padr ões, intelig ência artificial, dentre outras [Hand, 2007; Witten et al., 2016; Roiger, 2017; Klemettinen et al., 1994; Aydin and Angryk, 2016].

O conceito de mineraç ão de sequ ências, primeiramente abordado por Agrawal and Srikant [1995], evoluiu e apresenta novas definiç ões. Tsai and Shieh [2009] descrevem mineraç ão de sequ ências como a t écnica que explora padr ões frequentes que ocorrem relacionados ao tempo extra´ıdos de uma base de dados. O objetivo da mineraç ão de sequ ências é o de ser capaz de observar um conjunto de subsequ ências que s ão frequentes em um conjunto de dados. Isso significa que sua frequ ência excede um valor m´ınimo definido pelo usu ário.

Um dos mais conhecidos algoritmos de busca de padr ˜oes frequentes ´e o Apriori.

A ideia chave por tr ás dos algoritmos Apriori é que, como o pr óprio nome diz, ele utiliza conhecimentos pr évios para realizar a busca por padr ões frequentes. Sequ ências candidatas de tamanhok+ 1s ão baseadas em combinaç ões de sequ ências frequentes j á descobertas de tamanho k. Esta fase da mineraç ão de sequ ências é conhecida como geraç ão de candidatos, a qual leva em conta o conceito antimonot ônico, o qual frequentemente é citado, no âmbito de mineraç ão de sequ ências, como: para que uma sequ ência seja frequente suas subsequ ências tem de ser frequentes. Exemplificando, na busca de padr ões frequentes tal conhecimento é usado da seguinte forma: a exist ência das sequ ências de tamanho dois AB e BC permite a geraç ão de um candidato de tamanho tr êsABC [Mooney and Roddick, 2013].

O algoritmo SPADE é um dos algoritmos baseados na t écnica Apriori. Ele utiliza bases de dados em um formato vertical baseada em identificadores e usa t écnicas de busca baseadas em rede (busca em largura e busca em profundidade). SPADE aplica

(21)

propriedades combinat órias para decompor o espaço de busca em sub-redes que podem ser processadas independentemente na mem ória principal, permitindo assim que o banco de dados seja verificado at é tr ês vezes, o que minimiza E/S e custos computacionais.

Este algoritmo permite tamb ém a adiç ão de restriç ões as buscas de sequ ências [Zaki, 2001].

cSPADE é uma extens ão do SPADE que adiciona restriç ões nas buscas de sequ ências frequentes, as seguintes foram adicionadas: comprimento ou largura nas sequ ências, intervalo m´ınimo ou m áximo em elementos de sequ ência consecutivos, janela de tempo total de validade da sequ ência, restriç ões de item e enumerar sequ ências preditivas de uma determinada classe entre um conjunto de valores de classe Zaki [2000].

Um problema relacionado a abordagem Apriori é o grande n úmero de candidatos gerados. O paradigma de crescimento de padr ão frequente (pattern growth) remove a necessidade de geraç ão de candidatos, adotando uma abordagem de divis ão e conquista que usa projeç ões do conjunto de dados. Em lugar de efetuar buscas por todo o conjunto de dados com todo o conjunto de candidatos, este paradigma divide o conjunto de dados e tamb ém as sequ ências a serem verificadas, o que pode resultar em melhor desempenho em grandes conjuntos de dados [Han et al., 2000; Mooney and Roddick, 2013].

A mineraç ão de sequ ências relacionadas a espaço e tempo é a busca por conhecimentos relacionados aos fen ômenos que envolvem tanto componentes espaciais como temporais, tentando encontrar todas as sequ ências de eventos significantes, úteis, interessantes e n ão triviais [Aydin and Angryk, 2016; Sunitha and Rama Mohan Reddy, 2014; Alatrista-Salas et al., 2015; Huang et al., 2008].

Um padr ão espaço-temporal trata de uma sequ ência de eventos as quais s ão restritas a uma regi ão e a um per´ıodo de tempo. É importante observar que estas sequ ências restritas no espaço e no tempo podem apresentar baixo suporte, se considerarmos todo o conjunto de dados, mas se consideradas dentro de um per´ıodo de tempo e de espaço alcançam valores mais altos [Huang et al., 2008].

Na busca por padr ões frequentes, alguns trabalhos utilizam n ão apenas a mineraç ão de dados, mas tamb ém t écnicas de agrupamento. Tal abordagem busca agrupar espacialmente ocorr ências de eventos pr óximas utilizando o grupo como uma única regi ão e, dessa forma, restringindo padr ões espacialmente. Esta forma de trabalho, assim como outras, podem ser vistas no Cap´ıtulo 3, que vem a seguir.

(22)

3- Trabalhos Relacionados

Este trabalho de pesquisa foi realizado a partir do desenvolvimento de um mapa sistem ático da literatura relacionada ao assunto aqui pesquisado sobre mineraç ão de sequ ências restritas no espaço e no tempo. Pretende-se com essa revis ão sistem ática buscar mais informaç ões acerca do assunto, identificar lacunas e comparar o presente trabalho de pesquisa com outros no contexto onde se insere.

Como ponto de partida foi conduzida uma busca por palavras-chave contidas nos campos: t´ıtulo, resumo e palavras-chave de documentos na l´ıngua inglesa na base de dados Scopus. A seguinte string de busca foi utilizada: TITLE-ABS-KEY((“sequence mining” OR “sequential pattern”) AND (“space-time” OR “spatiotemporal”)) AND (LIMIT- TO(LANGUAGE, “English”)). Como resultado da busca, foram obtidas oitenta e tr ês refer ências a documentos, entre artigos e confer ências.

Alguns dos documentos n ão estavam relacionados ao assunto aqui discutido e dois foram classificados comosurvey sobre do tema de mineraç ão de padr ões frequentes:

Sunitha and Rama Mohan Reddy [2014] descreveram umsurvey sobre mineraç ão de padr ões em bases de dados espaço-temporais. Ele apresenta as principais t écnicas para descoberta de tr ês tipos de padr ões espaço temporais, de acordo com a ordenaç ão em relaç ão ao tempo: sequenciais (totalmente ordenados), co-ocorr ência (desordenados) e em cascata (parcialmente ordenados). Os autores pontuam como trabalhos futuros o uso de medidas de avaliaç ão e t écnicas de validaç ão de padr ões de real interesse com o intuito de reduzir o n úmero de padr ões insignificantes gerados e, assim, a quantidade de mem ória utilizada na busca por tais padr ões. Sukanya and Ranjit Jeba Thangaiah [2019] realizaram uma revis ão dos trabalhos relacionados a mineraç ão de padr ões frequentes, observando principalmente suas diferentes aplicaç ões, al ém de abordar poss´ıveis direç ões futuras.

Os outros sessenta e tr ês artigos foram classificados de acordo com os conjuntos de dados utilizados em suas pesquisas e ser ão discutidos nas seç ões que se seguem.

Nem todos os artigos s ão discutidos, foram escolhidos para leitura completa apenas os que, ap ós r ápida leitura do t´ıtulo e do resumo, mais significativos e/ou apresentaram relaç ão direta ao trabalho aqui descrito. A Seç ão 3.1 aborda nove dos quarenta trabalhos

(23)

que utilizam conjuntos de dados de trajet órias, os quais buscam padr ões referentes ao movimento. No contexto de mineraç ão de sequ ências, a trajet ória de um objeto é uma sequ ência de locais com marcaç ão de tempo. Portanto, uma base de dados de trajet ória cont ém registros de posiç ões no espaço com sua respectiva marcaç ão de tempo [Giannotti et al., 2007].

A Seç ão 3.2 aborda dezessete dos vinte e tr ês trabalhos que utilizam conjuntos de dados de posiç ões fixas, os quais buscam padr ões referentes às sequ ências de eventos.

Em tais conjuntos de dados, para diferentes posiç ões no espaço, registram-se os eventos que se d ão em um dado per´ıodo de tempo. Por fim, a Seç ão 3.3 traz uma comparaç ão entre as abordagens encontradas na literatura relacionadas ao presente trabalho.

3.1- Bases de Dados de Trajet ´oria

Os trabalhos referentes aos conjuntos de dados de trajet ória descrevem uma coleç ão de eventos do mesmo objeto, ou fen ômeno natural, movendo-se em diferentes marcaç ões de tempo e espaço. A coleç ão de eventos pode estar relacionada aos movi- mentos de grupos [Feuerhake and Sester, 2013], às atividades humanas de deslocamento [Li and Fu, 2014; Chen et al., 2014; Lee et al., 2016; Xu and Kwan, 2020], às regi ões baseadas em pol´ıgonos que se movem [Aydin and Angryk, 2016; Aydin et al., 2020], às postagens em uma rede social [Huang et al., 2016], aos fen ômenos geogr áficos [He et al., 2020], ou mesmo às corridas de t áxi [Yang and Gid ófalvi, 2018; Ibrahim and Shafiq, 2019;

Cheng et al., 2020].

Feuerhake and Sester [2013] buscaram padr ões de movimento em grupo, como por exemplo, padr ões de formaç ões de ataque ou defesa em uma partida de futebol. A abordagem consiste em dois passos. Primeiro, a clusterizaç ão é aplicada sobre diferentes marcaç ões de tempo nos dados, permitindo que elementos, que possuem suas posiç ões descritas uns em relaç ão aos outros, sejam descobertos. Neste passo, as poss´ıveis rotaç ões, translaç ões e mudanças de escala s ão consideradas. Como segundo passo, eles buscaram no conjunto de dados por sequ ências dos grupos.

Chen et al. [2014] utilizaram mineraç ão de padr ões sequenciais com o intuito de extrair sequ ências de lugares frequentemente visitados e us á-los para modelar um perfil

(24)

de mobilidade. Isso possibilita, ent ão, comparar diferentes perfis e calcular a similaridade entre eles. A construç ão do perfil de mobilidade segue quatro passos:i) marcar pontos de parada de cada trajet ória;ii) aplicar um algoritmo de agrupamento nos pontos para gerar rotas de interesse;iii) transformar as trajet órias GPS em trajet órias com rotas de interesse; eiv) minerar padr ões de trajet ória frequentes.

Li and Fu [2014] e Lee et al. [2016] buscaram padr ões frequentes para predizer atividades humanas de deslocamento. No intuito de predizer pr óximos passos de atividades em andamento, eles compararam padr ões encontrados nas sequ ências modeladas com as em atividades andamento.

Aydin and Angryk [2016] propuseram dois algoritmos para mineraç ão de sequ ências espaço-temporais de regi ões em movimento. Este trabalho foi estendido em Aydin et al.

[2020], no qual um novo algoritmo foi introduzido. O intuito é minerar sequ ências de eventos espaço-temporais em uma base de dados de trajet órias de regi ões em movimento, sem informaç ão de valores limites definidos pelo usu ário. Tal algoritmo repete aleatoria- mente o processo de mineraç ão em um subconjunto aleat ório de inst âncias estimando um ´ındice de participaç ão das sequ ências de eventos. Ambos os trabalhos restringem tempo e espaço de forma que o movimento entre duas inst âncias s ó é considerado se predicados de continuidade temporal e proximidade espacial forem atendidos.

Huang et al. [2016] buscaram padr ões de trajet órias frequentes a partir de dados de mensagens com marcaç ões geoespaciais de uma rede social. Primeiro, um algoritmo de clusterizaç ão é aplicado para agrupar em regi ões os locais onde o usu ário posta suas mensagens. Para encontrar as trajet órias, verifica-se novamente as mensagens (restritas no tempo de um dia) e as regi ões onde ocorreram, cada mudança de regi ão se traduz como uma trajet ória.

Ibrahim and Shafiq [2019], com o intuito de descobrir padr ões de trajet órias frequentes, agruparam pontos de origem e destino de viagens de t áxi, identificando distritos (da cidade do Porto, em Portugal) aos quais pertencem. A partir dessas informaç ões, os pontos e hor ários de maior concentraç ão de corridas foram encontrados. Outra informaç ão obtida foi a de padr ões frequentes usando o algoritmo SPADE para mineraç ão de sequ ências frequentes.

He et al. [2020] analisaram as caracter´ısticas de fen ômenos geogr áficos complexos propondo uma nova estrutura espaço-temporal hier árquica complexa para representar rotas espaço-temporais. Uma abordagem de mineraç ão de padr ões espaço-temporal

(25)

complexa baseada em eventos é proposta neste artigo. Eles aplicaram mineraç ão de sequ ências para buscar padr ões na propagaç ão dos fen ômenos desenvolvendo uma nova t écnica baseada no algoritmo SPADE.

Embora os trabalhos apresentados na presente seç ão sejam relevantes, eles buscam padr ões diferentes dos explorados neste trabalho. No presente trabalho, n ão s ão buscados padr ões de trajet órias, mas sim padr ões de sequ ências de eventos, onde todos os eventos de uma mesma sequ ência ocorrem em uma mesma posiç ão. A seç ão que se segue aborda trabalhos que utilizam bases de dados de posiç ões fixas.

3.2- Bases de Dados de Posic¸ ˜oes Fixas

A presente seç ão aborda trabalhos que utilizam bases de dados de posiç ão fixa, ou seja, dados obtidos do ambiente atrav és do uso de sensores fixos [Batu et al., 2017].

Dessa forma, bases de dados de posiç ão fixa podem consistir do comportamento dos clientes em suas compras [Chen et al., 2020; Koseoglu et al., 2020], de dados hidrol ógicos [Alatrista-Salas et al., 2015, 2016], de imagens de sat élite [Julea et al., 2008, 2011] ou de padr ões de crime [Chen et al., 2017].

Tsoukatos and Gunopulos [2001] usaram a abordagem da teoria de rede para decompor o espaço de pesquisa original. Eles efetuaram uma busca em profundidade, que encontra apenas as sequ ências espaço-temporais de tamanho m áximo. Desta forma, a proposta n ão faz uso de grande quantidade de mem ória, uma vez que n ão precisa de todas as sequ ências de tamanhokpara gerar as de tamanhok+ 1. Este algoritmo n ão visa reduzir o n úmero de varreduras do conjunto de dados. Ele efetua buscas para averiguar a frequ ência de um conjunto de sequ ências e as agrupa em diferentes granularidades no espaço utilizando uma abordagem de pr é-processamento para unir sub regi ões.

Julea et al. [2008] e Julea et al. [2011] tem, nos seus trabalhos, o intuito de descobrir padr ões de sequ ência atrav és do uso de s éries de imagens de sat élite. O primeiro trabalho apresenta duas t écnicas distintas, utilizando para ambas o algoritmo SPADE na tarefa de mineraç ão de sequ ências. O primeiro trabalho se baseia em duas t écnicas distintas, utilizando para ambas o algoritmo SPADE na tarefa de mineraç ão

(26)

de sequ ências. O segundo trabalho aplica o uso de aprendizado de m áquina n ão supervisionado. Assim, ele apresenta as diferentes t écnicas para descriç ão das imagens obtidas por sat élite, e introduz um novo tipo de padr ão de mineraç ão de dados dedicado

à extraç ão depixelsque dividem um padr ão temporal e que observem, na m édia, uma conectividade espacial m´ınima. A t écnica pode ser utilizada em v ários tipos de imagens com diferentes resoluç ões.

Leong and Chan [2012] propuseram um algoritmo que busca por sequ ências de eventos frequentes por todo um conjunto de dados espaço-temporal, o qual pode ser dividido em cinco fases: i) ordenaç ão do conjunto de dados,ii) busca por eventos que apresentem suporte maior que um m´ınimo estabelecido,iii) remoç ão de transaç ões que n ão apresentem ao menos um item com suporte maior ou igual ao pr é definido,iv) geraç ão de padr ões sequenciais e, por fim,v) uma fase que mant ém apenas padr ões m áximos, eliminando padr ões que estejam contidos dentro de outros.

Flamand et al. [2014] utilizaram mineraç ão de dados meteorol ógicos e epidemiol ógicos para avaliar potenciais causas de surtos de dengue na Guiana Francesa.

Este trabalho relacionou os padr ões temporais encontrados atrav és do uso do algoritmo PrefixSpan [Pei et al., 2004] com o contexto epidemiol ógico ou espacial. Os padr ões encontrados mostram associaç ões entre condiç ões meteorol ógicas e a evoluç ão da incid ência de dengue.

Gurram and Rama Mohan Reddy [2014] definiram uma estrutura de dados em forma de grafo para representar dados espaço-temporais com o intuito de reduzir o n úmero de buscas na base de dados. Os autores tamb ém propuseram um algoritmo para minerar padr ões sequenciais, considerando uma dimens ão de tempo e uma de espaço.

Para isso, eventos s ão posicionados em uma representaç ão cartesiana, dividindo-a em ret ângulos, chamados de “c élulas”, as que tiverem uma densidade maior que um valor pr é- definido s ão transformadas em um grafo sequencial em mem ória. Por fim, define-se uma medida de signific ância para descobrir padr ões úteis a qual leva em conta a densidade das “c élulas”. Um grande problema desta abordagem é que a divis ão em ret ângulos pode remover eventos importantes apenas porque ca´ıram em uma “c élula” pouco densa, assim as ligaç ões com estes eventos s ão perdidas mesmo para c élulas densas pr óximas a este.

Alatrista-Salas et al. [2015] aplicaram um processo de descoberta de padr ões sobre um conjunto de dados hidrol ógicos com o objetivo de analisar a qualidade da água.

O processo consiste em quatro etapas:i)agrupar os dados de acordo com a dist ˆancia;

(27)

ii)extrair padr ões sequenciais levando em consideraç ão o aspecto temporal; iii)filtrar as sequ ências retendo apenas os que est ão de acordo com uma medida de interesse temporal; eiv)gerar soluç ões agrupadas de acordo com a t écnica S²MP [Saneifar et al., 2008] e o algoritmo de clusterizaç ãok−medoids.

Chen et al. [2015] buscaram por padr ões espaço-temporais colocando os dados de entrada (identificaç ão do evento, marcaç ão de tempo, posiç ão e tipo de evento) em uma árvore R. Para montar a representaç ão em árvore R, um n ó é utilizado como piv ô (elemento inicial da sequ ência) e os elementos que ocorreram antes do primeiro evento e os que ocorrem depois da marcaç ão de tempo do primeiro mais a restriç ão de tempo (definido como par âmetro) s ão removidos. Os elementos que sobram geram uma sequ ência que se inicia com o piv ô. Depois, a restriç ão espacial para cada sequ ência, que deve ocorrer dentro de um raio (definido como par âmetro), é verificada. Para cada sequ ência descoberta, verifica-se seu n úmero de ocorr ências, mantendo as que forem frequentes.

Sunitha and Rama Mohan Reddy [2016] propuseram a inclus ão de priorizaç ão em forma de pesos no processo de mineraç ão utilizando duas medidas de interesse “peso da sequ ência” e “´ındice de signific ância”. Os pesos s ão associados por especialistas no dom´ınio de acordo com a import ância dos tipos de evento, regi ões geogr áficas e intervalos de tempo. Como resultado relevante, os autores apontaram a reduç ão do n úmero de padr ões descobertos, reduzindo o n úmero de padr ões insignificantes.

Alatrista-Salas et al. [2016] definiram duas medidas utilizadas para reduç ão do n úmero de padr ões encontradosabsolute support espatiotemporal participation index.

Eles propuseram tamb ém dois algoritmos para a mineraç ão de padr ões espaço temporais, um baseado em busca em largura com uma estrat égiaa priori, derivado do algoritmo SPADE e o outro baseado em busca em profundidade com uma estrat égiapattern-growth.

Xue et al. [2016], com o intuito de descobrir padr ões frequentes, desenvolveram um m étodo eficaz reduzindo o n úmero de buscas sobre o conjunto de dados e aumentando o desempenho do processo de mineraç ão. O algoritmo proposto é baseado nos conceitos de assimetria de informaç ão, n ão aditividade (a informaç ão diminui ap ós cada n´ıvel em processos de v ários n´ıveis) e antimonotonicidade.

Yusof and Zurita-Milla [2017] utilizaram um processo em tr ês etapas com o intuito de encontrar padr ões de perfis e ólicos:i)mineraç ão de padr ões (utilizando o algoritmo Linear time Closed Itemset Miner Sequence - LCMSeq),ii) detecç ão de padr ões simi-

(28)

lares no espaço e no tempo, eiii)avaliaç ão da conformidade dos padr ões para gerar perfis e ólicos. Esta abordagem busca padr ões em s éries individuais e, depois, encontra interseç ões dos padr ões no espaço e no tempo.

Chen et al. [2017] abordaram o problema de descoberta de padr ões frequentes espaço-temporais encadeados sobre bases de dados sem informaç ão de identidade, ou seja, n ão diz quais aç ões foram realizadas por quais sujeitos. Os autores propuseram uma abordagem que busca por padr ões em um per´ıodo de tempo e espaço definidas pelo usu ário utilizando um modelo baseado em grafos chamado TKSTP.

Batu et al. [2017] propuseram um algoritmo que n ão depende da entrada de par âmetros definidos pelo usu ário para buscar padr ões. Tal algoritmo usa um procedi- mento estoc ástico e um modelo de Hawkes [Hawkes, 1971] para definir relaç ões entre os tipos de eventos. Os autores aplicaram tal algoritmo sobre dois conjuntos de dados um sint ético e um real com dados de acidentes de tr áfego.

Zhang et al. [2018] buscaram por padr ões em s éries temporais medidas sobre diferentes elementos mas que em conjunto descrevem o estado de um sistema. Para isso, eles utilizaram uma abordagem de tr ês est ágios: extraç ão de caracter´ısticas, descoberta de estados frequentes e s´ıntese de padr ões.

Wan et al. [2019] definiram como s éries temporais correlacionadas as que s ão registradas simultaneamente para monitorar e refletir um sistema. Eles utilizaram Redes Neurais Recorrentes (Recurrent Neural Network) baseadas no modeloLong Short Term Memory (LSTM)para prever futuros valores de s éries temporais correlacionadas de uma maneira coletiva.

Chen et al. [2020] investigaram padr ões de consumo sobre uma base de dados de registro de compras, usando duas perspectivas. A primeira foi a perspectiva espacial e temporal de maneira agregada, buscando responder a quest ão de onde e quando os eventos de compra ocorrem mais (conhecidos comohot spots). Para isso, foi realizado um agrupamento espaço-temporal utilizando um m étodo denominado ST-DBSCAN [Birant and Kut, 2007] (baseado no DBSCAN), obtendo grupos dos locais e intervalos de tempo onde as compras mais ocorrem. A segunda foi a perspectiva da trajet ória de maneira individual para responder a pergunta de qual a sequ ência de localizaç ão das compras realizadas pelos clientes. Para isso, foi utilizada uma t écnica h´ıbrida de mineraç ão de padr ões sequenciais sem ânticos combinando o algoritmo PrefixSpan e a an álise sem ântica de Point of Interest (POI) [Han et al., 2001]. No entanto, este trabalho considera apenas

(29)

sequ ˆencias dentro de um per´ıodo de tempo de uma semana.

Koseoglu et al. [2020] propuseram uma abordagem de an álise visual, que incor- pora a extraç ão de padr ão espaço-temporal utilizando um algoritmo de mineraç ão de padr ão sequencial estendido e um mecanismo de orientaç ão de descoberta de padr ão operando em consulta geogr áfica. O trabalho aborda passos da concepç ão da ferramenta de an álise visual centrada no usu ário utilizada para explicar tend ências comportamentais dos grupos de clientes que mudam em relaç ão ao tempo, localizaç ão e tipo de cliente.

O presente trabalho faz parte desta classe, tamb ém utilizando base de dados de posiç ões fixas. Os pontos que o diferenciam dos outros trabalhos s ão abordados na seç ão que se segue.

3.3- Comparac¸ ˜ao

Na mineraç ão em bases de dados com marcaç ões de espaço e tempo, cada trabalho utiliza m étodos diferentes. Alguns utilizam apenas mineraç ão de dados na busca por padr ões frequentes, levando em conta somente o tempo [Li and Fu, 2014;

Lee et al., 2016; He et al., 2020; Tsoukatos and Gunopulos, 2001; Julea et al., 2008;

Leong and Chan, 2012; Xue et al., 2016; Zhang et al., 2018], ou introduzindo alguma restriç ão pr évia para tamb ém levar em conta o espaço [Aydin and Angryk, 2016; Aydin et al., 2020; Julea et al., 2011; Flamand et al., 2014; Gurram and Rama Mohan Reddy, 2014; Chen et al., 2015; Sunitha and Rama Mohan Reddy, 2016; Chen et al., 2017; Batu et al., 2017; Koseoglu et al., 2020]. Outros utilizam a mineraç ão de dados para a busca de padr ões frequentes no tempo e tamb ém agrupamento com o intuito de agrupar posiç ões espaciais [Feuerhake and Sester, 2013; Chen et al., 2014; Huang et al., 2016; Yusof and Zurita-Milla, 2017; Ibrahim and Shafiq, 2019; Alatrista-Salas et al., 2015, 2016; Chen et al., 2020]. O presente trabalho efetua uma abordagem diferente. A mineraç ão de dados é realizada, buscando sequ ências frequentes no tempo, mas tais sequ ências frequentes devem ocorrer em grupos espaciais de forma que tais grupos possuam um certo n úmero m´ınimo de posiç ões espaciais (definido pelo usu ário), e cada posiç ão espacial deve estar a uma dist ância m áxima (tamb ém definida pelo usu ário) em relaç ão a uma outra posiç ão do mesmo grupo.

(30)

Apesar deste trabalho fazer parte da classe de posiç ões fixas, cada trabalho lida com restriç ões de maneiras diferentes. Alguns usam suporte global (um valor de suporte que é v álido para todo o conjunto de dados) [Tsoukatos and Gunopulos, 2001; Leong and Chan, 2012; Xue et al., 2016; Yusof and Zurita-Milla, 2017; Batu et al., 2017; Zhang et al., 2018]. Outros consideram suporte local, aplicando restriç ões pr é-definidas de tempo, espaço ou ambos. Julea et al. [2011] limitaram o espaço em n úmero de pontos de uma imagem. Flamand et al. [2014] restringiram o espaço em territ órios geogr áficos e o tempo em intervalos. Gurram and Rama Mohan Reddy [2014] mapearam os eventos do conjunto de dados em c élulas em forma de uma grade de acordo com o tempo e espaço, essas c élulas t êm seu tamanho definido pelo usu ário limitando o tempo e o espaço.

Alatrista-Salas et al. [2015] pr é-processaram os dados construindo zonas homog êneas de objetos espaciais. Chen et al. [2015] limitaram o espaço em raios e o tempo em per´ıodo de tempos. Sunitha and Rama Mohan Reddy [2016] restringiram o espaço em sub-regi ões e o tempo em intervalos. Alatrista-Salas et al. [2016] limitaram o espaço em zonas. Chen et al. [2017] pr é-definiram um per´ıodo de tempo e um raio para o espaço.

Chen et al. [2020] consideraram o tempo dentro de uma semana para evitar grandes intervalos entre eventos. Koseoglu et al. [2020] permitiram o usu ´ario limitar tanto o tempo quanto o espac¸o.

O presente trabalho lida com tais restriç ões de uma maneira diferente, pois n ão considera inicialmente limitaç ões de tempo ou espaço. Ele encontra as sequ ências frequentes, a regi ão no espaço e o per´ıodo de tempo em que s ão frequentes. Desta forma, o algoritmo a ser apresentado neste trabalho é capaz de encontrar diferentes tamanhos de sequ ências, intervalos de tempo e regi ões do espaço onde uma sequ ência

´e frequente.

A Tabela 1 mostra a classificaç ão dos trabalhos relacionados de acordo com a base de dados (trajet ória ou posiç ão fixa), o m étodo utilizado (mineraç ão de sequ ências ou agrupamento com mineraç ão de sequ ências), e as restriç ões aplicadas sobre o m étodo, que podem ser suporte global ou suporte local com espaço fixo e /ou tempo fixo.

Como pode ser observado, o único trabalho com abordagem semelhante encontrado na literatura é o proposto por Campisano et al. [2018], o qual busca por sequ ências frequentes apenas em intervalos de tempo e regi ões no espaço, começando a buscar sequ ências primeiro no espaço e depois no tempo. Dessa forma, ele considera o espaço de forma linear. O presente trabalho estende-o com uma nova perspectiva sobre o

(31)

Tabela 1 – Classificaç ão dos trabalhos relacionados apresentando informaç ões do m étodo utilizado e das restriç ões aplicadas.

Classe Trabalho M étodo Restriç ões

Min. Agrup. + Min. Sup. Global Espac¸o Fixo Tempo Fixo

Feuerhake and Sester [2013] X X

Chen et al. [2014] X X X

Li and Fu [2014] X X

Aydin and Angryk [2016] X X X

Trajet ´oria Huang et al. [2016] X X X

Lee et al. [2016] X X

Ibrahim and Shafiq [2019] X X

Aydin et al. [2020] X X X

He et al. [2020] X X

Tsoukatos and Gunopulos [2001] X X

Julea et al. [2008] X X

Julea et al. [2011] X X

Leong and Chan [2012] X X

Flamand et al. [2014] X X X

Gurram and Rama Mohan Reddy [2014] X X X

Alatrista-Salas et al. [2015] X X

Pos. Fixa Sunitha and Rama Mohan Reddy [2016] X X X

Alatrista-Salas et al. [2016] X X

Xue et al. [2016] X X

Yusof and Zurita-Milla [2017] X X

Batu et al. [2017] X X

Campisano et al. [2018] X

Zhang et al. [2018] X X

Chen et al. [2020] X X

Koseoglu et al. [2020] X X X

problema, passando a buscar as sequ ˆencias primeiro no tempo e depois no espac¸o.

Usando tal abordagem foi poss´ıvel generaliz ´a-lo considerando o espac¸o de maneira tridimensional.

At é onde alcançaram as buscas aqui apresentadas, a abordagem proposta neste trabalho é a primeira capaz de encontrar sequ ências restritas no espaço e no tempo que funcionam com uma dimens ão de tempo e tr ês dimens ões de espaço. Assim, para efeito de comparaç ão, tamb ém desenvolvemos a abordagem SPADE+DBSCAN baseada em Alatrista-Salas et al. [2015]. Tal trabalho agrupou dados de acordo com a dist ância e extraiu padr ões sequenciais para levar em consideraç ão o aspecto temporal.

SPADE+DBSCAN combina um algoritmo de mineraç ão de sequ ências com um m étodo de agrupamento capaz de encontrar grupos que contenham sequ ências frequentes em tr ês etapas: i) encontrar todas as sequ ências frequentes, usando o algoritmo SPADE;ii)para cada sequ ência frequente, encontrar todas as suas ocorr ências no conjunto de dados; eiii)agrupar as ocorr ências de cada sequ ência frequente, utilizando o

(32)

algoritmo de agrupamento DBSCAN baseado na noç ão de densidade. Assim, temos sequ ências frequentes e seus grupos que s ão restritos no espaço e no tempo.

A abordagem SPADE+DBSCAN servir á de baseline para comparaç ão com o algoritmo G-STSM. Esta comparaç ão ser á apresentada no Cap´ıtulo 5, e neste mesmo cap´ıtulo, na Seç ão 5.3, mais detalhes acerca da abordagem SPADE+DBSCAN s ão apresentados.

(33)

4- Metodologia

Este cap´ıtulo apresenta a soluç ão proposta para o problema de Mineraç ão de Sequ ências Restritas no Espaço e no Tempo, na forma do algoritmo G-STSM. Conside- rando um conjunto de dados STSD, o problema abordado neste trabalho é encontrar sequ ências emDque s ão frequentes em posiç ões espaciais e per´ıodo de tempo restritos. O objetivo é descobrir sequ ências frequentes, o per´ıodo de tempo e o conjunto de posiç ões em que essas sequ ências s ão frequentes.

A Seç ão 4.1 apresenta a formalizaç ão do problema que este trabalho pretende resolver, trazendo conceitos fundamentais para este trabalho. Na Seç ão 4.2 os algoritmos desenvolvidos s ão apresentados. Por fim, na Seç ão 4.3 é apresentado um exemplo utilizando um conjunto de dados sint ético.

4.1- Formalizac¸ ˜ao do Problema

Umgrupo de posiç ões espaciais(por simplicidadegrupo)g é definido por um conjunto de posiç ões onde seus elementos devem estar a uma distancia m áximaσ de ao menos um outro elemento do grupo, ou seja: g|∀p ∈ g,∃q ∈ g|dist(p, q) ≤ σ. P é o conjunto de todas as posiç ões. P G é o conjunto de todos os poss´ıveis grupos de posiç ões sobre o conjunto de dadosD. O conjunto de STS de um grupog é definido por:

sts(g) =SG|∀st∈SG, st.p∈g.

UmRanged Group(RG)rg é um trio(s, r, g), ondes é uma sequ ência,r é um per´ıodo de tempo eg é um grupo. As ocorr ências de uma sequ ênciasem um RGrg, definido poroccur(s, r, g), referem-se ao n úmero de todas as ocorr ências desno intervalo r em sts(g). O suporte de uma sequ ências em um RG rg, denotado por sup(s, r, g),

é o n úmero de marcaç ões de tempo que scomeça no intervalo r em sts(g), ou seja:

sup(s, r, g) =|Q|,∀q∈Q,∃st∈sts(g)|s=sub_|s|,q(st.t), r_s≤q≤r_e,|s| ≤r_e. A frequ ência de uma sequ ênciasem um RGrg,f req(s, r, g), é a divis ão do suporte do RGsup(s, r, g) pelo tamanho der:f req(s, r, g) = ^sup(s,r,g)_|r| .

(34)

Dados os limites m´ınimos definidos pelo usu ário para frequ ênciaγe para tamanho do grupoβ, as caracter´ısticas de umKernel Range-Group(KRG)e de umSolid Range- Group(SRG)s ão apresentadas na Definiç ão 1 e na Definiç ão 2, respectivamente.

Definiç ão 1 Sejargum RG com sequ ências, per´ıodo de tempor, e grupog. Ent ão,rg

é chamado de KRG, se e somente se, as seguintes condiç ões forem verdadeiras:

1)f req(s, r, g)≥γ 2)|g| ≥β

3)∀r⁰∈P R|r⁰ ⊂r er⁰.rs =r.rs, ambas as condic¸ ˜oes se aplicam:

a)sup(s, r⁰, g)< sup(s, r, g) b)f req(s, r⁰, g)≥γ

4)∀g⁰ ∈P G|g⊆g⁰, occur(s, r, g⁰) =occur(s, r, g) 5)∀g⁰ ∈P G|g⁰ ⊂g, occur(s, r, g⁰)< occur(s, r, g)

A primeira condiç ão certifica que a frequ ência de uma sequ ênciasem um per´ıodo de temporsobre as STS de um grupog(i.e. sts(g)) pertencente ao RGrg é maior que uma frequ ência m´ınimaγ definida pelo usu ário. A segunda condiç ão certifica que o grupo gdeve respeitar o tamanho m´ınimoβ definido pelo usu ário.

A terceira condiç ão certifica que para todo per´ıodo de tempor⁰ pertencente ao conjunto de todos os poss´ıveis intervalos de tempoP R, contido no per´ıodo de tempo r e começando na mesma marcaç ão de tempo, as seguintes condiç ões devem ser verdadeiras: (a) o suporte emr⁰ser á menor e (b) a frequ ência ser á maior que a frequ ência m´ınima definida pelo usu árioγ. Em outras palavras, diminuir o per´ıodo de tempo mant ém uma frequ ência maior que o m´ınimo, mas diminui o suporte. Pode-se dizer que a condiç ão garante que o tamanho de r é m´ınimo entre os intervalos que começam na mesma marcaç ão de tempo.

A quarta condiç ão certifica que para todo o grupog⁰ pertencente ao conjunto dos poss´ıveis gruposP G, tal quegest á contido ou é igual ag⁰, a ocorr ência da sequ ências no per´ıodo de temporser á igual em ambos os grupos. Em outras palavras, aumentar o grupo mant ém o mesmo n úmero de ocorr ências (i.e., n ão vale a pena aumentar o grupo degparag⁰, visto que o aumento n ão vai contribuir para o n úmero de ocorr ências des).

Pode-se dizer que a condiç ão garante que o tamanho deg é m áximo.

Por fim, a quinta condic¸ ˜ao certifica que para todo grupog⁰pertencente ao conjunto

(35)

de todos poss´ıveis gruposP G, tal queg⁰ est á contido emg, a ocorr ência da sequ ências no per´ıodo de tempordiminuir á no grupog⁰. Em outras palavras, diminuir o grupo reduz o n úmero de ocorr ências (i.e., n ão vale a pena diminuir o grupo degparag⁰, pois isso tamb ém reduz o n úmero de ocorr ências des). Pode-se dizer que a condiç ão garante que o tamanho deg é m´ınimo.

Definiç ão 2 Sejargum RG com uma sequ ências, per´ıodo de tempor, e grupog. Ent ão, rg é chamado de SRG se e somente se as condiç ões que se seguem se aplicarem:

1)f req(s, r, g)≥γ 2)|g| ≥β

3)∀r⁰∈P R|r⊆r⁰, ´e poss´ıvel ter a) ou b) ou ambas:

a)sup(s, r⁰, g) =sup(s, r, g) b)f req(s, r⁰, g)< γ

4)∀r⁰∈P R|r⁰ ⊂r, sup(s, r⁰, g)< sup(s, r, g) 5)∀g⁰ ∈P G|g⊆g⁰, occur(s, r, g⁰) =occur(s, r, g) 6)∀g⁰ ∈P G|g⁰ ⊂g, occur(s, r, g⁰)< occur(s, r, g)

A primeira condiç ão certifica que a frequ ência de uma sequ ênciasem um per´ıodo de temporsobre as STS de um grupog(i.e. sts(g)) pertencente ao RGrg é maior que uma frequ ência m´ınima γ definida pelo usu ário . A segunda condiç ão certifica que o grupo deve respeitar o tamanho m´ınimoβ definido pelo usu ário .

A terceira condiç ão certifica que para todo per´ıodo de tempor⁰ pertencente ao conjunto de todos os poss´ıveis per´ıodos de tempoP R, que cont ém o per´ıodo de tempor, as afirmaç ões (a) ou (b), ou ambas devem ser verdadeiras: (a) o suporte no per´ıodo de tempor⁰ ser á igual ao suporte no per´ıodo de tempor; (b) a frequ ência emr⁰ ser á menor que a frequ ência definida pelo usu ário. Assim, n ão adianta aumentar o per´ıodo de tempo, pois mantemos o suporte, e podemos acabar reduzindo a frequ ência a um valor menor que a m´ınima definida pelo usu ário. Pode-se dizer que a condiç ão garante que o per´ıodo de tempor é m áximo.

A quarta condiç ão certifica que para todo per´ıodo de tempor⁰ pertencente ao conjunto de todos os per´ıodos de tempoP R, tal quer⁰ est á contido emr, o suporte para o per´ıodo de tempor⁰ ser á menor que parar. De fato,sapresenta suporte na primeira e na

última marcaç ão de tempo no per´ıodo de tempor, ent ão se um per´ıodo de tempo menor

(36)

existe ondes é frequente, o suporte ser á menor. Em outras palavras, diminuir o per´ıodo de tempo diminui o suporte. Pode-se dizer que a condiç ão garante que o tamanho do per´ıodo de tempor é m´ınimo.

A quinta condiç ão certifica que para todo grupog⁰ que pertence ao conjunto de todos poss´ıveis gruposP G, tal quegest á contido emg⁰, a ocorr ência da sequ ênciasser á igual para o grupoge para o grupog⁰ no mesmo per´ıodo de tempor. Ou seja, aumentar o grupo mant ém o n úmero de ocorr ências da sequ ência. Pode-se dizer que a condiç ão garante que o tamanho do grupog é m áximo.

Finalmente, a sexta condiç ão certifica que para todo grupog⁰ que pertence ao conjunto de todos poss´ıveis gruposP G, tal queg⁰ est á contido em g, a ocorr ência da sequ ênciasser á menor que para o grupogno mesmo per´ıodo de tempor. Em outras palavras, diminuir o grupo diminui o n úmero de ocorr ências da sequ ência. Pode-se dizer a condiç ão garante que o tamanho do grupog é m´ınimo.

Sejako tamanho da sequ ências, ent ãosrg é um SRG de tamanhok. SRG_k é o conjunto de todos SRG de tamanhok.

Como foi dito no in´ıcio deste cap´ıtulo, o problema que se pretende resolver é o de Mineraç ão de Sequ ências Restritas no Espaço e no Tempo, ou seja, encontrar o per´ıodo de tempo e o conjunto de posiç ões (i. e., SRG) onde as sequ ências s ão frequentes.

Portanto, usando as definiç ões descritas nesta seç ão, o objetivo deste trabalho é encontrar todos os SRGs que respeitem a Definiç ão 2.

A Seç ão 4.2, que se segue, apresenta o algoritmo que utiliza os conhecimentos aqui abordados e é proposto por este trabalho como soluç ão para o processo de Mineraç ão de Sequ ências Restritas no Espaço e no Tempo.

4.2- Algoritmo G-STSM

Esta seç ão apresenta os algoritmos que fazem parte de cada passo no processo de Mineraç ão de Sequ ências Restritas no Espaço e no Tempo na forma do algoritmo proposto, o G-STSM. Tal algoritmo é projetado para a identificaç ão de sequ ências frequentes em conjuntos de dados espaço-temporais a partir do conceito de SRG. As noç ões de grupo (RG, KRG e SRG) introduzidas na seç ão anterior permitem a extraç ão de

(37)

sequ ˆencias restritas no espac¸o e no tempo de forma eficiente.

O G-STSM é baseado no princ´ıpio de geraç ão de candidatos. Nosso objetivo

é começar a encontrar SRG para sequ ências de tamanho um e explorar o suporte e o n úmero de ocorr ências de SRG para sequ ências maiores com um n úmero limitado de varreduras no conjunto de dados. Para isso, precisamos encontrar o per´ıodo de tempo e o conjunto de posiç ões (i. e., o SRG) em que uma sequ ência candidata é frequente em apenas uma varredura.

Seja c ∈ Ck um candidato de tamanho k no conjunto de candidatos Ck. Na estrutura de dados definida, c est á associado a uma sequ ência c.seq, ao per´ıodo de tempoc.range, ao conjunto de posiç ões espaciaisc.pos, e ao conjunto de RGsc.rgsda sequ ênciac.seq sobre o per´ıodo de tempoc.rangeque ocorre nas STS cujo conjunto de posiç ões s ãoc.pos. Um RGrgest á associado a uma sequ ênciarg.s, um per´ıodo de temporg.re um grupo de posiç ões espaciaisrg.g. Al ém disso,rg.f req é a frequ ência da sequ ênciarg.semrgerg.occ é um conjunto de ocorr ências derg.semrg. Por fim, um valor l ógico (rg.closed) permite saber o estado do RG. Um valorverdadeirosignifica que, em algum momento, durante a varredura do conjunto de dados ao tentar estender seu per´ıodo de tempo, sua frequ ência se tornou menor que a frequ ência m´ınima definida pelo usu árioγ.

Um KRGkrgpossui todas as informaç ões de um RG, onde sua frequ ência é maior ou igual aγ, o tamanho de seu grupo é maior ou igual aβ e nele suas posiç ões est ão a uma dist ância m áximaσ de pelo menos uma outra posiç ão do mesmo grupo. Da mesma forma, um SRG est á associado às mesmas informaç ões de um RG. A Figura 3 detalha, atrav és do uso de um diagrama UML, a estrutura de dados referente aos candidatos e seu relacionamento com as outras estruturas de dados utilizadas neste trabalho, os RGs, KRG e SRG.

Figura 3 – Diagrama UML referente as estruturas de dados utilizadas. Um candidatoc possui um conjunto de Ranged Groupsc.rgs. Ranged Group generaliza Kernel Range- Group, que por sua vez generaliza Solid Range-Group.

(38)

Na Subseç ão 4.2.1, a seguir, apresentamos o algoritmo G-STSM al ém dos detalhes de seu funcionamento.

4.2.1 Princ´ıpio Geral

O Algoritmo 1 é o ponto de entrada do processo proposto neste trabalho. Ele recebe como entrada um conjunto de dados STSD, um conjunto de itensI, um conjunto de posiç ões espaciaisP referentes às STS e os limites definidos pelo usu ário:

a frequ ência m´ınima γ, o tamanho m´ınimo de um grupo β e a distancia m áxima de ao menos um outro elemento do grupoσ. O algoritmo possui tr ês funç ões principais para: (i) encontrar os KRGs atrav és do uso da funç ão F indKernelRangeGroup, detalhada na Subseç ão 4.2.2, (ii) unir KRGs para identificar SRGs atrav és do uso da funç ão M ergeKernelRangeGroups, detalhada na Subseç ão 4.2.3 e (iii) gerar candidatos atrav és do uso da funç ãoGenerateCandidates, detalhada na Subseç ão 4.2.4.

O algoritmo inicia sua execuç ão gerando sequ ências candidatas de tamanho um.

Elas s ão constru´ıdas a partir de todos os itens distintos deI apresentados no conjunto de dados STSD, considerando todo o seu per´ıodo de tempo e todas as posiç ões espaciais P (linhas 3 a 5). Em seguida, uma repetiç ão (linhas 6 a 25) calcula, para cada rodada k, ondek é equivalente ao tamanho da sequ ência buscada, todos osSRG_k com uma frequ ência maior ou igual aγ, tamanho do grupo maior ou igual a β, e as posiç ões do grupo a uma dist ância m áximaσde pelo menos uma outra posiç ão do mesmo grupo.

A busca sobre o conjunto de dados STSD é realizada a partir de uma “janela deslizante” de comprimentok(linha 9) igual ao tamanho da sequ ência para encontrar os KRGs de cada candidatoc∈Ckna funç ãoF indKernelRangeGroup(linhas 10 a 14). O motivo do uso de uma janela deslizante de tamanhok, tamanho igual ao da sequ ência,

é que toda a sequ ência buscada possa ser verificada. Exemplificando, se buscamos uma sequ ência de tamanho tr ês, digamos “ACE”, ent ão s ão necess árias tr ês marcaç ões de tempo para verificar se a sequ ência completa est á presente, dessa forma, a janela deslizante possui sempre o tamanho da sequ ência para a qual buscamos os KRGs.

Ap ós a execuç ão do algoritmo F indKernelRangeGroup alguns KRGs podem acabar com seu atributoclosedcom valorfalsoe sem a devida validaç ão. Este trabalho é