PROPOSTA DE UM ALGORITMO PARA INTERPRETAR OS OUTLIERS

A partir das defini¸cões apresentadas no decorrer deste trabalho foi implementado um algoritmo para encontrar e interpretar os outliers automaticamente. Como dito, este trabalho é uma extensão do trabalho proposto em (FONTES et al., 2013). Logo, a parte inicial na qual os candidatos e outliers são descobertos é a mesma.

O pseudo código apresentado no Algoritmo 3.1 ilustra a extensão do algoritmo de Fontes, e até a linha 25 ele se mantém igual. A entrada ´

e composta pelo conjunto de trajetórias T, o conjunto de regiões R, a distância máxima para a vizinhan¸ca de um ponto maxDist, o número m´ınimo de vizinhos para existir um caminho padrão minSup, o comprimento m´ınimo para que o desvio seja considerado um outlier segment minLength, o conjunto de eventos E, o tempo m´ınimo de uma parada minT ime e o timeT ol que é a maior diferen¸ca de tempo permitida entre um synchronized standard segment e o outlier segment correspondente. A sa´ıda é o conjunto de outlier segments classificados.

Algoritmo 3.1 – Pseudo código Principal 1 I n p u t : 2 T ; // c o n j u n t o de t r a j e t ó r i a s 3 R ; // c o n j u n t o de r e g i õ e s 4 m a x D i s t ; // d i s t â n c i a máxima 5 m i n S u p ; // número m´ınimo de v i z i n h o s 6 m i n L e n g t h ; // d i s t â n c i a m´ınima p e r c o r r i d a no d e s v i o 7 E ; // c o n j u n t o de e v e n t o s

8 m i n T i m e ; // tempo m´ınimo para s e r c o n s i d e r a d o um s t o p 9 t i m e T o l ; // tempo para o s s y n c h r o n i z e d s t a n d a r d s e g m e n t s 10 11 Output : 12 S O ; // c o n j u n t o d o s s t o p o u t l i e r s 13 E A O ; // c o n j u n t o d o s e v e n t a v o i d i n g o u t l i e r s 14 T A O ; // c o n j u n t o d o s t r a f f i c a v o i d i n g o u t l i e r s 15 16 Method : 17 FOR EACH ( o r i g i n , d e s t i n a t i o n ) e m R { 18 o u t = ∅ ; 19 o u t S e g = ∅ ; 20 S O = ∅ ; 21 E A O = ∅ ; 22 T A O = ∅ ; 23 24 C = f i n d C a n d i d a t e s ( T , o r i g i n , d e s t i n a t i o n ) ; 25 S t a n d a r d P o i n t s = f i n d S t a n d a r d s ( C , m a x D i s t , m i n S u p ) ; 26 o u t l i e r s A n d S e g s = f i n d O u t l i e r s ( S t a n d a r d P o i n t s , m i n L e n g t h ) ; 27 o u t . a d d ( o u t l i e r s A n d S e g s . g e t O u t l i e r s ( ) ) ; 28 o u t S e g . a d d ( o u t l i e r s A n d S e g s . g e t O u t l i e r S e g m e n t s ( ) ) ; 29 s t d S e g = f i n d S t a n d a r d S e g m e n t s ( o u t S e g , s t d , m a x D i s t ) ; 30 S O = f i n d S t o p O u t l i e r ( o u t S e g , m i n t i m e ) ; 31 o u t S e g = o u t S e g − S O ; 32 E A O = f i n d E A O ( o u t S e g , s t d S e g , E , S O ) ; 33 o u t S e g = O u t S e g s − S O − E A O ; 34 T A O = f i n d T A O ( o u t S e g , s t d S e g , SO , E A O , t i m e T o l ) ; 35 } 36 37 return SO , E A O , T A O ;

Primeiramente são computados os candidatos que se movem da região origem para a região destino (linha 24). Isto é feito verificando a interse¸cão de cada trajetória com as regiões, considerando apenas a menor subtrajetória com um ponto em cada região. Uma vez que os candidatos já são conhecidos o algoritmo procede para determinar os standards e os outliers. A fun¸cão que encontra os standards (linha 25) verifica a quantidade de vizinhos de todos os pontos de cada candidato. Se nenhum ponto tiver menos que minSup vizinhos, então o candidato é considerado um standard. Até esta linha o procedimento é igual ao proposto em (FONTES et al., 2013), porém nele todos os candidatos que não eram standards eram considerados outliers. Portanto a partir da linha 26 come¸ca a parte estendida com a fun¸cão findOutliers(). Nela foram adicionados dois passos: a identifica¸cão dos outlier segments e o teste de seu comprimento, já que apenas desvios com certo comprimento (minLength)são considerados. Logo, esta fun¸cão agora encontra

os outliers e os outlier segments, caso haja algum standard.

A fun¸cão findStopOutlier() (linha 30) calcula os stop outliers verificando se cada outlier segment tem um stop por pelo menos minTime. Se o outlier segment tem um stop, ele é adicionado à lista de stop outliers. Para a obten¸cão dos stop outliers utiliza-se o CB-SMoT proposto em (PALMA et al., 2008) como subrotina, que, como explicado no estado da arte, encontra stops em trajetórias baseando-se na velocidade.

Algoritmo 3.2 – findEAO pseudo c´odigo 1 I n p u t : 2 o u t S e g ; // c o n j u n t o d o s o u t l i e r s e g m e n t s 3 s t d S e g ; // c o n j u n t o d o s s t a n d a r d s e g m e n t s de cada o u t S e g 4 E ; // c o n j u n t o d o s e v e n t s 5 6 Output : 7 E A O ; // c o n j u n t o d o s e v e n t a v o i d i n g o u t l i e r s 8 9 Method : 10 FOR EACH o i n o u t S e g { 11 S = s t d S e g . g e t S t a n d a r d S e g m e n t s ( o ) ; 12 E ’ = g e t I n t e r s e c t i o n ( S , E ) ; 13 FOR EACH e i n E ’ { 14 IF ( e != N U L L && ! h a s I n t e r s e c t ( o , e ) && t i m e O v e r l a p s ( o , e ) ) { 15 o . a d d A v o i d e d E v e n t ( e ) ; 16 IF ( o n o t i n E A O ) { 17 E A O . a d d ( o ) ; 18 } 19 } 20 } 21 } 22 23 return E A O ;

As fun¸c˜oes findEAO() (linha 32) e findTAO() (linha 34) s˜ao de- talhadas nos algoritmos 3.2 e 3.3, respectivamente. Elas consistem basicamente em encontrar os event avoiding outliers e traffic avoiding outliers, respectivamente.

Para encontrar event avoiding outliers o primeiro passo antes do algoritmo 3.2 é encontrar todos os outlier segments sem stop (linha 31, algoritmo 3.1), que é passado como entrada do algoritmo 3.2. As outras entradas são o conjunto de standard segments de cada outlier segment stdSeg e o conjunto dos eventos E.

Os event avoiding outliers são caracterizados por um evento no caminho padrão desviado, ou seja, nos standard segments. Logo, para cada outlier segment, o algoritmo obtém os standard segments (linha 11) de acordo com a defini¸cão 15 e verifica a interse¸cão com o conjunto de eventos (linha 12). Entretanto, o evento deve ter interse¸cão apenas com os standard segments, mas não com o outlier segment. Para isso, o conjunto de eventos que tem interse¸cão com os standard segments

são analisados um a um (linha 13). A primeira parte (linha 14) dessa análise é para verificar essas condi¸cões de interse¸cão com os standard segments, ausência de interse¸cão com o outlier segment e, além dessas, se o evento estava ocorrendo no momento do desvio. Se esse for o caso tem-se de fato um event avoiding outlier, e o evento é marcado como desviado por aquele outlier (linha 15). Caso o outlier segment ainda não tenha sido adicionado ao conjunto de event avoiding outliers devido a outro evento (linha 16), ele é adicionado (linha 17).

Algoritmo 3.3 – findTAO pseudo c´odigo 1 2 I n p u t : 3 o u t S e g ; // c o n j u n t o d o s o u t l i e r s e g m e n t s 4 s t d S e g ; // c o n j u n t o d o s s t a n d a r d s e g m e n t s 5 t i m e T o l ; // tempo para o s s y n c h r o n i z e d s t a n d a r d s e g m e n t s 6 7 Output : 8 T A O ; // s e t o f t r a f f i c a v o i d i n g o u t l i e r s 9 10 Method : 11 FOR EACH o i n o u t S e g { 12 s y n c = s t d S e g . g e t S y n c S t a n d a r d S e g m e n t s ( o , t i m e T o l ) ; 13 n o t S y n c = s t d S e g . g e t N o n S y n c S t a n d a r d S e g m e n t s ( o , t i m e T o l ) ; 14 IF ( a v g t i m e ( s y n c . t i m e ) < a v g t i m e ( n o t S y n c . t i m e ) ∗ 0 . 5 ) { 15 T A O . a d d ( o ) ; 16 } 17 } 18 19 return T A O ;

A fun¸cão findTAO() é mostrada no algoritmo 3.3. Antes de sua execu¸cão são removidos do conjunto de outlier segments os que foram classificados como stop outliers ou event avoiding outliers (linha 33, algoritmo 3.1) para este ser passado como entrada. Além do outSeg, o algoritmo também recebe o conjunto dos standard segments stdSeg e o tempo de tolerância para que um standard segment esteja sincronizado com o respectivo outlier segment timeTol.

O algoritmo busca os standard segments que estão sincronizados (linha 12, de acordo com a defini¸cão 17) e os que não estão sincronizados (linha 13). Para os não sincronizados o algoritmo considera 5% dos standard segments mais rápidos. Desse modo, pode-se obter a velocidade do caminho quando não há trânsito. Em seguida, o algoritmo compara a velocidade média de ambos os standard segments sincronizados e não sincronizados, e infere se há um congestionamento naquele momento (linha 14). Quando a dura¸cão média dos synchronized standard segments é no máximo 50% da média do conjunto dos não sincronizados, diz-se que houve trânsito ou congestionamento no caminho padrão, e então o outlier segment é classificado como traffic

avoiding outlier.

Neste cap´ıtulo foi apresentado o pseudo código do algoritmo proposto neste trabalho. Esse algoritmo foi utilizado para desenvolver uma série de experimentos apresentados no próximo cap´ıtulo.

4 EXPERIMENTOS

Para avaliar o método proposto foram realizados experimentos com dois conjuntos de dados distintos. Um dos conjuntos são trajetórias reais de táxis coletadas em São Francisco, Califórnia, adquirido na in- ternet (CRAWDAD, 2013) e o outro foi gerado pelos autores na cidade de Florianópolis com a finalidade de validar o método. Desse modo, sabe-se exatamente de cada outlier do segundo conjunto.

O código do algoritmo foi desenvolvido em java através da IDE Eclipse (Eclipse Foundation, 2013). Os dados foram armazenados no banco de dados Postgres com a extensão PostGIS (Refractions Research, 2013). Os resultados são apresentados usando uma variadade de softwa- res, dentre eles o Quantum GIS (Quantum GIS Development Team, 2013), sua extensão para o Open Street Maps (WIKI, 2013) e o Open Jump (Ste- fan Steiniger, Landon Blake, 2013). O Google Maps (Google, INEGI, 2014) também foi bastante útil.

Todos os experimentos foram realizados em um computador ro- dando o Mac OS 10.9.2. Ele possui um processador de 2 GHz, Intel Core i7, com 8 GB de mem´oria ram de 1600MHz.

Nas se¸cões seguintes estão os experimentos com essas duas bases de dados. Eles foram divididos em duas subse¸cões, uma para cada conjunto de dados utilizado. Em ambos são mostrados os casos de outliers encontrados. Primeiramente, são apresentados os resultados no conjunto de dados de Florianópolis.

No documento Um método para interpretar outliers em trajetórias de objetos móveis (páginas 49-55)