• Nenhum resultado encontrado

Como em qualquer trabalho em minera¸c˜ao de dados, a defini¸c˜ao dos valores dos parˆametros do algoritmo ´e uma preocupa¸c˜ao importante e influi diretamente nos resultados. Os valores podem ser definidos atrav´es da tentativa e erro, embora esse deva ser o ´ultimo recurso uma vez que ´e um processo tedioso que pode tomar muito tempo e n˜ao trazer nenhuma certeza sobre a qualidade dos resultados. Para evitar o uso de m´ultiplas tentativas, foi realizado um estudo dos parˆametros do algoritmo buscando indicar bons valores para cada um deles.

Os stops s˜ao encontrados atrav´es do CB-SMoT, logo seus parˆa- metros n˜ao s˜ao discutidos aqui. Maiores informa¸c˜oes sobre o m´etodo e seu funcionamento est˜ao em (PALMA et al., 2008).

Os outliers s˜ao descobertos com base principalmente nos parˆame- tros minSup, maxDist e minLength. O maxDist ´e o raio da vizi- nhan¸ca de um ponto. Ele deve ter um valor alto o suficiente para que a vizinhan¸ca contenha pelo menos um ponto de todas as trajet´orias pr´oximas, mas n˜ao pode ser alto demais para incluir trajet´orias que estejam se movendo em outras ruas. Logo, um bom modo de saber o valor do parˆametro ´e pela largura da rua ou pelo comprimento dos quarteir˜oes. J´a o minSup diz mais respeito ao volume dos dados sendo analisados e da regi˜ao onde foram coletados. Quanto mais densos os da-

67

dos, maiores s˜ao as chances de uma trajet´oria ter um grande n´umero de vizinhos, podendo usar um minSup mais elevado. Um valor baixo far´a o algoritmo encontrar v´arios standards e poucos outliers, enquanto um valor alto provocar´a a descoberta de muitos outliers e menos standards.

Tabela 1 – Standards e outliers de acordo com maxDist e minSup.

maxDist minSup candidatos standards outliers

100m 1% 732 478 34

120m 1% 732 540 29

120m 5% 732 237 115

Esse comportamento ´e brevemente ilustrado pela tabela 1, rea- lizado com o conjunto de dados de S˜ao Francisco, assim como todas as outras tabelas comparativas desta se¸c˜ao. Pode-se notar que a medida que o minSup aumenta, diminui o n´umero de standards e aumenta o n´umero de outliers. Esses parˆametros j´a apresentam um estudo pr´evio em (FONTES et al., 2013).

Como nem todos os outlier segments s˜ao interessantes para an´ali- se (por exemplo os muito curtos), foi introduzido neste trabalho, o con- ceito de minLength, que tamb´em depende da aplica¸c˜ao e do tamanho dos desvios que se quer descobrir. Al´em disso, depende do comprimento das trajet´orias. Por exemplo, se os candidatos analisados tˆem um com- primento de 5 quilˆometros, um minLength de 10% pode ser pequeno, considerando outlier segments de tamanho 500 metros. J´a em candida- tos de 20 quilˆometros de comprimento, um minLength de 10% pode ser um valor satisfat´orio, pois o outlier segment ter´a um comprimento de 2 quilˆometros. Caso o interesse seja em desvios maiores, este parˆametro deve ser aumentado.

Tabela 2 – Standards e outliers de acordo com o minLength.

minLength standards outliers outlier segments

5% 540 64 71 10% 540 49 50 15% 540 41 41 20% 540 29 29 25% 540 26 26 30% 540 20 20 40% 540 15 15 50% 540 13 13

Para ilustrar o efeito e as possibilidades do minLength o algo- ritmo foi executado v´arias vezes com diferentes valores para ele. O max-

68

Dist e o minSup foram fixados em 120 metros e 1%, respectivamente. A tabela 2 exibe os resultados dessas execu¸c˜oes do algoritmo. Lembrando que os outlier segments s˜ao os desvios propriamente ditos, ou seja, a subtrajet´oria do outlier que n˜ao est´a no caminho padr˜ao, e o outlier ´e todo o candidato. Com o aumento de minLength s˜ao encontrados cada vez menos desvios, chegando ao ponto de cada outlier s´o ter um outlier segment que satisfa¸ca o minLength. Como a distˆancia percorrida entre a regi˜ao do aeroporto e do centro ´e de aproximadamente 25 quilˆometros (pegando o menor caminho), para um minLength de 5% foram gerados 64 outliers, tendo estes desvios com um comprimento m´ınimo de cerca de 1,2 quilˆometros. J´a aumentando o minLength para 50%, apenas 13 outliers foram gerados, cujo comprimento m´ınimo para seus desvios foi de aproximadamente 12 quilˆometros.

A figura 22 (A) ilustra os outlier segments gerados com um min- Length de 5% e a figura 22 (B) ilustra os outlier segments encontrados com o minLength de 50%. Note que os desvios pr´oximos a regi˜ao central desapareceram, permanecendo apenas os desvios bem significativos. Resumindo, o minLength deve ser definido com base no comprimento que um outlier segment deve ter em rela¸c˜ao `a trajet´oria candidata.

Variando o minTime obtˆem-se stop outliers diferentes, mas tam- b´em podem ocorrer mudan¸cas nas outras classifica¸c˜oes. Como ele ´e o primeiro a ser avaliado, um aumento no tempo m´ınimo pode fazer um outlier segment deixar de ser um stop outlier para ser um traffic avoiding outlier, por exemplo. A tabela 3 ilustra essa situa¸c˜ao. Ela mostra a diminui¸c˜ao de stop outliers a medida que o tempo m´ınimo para um stop ´e aumentado.

Tabela 3 – Classifica¸c˜ao de acordo com o minTime.

minTime stop event avoiding traffic avoiding

15 min 9 4 2 30 min 7 4 3 45 min 5 4 3 1h 4 4 3 1h30 3 4 3 2h 3 4 3 3h 2 4 3

Por ´ultimo, tem-se o timeTol que serve para saber quando um standard segment est´a sincronizado com um outlier segment. Este valor ´e muito dependente dos dados. Valores muito pequenos podem fazer com que hajam poucos segmentos sincronizados ou at´e mesmo nenhum. Como ´e raro um congestionamento no trˆansito acabar muito r´apido, ´e

69

Figura 22 – (A) minLength 5% (B) minLength 50%.

aconselhado valores a partir de 15 minutos em trechos muito pequenos. Por´em, deve-se tomar cuidado para n˜ao exagerar e usar um valor alto demais, j´a que isso pode gerar um alto n´umero de standard segments sincronizados.

A varia¸c˜ao dos traffic avoiding outliers de acordo com o parˆame- tro timeTol ´e exibida na tabela 4. Percebe-se que, inicialmente, valores

70

Tabela 4 – Classifica¸c˜ao de acordo com o timeTol.

timeTol traffic avoiding outliers

15 min 2

30 min 2

45 min 3

1h 2

1h30 1

maiores para timeTol aumentam a quantidade de traffic avoiding ou- tliers. No entanto, esse comportamento n˜ao se mant´em para valores mais altos da tolerˆancia de tempo. Isso se deve ao fato de que com um tempo maior, aumentam os synchronized standard segments e dimi- nuem os non-synchronized standard segments, mas isso n˜ao quer dizer que devem haver mais traffic avoiding outliers. Em um traffic avoi- ding outlier a raz˜ao dos sincronizados pelos 5% n˜ao sincronizados mais r´apidos tem que ser menor ou igual `a 0,5. Com timeTol 45 minutos um outlier segment apresentava essa raz˜ao igual a 0,4229, aproxima- damente. Nesse caso, havia 5 standard segments sincronizados e 192 n˜ao sincronizados. J´a utilizando 1 hora a raz˜ao do mesmo desvio pas- sou para quase 0,5190, com 7 standard segments sincronizados e 190 n˜ao sincronizados. Logo, um timeTol muito alto descaracteriza um congestionamento porque o algoritmo considera os standard segments de objetos dentro e fora do congestionamento como sincronizados. Ele n˜ao deve ser maior que a metade da dura¸c˜ao do engarrafamento (j´a que o parˆametro considera o tempo antes e depois do outlier) para evitar que os standard segments fora do congestionamento (e portanto mais r´apidos) sejam considerados sincronizados.

4.4 COMPARAC¸ ˜AO DO M ´ETODO PROPOSTO COM OUTROS

Documentos relacionados