Estimativa de tempos de viagem em ambiente urbano utilizando informação histórica de GPS

(1)

Faculdade de Engenharia da Universidade do Porto

Estimativa de tempos de viagem em

ambiente urbano utilizando

informação GPS

Tiago Manuel de Castro Rodrigues

Preparação da Dissertação

Mestrado Integrado em Engenharia Informática e Computação Orientador: Investigador Doutor Daniel Moura

(2)

(3)

Estimativa de tempos de viagem em ambiente urbano

utilizando informação GPS

Tiago Manuel de Castro Rodrigues

Mestrado Integrado em Engenharia Informática e Computação

Aprovado em provas públicas pelo Júri:

Presidente: Professor Doutor Pedro Alexandre Guimarães Lobo Ferreira do Souto (Universidade do Porto, Faculdade de Engenharia, Departamento de Engenharia Informática)

Arguente: Professor Doutor Pedro Manuel Henriques da Cunha Abreu (Univer-sidade de Coimbra, Departamento de Engenharia Informática)

Vogal: Investigador Doutor Daniel Cardoso de Moura (Universidade do Porto, Faculdade de Engenharia, Departamento de Engenharia Eletrotécnica e de Com-putadores)

(4)

(5)

Resumo

A previsão do tempo de viagem tem vindo a ser estudada ao longo dos últimos anos e apresenta uma complexidade elevada devido à grande quantidade de fatores que podem afetar o seu cálculo.

Adicionalmente, este tema é um ponto crítico para os sistemas inteligentes de trans-portes e até mesmo para sistemas avançados de gestão de tráfego.

No presente trabalho são utilizados dados da testbed do projeto FP7 Future Cities que compreende centenas de veículos equipados com dispositivos GPS, garantindo a cober-tura das principais vias da cidade do Porto, Portugal.

O trabalho foca-se numa via de trânsito, representação de parte de um percurso, sendo inferido o tempo de viagem ou a velocidade de um automóvel na via em questão. Para descrever o estado da via são utilizadas informações como a velocidade dos autocarros ou o tempo que o autocarro demora a atravessar a via em estudo.

Ao contrário do esperado, os resultados obtidos foram semelhantes aos observados recorrendo apenas ao uso da média de tempo como previsão do tempo de viagens a par-tir de dados históricos de automóveis. Informações de um maior número de viagens e consequentemente um maior volume de dados, poderão melhorar as previsões obtidas, tendo em consideração o atual estado da arte.

Destaca-se no entanto, a criação de uma ferramenta que automatiza todo o processo de geração de datasets, necessários e utilizados para a inferência do fluxo de trânsito da via por programas de machine learning.

(6)

(7)

Abstract

The prediction of travel time has been studied over the past years and has a high com-plexity due to many factors that can affect the calculation.

Additionally, this issue is a critical point for intelligent transport systems and even for advanced traffic management systems.

In this dissertation, was used data from FP7 Future Cities project, which comprises hundreds of vehicles equipped with GPS system that ensures full coverage of the main routes in the city of Porto, Portugal.

This work is focused on a single road, representation of part of a rout, and it was determined the travel time or the car velocity of that particular road.

To describe the state of the road it was used information such as the speed of the bus or the time that the bus takes to course the road.

Contrary to our expectations, the results were similar to those observed using only the mean time provided by cars historical data.

Information from a large number of car travels, and therefore a higher volume of data, may improve the time estimates regarding the current state of the art.

However, should be underlined the creation of a tool that automates the entire process of generating datasets that are needed and used for the inference of the traffic by machine learning programs.

(8)

(9)

Agradecimentos

Ao Professor Daniel Moura pela oportunidade de desenvolver este projecto e por toda a disponibilidade, orientação e acompanhamento ao longo deste semestre.

À minha família por todo o apoio e esforço feito nos últimos 5 anos. À Inês por todo o apoio e carinho.

Ao Eduardo Jesus.

Tiago Rodrigues

(10)

(11)

“I am the master of my fate: I am the captain of my soul.”

William Ernest Henley

(12)

(13)

Conteúdo

1 Introdução 1 1.1 Contexto e Motivação . . . 1 1.2 Objetivos e Metodologias . . . 2 1.3 Estrutura da dissertação . . . 3 2 Revisão Bibliográfica 5 2.1 Algoritmos Baseado em Ligações vs. Algoritmos Baseado em caminhos . 5 2.2 Uso de dados de GPS . . . 6

2.3 Transportes Públicos . . . 7

2.3.1 Corrigir o Tempo de Viagem Considerando as Paragens dos Auto-carros . . . 8

2.3.2 Recolha de Informação Auxiliar . . . 9

2.3.3 Comparação entre Automóveis e Transportes Públicos . . . 10

2.4 Estimativa de tempo de viagem . . . 10

2.4.1 Previsão do Tempo de Viagem usando Dados Históricos . . . 10

2.4.2 Relacionar o Tempo de Viagem dos Autocarros com a dos Automóveis 13 2.4.3 Previsão do Tempo de Viagem utilizando Dados Históricos e tendo em conta as Condições Meteorológicas . . . 15

2.4.4 Erros . . . 17

2.5 Conclusões . . . 17

3 Método para inferência de informação sobre o fluxo de trânsito na via 19 3.1 Extração dos dados de GPS de uma viagem . . . 19

3.2 Mapeamento dos dados de GPS com a via . . . 21

3.3 Interpretação dos ficheiros gerados . . . 22

3.4 Inferência de informação do fluxo de automóveis a partir dos autocarros . 23 3.5 Algoritmos de regressão . . . 24

4 Implementação 27 4.1 Criação do mapa de estradas para o mapeamento . . . 27

4.2 Seleção da via a analisar . . . 30

4.3 Ligação à base de dados e extração de dados . . . 30

4.4 Condições meteorológicas . . . 32

4.5 Criação do ficheiro com os descritores . . . 33

5 Experiências 35 5.1 Medidas de avaliação . . . 35

5.2 Casos de estudo . . . 35 ix

(14)

CONTEÚDO

5.3 Discussão dos resultados . . . 36

6 Conclusão e Trabalho futuro 41

6.1 Conclusões . . . 41 6.2 Trabalho futuro . . . 41

Referências 43

(15)

Lista de Figuras

2.1 Movimento de veículos na interseção [CC01] . . . 6

2.2 Exemplo de um cálculo de uma viagem [MSM04] . . . 13

2.3 Ideia de uma framework para a estimativa do tempo de viagem [PL08] . . 15

3.1 Processo de geração de datasets que relacionam informação de autocarros com automóveis ligeiros . . . 20

3.2 Área limite de procura para a rua Rua Dr. Roberto Frias . . . 20

4.1 Exemplo de uma tag way para limitação de um edifício (cor amarela) . . . 28

4.2 Exemplo de uma tag way para uma rotunda (cor verde) . . . . 28

4.3 Exemplo prático de uma tag relation . . . . 29

4.4 Frequência de passagem dos automóveis do SenseMyCity[Dan14] . . . 31

4.5 Frequência de passagem dos autocarros[Dan14] . . . 31

5.1 Gráfico com o desvio padrão do dataset dataf ernaoS2, dataset com mais ins-tâncias . . . 38

5.2 Relação da velocidade de um autocarro com a velocidade de um automóvel dataset dataf ernaoS2, dataset com mais instâncias . . . . 38

5.3 Relação da velocidade de um autocarro com a temperatura dataset dataf ernaoS2, datasetcom mais instâncias . . . 40

(16)

LISTA DE FIGURAS

(17)

Lista de Tabelas

2.1 Resumo de estudos de avaliação de autocarros como fornecedor de dados

para o cálculo da previsão de tempo de viagem [PL08] . . . 8

2.2 Erros de previsão para cada um dos métodos apresentados por Kisgyörgy et al [KR02] . . . 11

2.3 Descrição dos comportamentos utilizador por Miwa et al [MSM04] . . . . 11

2.4 Comparação entre os dois métodos [MSM04] . . . 14

5.1 Descrição da divisão dos datasets usados nas experiências . . . . 36

5.2 Descrição dos datasets usados nas experiências . . . . 36

5.3 Informação sobre frequência de recolha, a sua fonte e o intervalo de recolha 37 5.4 Legenda dos algoritmos . . . 37

5.5 Tabela de resultados para o dataset fernaoS1 . . . . 39

5.6 Tabela de resultados para o dataset fernaoS2 . . . . 39

5.7 Tabela de resultados para o dataset feupS1 . . . . 40

5.8 Tabela de resultados para o dataset feupS2 . . . . 40

5.9 Tabela de resultados para o dataset sensefeupS1 . . . . 40

5.10 Tabela de resultados para o dataset sensefeupS2 . . . . 40

(18)

LISTA DE TABELAS

(19)

List of Algorithms

2.1 Algoritmo de previsões de tempo de viagem apresentado por Miwa et al [MSM04] 12 2.2 Algoritmo de previsões de tempo de viagem apresentado por Mbiydzenyuy

et al [MDH13] . . . 16 3.1 Criação da lista de pontos candidatos para todos os pontos do ficheiro . . . 21 3.2 Criação do ficheiro com o percurso realizado . . . 22 4.1 Criação do ficheiro com os descritores para inferência do tempo de viagem

e da velocidade da via . . . 33

(20)

LIST OF ALGORITHMS

(21)

Abreviaturas e Símbolos

API Application Programming Interface

AVL Automatic vehicle locators FP7 Seventh Framework Programme GPS Global Positioning System

PTCR Previsões de Tempo de Chegada Realistas STCP Sociedade de Transportes Colectivos do Porto XML eXtensible Markup Language

(22)

(23)

Capítulo 1

Introdução

De acordo com a Organização das Nações Unidas, até 2050, 70% da população mun-dial deverá viver em cidades. Esta tendência irá traduzir-se num conjunto inigualável de desafios que objetivem evitar a deterioração das cidades, das suas infra-estruturas e dos seus recursos bem como promover e assegurar a mobilidade, a segurança e a qualidade de vida dos seus cidadãos.1

O projeto Future Cities é um projeto financiado pela Seventh Framework Programme que tem como objetivo atuar na problemática em questão. Para tal propõe alcançar o potencial máximo de pesquisa interdisciplinar no que concerne a tecnologias urbanas e promover atividades de partilha de conhecimentos em estreita colaboração com parceiros industri-ais.

De uma forma particular, o Projeto Future Cities procura criar capacidades de investi-gação à escala de cidades, visando assim transformar o Porto num “laboratório vivo”.

Pretende, para tal, criar condições para a investigação e desenvolvimento utilizando tecnologias avançadas para a recolha de dados através de plataformas móveis, comunica-ção sem fios e processamento de informacomunica-ção em larga escala.2

1.1 Contexto e Motivação

Em ambiente urbano, o cálculo de previsões de tempos de chegada realistas (PTCR) é um tema desafiante, essencialmente porque os tempos de mobilidade urbana são incertos devido às flutuações no tráfego e no seu controlo[SEL12].

Muitas vezes os utilizadores tem um conjunto de rotas já pré-definidas, por exemplo casa–trabalho, e querem verificar qual dos trajetos é mais rápido consoante a hora do dia ou até mesmo do dia da semana.

No âmbito do projeto Future Cities, centenas de veículos (táxis, camiões e autocarros) foram equipados com dispositivos eletrónicos que adquirem, de forma constante, infor-mação GPS e posteriormente enviam a mesma para a cloud onde esta é armazenada numa base de dados. Atualmente, na cidade do Porto, cerca de 470 autocarros estão equipados

1_{United Nations News Center. Half of global population will live in cities by end of this year, predicts UN.}

2008. Available on http://www.un.org/apps/news/story.asp?NewsID=25762 (Cited 21.01.2014)

2_{Future Cities}_{oficial website. Available on http://futurecities.up.pt/site/ Cited 21.01.2014}

(24)

Introdução

com dispositivos eletrónicos resultando numa grande cobertura das ruas da cidade. Esta utilização da rede de autocarros possibilita retirar informação sobre o fluxo de trânsito da cidade.

Adicionalmente, a câmara municipal do Porto disponibilizou um dataset com informa-ção de 170 automóveis ligeiros.

Está também a ser disponibilizada uma aplicação na Play Store para que cidadãos que sejam utilizadores de dispositivos Android possam contribuir para a recolha de informa-ção enquanto percorrem a cidade.

No entanto, e tendo em conta que o número atual de utilizadores da aplicação é cerca de 116, a informação proveniente de automóveis particulares é ainda bastante reduzida em comparação com a fornecida pelos autocarros.

É também importante reter que a frequência de recolha de dados por parte dos auto-carros sofreu alterações para cumprir a necessidade do projeto. Os dados dos autoauto-carros relativos aos meses de Novembro e Dezembro tinham uma frequência de recolha de 1 segundo, passando, no mês de Janeiro, para uma frequência de recolha de 15 segundos e, mais recentemente, para uma frequência de recolha de 5 segundos.

Os automobilistas utilizadores da aplicação Android mantêm uma frequência de reco-lha de dados de 5 segundos e os automóveis da câmara municipal do Porto recolhem os dados com uma frequência de 15 segundos.

Globalmente, os dados recolhidos pela aplicação para Android e os dados fornecidos pela Câmara Municipal do Porto permitem que seja construído um dataset para utilização na determinação do tempo de viagem dos automóveis utilizando o tempo de viagem dos autocarros.

De notar que ainda que a informação possa variar de veículo para veículo (táxis, ca-miões e autocarros, os dados que utilizados para calcular PTCR são comuns. Nestes da-dos incluem-se latitude, a longitude, velocidade de GPS (mais precisa do que a velocidade calculada usando o intervalo de dois pontos [UKTI09]) e o instante de tempo em que foi obtido.

Para tornar o cálculo de PTCR o mais preciso possível os dados foram catalogados tendo em conta vários fatores, tais como hora do dia, dia da semana e as condições meteo-rológicas. Não obstante, alguns destes fatores terão mais impacto do que outros, destacando-se por exemplo o tempo de viagem dos autocarros anteriores.

1.2 Objetivos e Metodologias

Esta dissertação objetiva usar a informação relativa ao fluxo de trânsito da rede de autocarros do Porto para aferir o tempo de viagem de um automóvel numa determinada via, de acordo com as condições em que é calculada.

Este trabalho pode ser útil em projetos futuros para que o cálculo da PTCR seja mais ri-goroso. Sabendo um determinado trajeto e utilizando informação de histórico, pretende-se calcular, num preciso momento, o tempo que pretende-se demoraria para chegar de automóvel a um destino pretendido.

Ressalva-se que embora os autocarros sejam os maiores fornecedores de dados, estes têm rotas fixas e como tal não cobrem a totalidade da cidade, existindo como tal ruas em que a informação histórica é muito reduzida ou até mesmo inexistente. Nestas situações a solução passa por dividir o trajeto completo em vários sub-trajetos que podem representar

(25)

Introdução

uma rua e realizar um cálculo do tempo de viagem de cada um dos sub-trajetos, aferindo desta forma o tempo total de viagem. Para situações em que não existem dados suficientes para o calculo do tempo de viagem assume-se que o tempo de viagem é o comprimento da rua vezes a velocidade máxima da via.

Nesta dissertação são utilizadas ruas conhecidas, com uma alta frequência de passa-gem, objetivando assim o aumento do volume de dados históricos.

Tendo em conta que os dados de GPS usados são proveniente de três fontes de da-dos diferentes—autocarros da STCP, aplicação Android de automobilistas e automóveis da Câmara Municipal do Porto—são raros os momentos em que não existe recolha de dados (excetuando possíveis avarias no dispositivo ou greves).

Como a recolha de dados é realizada em pequenos intervalos de tempo, é gerada uma enorme quantidade de informação, sendo necessário um pré-processamento dos dados. Adicionalmente, este pré-processamento será importante devido à existência do erro as-sociado a localização de GPS.

Este último pré-processamento terá ainda uma grande importância para o cálculo do tempo de viagem do um sub-trajeto.

Assumindo que existe uma relação entre o tempo de viagem e a velocidade de um automóvel, tentou-se também inferir a velocidade de um automóvel a partir da velocidade de um autocarro de forma a calcular o tempo de viagem.

Neste contexto, Hu e Tom reportam que o tempo de viagem de via é calculado pelo somatório da razão entre o comprimento da via e a velocidade prevista [HT12].

1.3 Estrutura da dissertação

Para além da introdução, esta dissertação contém mais 5 capítulos.

No capítulo 2 é descrito o estado da arte, apresentando-se apresentados trabalhos re-lacionados com estimativas de tempo de viagem.

No capítulo 3 é apresentado todo o procedimento utilizada na resolução de problemas relacionados com a extração de dados, o mapeamento dos dados de GPS e geração de

datasetpara serem utilizados na inferência do tempo de viagem ou da velocidade máxima

da via em estudo.

No capítulo 4 é apresentada toda o processo de implementação subjacente à criação da ferramenta que possibilitou a criação dos datasets usados para a inferência do tempo de viagem ou da velocidade máxima da via em estudo.

No capítulo 5 são apresentadas todas as experiências realizadas e a discussão dos seus resultados.

No capítulo 6 são apresentadas todas as conclusões retiradas da dissertação assim como perspetivas futuras e possibilidade de melhoria.

(26)

Introdução

(27)

Capítulo 2

Revisão Bibliográfica

Este capítulo descreve a pesquisa e trabalhos existentes relevantes para o contexto do problema.

Na secção 2.1 é apresentada a diferença entre algoritmos baseados em ligações e al-goritmos baseados em caminhos para o efeito de estimativa de tempos de viagem. Na secção 2.2 são apresentadas as vantagens do uso de dados de GPS como fonte de dados para a previsão do tempo de viagem. Na secção 2.4 são apresentados exemplos de algorit-mos de cálculo do tempo de viagem. Na secção 2.5 apresentam-se as conclusões retiradas depois do estudo do estado da arte.

2.1 Algoritmos Baseado em Ligações vs. Algoritmos Baseado em

caminhos

Existem dois grandes grupos de algoritmos, os que se baseiam em caminhos e os que se baseiam em ligações. Teoricamente o cálculo do tempo de viagem de um trajeto é uma simples adição de todas as ligações que o constituem.

Chen et al reporta que os algoritmos que se baseiam em caminhos para o cálculo de tempo de chegada são mais precisos do que os algoritmos baseados em ligações [CC01]. Na figura 2.1 é apresentado um dos problemas mais comuns para o cálculo da PTCR quando são usados algoritmos baseados em ligações. Atentemos no cruzamento mos-trado na Figura 2.1, tendo presente a noção que uma mudança de direção à esquerda implica geralmente maior dispêndio de tempo. Verifica-se, assim, que o veículo azul está sujeito a um aumento do tempo da sua viagem relativamente ao previsto devido ao facto de existirem veículos à sua frente que estão a executar a referida manobra de mudança de direção à esquerda. Posto isto, concluímos que para o veículo azul e nesta ligação em particular, o tempo de viagem será maior do que o tempo médio de viagem. Pelo exposto seria vantajoso medir o tempo de viagem com base em caminhos em vez de ligações.

Chien et al afirma que as previsões baseadas em caminhos são mais fidedignas nas horas de maior afluência quando usam dados históricos, mas que as previsões baseadas em ligações tem um bom desempenho durante o resto do dia[CK03]. Quando usamos dados em tempo real as previsões baseadas em caminhos são mais suscetíveis a erros devido a anomalias. Qualquer incidente que ocorra no trajeto terá um efeito negativo no

(28)

Revisão Bibliográfica

Figura 2.1: Movimento de veículos na interseção [CC01]

cálculo da PTCR, pois afetará a duração total da viagem quando na realidade apenas o tempo de uma parte do percurso aumentou. Por outro lado, as previsões baseadas em ligações são mais sensíveis em caso de congestionamento ou incidente.

Os algoritmos baseados em caminhos não serão os mais indicados para o nosso pro-blema, porque o que pretendemos fazer é utilizar os dados dos autocarros principalmente para o cálculo de PTCR dos automóveis. E os automóveis na maior parte das vezes não iram fazer exatamente o mesmo percurso que o autocarro. Por exemplo pode fazer me-tade de um percurso de um autocarro e a outra meme-tade igual a outro autocarro.

Espera-se reduzir os erros causados pelos uso de algoritmos baseados em ligações com a quantidade de dados disponível para a realização deste trabalho, na medida em que Chen et al afirma que com o aumento de dados leva a melhores resultados [CC01].

2.2 Uso de dados de GPS

Segundo Lee et al existem três formas de recolha de dados para o cálculo da PTCR: recolha baseada na localização, recolha baseada em sensores e recolha centrada no vei-culo [LTT09]. A recolha baseada na localização consiste na identificação da matrícula do veículo, aferindo depois o tempo do percurso do mesmo entre os pontos de validação. A recolha baseada em sensores consiste no uso de sensores fixos na via. Os sensores fi-xos na via possibilitam a recolha de informação importante como por exemplo o número de veículos que circulam na via em questão. No que concerne aos sensores centrados em veículos, temos como exemplo o GPS que iremos abordar com mais detalhe no ponto seguinte.

O sistema de posicionamento global (global positioning system, GPS) é um sistema de navegação por satélite que fornece a um recetor móvel a posição do mesmo sob todas condições atmosféricas, a qualquer momento e em qualquer lugar na Terra, desde que

(29)

o recetor se encontre no campo de visão de quatro satélites GPS, no entanto existe um erro maior quando as condições atmosféricas estão mais desfavoráveis como por exemplo nevoeiro. O GPS é um sensor centrado no veículo e como tal consegue capturar viagens completas, enquanto que os sensores fixos centram-se na análise da via.

Uno et al apresenta vantagens e desvantagens do uso de dados de GPS como fonte para o cálculo da PTCR [UKTI09], que serão sumariadas abaixo.

Vantagens

• Recolha constante

• Os dados podem ser armazenados automaticamente • Observações diretas do tempo de viagem é possível • Observações em tempo quasi-real

• É possível caracterizar cada momento do dia (elevada quantidade de dados recolhidos)

• A capacidade de varrer mais terreno com menos equipamentos instalados (não é necessário instalar sensores em todas as ruas)

Desvantagens

• Grandes quantidades de dados para tratar

• Custos acrescidos no uso de dados em tempo quasi-real (p.e. comunicação) • Dados podem ser enviesados

No que concerne às desvantagens é importante notar que a principal respeita ao trata-mento de dados. Quando a recolha de dados é feita com uma frequência muita elevada, o tamanho da base de dados pode tornar-se extraordinariamente grande e trazer custos acrescidos. Será ainda importante salientar que o uso de dados de GPS em tempo quasi-real acarreta custos acrescidos pois é requerido o uso da rede móvel. Além disso, uma vez que a precisão do GPS depende muito da condição de observação, a precisão dos dados obtidos podem diferir pela condições meteorológicas. Outro enviesamento que deve ser considerado é a diferença entre os objetos da amostra e outros. É comum o uso de mais ou menos transportes públicos, como os autocarros e os táxis, como amostras de dados. E os dados obtidos por estes veículos podem não representar a população. Por exemplo, a maioria dos percursos dos autocarros são feitos no centro da cidade [UKTI09].

Adicionalmente, no caso de todos os algoritmos que usam dados provenientes de transportes públicos, haverá ruas em que a taxa de amostragem não será suficiente para o cálculo da PTCR. Como anteriormente referido, esta questão prende-se essencialmente com o facto de algumas ruas não estarem incluídas nos trajetos dos transportes públicos, que são a principal fonte de informação.

2.3 Transportes Públicos

O uso de dados fornecidos pelos transportes públicos podem facilmente oferecer infor-mação sobre alterações do tempo de viagem, devido ao facto de viajarem repetidamente

(30)

ao longo da mesma rota. No entanto, é necessária uma análise cuidada dos dados re-colhidos, tendo em conta que o tempo de viagem poderá estar sobrestimados, devido ao tempo gasto com as paragens [UKTI09], ou então subestimado devido à existência de vias prioritárias.

Study Objective Facility

type Bus Data Car Data Model Conclusion

Bae (1995) Travel time and speed probe

Urban

Streets Manuel re-corded Testvehicle Simplelinear regres-sion Buses can be Probes King County, WA (Dailey et al. 1999-2005) Speed

probe Freewaysand prin-ciple arterials

Real-time

AVL Loop de-tecto Kalmanfilter, Speed map-ping Buses are used as speed probes in reality Orange County, CA (Hall and Vyas, 2000) Congestion

detection UrbanStreets Generatedby their own AVL tracking system

GPS

flo-ating car Simplelinear regres-sion Buses are imperfect probes Delaware DOT (Cha-kroborty and Kiku-chi, 2004) Travel time

probe Urbanarterials Manuallyrecorded Testvehicle Simplelinear regres-sion Bus probe is promi-sing TriMet (Bertini and Tantiyanu-gulchai, 2004) Travel time and speed probe Urban

arterials On-vehiclearchived AVL

GPS

flo-ating car Simplelinear reverse regres-sion Buses can be probes Central Ohio (Coif-man and Kim, 2006) Travel time and speed probe Freeways Real-time

AVL Loop de-tector Filtering Bus speedsare consis-tent with car speeds Tabela 2.1: Resumo de estudos de avaliação de autocarros como fornecedor de dados para o cálculo da previsão de tempo de viagem [PL08]

Na Tabela 2.1 podemos ver o resumo de um conjunto de estudos onde a maioria dele afirma que os autocarros são um bom indicador e um bom fornecedor de dados para o cálculo da PTCR, tanto como em tempo real como em dados históricos.

2.3.1 Corrigir o Tempo de Viagem Considerando as Paragens dos Autocarros

Existem vários fatores que têm de ser considerados quando a informação recolhida é originada a partir de autocarros. De entre este fatores, carecem de particular atenção a paragem do autocarro, a desaceleração que é feita antes da paragem do autocarro, a

(31)

aceleração que é feita depois da paragem e que o número de paragens e o tempo em que ele está parado é um pouco aleatório [CK04] [UKTI09].

Chakroborty et al afirma que poderá haver diferentes velocidades médias para cada faixa da via, e que os autocarros usam preferencialmente a faixa mais à direita para re-alizar o seu trajeto, e por esse motivo a velocidade média do autocarro pode sofrer um enviesamento [CK04]. Também é frequente que os autocarros deixem as vias principais para entrar em áreas como os centros comerciais ou até mesmo zonas industriais.

Uno et al apresenta uma solução que é dividida em três passos [UKTI09]. 1. Deteção das paragens de autocarros

Classifica se o autocarro está ou não parado. E afirma que o autocarro está parado 92% do seu tempo.

2. Deteção da desaceleração(ou aceleração) antes(ou depois) da paragem

Se se verificar que a velocidade estimada do autocarro tende a diminuir (ou aumen-tar) monotonamente, o modo de deslocamento pode ser classificado como desace-leração (ou acedesace-leração).

3. Eliminação do aumento do tempo de viagem devido às paragens de autocarro Tem em conta a velocidade do autocarro no instante anterior da desaceleração e o instante seguinte da aceleração.

Mas Chakroborty et al e Uno et al afirmam que os autocarros podem ser bons for-necedores de dados para o cálculo de PTCR [CK04] [UKTI09]. Uno et al para este estudo usou quase todos os autocarros da empresa Keihan Bus Company na cidade Hirakata (Japão). Chakroborty et al recolheu cerca de 28 a 30 medições de autocar-ros e automóveis para cada uma das 5 ruas a norte de New Castle County, Delaware. O autocarro e o automóvel partiam à mesma hora e da mesma posição para fazer a recolha. E os dados eram recolhidos por pessoas que faziam anotações dos tempos de viagem, do número de paragens, o número de passageiros que entravam e saiam em cada paragem e qualquer anomalia que ocorresse.

2.3.2 Recolha de Informação Auxiliar

Uno et al sugere que é necessário desenvolver uma metodologia para identificação das paragens dos autocarros, as paragens nas interseções. No estudo foi realizado um questionário, que para cada autocarro foi designado um investigador que observava cada interseção da rota e anotava com um aparelho de GPS os dados das paragens de auto-carro [UKTI09].

No nosso caso de estudo os dados obtidos contêm a identificação do autocarro a partir do qual são recolhidos, o que permite obter informação muito importante para o cálculo da PTCR. Dentro desta informação incluem-se as paragens que constituem a roda do au-tocarro e as vias prioritárias que existem nessa rota. Adicionalmente achamos necessário saber(ões) a(s) posição da(s) central(ais) para conseguir descartar os dados que sejam re-colhidos quando o autocarro está parado na central e também que é necessário saber quais são as paragens terminais de cada autocarro para eliminar os tempos em que o autocarro está a espera para iniciar a nova viagem.

(32)

2.3.3 Comparação entre Automóveis e Transportes Públicos

Para a comparação entre automóveis e transportes públicos, Uno et al afirma que é necessário ter em consideração que os autocarros normalmente viajam a uma velocidade inferior aos automóveis. Como tal é necessário atentar neste ponto quando se pretende fazer uma correspondência entre o tempo de viagem de autocarros e automóveis. Con-tudo, é também importante notar que poderão existir situações em que excecionalmente os autocarros viajem a uma velocidade superior aos automóveis [UKTI09].

Chakroborty et al apresenta alguns fatores que podem aumentar as diferenças no cál-culo da estimativa de tempo de viagem de um autocarro e de um automóvel [CK04]:

• A paragem nas paragens de autocarros.

• O tempo da desaceleração e da aceleração antes e depois de uma paragem • A diferença entre a mobilidade de um autocarro e de um automóvel • A diferença entre os limites de velocidade

• A tendência do uso da faixa da direita por parte dos autocarros.

Os fatores acima enunciados, normalmente, aumentam a previsão do tempo de via-gem. Contudo é de ressalvar que esta diferença pode variar ao longo do dia, tendo em conta que haverá alturas do dia em que não será necessário parar tantas vezes ou até mesmo haverá alturas em que essas paragens não são muito relevantes porque a via se encontra congestionada. Todas estas condicionantes conferem uma importância acres-cida a este problema.

2.4 Estimativa de tempo de viagem

Em ambiente urbano, a estimativa do tempo de viagem é uma questão desafiante, especialmente porque o tempo de viagem é normalmente incerto devido às constantes alterações no tráfego.

2.4.1 Previsão do Tempo de Viagem usando Dados Históricos

Kisgyörgy et al apresenta três métodos para o cálculo do tempo de viagem, denomi-nados básico, indireto e direto [KR02].

Básico Uso da velocidade atual para o cálculo do tempo de viagem

Indireto Uso da rede neuronal para o cálculo da previsão da velocidade e usa o método

básico para o cálculo do tempo de viagem

Direto Uso da rede neuronal para o cálculo do tempo de viagem

Kisgyörgy et al realizou, para cada método, dois testes para a previsão de uma viagem que irá ser realizada dentro de 5 minutos e outra dentro de 25 minutos. Na tabela 2.2 são apresentados os resultados dos testes realizados.

(33)

Erro da previsão Básico Indireto Direto

5 minutos 7.6% 8.0% 7.6%

25 Minutos 7.4% 8.2% 8.0%

Tabela 2.2: Erros de previsão para cada um dos métodos apresentados por Kisgyörgy et al [KR02]

Kisgyörgy et al afirma que os melhores resultados são os fornecidos pelo algoritmo básico e que tal se deveu essencialmente às poucas alterações na rede e ao facto da quan-tidade de dados recolhidos ser muito reduzida. A desvantagem do algoritmo básico prende-se essencialmente com o facto de não ser fiável para lidar com as alterações que acontecem na rede(p.e. acidentes), que consequentemente podem levar a grandes erros na previsão do tempo de viagem. Adicionalmente afirma que o método direto tem re-sultados semelhantes ao básico e que consegue lidar muito melhor com as alterações na rede.Contudo, é salvaguardado que este método não pode ser usado, na situação descrita pelo autor devido à falta de recolha de dados de forma constante. Tendo em conta esta desvantagem, Kisgyörgy et al propõem que se use o método indireto para este tipo de situações [KR02].

Uma outra proposta é sugerida por Miwa et al. Este autor apresenta uma solução baseada em eventos para perceber qual o estado de cada táxi e utilizar esses dados para a identificação de rotas e previsão do tempo de viagem. Para tal, no referido trabalho, foram equipados 1570 táxis com GPS, de um universo de 32 companhias de táxis de Nagoya (Japão).

Na tabela 2.3 podem observar-se todos os comportamentos que são utilizados para o cálculo da previsão do tempo de viagem. De referir que os táxis estão equipados com três tipos de aparelhos de GPS. Os tipos 1 e 3 (um total de 915 táxis) são aparelhos simples de posicionamento e o tipo 2 (655 táxis) trata-se de um aparelho com uma maior preci-são(com uma razão de ocorrência de erro de posicionamento perto dos 0%). Para o estudo em questão foram utilizados apenas os táxis equipados com o tipo 2 [MSM04].

Evento Descrição Taxa de usabilidade

S/ incidentes Quando não acontece

ne-nhum evento em mais de 300m percorridos

35.1% SS(pequena paragem) Quando o veiculo arranca 31.3% ST(pequena viagem) Quando o veiculo para 29.8%

Outros Quando o motor arranja ou se

desliga, comportamento inse-guro, entre outros

3.8%

Tabela 2.3: Descrição dos comportamentos utilizador por Miwa et al [MSM04] Miwa et al reporta que existem diferenças nas velocidades médias entre os táxis que estão em serviço e os táxis que estão fora de serviço. Esta diferença pode prender-se com o facto de os táxis em serviço serem geralmente mais rápidos por terem um destino de-finido. A área de estudo do referido trabalho restringe-se a uma distância entre 12km a 18km (distância entre o aeroporto e a estação metropolitana de Nagoya), sendo o percurso

(34)

composto por uma estrada nacional ou por uma via-rápida. O referido percurso é um dos mais movimentados da cidade e por isso possibilita a obtenção de um número elevado de informação.

Miwa et al tem em conta dois fatores para o cálculo do tempo de viagem: dias laborais ou férias e tempo seco ou húmido [MSM04].

Passo 1: Definir os dados de entrada, como nós de origem e destino, hora de partida, tempo e um dia da semana. Definir t como “tempo de partida” + mod (hora de partida, 5 min.). Aqui "mod (A, B) significa parte restante de A / B. Passo 2: Aplicar o custo da ligação do período correspondente t-5 t para todas as ligações consideradas “não chegadas”. Usando o algoritmo de Dijkstra, procurar a rota desde a origem até ao destino que tenha o menor custo.

Passo 3: Considerando a procura da rota de menor custo, se o custo máximo de chegada exceder t, deverá suspender-se cálculo da procura.

Passo 4: Se o nó de destino não chegou, definir t = t + 5 min e seguir para a Etapa 2

Algoritmo 2.1:Algoritmo de previsões de tempo de viagem apresentado por Miwa

et al [MSM04]

O custo da ligação é determinado pela seguinte formula:

Custo da ligacao= Tempo de sada − Tempo de entrada

Tempo de entrada= (ta∗ l2+ tb∗ l1)/(l1+ l2)

Tempo de sada= (tc∗ l3+ td∗ l4)/(l3+ l4) ta=Tempo da última transmissão antes de entrar na ligação tb=Tempo da primeira transmissão depois de entrar na ligação tc=Tempo da última transmissão na ligação

ta=Tempo da primeira transmissão depois de sair da ligação

O algoritmo 2.1 calcula o tempo de viagem para todos os caminhos possíveis entre a origem e o destino, construindo assim uma tabela de custos para cada ligação. Na fi-gura 2.2 podemos ver um exemplo do cálculo do tempo de viagem entre a origem e o destino, com um uso de três ligações. A construção da tabela pode ter em conta as condi-ções de trânsito após a partida.

Para a validação do algoritmo desenvolveram dois métodos:

Algoritmo 1 cálculo do custo mínimo da rota considerado as variações das condições da

rede

Algoritmo 2 cálculo do custo mínimo da rota utilizando os custos da ligação e as

condi-ções da rede na hora da partida

A tabela 2.4 mostra que o método 1, que considera as variações das condições na rede, apresenta uma melhor relação e um menor erro do que o método 2. Contudo, da primeira vez que os testes foram realizados, esta diferença não foi muito significativa possivelmente

(35)

Figura 2.2: Exemplo de um cálculo de uma viagem [MSM04]

devido devido ao facto de, à altura, as alterações serem relativamente pequenas. Posteri-ormente foi realizada uma validação onde as alterações na rede eram mais frequentes e foi verificado que o método 2, na maior parte das vezes, calculou previsões com um grande erro [MSM04].

2.4.2 Relacionar o Tempo de Viagem dos Autocarros com a dos Automóveis

Nesta secção são apresentados algoritmos que usam dados históricos para tentar rela-cionar o tempo de viagem que um autocarro com o tempo de viagem de um automóvel.

Bae apresenta uma solução, abaixo enunciada. Esta solução pretende ser a forma mais simples possível para solucionar o problema entre a relação do tempo de viagem de um automóvel e um autocarro e entre a relação de velocidade média do autocarro e do auto-móvel [Bae95].

CT T= a1 + b1 ∗ BT T

CT S= a2 + b2 ∗ BT S CT T =Tempo de viagem do automóvel

BT T =Tempo de viagem do autocarro CT S=Velocidade média do automóvel BT S=Velocidade média do autocarro

Chakroborty et al usa uma abordagem semelhante para o mesmo problema [CK04]. AT Tp= a + b(BT T − T ST )

AT Tp=Previsão do tempo de viagem de um automóvel BT T =Estimativa de tempo de viagem do autocarro

T ST =Número total de vezes que um autocarro para na paragem

a e b=Foram calibradas usando a técnica de regressão linear com os dados sobre os tempos de viagem dos autocarros e automóveis para o mesmo trajeto

Chakroborty et al mostra que 93% dos resultados obtidos tem um erro inferior a 15% e que pelo menos 77% das previsões tem um erro inferior a 10%. O erro é definido como a

(36)

Revisão Bibliográfica Relação Erro(seg) Método 1 0.863 193.570 Método 2 0.826 216.110

Tabela 2.4: Comparação entre os dois métodos [MSM04]

diferença entre o tempo medido e a previsão. Para a realização deste estudo foram usados 5 trajetórias e para cada trajetória foram recolhidas entre 28 a 30 medições [CK04].

Adicionalmente, é apresentada, também pelo o autor, uma pequena alteração à solu-ção anterior para que esta seja o mais flexível possível. Para tal é sugerida a substituisolu-ção da variável a pela relação entre o comprimento da via e a velocidade máxima da via e a variável b por 0.14 no caso de ruas com pouca congestionamento e 0.18 para ruas mais congestionadas. No entanto este método não tem em conta os fatores que podem afetar a previsão, como o dia da semana ou a hora do dia e a formula de cálculo do tempo de viagem não é atualizada com a adição de novos dados recolhidos, ou até mesmo com uma recolha continua [CK04].

Bertini et al, por outro lado, tentou corrigir o erro causado pela paragem dos autocar-ros, criando para tal três trajetórias conceptuais de autocarros: trajetória, pseudo-trajetória modificada e a pseudo-trajetória hipotética. Na recolha de dados, criou em cada paragem um círculo imaginário com cerca de 30 metros de diâmetro de forma a poder registar o momento em que o autocarro entra nesse círculo, o momento em que o autocarro abre as portas, quanto tempo que o autocarro fica parado, o momento em que fecha as portas e o momento em que autocarro sai do referido círculo. A trajetória hipotética foi definida como sendo a trajetória de um autocarro sem paragens, ou seja, é retirado o somatório do tempo em que o autocarro esteve parado ao tempo total de viagem. A pseudo-trajetória foi definida como a trajetória que o autocarro faz assumindo que viaja à velocidade má-xima que atingiu entre duas paragens consecutivas. A pseudo-trajetória modificada é semelhante à anterior contudo assume sempre que o autocarro viaja a uma velocidade máxima superior à definida na pseudo-trajetória. De referir que esta última trajetória foi a que mais se aproximou de uma viagem realizada por um automóvel [BT04].

Bertini et al apresenta uma solução alternativa, abaixo enunciada, entre a relação da velocidade média do autocarro e do automóvel [BT04]

CT S= 0.72 ∗ MIBS + ε MIBS=Velocidade do pseudo-autocarro modificado ε =Erro aleatório

A trajetória de teste era constituída por duas partes, uma parte realizada em estrada e outra parte realizada em ponte. Com este método de cálculo, a razão entre a velocidade do veículo e a velocidade do pseudo-autocarro modificado era de 0,72 e 0,94 vezes para a estrada e para a ponte, respetivamente, com uma confiança de 95% [BT04].

(37)

Figura 2.3: Ideia de uma framework para a estimativa do tempo de viagem [PL08]

2.4.3 Previsão do Tempo de Viagem utilizando Dados Históricos e tendo em conta as Condições Meteorológicas

Existem outras formas de relacionar o tempo de viagem de um automóvel com um au-tocarro sem ser por uma aproximação linear. Pu et al na figura 2.3 apresenta uma ideia de como relacionar o tempo de viagem de um automóvel com dados históricos de autocarros usando um método de Inferência Bayesian.

Pu et al afirma que um método de Inferência Bayesian fornece um bom mecanismo para combinar uma estimativa inicial com dados novos, contribuindo assim para uma melhor estimativa [PL08].

Pu et al recolheu dados durante 9 semanas (2 horas por dia) e usou as primeiras 5 semanas para criar uma relação histórica entre o tráfico dos autocarros com o tráfico dos automóveis. A previsão do tempo de viagem do automóvel foi atualizada em interva-los de 15 minutos. Apesar deste intervalo de 15 minutos ser aceitável para o condutor do autocarro, seria desejável que fosse mais alargado para que houvesse uma maior re-colha de informação sobre a trajetória dos autocarros e a velocidade dos mesmos. Isto permitiria, adicionalmente, adicionar informação de passagem de três autocarros antes de atualizar a informação, exceto durante a noite pois o intervalo de passagem dos auto-carros é maior (cerca de 30 minutos). Pu et al usou uma regressão linear múltipla, cuja variável dependente é a diferença entre a velocidade dos autocarros e dos automóveis(na ligação) e as variáveis independentes são as paragens dos autocarros(num diâmetro de cerca de 30 metro, onde inclui a paragem do autocarro, aceleração e desaceleração). Os sinais de transito e variáveis explicativas são o número de faixas e o tipo de paragem dos autocarros(se existe uma zona de paragem que não afeta o fluxo do transito) [PL08].

(38)

Pu et al conclui que 85% das estimativas são feitas com um erro inferior a 15%. Afirma também que que não se pode generalizar a solução sem uma análise cuidada de todas as características locais, sendo necessário um estudo cuidado sobre as paragens dos autocar-ros, sinais de transito e o volume de passageiros.

Um outro estudo de Mbiydzenyuy et al apresenta uma solução que utiliza dados de GPS recolhidos no passado(dados históricos) e dados sobre as condições meteorológicas para calcular o tempo de viagem naquele momento [MDH13]. Caso exista uma previ-são meteorológica de 50% de probabilidade de nevar durante o tempo de viagem, poderá recorrer-se a dados históricos, sendo para tal utilizados 50% dos dados recolhidos em condições de neve e 50% dos dados recolhidos em condições normais de viagem. O algo-ritmo utilizado é baseado em ligações e foi gerado a partir de dados recolhidos por dois automóveis equipados com GPS durante um período de dois meses, sendo a recolha feita com uma frequência de 10 segundos.

Inicialização do contador repetição (m:=1);

while m<=M do

Inicialização do contador posição (Km:=0)

Inicialização do tempo acumulado da viagem para a repetição m (tt m) Posição do veiculo na origem (P0m:=0)

while Não chegou ao destino(Pkm 6= D ) do

Procura um dado de GPS gkm na vizinhança na posição atual

Procura o próximo veiculo na posição Pk+1m conduzindo o veiculo t

s segundos na trajetória com speed v(gkm)

Atualiza o tempo de viagem (tt

m:= tmt + ts) Incrementa o contador posição (km:= km+1 )

end

Grava a simulação (repetição m)

Incrementa o contador repetição (m := m+ 1 )

end

Algoritmo 2.2:Algoritmo de previsões de tempo de viagem apresentado por

Mbiyd-zenyuy et al [MDH13]

Na experiência foram criadas três vizinhanças que foram utilizadas para realizar três simulações em separado.

N1 A vizinhança de uma posição é composta por todos os dados de GPS dentro de um

raio de 10 metros.

N2 Idêntico ao N1, exceto que ele inclui apenas dados de GPS que foram recolhidos na

mesma direção que a rota considerada.

N3 Idêntico ao N2, exceto que a vizinhança é restrita a dados GPS que pertencem à

via-gem histórica do dado de GPS mais recentemente selecionado. Para a orivia-gem, e se o final da viagem for alcançado, a vizinhança é definido como N2

Verificou-se assim que a vizinhança N2 e N3 obtiveram resultados muito parecidos e que N1 obteve previsões mais baixas que N2 e N3, possivelmente porque utiliza todos os dados disponíveis e não tem em consideração a direção da trajetória. De referir ainda que

(39)

neste estudo N3 não teve o resultado previsto. Mbiydzenyuy el al reporta que tal facto poderá dever-se à falta de dados tendo em conta que o objetivo de N3 seria identificar perturbações na via.

2.4.4 Erros

Chakroborty et al sugere que, na previsão de tempo de viagem, um atraso de 1 ou 2 minutos numa viagem de 10 a 15 minutos é considerado tolerável. [CK04].

Assim sendo, e como as viagens em ambiente urbano são relativamente curtas, por-tanto é admissível um erro entre os 10% e 15% em relação ao tempo real da viagem.

Cheu et al concluiu que um investimento para aumentar o número de veículos que fazem a recolha de dados não se revela vantajoso quando a razão entre veículos que re-colhem dados e o número total de veículos for superior a 15%. Concluí também que para obter um erro absoluto na velocidade de ligação média estimada inferior a 5,0 km/h, pelo menos 95% do tempo, deve haver pelo menos 4% a 5% de veículos de recolha de dados ativos na rede, ou que pelo menos dez veículos de recolha de dados tenham atravessado a ligação no período de recolha de dados e se esse valor não for atingido deve-se pensar na utilização de um intervalo maior. [CXL02].

2.5 Conclusões

Neste capítulo foi descrito o que já feito nesta área de estudo de forma a tentar perceber qual a melhor solução para a resolução do problema na secção 1.2.

Para a resolução do nosso problema irá ser utilizado um algoritmo baseado em liga-ções devido ao facto de ser o que se melhor se ajusta para resolução do problema em ques-tão. Sendo pretensão deste trabalho utilizar dados de rotas fixas para calcular o tempo de viagem de automóveis (que normalmente realizam um número infinito de rotas).

Para a estimativa do tempo de viagem existem várias soluções, sendo a mais comum tentar inferir a velocidade do automóvel tendo em conta o tipo da via ou limite de veloci-dade das via. No entanto existem vários estudos a mostrar que é possível utilizar dados de autocarros para o cálculo do tempo de viagem de automóvel. Esta solução em concreto permite-nos ter em conta as condições meteorológicas e posteriormente fazer o cálculo do tempo de viagem do automóvel tendo em conta esse fator.

(40)

(41)

Capítulo 3

Método para inferência de

informação sobre o fluxo de trânsito

na via

Neste capítulo apresenta-se todo o processo realizado para a inferência do fluxo de trânsito dos automóveis através do fluxo de trânsito de autocarros. Neste capítulo é tam-bém apresentado o método utilizado para a realização do estudo, que compreende o pro-cesso desde a extração de dados até a geração de datasets que serão posteriormente anali-sado por algoritmos de machine learging.

No diagrama da figura 3.1 podemos ver uma descrição de todo o processo.

Neste trabalho são extraídas informações da base de dados como relativas à latitude, longitude, velocidade e o instante de tempo da recolha. Concomitantemente é feito um pré-processamento ao nível da localização do veículo. Este processo é realizado tanto para os datasets dos autocarros como para os dos automóveis. Não foi feito qualquer tratamento sobre a frequência de recolha devido ao fato que quantos maior o volume de dados mais preciso é o calculo da velocidade de viagem na via.

Por último é gerado um conjunto de descritores para inferência do fluxo de trânsito dos automóveis ligeiros na via em questão.

De notar que existem datasets que não possuem informação sobre a velocidade, pelo que esta tem que ser calculada.

Para caracterizar o fluxo da via, são utilizados indicadores como a velocidade do au-tocarro e condições meteorológicas em que a viagem foi realizada.

3.1 Extração dos dados de GPS de uma viagem

A extração de dados tem como argumento o troço que vai ser analisado. Esta infor-mação é necessária para a criação de uma área de procura, como mostrado na 3.2. Nor-malmente esta área é definida dando uma margem de 10 metros ao centro da via.

Uma das características do dataset de autocarros reside no facto de os condutores não usarem sempre o mesmo veículo para realizar o percurso que lhes está atribuído e conse-quentemente Ser preciso ter em atenção que um mesmo autocarro pode fazer diferentes percursos todos os dias. O primeiro passo passa assim por identificar quais os autocarros que atravessaram determinada rua em determinado dia.

(42)

Método para inferência de informação sobre o fluxo de trânsito na via

Figura 3.1: Processo de geração de datasets que relacionam informação de autocarros com automóveis ligeiros

Figura 3.2: Área limite de procura para a rua Rua Dr. Roberto Frias

(43)

Por cada um dos autocarros analisados é feita uma seleção de todos os pontos de GPS que se encontram dentro da área definida. Posteriormente são divididos os dados da viagem em várias sub-viagens para isolar cada passagem na rua. Este passo é fundamen-tal, principalmente no caso dos autocarros devido ao seu tráfico e consequente elevado número de passagens.

Por último, é construído um dataset por cada uma dessas sub-viagens que posterior-mente será usado para fazer o mapeamento de cada ponto do ficheiro com o ponto real da rua em questão.

3.2 Mapeamento dos dados de GPS com a via

Esta etapa é uma das etapas mais importantes no processo, quer para o cálculo do tempo de viagem, quer para o cálculo da velocidade média.

Se o mapeamento não for corretamente realizado ou não for realizado de todo, torna-se muito difícil dizer quais os pontos de GPS que repretorna-sentam o início e o fim da via, o que introduz um erro no cálculo do tempo de viagem e na velocidade média do troço. De notar que este erro se associa principalmente ao erro do próprio GPS.

Para a realização desta etapa é necessário um mapa com informações sobre a veloci-dade máxima da via e um ficheiro que contenha as várias instâncias do percurso realizado. Cada instância tem que conter informação de latitude, longitude e o instante de tempo em que foi recolhida.

O primeiro passo para realização do mapeamento é encontrar, para todos os pontos descritos no ficheiro, o ponto do mapa que será o melhor ponto candidato.

Adicionalmente, para cada ponto descrito no ficheiro é calculada a sua distância rela-tivamente a todos os pontos das ruas envolventes. De notar que as ruas são selecionadas mediante a sua localização, ou seja, se se encontram ou não dentro da área com cerca de 200 metros de diâmetro e que tem como centro o ponto descrito no ficheiro. Neste passo é gerada uma lista com cerca de 20 pontos candidatos ordenados pela distância. Quanto menor for a distância melhor será o candidato, como o descrito no algoritmo 3.1.

Data: Ficheiro com dados de GPS

Result: Lista de Listas de pontos candidatos

while !final do documento do

ler o ponto;

criação da área com centro no ponto; seleção de todas as ruas dentro da área;

for enquanto houver ruas novas do

calcular a distância do ponto à rua;

adicionar a distância calculada e a informação do ponto à lista de pontos candidatos;

end

ordenar a lista de pontos candidatos;

adicionar a lista de pontos candidatos à lista de listas de pontos candidatos;

end

Algoritmo 3.1:Criação da lista de pontos candidatos para todos os pontos do ficheiro

(44)

Depois de criada a lista de pontos candidatos procede-se então à escolha do ponto candidato com a menor distância à rua, neste caso o ponto Ac. Entenda-se que o ponto Ac faz parte da lista de pontos candidatos do ponto A.

De seguida é selecionada a lista de pontos candidatos do ponto seguinte. Se o ponto candidato com menor distância, neste caso Bc, se encontra na mesma rua que o ponto Ac é adicionado ao trajeto. Se se encontrar numa localização diferente é usado o algoritmo A* para encontrar o caminho entre Ac e Bc. Para tal são usados como critérios o limite máximo de velocidade da via e a diferença de tempo entre os pontos.

Quando não é encontrado um caminho entre Ac e Bc, Bc passa a ser o ponto candidato seguinte, voltando-se a usar A* para encontrar o caminho entre os dois pontos. Depois de encontrado um caminho entre esses dois pontos, o mesmo é adicionado ao trajeto, como mostrado no algoritmo 3.2.

Data: Lista de Listas de pontos candidatos

Result: Ficheiro com o percurso realizado

while !final da lista de listas de pontos candidatos do

seleção do ponto candidato com menor distancia, Ac;

seleção do ponto candidato com menor distancia, Bc, da lista na posição seguinte;

if Se o ponto Ac e Bc estiveram na mesma rua then

adicionar Bc ao percurso;

else

usar o algoritmo A* para encontrar o caminho entre Ac e Bc;

if Se for possível encontrar um caminho entre Ac e Bc then

adicionar o caminho resultante ao percurso;

else

Bc passa a ser o segundo melhor ponto candidato; voltar a chamar o algoritmo A* entre Ac e Bc;

end end end

Algoritmo 3.2:Criação do ficheiro com o percurso realizado

Finalmente, é gerado um ficheiro que contém toda a informação sobre o percurso, nomeadamente todos os pontos que constituem via, todas as interseções e quais os pontos que estão ligados entre si.

De notar que nos pontos em que ocorreu uma correspondência é adicionada informa-ção relativamente ao instante de tempo em que houve a recolha de dados de GPS.

Perceba-se que é com esta informação que na etapa seguinte é calculado o tempo de chegada e partida.

3.3 Interpretação dos ficheiros gerados

Nesta etapa é gerada toda a informação relativa às passagens realizadas pelos auto-carros e automóveis, tais como tempo de viagem, velocidade máxima e condições meteo-rológicas em que foi realizada, que será posteriormente usada como descritor.

(45)

De referir que informações externas como as condições meteorológicas são usadas para auxiliar uma melhoria no que respeita à inferência do tempo de viagem ou da velo-cidade dos automóveis.

O tempo de viagem e as velocidades (máxima, média e percentil de 50%, 75% e 90%,) são calculados com recurso aos ficheiros gerados na etapa anterior. Será novamente de salientar que o cálculo das velocidades das instâncias é necessário quando o dataset não tem a informação sobre a velocidade de GPS.

Para calcular a velocidade das instâncias é calculada a razão entre a distância, distância entre coordenadas de GPS e a diferença de tempo entre dois pontos consecutivos.

A distância entre dois pontos de GPS é calculada usando a fórmula Spherical Law of Cosines.

distncia= acos(sinϕ1 ∗ sinϕ2 + cosϕ1 ∗ cosϕ2 ∗ cos∆λ ) ∗ R

Depois de obtidas as velocidades de cada uma das instâncias é calculada a velocidade máxima, média e o percentil de 50%, 75% e 90% do troço.

Neste trabalho, foram calculadas várias estatísticas de velocidade para verificar quais tinham uma maior correlação com fluxo de trânsito dos automóveis. De notar que estas estatísticas só foram calculadas para a velocidade porque existia mais que uma medida para este parâmetro enquanto que o tempo de viagem foi sempre definido como a dife-rença entre o instante de tempo em que o automóvel/autocarro passaram no nó de início e de término da via.

Por último a informação é ordenada tendo em conta o instante de início da viagem, o que facilita o cruzamento de informação.

3.4 Inferência de informação do fluxo de automóveis a partir dos

autocarros

Na última etapa do processo é criado um dataset que será interpretado por programas de machine learging.

Cada instância do dataset tem informação sobre as condições meteorológicas em que o veículo realizou a viagem assim como informações sobre o tempo de viagem, diferença de tempo entre as passagens e as velocidades, média, máxima e os vários percentis do automóvel e dos últimos três autocarros.

Neste ponto, são removidas as instâncias nas quais que não haja pelo menos um au-tocarro a passar nos 30 minutos anteriores. Esta opção prende-se com o facto de ter sido considerado empiricamente que a informação entre a passagem de um autocarro e de um veículo estão potencialmente relacionadas se ocorrerem dentro de um intervalo máximo de 30 minutos.

Adicionalmente, é preciso ter em atenção que existe informação que necessita de ser retirada antes da realização das experiências, como por exemplo as velocidades do auto-móvel no caso de estarmos a testar o tempo de viagem. A razão subjacente respeita ao facto de esta informação, num caso real, não estaria disponível para o cálculo em questão.

(46)

3.5 Algoritmos de regressão

Para a realização das várias experiências foram usados vários algoritmos, abaixo apre-sentados

• Linear Regression

Linear Regressioné um método que permite estimar o valor de uma variável A, tendo

em conta os valores de uma ou mais variáveis Bp. A Linear Regression pode também ser aplicada para qualificar a relação entre a variável Bpe A.

A regressão é denominada "linear"porque se considera que a relação da variável a classificar é uma função linear de algum dos parâmetros. [MPV12]

• Multilayer Perceptron

Multilayer Perceptroné um modelo de rede neural que mapeia conjuntos de dados

de entrada num conjunto de saída apropriado, utiliza uma técnica de aprendizagem supervisionada denominada backpropagation para treino da rede[GD98]— o erro ob-tido no conjunto final é transmiob-tido para trás pela rede neuronal e é usado para que o algoritmo ajuste o peso de cada ligação.

Multilayer Perceptroné um modelo de rede neuronal que é constituído por várias

camadas de unidades computacionais, em que a sua ligação é feedforward —uma rede em que as ligações entre as camadas não formam um ciclo.

• Support Vector Machine

Support Vector Machine constrói um hiperplano— um sub-espaço de dimensão

n-1, em que n é o número de dimensões do espaço original. Posteriormente tenta dividir os dados por esse hiperplano, sendo a boa separação conseguida através do hiperplano que tem a maior distância ao ponto mais próximo da outra classe. Quanto maior for a margem de erro mais baixa é a generalização do classificador. O método baseado em Support Vector Machine para regreção é denominado support

vector regression. O modelo produzido pelo support vector regression depende apenas

de um subconjunto dos dados de treino, tendo em conta que a função de custo para a construção do modelo ignora os dados de treino perto da previsão do mesmo[SS04]. • M5P

O algoritmo original M5 foi inventado por R. Quinlan e posteriormente foi aprimo-rado por Yong Wang [Q+_92].

O M5P combina uma árvore de decisão convencional, com a possibilidade de fun-ções de regressão linear nos nós. Em primeiro lugar, um algoritmo de indução é usado para construir a referida árvore de decisão, contudo vez de maximizar a in-formação de ganho em cada nó interno, é usado um critério de divisão que minimiza a variação intra-subconjunto dos valores abaixo de cada ramo. O procedimento de divisão pára se os valores dos nós variarem muito pouco.

• REPTree

(47)

REPTree é uma árvore de decisão rápida que constrói uma árvore de regressão. Esta nova árvore usa o ganho de informação como critério de divisão, apenas classifi-cando os atributos numéricos uma vez. Os valores em falta são tratados com recurso ao método C4.5[ZZ08].

• IBK

IBK é um classificador baseado em K-Nearest Neighbors. Usa os K vizinhos mais próximos do ponto para calcular o seu valor. Este valor representa a média dos seus k vizinhos mais próximos.

k-NN é um tipo de aprendizagem baseada em lazy learning. O algoritmo k-NN é um dos algoritmos mais simples de machine learning, tendo sido usada validação cruzada para escolher o melhor valor de k[AKA91].

• Additive Regression

Additive Regressioné um meta-classificador que melhora o seu desempenho a cada

iteração. Normalmente o primeiro modelo de previsão utilizado é a média de to-dos os valores e a cada iteração o algoritmo aprende um novo modelo de previsão e aplica-o ao conjunto de dados. A taxa de aprendizagem ajuda a evitar que o algo-ritmos ajuste demasiado ao de treino[Fri02].

(48)

(49)

Capítulo 4

Implementação

Neste capitulo descreve-se a implementação realizada para cumprir todo o processo descrito no capitulo 3. Em particular, o tratamento do mapa para a realização do mapea-mento e a criação do dataset para inferência do fluxo de trânsito da via.

4.1 Criação do mapa de estradas para o mapeamento

Esta etapa é particularmente importante para aumentar a eficiência do mapeamento. O mapa escolhido foi o OpenStreetMap devido ao facto de ser open source, de existir uma boa documentação subjacente ao mesmo e por ser permitido o acesso ao código fonte, sem depender de uma API. O mapa usado contém apenas informação sobre a zona do Grande Porto, objetivando o aumento da velocidade de processamento do mapeamento dos dados de GPS.

Ainda relativamente ao OpenStreetMap de referir que este é um mapa gratuito que conta com a contribuição da comunidade para o seu crescimento e que usa um sistema de

tagspara representar todas as características necessárias, como as estradas ou até mesmo

os edifícios. Existem três tags que são consideradas principais, node, Way e Relation. O tag node é o elemento principal no modelo do OpenStreetMap, sendo caraterizado por informações de latitude, longitude e um identificador único. A latitude e longitude são descritas em graus com um máximo de 7 casas decimais. O node pode representar uma interseção, um cruzamento ou parte de edifício.

A tag way é constituída por uma lista ordenada de nodes, que normalmente têm pelo menos uma tag que descreve o tipo de via. A way pode ter entre 2 e 2.000 nodes, embora seja possível que existam situações com nenhum ou um node. A way pode ser aberta ou fechada, considerando-se fechada aquela cujo o último nó é também o primeiro. A way fe-chada pode ser interpretada como um polígono fechado, como por exemplo uma rotunda ou a limitação de um edifício, tal como representado nas figuras 4.1 e 4.2.

A tag relation é constituída por uma ou mais tags de descrição, uma lista ordenada de um ou mais nodes e uma lista ordenada de uma ou mais ways. Esta é principalmente usada para definir as relações lógicas ou geográficas entre os elementos. Um exemplo prático de uma relation é uma estrada de acesso restrito a BUS, e neste caso haverá nodes que descrevem as paragens de autocarros. Na imagem 4.3 é apresentada uma relação: os pontos laranjas representam os nodes da relation e as linhas laranjas representam as ways da relation. A relation apresentada tem como descrição as seguintes tags.

(50)

Implementação

Figura 4.1: Exemplo de uma tag way para limitação de um edifício (cor amarela)

Figura 4.2: Exemplo de uma tag way para uma rotunda (cor verde)

(51)

Implementação

Figura 4.3: Exemplo prático de uma tag relation • name = Place Jacques-Cartier–Lac-Saint-Charles

• network = RTC

• operator = Réseau de Transport de la Capitale

O sistema de tags do OpenStreetMap permite que o mapa possa incluir um número ilimitado de atributos e assim poder descrever cada recurso existente. A comunidade con-corda com certas combinações de tags e valores para as situações mais comuns, atuando como normas informais. No entanto, os utilizadores podem criar novas tags para melho-rar o estilo do mapa ou para apoiar as análises que dependem de atributos previamente não mapeados. A maioria dos recursos é descrito usando apenas um pequeno número de tags.

O mapa original do OpenStreetMap é assim muito completo e tem informações de importante relevância, embora careça de informações que são necessárias, como a veloci-dade máxima da via.

Consequentemente antes de usar o mapa para fazer o mapeamento dos dados de GPS recolhidos é necessário realizar-se um pré-processamento no mapa. O pré-processamento é realizado com recurso a um XML de configuração.

O XML de configuração é uma lista de tipos de vias e a cada tipo de via está associ-ada uma velocidade. Assim, por exemplo, uma via do tipo highway terá uma velocidade máxima de 120km/h. Este ficheiro só deve conter os tipos de vias que interessam para o mapeamento, sendo como tal eliminadas vias para bicicletas visto não se encontrarem no ficheiro de configuração, como mostrado no exemplo abaixo.