A Figura 22 apresenta o que restou ap´os cada fase de limpeza dos dados.
• Passo 1 - Total inicial: Valor inicial de utilizac¸˜ao de cart˜oes (o mesmo valor apresentado na Tabela 7);
• Passo 2 - Remoc¸˜ao de ARA, OPC e MCC: As instˆancias de cart˜oes validadas com este indicador de “linha” n˜ao pode ser utilizada pois n˜ao ´e poss´ıvel fazer a associac¸˜ao com a base de GPS dos ˆonibus (n˜ao se sabe exatamente que ˆonibus/linha esta utilizac¸˜ao do cart˜ao representaria). Ap´os este passo, quase 6% das transac¸˜oes foram desprezadas; • Passo 3 - Remoc¸˜ao de COD URBS desconhecidos: Alguns c´odigos passados no campo
“codveiculo”da base de utilizac¸˜ao dos cart˜oes (mais precisamente 31 c´odigos) n˜ao foram fornecidos pela URBS at´e a redac¸˜ao deste trabalho. Portanto, tais transac¸˜oes n˜ao puderam ser utilizadas pois n˜ao ´e poss´ıvel identificar onde (tubos ou terminais) tais cart˜oes teriam sido utilizados;
• Passo 4 - Selec¸˜ao de 1 ou 2 utilizac¸˜oes ao dia : Conforme mostrado na Figura 23, inicialmente a base de dados de utilizac¸˜ao de cart˜oes apresenta uma maioria de casos de utilizac¸˜ao uma ou duas vezes por dia de um mesmo cart˜ao (cerca de 60% do total inicial). Ao mesmo tempo, percebe-se tamb´em algumas poucas aberrac¸˜oes, onde um mesmo cart˜ao chega a ser utilizado 14 vezes em um mesmo dia.
Figura 22: Quantidade de dados de utilizac¸˜ao dos cart˜oes de transporte resultante dos processos de limpeza dos dados. Ap´os os cinco passos de preparac¸˜ao, consideramos no final cerca de 60% dos dados inicialmente capturados.
Dado esta ampla maioria, conforme explicado na Sec¸˜ao 3.2, por quest˜ao de simplicidade decidiu-se considerar em um primeiro momento apenas os casos de uma ou duas utilizac¸˜oes de um mesmo cart˜ao por dia.
Observa-se na Figura 23 que os valores finais considerados (barras vermelhas) apontam um pouco mais de casos de uma ´unica utilizac¸˜ao por dia. Isso se deve ao fato de algumas passagens consideradas como sendo duas vezes ao dia, na verdade tratava-se de utilizac¸˜oes seguidas (em menos de cinco minutos uma da outra) de um mesmo cart˜ao. Neste caso, tais situac¸˜oes foram classificadas como sendo uma ´unica utilizac¸˜ao ao dia; • Passo 5 - Remoc¸˜ao dos ˆonibus sem informac¸˜ao GPS: Por raz˜oes ainda n˜ao muito claras,
alguns ve´ıculos realizando certas linhas n˜ao emitiram suas informac¸˜oes GPS conforme esperado (foi observado um total de 121 pares linha/veiculo nesta situac¸˜ao). Imagina-se que isso possa se dever a algum problema no equipamento ou a n˜ao ativac¸˜ao do sistema pelo motorista. A URBS comentou sobre a possibilidade de oferecer uma outra base, com o acumulado das posic¸˜oes GPS de todos os ve´ıculos nas 48 horas precedentes. Segundo eles, estes valores faltantes poderiam estar presentes ali. No entanto, tal base n˜ao foi disponibilizada a tempo para a redac¸˜ao deste trabalho.
Conforme explicado anteriormente, o foco neste trabalho n˜ao est´a na definic¸˜ao exata do ponto de ˆonibus, mas sim na grade onde os usu´arios subiram e desceram dos ˆonibus. Portanto, a base de pontos de ˆonibus foi atualizada indicando para cada ponto qual seria o id da grade
Figura 23: Quantidade de utilizac¸˜ao de um mesmo cart˜ao em um mesmo dia. Observa-se uma grande predominˆancia de uma ou duas utilizac¸˜oes por dia (quase 70% dos dados iniciais). As barras em azul representam os valores brutos iniciais, enquanto que as vermelhas indicam os dados considerados ap´os a etapa de limpeza dos dados.
na qual ele estaria inserido. A Figura 24 mostra o exemplo da grade de id “1566” que agrega em seu interior 26 pontos de ˆonibus diferentes. Este fato simplifica bastante a definic¸˜ao de localizac¸˜ao de origem ou destino, absorvendo eventuais erros de estimac¸˜ao por diversas raz˜oes. Apesar da criac¸˜ao de cerca de quatro mil grades, apenas 1439 j´a foram suficientes para cobrir todos os pontos de ˆonibus dispon´ıveis na cidade. Portanto, simplifica-se radicalmente a tarefa de definir origem-destino passando de uma poss´ıvel combinac¸˜ao entre os 6990 pontos de ˆonibus para uma bem menor combinando as 1439 grades que os cont´em.
4.3 ASSOCIAC¸ ˜AO DOS DADOS DE GPS `AS INFORMAC¸ ˜OES DE UTILIZAC¸ ˜AO DOS CART ˜OES - RESULTADOS
Um resumo sobre a dispers˜ao e valores m´edios da diferenc¸a de tempo entre a informac¸˜ao GPS dos ˆonibus e a informac¸˜ao de utilizac¸˜ao dos cart˜oes de transporte ´e apresentado na Tabela 9. Observa-se que o dado referente ao terceiro quartil (correspondendo a 75% da amostra total) possui um valor bastante baixo (52 segundos entre o momento da informac¸˜ao do GPS e a passagem do cart˜ao pelo usu´ario).
O valor de m´aximo indicaria algum eventual problema encontrado nesta associac¸˜ao. Isto deve-se essencialmente aos j´a comentados problemas de indisponibilidade de informac¸˜oes de GPS. No entanto, estes valores at´ıpicos chegam a apenas 0,8% da amostra total.
Figura 24: O quadrado amarelo representa a grade de ID “1566”, todos os pontos internos a esta grade, representados pelos pontos vermelhos (26 no total), foram classificados como sendo integrantes desta grade.
Min. 1◦Quartil Mediana M´edia 3◦Quartil M´aximo 00:00:00 00:00:19 00:00:34 00:03:21 00:00:52 17:57:44
Tabela 9: Dispers˜ao no intervalo de tempo entre a informac¸˜ao sobre a posic¸˜ao GPS considerada e o momento de validac¸˜ao do cart˜ao de transporte no mesmo.
A maneira como esta etapa foi implementada merece ser revista para trabalhos futuros. A utilizac¸˜ao de 4 operac¸˜oes de join (ver Anexo E) entre bases de dados bastante volumosas ´e computacionalmente bastante custosa.
4.4 ESTIMAC¸ ˜AO DO PONTO DE DESEMBARQUE DE CADA USU ´ARIO -
RESULTADOS
Para o caso de uma ´unica utilizac¸˜ao di´aria, cerca de 35% das instˆancias puderam ser mapeadas a alguma outra utilizac¸˜ao do mesmo cart˜ao sendo utilizado duas vezes ao dia (partindo da mesma grade ou de alguma das 8 grades adjacentes). Os cerca de 65% dos casos restantes tiveram os destinos mapeados para onde a maioria dos outros usu´arios se dirigia na faixa hor´aria da utilizac¸˜ao do cart˜ao.
Este ponto ´e de extrema importˆancia pois ele influencia fortemente as conclus˜oes do servic¸o telem´atico sobre a cobertura atual das linhas. Isto porque a matriz O/D acaba por supervalorizar regi˜oes de destino em func¸˜ao desses 65% de usu´arios que n˜ao s˜ao mapeados
de acordo com seu hist´orico de viagens.
Espera-se que este valor diminua caso um per´ıodo maior de observac¸˜ao seja considerado.
4.5 CRIAC¸ ˜AO E VISUALIZAC¸ ˜AO DA MATRIZ DE ORIGEM-DESTINO - RESULTADOS
Neste ponto, as informac¸˜oes de origem-destino dos usu´arios j´e est˜ao dispon´ıveis na base SQL. Logo, o passo chave nesta etapa est´a na apresentac¸˜ao da mesma, sob os diversos formatos poss´ıveis, todos com vantagens e desvantagens.
Em uma primeira abordagem, tratou-se de transformar as informac¸˜oes presentes na base SQL sob o formato de grafos. Como explicado anteriormente, isto foi realizado utilizando uma biblioteca espec´ıfica em R.
O formato de grafo foi bastante ´util para identificar facilmente as ligac¸˜oes mais importantes na rede (basicamente envolvendo os n´os do grafo com maior grau perante os demais). No entanto, no que tange `a visualizac¸˜ao dos resultados, o formato de grafo n˜ao ´e muito amig´avel em uma primeira an´alise, conforme mostrado na Figura 25.
(a) (b)
Figura 25: Tentativas frustradas de visualizac¸˜ao do grafo completo utilizando um algoritmo de distribuic¸˜ao geoespacial (a), que leva em conta as coordenadas geogr´aficas dos n´os para organiza- los espacialmente. Outros algoritmos de organizac¸˜ao do grafo tamb´em foram utilizados (b), no entanto, devido ao grande volume de informac¸˜ao, nenhum apresentou um resultado satisfat´orio para explorac¸˜ao visual.
A visualizac¸˜ao do grafo com todas as interconex˜oes da matriz origem-destino revelou- se de pouca valia. Assim, optou-se por uma visualizac¸˜ao parcial das relac¸˜oes de origem destino. A Figura 26 apresenta trˆes poss´ıveis formas de mostrar as mil ligac¸˜oes mais volumosas da matriz
origem-destino final.
(a) (b) (c)
Figura 26: Trˆes tentativas de visualizac¸˜ao das mil ligac¸˜oes mais importantes da matriz origem- destino obtida: (a) e (b) Utilizando algoritmos que buscam equalizar o tamanho das arestas evitando ao m´aximo a superposic¸˜ao das mesma (conhecidos por force-directed layout). (c) Utilizando um algoritmo que leva em conta a posic¸˜ao geogr´afica dos n´os ao desenhar o grafo (conhecido por geolayout).
O resultado foi visualmente bem mais interessante, abrindo vertentes para futuros trabalhos que busquem explorar diversas caracter´ısticas da rede e da matriz origem-destino atrav´es de conceitos de grafos (como discutido no Cap´ıtulo 5).
Uma outra alternativa de apelo visual interessante passa pela apresentac¸˜ao da informac¸˜ao contida na matriz origem-destino atrav´es da aplicac¸˜ao dos chamados mapa de calor sobre o mapa da cidade. Para tanto, foram feitas duas abordagens. A primeira utilizando o R e a segunda trabalhando com os APIs do GoogleMaps. A Figura 27 mostra os resultados obtidos com as duas abordagens.
Utilizou-se tamb´em o QGIS para a gerac¸˜ao de mapas de calor atrav´es da ferramenta “mapa de calor” do software.
As figuras 28 e 29 apresentam os resultados considerando a matriz origem-destino para todos os dias de semana e dias de finais de semana, respectivamente.
Observa-se que os locais de maior afluˆencia s˜ao bastante semelhantes, concentrando-se essencialmente nos principais eixos vi´arios da cidade, no centro e no entorno dos terminais.
Com o intuito de equalizar e analisar um pouco mais detalhadamente os principais centros de chegada e partida de passageiros, a Figura 30 apresenta uma sobreposic¸˜ao das regi˜oes de partida e chegada mais importantes (cujo valor no mapa de calor ultrapassa o valor de 50002). 2Este valor foi escolhido pois representam regi˜oes de bastante afluˆencia, onde a func¸˜ao de kernel aponta alta
(a) (b)
Figura 27: (a) Utilizac¸˜ao dos APIs para javascript do GoogleMaps contidos em um arquivo .html, visualizando-o na sequencia em um navegador de internet. ; (b) Exemplo de resultado obtido atrav´es da biblioteca ggmap do R.
(a) (b)
Figura 28: Concentrac¸˜ao dos principais pontos de origem e destino nos dias de semana: (a) Principais regi˜oes de origem dos passageiros nos dias de semana; (b) Principais regi˜oes de destino dos passageiros nos dias de semana.
(a) (b)
Figura 29: Concentrac¸˜ao dos principais pontos de origem e destino nos finais de semana: (a) Principais regi˜oes de origem dos passageiros aos finais de semana; (b) Principais regi˜oes de destino dos passageiros aos finais de semana.
Nesta figura pode-se observar tamb´em que os principais pontos de partida de passageiros tamb´em s˜ao geralmente focos de grande absorc¸˜ao de usu´arios.
Uma outra forma de explorar o resultado obtido ´e considerar um ponto de interesse em particular, como apresenta a Figura 31. Neste exemplo objetiva-se saber de onde vem os passageiros que desembarcam no entorno do Terminal Centen´ario ou no Centro Municipal de Urgˆencias M´edicas do Cajuru (ambos situados em uma mesma grade, representada pelo quadrado rosa na Figura 31). Claramente, a maior parte dos usu´arios vem de regi˜oes pr´oximas dali, do centro ou da zona oeste da cidade. No entanto, n˜ao parece haver muito fluxo de pessoas da regi˜ao sudoeste da cidade, por exemplo.
Todos os mapas e grafos aqui apresentados consideram o total de observac¸˜oes coletadas. No entanto, seria naturalmente poss´ıvel filtr´a-los por faixas hor´arias espec´ıficas tamb´em, dependendo essencialmente do objetivo da an´alise em curso.
Vale ressaltar que os valores apresentados nos mapas de calor devem ser tratados com cuidado. Isto porque durante toda a an´alise considerou-se apenas uma parcela dos usu´arios do transporte que pagam suas tarifas com o cart˜ao de transporte (e apenas aqueles com uma ou duas utilizac¸˜oes di´arias). Logo, a fim de obter uma real estimativa da quantidade de usu´arios de
(a) (b)
Figura 30: Para ambos os gr´aficos, as regi˜oes em verde representam os pontos de desembarque e as de vermelho os de embarque: (a) Considerando todos os dias de semana observados; (b) Considerando todos os dias de finais de semana observados.
Figura 31: Outra forma interessante de explorar a matriz origem-destino obtida seria filtr´a-la por algum ponto de interesse, neste caso, procura-se evidenciar de onde vem os passageiros que desembarcam na regi˜ao do Terminal Centen´ario ou no Centro Municipal de Urgˆencias M´edicas do Cajuru, localizados na mesma grade (representada pelo quadrado violeta na figura).
fato embarcando ou desembarcando nas mais variadas regi˜oes da cidade, seria preciso aplicar algum fator de escala nos valores apresentados aqui. Este fator pode ser estimado a partir da proporc¸˜ao de usu´arios que usam o cart˜ao no sistema de transporte (Sec¸˜ao 1.1) ou utilizar algum outro estudo externo para abalizar os dados medidos aqui (como a pesquisa manual de Origem- Destino conduzida neste momento pela prefeitura).