CENTRO DE CIÊNCIAS
DEPARTAMENTO DE COMPUTAÇÃO
PROGRAMA DE PÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO
FRANCISCO CARLOS FREIRE NUNES JUNIOR
GERAÇÃO DE MAPAS DE HOTSPOTS EM REDES DE RUAS PARA PREDIÇÃO DE CRIMES
FORTALEZA 2020
GERAÇÃO DE MAPAS DE HOTSPOTS EM REDES DE RUAS PARA PREDIÇÃO DE CRIMES
Dissertação apresentada ao Programa de Pós-Graduação em Ciência da Computação do Centro de Ciências da Universidade Federal do Ceará, como requisito parcial à obtenção do título de mestre em Computação. Área de Concentração: Sistemas de Informação
Orientador: Prof. Dr. José Antônio Ma-cedo
Coorientadora: Profa. Dra. Ticiana Coe-lho da Silva
FORTALEZA 2020
Gerada automaticamente pelo módulo Catalog, mediante os dados fornecidos pelo(a) autor(a)
N925g Nunes Junior, Francisco Carlos Freire.
Geração de mapas de hotspots em redes de ruas para predição de crimes / Francisco Carlos Freire Nunes Junior. – 2020.
108 f. : il. color.
Dissertação (mestrado) – Universidade Federal do Ceará, Centro de Ciências, Programa de Pós-Graduação em Ciência da Computação, Fortaleza, 2020.
Orientação: Prof. Dr. José Antônio Fernandes de Macedo. Coorientação: Profa. Dra. Ticiana Linhares Coelho da Silva.
1. Predição de crimes. 2. KDE. 3. Mapas de hotspots. 4. Rede de ruas. I. Título.
GERAÇÃO DE MAPAS DE HOTSPOTS EM REDES DE RUAS PARA PREDIÇÃO DE CRIMES
Dissertação apresentada ao Programa de Pós-Graduação em Ciência da Computação do Centro de Ciências da Universidade Federal do Ceará, como requisito parcial à obtenção do título de mestre em Computação. Área de Concentração: Sistemas de Informação
Aprovada em:
BANCA EXAMINADORA
Prof. Dr. José Antônio Macedo (Orientador) Universidade Federal do Ceará (UFC)
Profa. Dra. Ticiana Coelho da Silva (Coorientadora) Universidade Federal do Ceará (UFC)
Profa. Dra. Emanuele Marques dos Santos Universidade Federal do Ceará (UFC)
Prof. Dr. César Lincoln Cavalcante Mattos Universidade Federal do Ceará (UFC)
Profa. Dra. Vania Bogorny
Universidade Federal de Santa Catarina (UFSC)
Dr. Wellington Clay Porcino Silva Força Nacional de Segurança Pública (FNSP)
Aos meus pais, que sempre me incentivaram a estudar e proporcionaram um ambiente de paz e conforto para enfrentar os desafios do ambiente acadêmico.
Ao professor orientador Dr. José Antônio Fernandes de Macedo, que me deu a oportunidade de ingressar no laboratório e me deu a opção de trabalhar em um projeto desafiador e com uma grande capacidade de retorno para a sociedade.
A professora coorientadora Dra. Ticiana Linhares Coelho da Silva, que se dispôs a me ajudar no período mais decisivo do trabalho, ajudando a manter o foco e permitindo que todos os prazos fossem concluídos com sucesso e qualidade.
Ao pesquisador Dr. José Florêncio de Queiroz Neto, que me mostrou a literatura e me guiou no momento mais incerto do desenvolvimento, me ensinando como começar e compartilhando todo o seu vasto conhecimento sobre o assunto.
A todos os membros do laboratório Insight Data Science, onde esse trabalho foi desenvolvido, especialmente ao professores Dr. Regis Pires e Me. Gustavo Coutinho, as professoras Dra. Emanuele Marques e Ma. Lívia Almada, aos doutorando Nicksson Arrais e Leopoldo Melo, aos desenvolvedores Me. Emanuel Oliveira e Guilherme Estevão, e todos os alunos e desenvolvedores que fazem o laboratório um ambiente acolhedor, desafiador e inovador.
Aos meus colegas de trabalho, que me deram apoio e suporte para poder cursar o mestrado, especialmente ao engenheiro João Pinheiro, aos professores Dr. Rodrigo Cavalcanti e Dr. Walter Freitas, e aos alunos Erik Ray e Ezequias Santana.
Ao Dr. Ednardo Moreira Rodrigues, e seu assistente, Alan Batista de Oliveira, pela adequação do template utilizado neste trabalho para que o mesmo ficasse de acordo com as normas da biblioteca da Universidade Federal do Ceará (UFC).
A grande ocorrência de eventos criminosos, como: assalto, incêndio criminoso e assassinato, é um problema crítico enfrentado nas cidades. Particularmente no Brasil, o estudo de eventos criminosos é um tema de crescente interesse e a principal preocupação em algumas cidades, devido às altas taxas de criminalidade, à magnitude da violência e o número de vidas perdidas. Uma ferramenta criada com o uso da tecnologia para auxiliar no enfrentamento da criminalidade é a construção de mapas de hotspots, que são regiões geograficamente limitadas e possuem uma alta concentração de crimes de acordo com os dados históricos. Entre as diversas técnicas desenvolvidas na literatura para a criação de hotspots, o Kernel Density Estimation (KDE) tem apresentado bons resultados, principalmente em estudos que analisam a capacidade preditiva e que utilizam dados de roubo. Apesar da construção do KDE com a divisão do espaço em grade de células apresentar bons resultados na predição de crimes futuros, no algoritmo não é considerado as posições e as concentrações das estruturas urbanas, como as ruas, que é o principal meio de locomoção das equipes de patrulha. Nessa perspectiva, este trabalho propõe a criação de quatro novas técnicas para geração de mapas de hotspots: Polygon Hotspots Approximated to Road network (PHAR), Incremental Polygon Hotspots Approximated to Road network (i-PHAR), Subgraph Hotspots Approximated to Road Network (SHAR) e Expansive Network, que utilizam as estimativas de densidades do KDE para criar hotspots aproximados às ruas, com o objetivo de prever novas ocorrências de crimes. Através da realização de experimentos, utilizando dados reais de crimes de roubo, foi possível observar que as técnicas PHAR e i-PHAR apresentam resultados próximos do KDE com grade de células em relação a predição de eventos futuros, e possui a vantagem de criar menos hotspots em uma mesma proporção de área selecionada. Nas técnicas SHAR e Expansive Network, que criam hotspots em formato de subgrafos de ruas que facilitam o planejamento das patrulhas, foram obtidos resultados superiores em comparação com a grade de células, com uma maior vantagem de usabilidade para a técnica SHAR, que preserva a presença de rotas entre todas as posições de um mesmo hotspot, e uma maior capacidade preditiva para a técnica Expansive Network.
Crimes (e.g., assault, arson, harassment, and murder) have emerged as one of the most critical problems countries face. In particular, in Brazil, crime is a theme of growing interest and the prime concern in some cities, due to the high crime rates, the sheer magnitude of violence and the perceived number of lives lost. A tool created with the use of technology to help tackle crime is the construction of hotspots maps, which are geographically limited regions and have a high concentration of crimes according to historical data. A relevant amount of approaches available in the literature address this problem by suggesting that Kernel Density Estimation (KDE) can accurately forecast crime and outperform other approaches for crime prediction. However, none of these approaches approximate the crime hotspots to the road network by considering that the police patrols move constrained by road networks. In this perspective, this work proposes the creation of four new techniques for generating hotspots maps: Polygon Hotspots Approximated to Road network (PHAR), Incremental Polygon Hotspots Approximated to Road network (i-PHAR), Subgraph Hotspots Approximated to Road Network (SHAR), and Expansive Network, that use KDE density estimates to create hotspots approximated to the streets, with the aim of predicting new occurrences of crimes. We conduct several experiments using real data of theft crimes from Fortaleza, Ceará, Brazil, that demonstrate the PHAR and i-PHAR techniques present results close to KDE algorithm using grid cells concerning the prediction of future events. Moreover, both techniques create fewer hotspots than the baseline algorithm for the same parameter settings. For what concerns SHAR and Expansive Network techniques that create hotspots as subgraphs (of the road network) facilitating patrol planning. SHAR yields superior results in terms of usability and Expansive Network better prediction than the results from KDE algorithm using grid cells.
Figura 1 – Captura de tela do software QGIS. . . 25 Figura 2 – Representação do cálculo do kernel utilizando as ruas: (a) visão superior do
espaço de divisão das ruas; (b) representação da abordagem equal-split. . . . 30 Figura 3 – Representação do cálculo da menor distância entre dois clusters no método
Minimum. . . 33 Figura 4 – Representação do cálculo da maior distância entre dois clusters no método
Maximum. . . 34 Figura 5 – Representação do cálculo da distância entre dois clusters, considerando a
distância entre todos os elementos dos clusters. . . 35 Figura 6 – Ilustração do modelo de clusterização do algoritmo DBSCAN. . . 36 Figura 7 – Etapas de geração do algoritmo MSKDE: (a) mapa com os eventos; (b)
cálculo do KDE utilizando células quadradas; (c) linhas de contorno do Marching Square; (d) resultado do MSKDE. . . 40 Figura 8 – Etapas de construção do algoritmo KDE com grade. . . 46 Figura 9 – Processo visual de geração do KDE com grade de células. . . 46 Figura 10 – Clusterização das células vizinhas com DBSCAN: (a) regiões de hotspots
antes da clusterização; (b) regiões de hotspots após a clusterização. . . 47 Figura 11 – Mapa de densidade após o KDE com células de 400 metros. . . 49 Figura 12 – Etapas de construção do algoritmo PHAR. . . 51 Figura 13 – Construção da redes de ruas em uma estrutura de grafos: (a) mapa original;
(b) adição dos nós; (c) adição das arestas. . . 51 Figura 14 – Nós da rede de ruas com diferentes densidades representados em um mapa. . 52 Figura 15 – Exemplo de três clusters de nós selecionados para formação de hotspots. . . 54 Figura 16 – Exemplo de mapa de hotspots gerados pelo algoritmo SHAR para a AIS 4. . 55 Figura 17 – Exemplo de mapa de hotspots gerados pelo algoritmo SHAR para a AIS 4. . 60 Figura 18 – Etapas de construção do algoritmo Expansive Network. . . 63 Figura 19 – Construção de um cluster de ruas com o algoritmo Expansive Network: (a)
etapa inicial; (b) etapa intermediária; (c) etapa final. . . 63 Figura 20 – Exemplo de mapa de hotspots gerados pelo algoritmo Expansive Network
para a AIS 4. . . 65 Figura 21 – Exemplo de amostras do conjunto de dados. . . 70
Figura 24 – Seleção do bandwidth na abordagem da contagem com kernel uniforme. . . 77
Figura 25 – Eventos de crimes registrados de 01/08/2017 até 30/09/2018 para a AIS 4. . 79
Figura 26 – Mapa de hotspots gerado utilizando os eventos da Figura 25 com kernel uniforme e Bwde 35,35 m. . . 80
Figura 27 – Mapa de hotspots gerado utilizando os eventos da Figura 25 com kernel quártico e Bwde 400 m. . . 80
Figura 28 – Método do cotovelo aplicado na AIS 2. . . 81
Figura 29 – Método do cotovelo aplicado na AIS 4. . . 81
Figura 30 – Método do cotovelo aplicado na AIS 7. . . 82
Figura 31 – Exemplo de mapa de hotspots gerados pelo KDE com grade. . . 85
Figura 32 – Exemplo de mapa de hotspots gerados pelo PHAR. . . 85
Figura 33 – Exemplo de mudança dos mapas hotspots ao longo do tempo, gerados pelo método i-PHAR na AIS 2. . . 87
Figura 34 – Exemplo de mapa de hotspots gerados pelo algoritmo SHAR para a AIS 4. . 91
Figura 35 – Exemplo de mapa de hotspots gerados pelo algoritmo Expansive Network para a AIS 4. . . 95
Tabela 1 – Quantidade de dados utilizados nas janelas de geração dos hotspots. . . 73 Tabela 2 – Quantidade de dados utilizados nas janelas de validação e teste dos hotspots. 74 Tabela 3 – Resultado do PAI, calculado da média dos três experimentos, para as funções
de kernel Uniforme e Quártico. . . 77 Tabela 4 – Resultado do número de hotspots, calculado da média dos três experimentos,
para as funções de kernel Uniforme e Quártico. . . 78 Tabela 5 – Resultado do PAI, calculado da média dos três experimentos, para os
algorit-mos KDE com grade, PHAR e i-PHAR. . . 84 Tabela 6 – Resultado do número de hotspots, calculado da média dos três experimentos,
para os algoritmos KDE com grade, PHAR e i-PHAR. . . 84 Tabela 7 – Resultado do nPAI, calculado da média dos três experimentos, para o
algo-ritmo SHAR. . . 89 Tabela 8 – Resultado do número de hotspots, calculado da média dos três experimentos,
para o algoritmo SHAR. . . 90 Tabela 9 – Resultado do diâmetro, calculado da média dos três experimentos, para o
algoritmo SHAR. . . 90 Tabela 10 – Resultado do nPAI, calculado da média dos três experimentos, para o
algo-ritmo Expansive Network. . . 93 Tabela 11 – Resultado do número de hotspots, calculado da média dos três experimentos,
para o algoritmo Expansive Network. . . 94 Tabela 12 – Resultado do diâmetro, calculado da média dos três experimentos, para o
algoritmo Expansive Network. . . 95 Tabela 13 – Resultado do nPAI, calculado da média dos três experimentos, para os
algo-ritmos SHAR e Expansive Network. . . 96 Tabela 14 – Resultado do número de hotspots, calculado da média dos três experimentos,
para os algoritmos SHAR e Expansive Network. . . 97 Tabela 15 – Resultado do diâmetro, calculado da média dos três experimentos, para os
algoritmos SHAR e Expansive Network. . . 98 Tabela 16 – Resultado do PAI e nPAI, calculado da média dos três experimentos, para os
Quadro 1 – Funções de kernel. . . 29
Quadro 2 – Descrição dos símbolos utilizados com frequência nos Capítulos 4 e 5. . . . 44
Quadro 3 – Comparativo entre os algoritmos de geração de hotspots. . . 68
Quadro 4 – Separação em períodos de horas. . . 72
Quadro 5 – Data inicial e final das janelas de dias. . . 74
Quadro 6 – Parâmetros e valores testados para todos os métodos. . . 76
Quadro 7 – Parâmetros testados com grid search para os métodos KDE com grade, PHAR e i-PHAR. . . 82
Quadro 8 – Parâmetros selecionados para os métodos KDE com grade, PHAR e i-PHAR. 83 Quadro 9 – Contexto mais vantajoso para a utilização de cada método. . . 102
Algoritmo 1 – KDE com grade de células . . . 48
Algoritmo 2 – PHAR . . . 55
Algoritmo 3 – i-PHAR . . . 56
Algoritmo 4 – SHAR . . . 60
KDE Kernel Density Estimation
PHAR Polygon Hotspots Approximated to Road network
i-PHAR Incremental Polygon Hotspots Approximated to Road network SHAR Subgraph Hotspots Approximated to Road Network
CVP Crimes Violentos Contra o Patrimônio PAI Predictive Accuracy Index
nPAI Network Predictive Accuracy Index SIG Sistema de Informação Geográfica GIS Geographic Information System CEP Código de Endereçamento Postal API Application Programming Interface SRC Sistema de Referência de Coordenadas CRS Coordinate Reference System
IOGP International Association of Oil & Gas Producers GPS Global Positioning System
WGS World Geodetic System
SIRGAS Sistema de Referencia Geocéntrico para América del Sur
OSM OpenStreetMap
UCL University College London GVis Geographic Visualization
FDP Função densidade de probabilidade CH Clusterização Hierárquica
DBSCAN Density-Based Spatial Clustering and Application with Noise IDW Inverse distance weighting
MSKDE Marching Squares Kernel Density Estimation STAC Spatial and Temporal Analysis of Crime NPP Network partitioning and pruning AIS Área Integrada de Segurança
CIOPS Coordenadoria Integrada de Operações de Segurança SSPDS Secretária da Segurança Pública e Defesa Social CVLI Crimes Violentos Letais e Intencionais
ah Área de cobertura dos hotspots
As Área de estudo
Bw Bandwidth
C Evento de crime
dh Comprimento total de cobertura dos hotspots
Ds Comprimento total das ruas da área de estudo
G Grafo H Regiões de Hotspots K Função de kernel Km Quilômetro m Metro Mm Megametro Mp Média ponderada
Msim Matriz de similaridade
Nc Número de clusters
Nh Quantidade de eventos na cobertura dos hotspots
Ns Quantidade de eventos na área de estudo
T Janela de tempo
V Nós
α Porcentagem da área de estudo ωθ Peso da distância
1 INTRODUÇÃO . . . 19 1.1 Definição do problema . . . 21 1.2 Objetivos . . . 21 1.2.1 Objetivo geral . . . 21 1.2.2 Objetivos específicos. . . 21 1.3 Contribuição do trabalho . . . 22 1.4 Estrutura do documento . . . 22 2 FUNDAMENTAÇÃO TEÓRICA . . . 24
2.1 Sistema de Informação Geográfico . . . 24
2.1.1 Sistema de referência e de coordenadas . . . 26
2.1.2 OpenStreetMap . . . 26
2.1.3 Visualização Geográfica . . . 27
2.2 Mapeamento em regiões de hotspots . . . 28
2.2.1 Kernel Density Estimation . . . 28
2.2.2 Clusterização de eventos . . . 30 2.2.2.1 Clusterização Hierárquica . . . 31 2.2.2.2 DBSCAN . . . 35 2.3 Considerações finais . . . 36 3 TRABALHOS RELACIONADOS . . . 38 3.1 Trabalhos de Referência . . . 38 3.2 Considerações finais . . . 41
4 GERAÇÃO DE HOTSPOTS APROXIMADOS À REDE DE RUAS . . . 43
4.1 Geração de hotspots em formato de polígono . . . 44
4.1.1 KDE com grade de células . . . 45
4.1.2 PHAR e i-PHAR. . . 49
4.1.3 Métrica de avaliação PAI . . . 57
4.2 Geração de hotspots em formato de subgrafo de ruas . . . 57
4.2.1 SHAR . . . 58
4.2.2 Expansive Network . . . 61
5 EXPERIMENTOS E RESULTADOS . . . 69
5.1 Conjunto de dados . . . 70
5.2 Configuração dos experimentos . . . 71
5.3 Métricas de avaliação . . . 74
5.4 Resultados . . . 75
5.4.1 KDE com grade de células . . . 76
5.4.2 PHAR e i-PHAR. . . 79
5.4.3 SHAR . . . 87
5.4.4 Expansive Network Hotspot. . . 92
5.4.5 Comparação Geral . . . 97
5.5 Considerações finais . . . 99
6 CONCLUSÃO . . . 103
6.1 Trabalhos futuros . . . 104
1 INTRODUÇÃO
O crescimento desordenado das grandes cidades e o aumento da mobilidade urbana têm impactado negativamente na efetividade das ações preventivas de crimes, coordenadas pelos poderes de segurança pública. Os eventos criminosos (assalto, incêndio criminoso, assédio e assassinato) se tornaram um dos principais problemas sociais enfrentados nas cidades, e a tecnologia é uma ferramenta importante utilizada no combate e prevenção.
Um exemplo do uso da tecnologia para auxiliar no enfrentamento da criminalidade, é a criação de mapas de hotspots. Nos estudos de criminologia, os hotspots são zonas geogra-ficamente limitadas que possuem uma alta concentração de crimes, de acordo com os dados históricos (CHAINEY et al., 2008). Estas zonas são utilizadas como uma ferramenta de predição e indicam quais áreas são mais propensas às novas ocorrências de crimes (CHAINEY; RAT-CLIFFE, 2013). Com as áreas de maiores riscos mapeadas, é possível construir uma distribuição mais eficiente do efetivo de patrulha e formular melhores estratégias de prevenção guiadas a dados. Em diversos estudos realizados na literatura, como Sherman et al. (1989), Budd (2001), Braga et al. (2011), Steenbeek e Weisburd (2016) e Rosser et al. (2017), é verificada a tendência das ocorrências dos crimes de se concentrarem em uma proporção de área reduzida, formando as regiões de hotspots. Nas pesquisas citadas, também é verificado que os eventos criminosos têm uma forte relação com o espaço urbano.
Em pesquisas como Block (1995), Shiode (2011) e Tang et al. (2017), são elaboradas diversas abordagens para a construção dos mapas de hotspots. De acordo com Chainey et al. (2008), as técnicas mais comuns para identificar as zonas de hotspots são os mapas temáticos de áreas geográficas, elipses espaciais, mapas temáticos em formato de grade e a utilização de uma abordagem não-paramétrica para estimar a densidade de ocorrências, utilizando uma função de kernel, conhecido como Kernel Density Estimation (KDE). Em Chainey et al. (2008), é feita uma comparação das técnicas para avaliar a utilização dos hotspots na predição de crimes e a relação da capacidade de predição futura entre os diferentes tipos de crimes, sendo os melhores resultados obtidos com a utilização da técnica KDE com grade de células, para os crimes de roubo de bens pessoais, que abrangem os Crimes Violentos Contra o Patrimônio (CVP).
Apesar da técnica do KDE apresentar bons resultados na previsão de crimes futuros, no algoritmo clássico de construção dos hotspots com o KDE é feita uma divisão do espaço geográfico em um formato de grade de células, que não considera a posição e a concentração das estruturas urbanas, como as ruas, que é o principal meio de construção das trajetórias utilizadas
pelas equipes de patrulha. Outra característica da abordagem clássica é que somente as células com maiores densidades criminais são selecionadas para a formação dos hotspots, sem considerar nenhuma informação de células vizinhas, ou tamanho, possibilitando a geração de regiões de hotspots com tamanhos menores que a capacidade de monitoramento eficiente de uma equipe de patrulha.
Nessa perspectiva, este trabalho propõe a criação do algoritmo Polygon Hotspots Approximated to Road network (PHAR), que utiliza os pontos de interseção, início e fim, das ruas (nós), para projetar as densidades de crimes nas ruas mais próximas e formar regiões de hotspots mais próximas das ruas, utilizando um algoritmo de clusterização hierárquica para reduzir o número de regiões de hotspots e evitar a criação de hotspots de tamanhos reduzidos. O trabalho também propõe uma versão modificada do algoritmo PHAR, intitulada de Incremental Polygon Hotspots Approximated to Road network (i-PHAR), que realiza a atualização das taxas de crimes, sem a necessidade de calcular o KDE integralmente e constrói regiões de hotspots mais atualizadas, que seguem as eventuais mudanças de posição das concentrações de crimes ao longo do tempo.
Assim como o algoritmo clássico de criação de hotspots com o KDE, os algoritmos PHAR e i-PHAR também geram hotspots em formatos poligonais, que dificultam o planejamento das rotas dos patrulheiros. Para resolver esse problema, este trabalho também propõe o algoritmo Subgraph Hotspots Approximated to Road Network (SHAR), que realiza as junções dos nós clusterizados, considerando todos os menores caminhos na rede de ruas, entre os nós, para formar regiões de hotspots em formato de subgrafo de ruas, e manter sempre uma rota acessível entre qualquer dois lugares de um mesmo hotspot, excluindo a necessidade de acessar um caminho externo para se locomover para outra região.
No entanto, para encontrar as rotas de menor caminho entre todos os nós clusteriza-dos, o algoritmo SHAR tem a possibilidade de incluir ruas com baixa densidade de crimes nos subgrafos de hotspots. Para lidar com esse problema, o trabalho propõe o algoritmo Expansive Network, que utiliza uma seleção gulosa dos nós de alta densidade e construção dos hotspots de acordo com a vizinhança nas ruas. Deste modo, são criados hotspots com uma maior densidade de crimes históricos, porém, sem considerar a adição das rotas de acessibilidade entre todos os pontos de um mesmo hotspot, que é uma vantagem do algoritmo SHAR.
Nessa perspectiva, o nosso trabalho propõe a construção de quatro novas técnicas para construir mapas de hotspots: PHAR, i-PHAR, SHAR e Expansive Network, que utilizam as
estimativas de densidades do KDE para criar regiões aproximadas para a rede de ruas, e ajudar na alocação de patrulhas policiais, com o objetivo de evitar novas ocorrências de crimes.
1.1 Definição do problema
Dado uma rede de ruas G, seu conjunto de nós V , uma janela de tempo Ti= [t,t +δt)
e os dados de crimes associados Ci= {c1, ...,cn}, tal que cada cj∈Cié uma tupla (xj,yj,tj), em que (xj,yj)é a posição espacial, onde o crime ocorreu no tempo tj(t ≤ tj<t + δt). Considere
que cada crime cj∈C; é mapeado para o nó vj∈V , e a soma de todos os hotspots cobrem uma
porcentagem máxima da área de estudo (α). O objetivo é: (i) aproximar os hotspots para a rede de ruas G, pois as equipes de patrulha se movem restritamente utilizando a rede; (ii) maximizar a medida de predição Predictive Accuracy Index (PAI), definido na Seção 4.1.3, caso as regiões de hotspots sejam formadas por polígonos, ou Network Predictive Accuracy Index (nPAI), definido na Seção 4.2.3, caso as regiões sejam formadas por subgrafos de ruas; (iii) ter a expectativa de minimizar o número de regiões de hotspots utilizando V e Ci, de acordo com o parâmetro α, e
considerando que os recursos policiais são limitados e pode não ser possível patrulhar toda a área de estudo (As).
1.2 Objetivos
Nesta Seção serão apresentados o objetivo geral e os objetivos específicos.
1.2.1 Objetivo geral
Desenvolver algoritmos para a criação de mapas de hotspots, utilizando dados históricos de eventos criminosos, com a finalidade de auxiliar as agências de segurança pública na alocação de recursos para a prevenção de ocorrências futuras.
1.2.2 Objetivos específicos
Para alcançar o objetivo geral, os objetivos específicos a seguir serão propostos: 1. Definir uma região de estudo e um conjunto de dados para a criação e avaliação dos mapas
de hotspots;
2. Implementar e analisar os resultados da técnica clássica de geração de hotspots utilizando grade de células;
3. Propôr novas técnicas para a criação de mapas de hotspots adaptados às ruas;
4. Realizar um estudo comparativo entre as técnicas propostas e a técnica clássica presente na literatura.
1.3 Contribuição do trabalho
Nesse trabalho de dissertação é possível destacar quatro contribuições principais: 1. Construção dos algoritmos PHAR e a variação i-PHAR, que possibilita a construção de
mapas de hotspots aproximados às ruas, apresentados na Seção 4.1.2.
– Junior, F. C., Silva, T. L., Neto, J. F., Macêdo, J. A. F. D., & Porcino, W. C. (2019, November). A Novel Approach to Approximate Crime hotspots to the Road Network. In Proceedings of the 3rd ACM SIGSPATIAL International Workshop on Prediction of Human Mobility (pp. 53-61). ACM.
2. Construção do algoritmo SHAR, que utiliza as informações de transformação do espaço urbano em um grafo de ruas, e as etapas de clusterização do algoritmo PHAR, para construir regiões de hotspots formadas por subgrafos de ruas. Facilitando a alocação de recursos policiais no patrulhamento dos hotspots gerados.
3. Elaboração de uma nova métrica, intitulada de nPAI, para avaliar a capacidade preditiva das regiões de hotspots formadas por subgrafos de ruas. Possibilitando a avaliação e comparação de algoritmos que geram hotspots formados por conjunto de ruas.
4. Desenvolvimento do algoritmo Expansive Network, que gera mapas de hotspots formados por subgrafos de ruas, através da seleção gulosa dos nós com maiores probabilidades de crimes, e crescimento dinâmico utilizando as informações de vizinhança na rede de ruas. Esta técnica possibilita um maior controle no tamanho mínimo das regiões de hotspots, devido ao crescimento dinâmico e configuração dos parâmetros, e uma maior concentração das zonas de alto risco, devido a seleção gulosa dos nós.
1.4 Estrutura do documento
Os capítulos do trabalho estão estruturados da seguinte forma: no Capítulo 2 são apresentados os principais conceitos teóricos envolvidos na criação dos mapas de hotspots; no Capítulo 3 são mostrados os trabalhos presentes na literatura que serviram de inspiração para a construção das técnicas propostas; no Capítulo 4 são apresentadas a técnica clássica de
construção dos mapas de hotspots, conforme a literatura, e as técnicas propostas pelo trabalho, para a construção de mapas de hotspots aproximados às ruas; no Capítulo 5 são apresentados o conjunto de dados utilizados e os resultados obtidos nos experimentos; e finalmente, no Capítulo 6 são apresentados as conclusões finais e trabalhos futuros.
2 FUNDAMENTAÇÃO TEÓRICA
Neste capítulo são apresentados os principais referenciais teóricos presentes na literatura, e as ferramentas utilizadas na construção dos métodos propostos para a criação dos mapas de hotspots aproximados às ruas.
Na Seção 2.1 são apresentados os sistemas de informações que utilizam dados de geoposicionamento, e o modo como esses dados são importados, manipulados e visualizados, para uma melhor compreensão e análise humana. Na Seção 2.2 são apresentados o mapeamento em regiões de hotspots, no contexto de criminologia para a predição de eventos criminosos, e as principais técnicas utilizadas na elaboração dos algoritmos de construção de hotspots propostos, iniciando com a etapa de estimação do número de ocorrências e finalizando com as técnicas de clusterização.
2.1 Sistema de Informação Geográfico
Um Sistema de Informação Geográfica (SIG), em inglês Geographic Information System (GIS), é um sistema de computação projetado para capturar, analisar, gerenciar e exibir dados referentes a posições na superfície terrestre (National Geographic, 2017). Estes sistemas são construídos para utilizar qualquer base de dados que possuem posições geográficas. Os dados de localização podem ser expressos em latitude, longitude, endereço ou Código de Endereçamento Postal (CEP). Complementarmente às informações de localização, os dados podem incluir diferentes informações sobre a posição mapeada. Por exemplo, dados referenciados a uma loja podem conter informações sobre os tipos de produtos vendidos, o telefone para contato e os horários de funcionamento. Com o uso de SIG, estas informações podem ser visualizadas de maneira estruturada em um mapa e auxiliar os usuários do sistema na comparação e tomada de decisão.
Aplicações SIG possuem diversas ferramentas para manipulação e processamento de dados relacionados a posições geográficas. Entre os processos realizados por essas ferramentas, podem ser citados: detecção de anomalias e disparo de gatilhos, construção de mapas e gráficos para facilitar as análises, integração de dados, e reconhecimento de padrões. Um exemplo de software SIG livre e de código-fonte aberto é o QGIS1. Na Figura 1 é possível observar diferentes ícones de botões do software QGIS, que acionam diferentes funções integradas.
Figura 1 – Captura de tela do software QGIS.
Fonte: QGIS (2019).
Em adição aos programas SIG, existe uma grande disponibilidade de bibliotecas de programação, desenvolvidas para diferentes linguagens, que facilitam a criação de aplica-ções, manipulação de dados geoespaciais e construção de mapas. Um exemplo de biblioteca Open-Source muito utilizada na construção de mapas interativos, é o LeafLet2, disponível para a
linguagem JavaScript. Um outro exemplo de biblioteca para manipulação de dados geoespaciais, é o GeoPandas3, desenvolvido em Python, que combina as características principais de outras
duas bibliotecas: a biblioteca Pandas4desenvolvida para manipulação e análise de dados estru-turados, e a biblioteca Shapely5desenvolvida para executar operações em objetos geométricos
planares. Em adição, softwares que manipulam dados geoespaciais, como QGIS e ArcGis6 (licenciado e desenvolvido pela Esri), fornecem uma Application Programming Interface (API) para integração com diferentes linguagens de programação, possibilitando o desenvolvimento de diferentes aplicações.
Na sequência, importantes tópicos serão discutidos para a manipulação de dados georreferenciados e construção de aplicações SIG. Na Seção 2.1.1 serão apresentadas a impor-tância e as principais características dos sistemas de referência e sistemas de coordenadas. Em seguida, na Seção 2.1.2, é apresentada uma importante base de dados Open-Source de mapas
2 Biblioteca disponível em: https://leafletjs.com/ 3 Documentação disponível em: http://geopandas.org/ 4 Documentação disponível em: https://pandas.pydata.org/ 5 Documentação disponível em: https://pypi.org/project/Shapely/ 6 Software disponível em: https://www.arcgis.com/index.html
criados colaborativamente. Na Seção 2.1.3 é discutida a importância da visualização de dados geoespaciais, para facilitar as análises e tomadas de decisões.
2.1.1 Sistema de referência e de coordenadas
A representação da superfície da terra em um plano espacial é essencial para a construção de mapas. Essa representação pode ser combinada com um sistema de referência e um sistema de coordenadas para representar a localização de qualquer ponto relacionado com a superfície da terra (COLVOCORESSES, 1965). Em sistemas SIG, a combinação de um sistema de referência com um sistema de coordenadas é abreviado para Sistema de Referência de Coordenadas (SRC), em inglês Coordinate Reference System (CRS), os diferentes SRC criados mundialmente, são armazenados em uma base de dados de livre acesso pela International Association of Oil & Gas Producers (IOGP) e são identificados pela sigla EPSG seguido por um código numérico.
Devido a superfície esférica da terra, não é possível realizar uma projeção diretamente em um mapa plano sem que haja distorção em alguma direção (COLVOCORESSES, 1965). Por isso, diversos SRCs são desenvolvidos para reduzir essa distorção dependendo da perspectiva desejada. Da mesma forma, diferentes SRCs são desenvolvidos para aprimorar a precisão de uma área delimitada e facilitar o cálculo das distâncias utilizando uma unidade de medida como metros ou pés. Um SIG também possui a capacidade de manipulação de dados representados em diferentes SRCs, e a possibilidade de transformação entre diferentes SRCs, que são selecionados e utilizados de acordo com os dados coletados, a região de estudo e a aplicação desenvolvida.
Um exemplo de SRC utilizado mundialmente em aplicações de Global Positioning System (GPS) é o World Geodetic System (WGS), definido em 1984. Outro exemplo, muito utilizado no continente americano, é o sistema de referência padrão das Américas, Sistema de Referencia Geocéntrico para América del Sur (SIRGAS), que foi estabelecido em 1995 para unificação dos dados de latitude e longitude da América do sul e expandido em 2002 para dados de altitude e inclusão da América central e do norte (FORTES, 2003).
2.1.2 OpenStreetMap
O OpenStreetMap (OSM) foi desenvolvido por Steve Coast na University College London (UCL) em 2004 com o objetivo de criar um conjunto de dados de mapa livres para uso e editáveis, através de produção colaborativa "crowdsourcing", similar ao modo de criação do
Wikipédia (HAKLAY; WEBER, 2008). Na base de dados é possível adicionar, remover e editar objetos geoespaciais, como: informações pontuais (por exemplo, restaurantes e shoppings); segmentos de linha (por exemplo, rotas para pedestres e rodovias) e áreas delimitadas (por exemplo, construções e lagoas).
Uma revisão sistemática realizada por Sehra et al. (2014) reuniu diversas pesquisas que compararam a qualidade dos dados obtidos do OSM com os dados geográficos de outros sistemas disponíveis em suas respectivas cidades. No estudo foi concluído que os dados do OSM possuem uma ótima qualidade em comparação com os dados fornecidos por sistemas comerciais, e que muitas organizações como Wikipédia e Foursquare utilizam seus dados comercialmente.
Com o avanço e popularização do OSM, diversas ferramentas e bibliotecas foram desenvolvidas para facilitar a contribuição e recuperação de dados geoespaciais. Um exemplo dessas ferramentas é o Nominatim7, que possibilita a consulta de dados do OSM por nome e
endereço (geocodificação) e gerar endereços sintéticos a partir de pontos geoespaciais (geocodi-ficação reversa) (NOMINATIM, 2019). Outro exemplo é o GraphHopper8, um mecanismo para
roteamento desenvolvido em Java, sob licença do Apache 2.0, que utiliza por padrão dados im-portados do OSM (GRAPHHOPPER, 2019). O OSMnx9é um exemplo de biblioteca em Python
que facilita a recuperação de informações do OSM para trabalhar com estruturas geoespaciais do GeoPandas, e recuperação de informações de redes de locomoção (por exemplo, ruas e becos) em formato de grafo, utilizando estruturas de dados do NetworkX10 (biblioteca de grafos).
2.1.3 Visualização Geográfica
A visualização geográfica, ou Geographic Visualization (GVis), se concentra na visualização de dados espaciais aplicados a todas as etapas de solução de problemas de análise geográfica, desde o desenvolvimento de hipóteses iniciais, descoberta, apresentação e avaliação do conhecimento (BUCKLEY et al., 2000).
De acordo com Crampton (2004), o mapeamento é um aspecto importante na gover-nança geográfica, pois a partir das informações mapeadas é possível tomar decisões políticas racionais e gerenciar recursos administrativos. Uma técnica de mapeamento fácil de imple-mentar e que facilita na visualização de distribuições, mostrando um nível de variabilidade e
7 Ferramenta disponível em: https://nominatim.openstreetmap.org/ 8 Ferramenta disponível em: https://www.graphhopper.com/
9 Documentação disponível em: https://osmnx.readthedocs.io/en/stable/ 10 Documentação disponível em: https://networkx.github.io/
possibilitando a tomada de decisões, são os mapas temáticos coropléticos, ou choropleth maps. Tais mapas são uma representação cartográfica que utiliza uma escala de cores, tonalidades ou sombreamentos, classificando em intensidades para representar a variabilidade da distribuição dos dados mensurados nas regiões mapeadas (WERNECK, 2008).
Na área de estudo de criminologia, a partir de registros históricos, a técnica de cho-ropleth map possibilita a visualização de diferentes regiões com diferentes cores ou tonalidades, auxiliando na identificação das zonas de maiores riscos e possibilitando um melhor planejamento dos recursos e ações públicas de prevenção e monitoramento.
2.2 Mapeamento em regiões de hotspots
Uma ferramenta construída com o uso da tecnologia para auxiliar no enfrentamento da criminalidade é o mapeamento em regiões de hotspots. Na construção dos hotspots é considerada a seguinte hipótese: as regiões com um grande número de registros no passado são mais propensas a novos crimes futuros, sendo uma boa estratégia, guiada a dados, para alocar recursos de prevenção na ocorrência de novos crimes.
Para gerar os mapas de hotspots, as forças policiais geralmente utilizam SIG ou soluções especializadas. De acordo com Chainey et al. (2008), as técnicas padrões para construir as zonas de hotspots, são os mapas temáticos de áreas geográficas, elipses espaciais, mapas temáticos em formato de grade e o Kernel Density Estimation (KDE), que utiliza funções de kernel para estimar a densidade de ocorrências em uma divisão regular da área de estudo. Em Chainey et al. (2008) foram realizadas comparações entre as técnicas padrões, para avaliar a utilização dos hotspots na predição de crimes e a relação entre diferentes tipos de crimes. Os melhores resultados foram obtidos com a utilização da técnica do KDE para os crimes de roubo de bens pessoais.
2.2.1 Kernel Density Estimation
De acordo com Silverman (1986), uma Função densidade de probabilidade (FDP) é um conceito de estatística, em que uma função de densidade f modela a distribuição de uma variável aleatória X e permite probabilidades associadas a X partindo da relação:
P(a ≤ X ≤ b) =Z b
Quadro 1 – Funções de kernel. Kernel Função K(x) Uniforme 12 Triangular 1 − |x| Quártico 1516 1 − x22 Epanechnikov 34 1 − x2 Gaussiano √1 2πe −x22
Fonte: adaptado de Soh et al. (2013).
Para um conjunto de dados com uma FDP desconhecida, é possível criar uma estimação de densidade utilizando uma abordagem paramétrica e outra não paramétrica. No método paramétrico, é suposto que os dados fazem parte de uma família de distribuições conhecidas, como a distribuição normal mostrada na Equação 2.2, na qual x é o conjunto de amostras conhecidas, µ é o cálculo da média das amostras e σ é o valor do desvio padrão.
f (x) = 1 σ
√ 2πe
−12(x−µσ )2 (2.2)
Utilizando as amostras conhecidas do conjunto de dados, a densidade f é estimada através da média µ e desvio padrão σ, e depois são substituídos os valores encontrados na equação. Na abordagem não paramétrica, não é utilizada uma distribuição conhecida e os dados são mais determinantes na construção da função de densidade f (SILVERMAN, 1986).
O KDE é uma forma não paramétrica para estimar uma FDP, utilizando uma função de kernel K, que satisfaz a seguinte condição:
Z +∞
−∞ K(x)dx = 1 (2.3)
Utilizando a função de kernel K, o KDE é definido pela Equação 2.4, na qual n é quantidade de amostras e h é o parâmetro de suavização ou bandwidth (SILVERMAN, 1986).
ˆf(x) = 1 nh n
∑
i=1 K x − X i h (2.4) Diferentes funções de kernel podem ser observadas no Quadro 1.Em sistemas SIG, o KDE pode ser utilizado para construir mapas de hotspots em algumas aplicações, por exemplo: detectar áreas com altos índices de acidentes de trânsito;
estudar a propagação de doenças contagiosas; determinar zonas com altas incidências de crimes. Diferente da distribuição unidimensional, o kernel aplicado a dados geoespaciais utiliza uma função de distância para estimar a densidade. Essa distância pode ser estimada através da projeção da área de estudo em um mapa plano e fazendo o cálculo da distância euclidiana.
Para estimar a densidade de eventos utilizando a rede da ruas, de acordo com Rosser et al. (2017), é necessário redefinir a função de kernel, mantendo o decaimento nas ruas e considerando as divisões de ruas que acontecem em cruzamentos. Uma maneira de calcular o KDE nas ruas é desenvolvido em Okabe et al. (2009), utilizando o conceito de separação igualitária, em inglês equal-split. Nessa abordagem, o risco se propaga de uma localização fonte s0, e sempre que um vértice (nó) é encontrado a propagação do risco é dividida igualmente entre
todos os ramos subsequentes. Na Figura 2 (b) mostra esse efeito, em que hsé o parâmetro de
suavização, ou bandwidth da função de kernel, e o valor de propagação do kernel é dividido em B igualmente entre os ramos BC e BD. De maneira formal, se n1, ...,nmrepresentam os graus
dos m vértices (nós) no caminho entre s0e s, e ∆s representa o comprimento do caminho, então o
kernel de ruas é definido na Equação 2.5:
ks0= f (∆s)
(n1−1)...(nm−1) (2.5)
Figura 2 – Representação do cálculo do kernel utilizando as ruas: (a) visão superior do espaço de divisão das ruas; (b) representação da abordagem equal-split.
Fonte: (ROSSER et al., 2017).
2.2.2 Clusterização de eventos
A construção de mapas de hotspots utilizando dados históricos também é abordado na literatura como clusterização de eventos. Na clusterização de eventos, uma região ou zona de
hotspot é um agrupamento ou cluster de eventos selecionados em um determinado período de tempo e espaço.
De acordo com o trabalho publicado por Johnson (2008), diversas pesquisas relaci-onadas à criminologia, demonstram consistentemente que a ocorrência de eventos criminosos se concentra espacialmente em diferentes regiões. E estudos relacionados a repetição dos atos criminosos (repeat victimisation), como o de Pease et al. (1998), demonstram que a ocorrência de eventos passados é um bom preditor de riscos futuros. Explicando de outra forma, existe uma dependência de eventos, em que a ocorrência de um evento aumenta a probabilidade de novas ocorrências nas proximidades do primeiro evento. Os estudos também explicam, que essa elevação de risco na vizinhança decai ao longo do tempo, se novos eventos não ocorrerem.
Em contrapartida com a dependência de evento, o estudo de Johnson (2008) explica que outros autores defendem a teoria da heterogeneidade de risco. Esta teoria argumenta que os eventos criminosos que se repetem em um mesmo local, são cometidos por diferentes criminosos que se sentem atraídos pelas características do local. E que de acordo com Pease et al. (1998), essas oportunidades de atratividade são facilmente identificáveis pelos criminosos. Consequentemente, a relação observada entre o risco do tempo passado e futuro é a combinação de fatores estáveis no tempo e um processo casual.
Apesar das teorias de dependência do evento e heterogeneidade de risco defenderem diferentes motivos para a ocorrência de crimes, a heurística da ocorrência de eventos passados indicar a ocorrência de eventos futuros é uma constante. Portanto, para agrupar os eventos históricos ou as densidades de ocorrências para a formação das zonas de hotspots, são utilizados algoritmos de clusterização em diferentes etapas deste trabalho. O algoritmo de Clusterização Hierárquica (CH), é apresentado na Seção 2.2.2.1 e é utilizado nas estratégias propostas Polygon Hotspots Approximated to Road network (PHAR) e Incremental Polygon Hotspots Approximated to Road network (i-PHAR), apresentadas na Seção 4.1.2. O algoritmo de clusterização Density-Based Spatial Clustering and Application with Noise (DBSCAN) é mostrado na Seção 2.2.2.2, e é utilizado na etapa final do algoritmo do KDE com grade de células, apresentado na Seção 4.1.1.
2.2.2.1 Clusterização Hierárquica
Clusterização Hierárquica (CH) é uma família de algoritmos de clusterização que constroem grupos, através da combinação ou divisão sucessiva de dados, de acordo com uma
função de similaridade.
Os algoritmos de CH são separados em duas estrategias diferentes, bottom-up e top-down. Na estratégia bottom-up cada dado é analisado inicialmente como um cluster e em seguida são realizados agrupamentos sucessivos em pares até que seja formado um cluster com todos os dados. O algoritmo bottom-up também é nomeado de Agglomerative Clustering. No algoritmo top-down, inicialmente todos os dados fazem parte de um único cluster e posteriormente são realizados processos de divisões em pares de acordo com uma função de dissimilaridade. A divisão ocorre sucessivamente até que cada dado faça parte de um único cluster. O algoritmo de divisão bottom-up é mais frequentemente utilizado que o algoritmo top-down (MANNING et al., 2010). As principais etapas de construção do algoritmo Agglomerative Clustering são apresentadas a seguir:
– Etapa 1: No tempo t = 0, cada dado dié incluso em um único cluster ci, tal que i varie de
1 até a quantidade máxima de dados n.
– Etapa 2: Calcule a matriz de similaridade Sn,n entre os clusters, como mostrada na
Equação 2.6, de todos para todos, utilizando uma métrica de distância d e um método de ligação. Sn,n= 0 d2,1 0 d3,1 d3,2 0 ... ... ... ... dn,1 dn,2 dn,3 · · · dn,n (2.6)
– Etapa 3: Agrupe os dois clusters que possuem a menor distância d entre si, diferente de zero, formando cx. Faça o tempo t = t + 1.
– Etapa 4: Crie uma nova matriz de similaridade Sn−t,n−t, recalculando a distância d através
de um método de ligação, do novo cluster cxpara todos os outros e vice-versa.
– Etapa 5: Repita os Passos 3 e 4 até que n −t seja igual ao número de clusters desejados ou igual a 1.
Na Etapa 2 do algoritmo Agglomerative Clustering é feito o cálculo da similaridade entre dois clusters utilizando uma métrica de distância e um método de ligação (linkage). A métrica de distância deve ser adequada para representar a proximidade entre dois dados e é definida de acordo com o domínio de estudo. Por exemplo, para agrupar dados geoespaciais
pode ser utilizada a distância de locomoção usando somente as ruas ou a distância euclidiana. O método de ligação define a similaridade entre dois clusters selecionando o modo como a distância entre dois grupos deve ser calculada.
Diferentes métodos de ligações ou similaridade são definidos na literatura. Cada método calcula a distância entre dois clusters de maneira diferente e podem gerar clusters distintos. Os métodos de ligações mais utilizados são apresentados a seguir:
– Minimumou Single: a similaridade entre os clusters é definida pela menor distância entre eles. A principal vantagem é a simplicidade e o baixo custo computacional. A principal desvantagem é o problema do encadeamento, que é o processo de unir grupos com base em apenas uma ligação entre os dados. Desta forma, dois clusters podem ser unidos apenas pela proximidade de dois dos seus membros, enquanto os demais podem permanecer distantes (SEIFODDINI, 1989). A Equação 2.7 define como a distância de similaridade entre os clusters C1 e C2 é calculada utilizando o método Minimum, de acordo com a
Figura 3.
D(C1,C2) = min
ei∈C1,ej∈C2
d(ei,ej) (2.7)
Figura 3 – Representação do cálculo da menor distância entre dois clusters no método Minimum.
Cluster C1 Cluster C2 e1 e2 e3 e4 e5
Fonte: elaborado pelo autor.
– Maximumou Complete: neste método, a similaridade é calculada pela maior distância entre dois clusters (KRZNARIC; LEVCOPOULOS, 1998). A vantagem do método é a geração de clusters mais concêntricos. A principal desvantagem deste método é a sensibilidade a outliers. Um único dado distante do centro pode aumentar drasticamente o diâmetro do cluster. A Equação 2.8 define como a distância de similaridade entre os clusters C1e C2é calculada utilizando o método Maximum, de acordo com a Figura 4.
Figura 4 – Representação do cálculo da maior distância entre dois clusters no método Maximum.
Cluster C1 Cluster C2 e1 e2 e3 e4 e5
Fonte: elaborado pelo autor.
D(C1,C2) = max
ei∈C1,ej∈C2d(ei
,ej) (2.8)
– Wardou Minimum Variance: tende a minimizar a soma dos quadrados das distâncias do conjunto formado pela união de dois outros conjuntos (MURTAGH; LEGENDRE, 2014). Tem a vantagem de produzir clusters com uma menor dispersão ou variância. De acordo com Kuiper e Fisher (1975), o método funciona bem para distribuições normais multivariadas esféricas. Porém, não funciona de forma satisfatória para clusters com diâmetros diferentes e gera erros de agrupamento quando os dados não formam clusters esféricos (KAUFMAN; ROUSSEEUW, 2009). A Equação 2.9 define como a distância de similaridade entre os clusters C1e C2é calculada utilizando o método Ward, de acordo
com a Figura 5. As notações matemáticas utilizadas definem: |.| para tamanho do conjunto, k.k2para calculo da distância euclidiana e~c para centroide ou valor médio.
D(C1,C2) = |C2|C1| |C2|
1| + |C2|k~eA− ~eBk2 (2.9)
– Average: a similaridade entre dois clusters é calculada utilizando a distância entre as médias dos dados de cada cluster. De acordo com Seifoddini (1989), entre as vantagens está a eliminação do problema de encadeamento, comum no método Single e a geração de clusters com uma maior semelhança geral entre seus membros. Uma desvantagem é o alto custo computacional. A Equação 2.10 define como a distância de similaridade entre os clusters C1e C2é calculada utilizando o método Average, de acordo com a Figura 5. A
Figura 5 – Representação do cálculo da distância entre dois clusters, considerando a distância entre todos os elementos dos clusters. Cluster C1 Cluster C2 e1 e2 e3 e4 e5
Fonte: elaborado pelo autor.
notação matemática |.| define o tamanho do conjunto.
D(C1,C2) = |C 1
1| |C2|ei
∑
∈C1e∑
j∈C2d(ei,ej) (2.10)Em adição aos diferentes métodos de ligação, uma vantagem dos algoritmos de CH em relação a outros algoritmos de agrupamento, é a possibilidade de análise da formação dos clusters de maneira incremental. Deste modo, é possível interromper a construção dos clusters a partir de um limiar de distância entre os grupos em formação ou selecionando a quantidade de grupos desejados.
2.2.2.2 DBSCAN
Proposto por Ester et al. (1996), o algoritmo Density-Based Spatial Clustering and Application with Noise (DBSCAN) foi projetado para formar clusters de formatos arbitrários e ser eficiente na clusterização de grandes conjuntos de dados. O algoritmo DBSCAN realiza o processo de clusterização agrupando dados vizinhos entre si, considerando uma determinada distância e a quantidade de dados.
O algoritmo DBSCAN possui dois parâmetros principais, definidos na entrada do algoritmo, que são: a distância de vizinhança (eps), e a densidade miníma de dados vizinhos (minPts). O dado selecionado para iniciar a análise, que não faz parte de nenhum cluster, é intitulado de core point. Iniciando a execução do algoritmo a partir de um core point, é feita uma verificação da quantidade de dados vizinhos que possui a distância para o core point menor ou igual a eps, se a quantidade de vizinhos for maior que o parâmetro de minPts, incluindo o core
point, todos os dados verificados são selecionados como parte de um cluster, e funcionam como core point nas próximas verificações. A mesma análise é realizada nos dados vizinhos, até que o número de vizinhos do grupo em análise não seja satisfeito, e todos os pontos do conjunto de dados tenham sido analisados como core point uma vez.
Na Figura 6 são ilustrados os conceitos do DBSCAN, em que o parâmetro minPts é 4 e o parâmetro do raio eps é indicado pelos círculos. O ponto N é um ponto de ruído, A é um core point, e os pontos B e C são pontos da borda do cluster formado a partir de A. No exemplo, as setas indicam acessibilidade direta considerando a densidade, os pontos B e C são alcançáveis a partir de A, e o ponto N não é alcançável, sendo considerado um ruído ou outlier.
Figura 6 – Ilustração do modelo de clusterização do algoritmo DBSCAN.
DBSCAN Revisited, Revisited: Why and How You Should (Still) Use DBSCAN
19:3
Fig. 1. Illustration of the DBSCAN cluster model.
Arrows indicate direct density reachability. Points B and C are density connected, because both
are density reachable from A. N is not density reachable, and thus considered to be a noise point.
In HDBSCAN* [
13
], the concept of border points was abandoned, and only core points are
con-sidered to be part of a cluster at any time, which is more consistent with the concepts of a density
level set. OPTICS [
3
], LSDBC [
11
], and HDBSCAN* are examples of DBSCAN variants that focus
on finding hierarchical clustering results. In the more general model of kernel density
estima-tion, DBSCAN uses the simple uniform kernel, with bandwidth h = ε and a density threshold of
minPts/n. DenClue [
24
] is an example of a method that considers alternative kernels for density
estimation.
2.2 DBSCAN Clustering Algorithm
The second contribution of DBSCAN is an algorithm to compute clusters according to the above
model (except that border points belonging to multiple clusters are only assigned to one of them).
In this algorithm, the database is linearly scanned for objects which have not yet been processed.
Non-core points are assigned to noise, and when a core point is discovered, its neighbors are
itera-tively expanded and added to the cluster. Objects that have been assigned to a cluster will then be
skipped when encountered later by the linear scan. This basic algorithm is the standard approach
to compute the transitive closure of a relation, with the minimal modification that only core points
are expanded. Yet, this can yield a reasonably efficient algorithm if a database index is used.
Al-gorithm 1 gives a simplified pseudo-code for this DBSCAN alAl-gorithm. There are two calls to the
function RangeQuery in this pseudocode. Both line 3 and line 13 will only execute if the point
has not yet been labeled, in which case the point is subsequently labeled. This makes it easy to see
the following properties: (i) Neighborhood queries are only executed for points labeled undefined.
(ii) If a neighborhood query is executed on a point, the point is subsequently labeled either with a
cluster label or Noise. (iii) The only time a point is relabeled is when its label changes from Noise to
a cluster label in line 11. Thus, we execute exactly one neighborhood query for every point in the
database. If the seed set iteration in line 10 is implemented adequately, this loop executes at most
once for every point in the database, and we get a runtime complexity of O(n · Q + !
i
r
i
)
where Q
is the complexity of the function RangeQuery and r
i
is the result size of the ith query. If the data is
not already stored in an indexed database, we may need to take the index construction time C into
account, which yields a total runtime complexity of O(C + n · Q + !
i
r
i
)
. The index may also need
additional storage, so we have space complexity O(n + I ) to store the cluster labels and the index.
The index may, however, be shared across multiple runs of the algorithm, and different algorithms
can benefit from the same index, if it is a “general purpose” index (such as an R*-tree) that
sup-ports range queries (among other queries). Implementing the range query with a linear scan yields
Q
∈ Θ(n · D) with cost D of computing the distance of two points, and then the DBSCAN runtime
complexity is Θ(n
2
· D). For Euclidean space of dimensionality d, this is Θ(n
2
· d), but when using
ACM Transactions on Database Systems, Vol. 42, No. 3, Article 19. Publication date: July 2017.
Fonte: (SCHUBERT et al., 2017)
2.3 Considerações finais
Aplicações SIG são de extrema importância para a manipulação de dados com informações geoespaciais. Essas aplicações possibilitam a análise desses dados representados em mapas planares, que ajudam na identificação visual das regiões com geolocalização, facilitando a tomada de decisões e descoberta de padrões.
Nesse capítulo, foram apresentados os principais conceitos na construção de apli-cações SIG, e a importância desses sistemas para a análises de dados. Entre os conceitos apresentados, foi discutido sobre o SRC e a sua importância para representar os dados em uma superfície plana e definir uma padronização que permite a integração de dados de diferentes
regiões do planeta. Também foi apresentada a base de dados aberta do OpenStreetMap, que possui um grande conjunto de mapas e dados, coletados e validados de maneira colaborativa, facilitando a construção de aplicações SIG com dados de qualidade. Além disso, apresentou-se como os dados geoespaciais são visualizados nos mapas para facilitar a análise humana.
O mapeamento em zonas de hotspots é uma aplicação SIG muito importante no contexto da predição de crimes e segurança pública, pois ela facilita o gerenciamento dos recursos de prevenção e ajuda na tomada de decisões guiadas a dados. No capítulo foram apresentados os conceitos de técnicas, que possibilitam a criação de mapas de hotspots, iniciando com o cálculo das densidades de crimes e diferentes métodos de agrupamento dos dados, para identificar as áreas com maior concentração de crimes.
3 TRABALHOS RELACIONADOS
Uma grande diversidade de trabalhos científicos apresentam diferentes abordagens para a construção de mapas de hotspots. O Kernel Density Estimation (KDE) é uma das aborda-gens mais utilizadas em trabalhos que utilizam dados criminológicos, devido a possibilidade de utilizar um método não paramétrico para estimar a densidades de crimes. Uma gama de trabalhos combinam a técnica do KDE com a criação de uma grade de células quadradas, para delimitar a área de distribuição das contribuições de densidade dos eventos e facilitar na criação das zonas de hotspots. Estes trabalhos estudam como os diferentes parâmetros influenciam na criação dos mapas de hotspots, e são utilizados como base científica para a criação e experimentação do método KDE com grade de células (Seção 4.1.1), que é utilizado como competidor deste trabalho.
Uma gama de outros trabalhos objetivam criar clusters de dados utilizando a rede de ruas, que também é uma característica das técnicas propostas por esse trabalho (Capítulo 4). Porém, de acordo com Rosser et al. (2017), até a data de publicação da pesquisa, nenhum estudo desenvolveu e testou a precisão de métodos para prever crimes futuros no nível de segmento de ruas. Desde a publicação da pesquisa de Rosser et al. (2017) até data de elaboração do nosso trabalho, uma gama de trabalhos foram desenvolvidos realizando o agrupamento de dados de crimes para formar regiões de hotspots utilizando as ruas, como Tang et al. (2017) e Xiong et al. (2019), porém, nenhum desses trabalhos considerou a necessidade de minimizar o número de regiões de hotspots, mantendo uma alta taxa de predição com dados de eventos futuros. Os principais trabalhos relacionados que servem de base científica e inspiração para as técnicas propostas, são apresentados na Seção 3.1.
3.1 Trabalhos de Referência
Diversos estudos realizados na literatura, verificaram a concentração de crimes em uma proporção de área reduzida. Em Sherman et al. (1989) foi feito um estudo em Minneapolis nos Estados Unidos, em que 50% das chamadas sobre ocorrências, originaram de apenas 3.3% dos endereços. Nos estudos feitos por Budd (2001), 42% dos crimes de roubo a residências foram sofridos por apenas 1% dos donos de casas em uma região no Reino Unido. Em Braga et al. (2011), foi analisado que 50% dos roubos de ruas na cidade de Boston no Estados Unidos aconteceram em somente 1% dos segmentos de ruas.
Em Chainey et al. (2002), são propostos procedimentos pragmáticos para a criação de mapas de hotspots estatisticamente robustos, utilizando eventos de crimes. Esses procedimentos incluem a realização de etapas de teste de agrupamento e dispersões, uma revisão de métodos para a criação de mapas de hotspots, como: KDE, Inverse distance weighting (IDW) e Location Profiler, e a padronização nas escolhas dos parâmetros para definir os limites (thresholds) das zonas de hotspots.
No estudo realizado em Chainey et al. (2008), foram comparadas técnicas padrões utilizadas em Sistema de Informação Geográfica (SIG) para a construção de mapas de hotspots, com diferentes tipos de crimes. Entre os métodos avaliados, estão: KDE; mapas temáticos de áreas geográficas; elipses espaciais; mapas temáticos em formato de grade. No estudo os experimentos foram avaliados utilizando a métrica PAI e os melhores resultados foram obtidos utilizando a técnica do KDE para os crimes de roubo a pessoa.
As escolhas dos parâmetros da técnica do KDE com grade de células são avaliadas por diversas pesquisas. Em Kennedy et al. (2011) é sugerido que o tamanho da célula da grade seja aproximadamente um terço do tamanho médio dos quarteirões da área de estudo. Em contrapartida, a pesquisa de Hart e Zandbergen (2014) indica que, para previsão de eventos futuros, a variação no tamanho da célula tem pouca influência. A pesquisa de Hart e Zandbergen (2014) também sugere o uso do bandwidth do KDE como sendo o menor comprimento ou largura da área de estudo dividida por 30 e 50. Outra contribuição de Hart e Zandbergen (2014) está na escolha da função de kernel na predição de crimes de roubo. No trabalho foram comparadas as funções de kernel normal, quártica, triangular e uniforme, que são comumente utilizadas em aplicações SIG e os melhores resultados foram obtidos com a função quártica.
Em Queiroz et al. (2016) é proposto o algoritmo Marching Squares Kernel Density Estimation (MSKDE), uma maneira eficiente de transformar os mapas de hotspots do KDE, que por padrão utilizam células quadradas em formato de grade, utilizando o algoritmo Marching Squares. Desta forma, é obtido um efeito de suavização das linhas de contorno e são criados mapas de hotspots de alta qualidade. Um exemplo de execução do MSKDE é mostrado na Figura 7, em que: (a) são apresentados os eventos; (b) o mapa do KDE com as células da grade; (c) as linhas de contornos geradas após o algoritmo Marching Squares; e (d) o resultado final do MSKDE.
De acordo com Block (1995), em meados da década de 80, as jurisdições policiais do estado de Illinois nos Estados Unidos começaram a utilizar técnicas de mapeamento em
Figura 7 – Etapas de geração do algoritmo MSKDE: (a) mapa com os eventos; (b) cálculo do KDE utilizando células quadradas; (c) linhas de contorno do Marching Square; (d) resultado do MSKDE.
Figure 6. Overview of Marching Square Kernel Density Estimation: in (a) a set of spatial events is selected for the hotspot map. In (b) the KDE hotspot map is generated from the event set. In (c) we see a set of contour lines (in blue) generated after running Marching Squares. In (d) we see the final MSKDE map, after applying an appropriate colormap to regions defined by the contours.
of the field and the maps are compared with respect to two aspects: generation time and accuracy.
Our experiment consists in creating a set of MSKDE and KDE maps of the same region and events, in which we fixed the values of the bandwidth and of the kernel function and varied the cell size within a certain range to measure its effect on the execution time and on the appearance of the map.
For accuracy evaluation purposes, we compare the maps generated by both techniques with a reference hotspot map. This reference map represents the real crime probability dens-ity of the region. The ideal reference map would be a KDE map using a cell with infinitesimal size. However, since that is not practical, we use a KDE hotspot map with a very small cell size as reference map; in our case, 10 meters. All the data, parameter configuration and computer environment used are described below.
A. Data and parameters for the experiment
Our experiment was conducted with the following data and parameters:
• Spatial events: 2,916 homicide crimes occurred in a
two-year period (2014 and 2015) in a large city in Brazil;
• KDE parameters:
– Cell sizes: a range of 50 to 200 meters, with incre-ments of 10 meters. This wide range enables more detailed comparisons between the techniques. – Bandwidth: 1000 meters. That value was chosen
because, for applications such as resource allocation, a spotty small bandwidth map renders the decision-making process more difficult due to the excess of possibilities. Larger bandwidth values, such as 1000 meters, generate more continuous clusters, which is more appropriate to strategic tasks [31].
– Kernel function: a quartic kernel function, following the trend of most studies in the field.
• Considered hotspot: the highest 5% of the field. • Reference map for accuracy: a KDE hotspot map,
gen-erated from the same data, with the same bandwidth and kernel function, but with a cell size of 10 meters.2 2The generation of the KDE map for 2916 events and a 10-meter cell size took 28 minutes.
B. Computational Resources:
The computer and software used to run the experiments were:
• Computer: X64 compatible PC;
• Processor: Intel(R) Core(TM) i7-4770 CPU @ 3.40GHz,
4 Cores;
• Memory: 16 GB of RAM;
• Operational System: Microsoft Windows 10 Pro X64; • Software: Mathworks’ Matlab v. 2015b.
C. Experiment
Our experiment consists of the following steps:
Step 1 Generate the KDE hotspot map with cell size of 10 meters, that is used as a reference in accuracy analysis. Step 2 Classify the highest 5% cells of the KDE as hot and
the remaining 95% as non-hot.
Step 3 Generate a MSKDE map and a KDE map for each cell size, in the range of 50 to 200 meters, with a 10-meter increment step, making a total of 32 maps.
Step 4 For each cell of the standard KDE reference map:
• get the coordinates of point located at the cell’s
center;
• find out whether the cell is classified as hot or
non-hot;
• for each of the 32 generated maps:
– increment a counter whenever the classificaiton of the cell in which that point falls is different from the classification of its cell in the standard KDE reference map.
After that experiment, we have, for each map, its generation time and the number of cells of the reference map that did not receive the same classificaiton in it. Those misclassified cells indicate the degree of malformation of the hotspot in a generated map. The hot cells that are misclassified as non-hot represent regions that will not be covered in the resource allocation, with, possibly, serious consequences. On the other hand, the non-hot cells that are misclassified as hot represent regions to which resources will be allocated unduly, indicating a waste of resources.
The map accuracy will be evaluated, indirectly, by evalu-ating the degree of anomaly of the map with respect to the
Fonte: (QUEIROZ et al., 2016).
computadores, e houve a necessidade de uma forma rápida e objetiva de sumarizar as informações mapeadas. Para suprir essa demanda, as autoridades criminais desenvolveram o Spatial and Temporal Analysis of Crime (STAC), que consiste em um conjunto de ferramentas estatísticas para dados espaciais. Desde a criação do framework STAC, a ferramenta que possibilita a criação de áreas de hotspots foi a mais utilizada, e ainda é citada em diversos outros trabalhos, como em Chainey et al. (2008), Shiode (2011) e Wang et al. (2013). O funcionamento do STAC consiste em criar uma janela de busca bidimensional, geralmente assumindo uma subárea circular ou elipsóide de tamanho fixo, e realizar uma busca exaustiva na área de estudo, ranqueando as subáreas de acordo com a quantidade de eventos.
No estudo realizado por Shiode (2011) é proposta uma extensão da ferramenta de hotspots do pacote STAC, com o objetivo de criar clusters adaptados às ruas. No trabalho é modificada a janela de busca bidimensional do STAC, que geralmente assume uma subárea planar de forma circular ou elipsoide, para uma janela de busca que utiliza a rede de ruas. A distância de busca na rede de ruas permanece fixa, partindo de pontos de referência distribuídos de maneira uniforme pelo mapa. As simulações realizadas no estudo mostraram que o método proposto é mais preciso e estável em detectar hotspots adaptados às ruas em comparação com os métodos tradicionais. No entanto, os experimentos realizados se limitam em agrupar micro regiões e não são realizados testes de predição para eventos futuros.
Em Steenbeek e Weisburd (2016), foi pesquisada a variabilidade do crime com relação a três níveis de geografia: micro (segmentos de ruas), meso (vizinhanças), e macro (distritos). No estudo foram utilizados mais de 400 mil eventos criminosos, registrados durante os anos de 2001 até 2009, na cidade de Haia na Holanda. Como resultado, foi verificado que cerca de 58% a 69% da variabilidade dos crimes são atribuídos aos segmentos de ruas. Sendo concluído, que, apesar dos segmentos de ruas terem recebido pouca atenção nos estudos de