Técnicas de visualização de dados para auxílio ao processo de tomada de decisão na polícia militar no município de Caicó/RN

(1)

UNIVERSIDADE FEDERAL DO RIO GRANDE DO NORTE CENTRO DE ENSINO SUPERIOR DO SERIDÓ DEPARTAMENTO DE COMPUTAÇÃO E TECNOLOGIA

BACHARELADO EM SISTEMAS DE INFORMAÇÃO

JOSÉ RUMMENIGGE PEREIRA MAIA

TÉCNICAS DE VISUALIZAÇÃO DE DADOS PARA AUXÍLIO AO PROCESSO DE TOMADA DE DECISÃO NA POLÍCIA MILITAR NO MUNICÍPIO DE CAICÓ/RN

Caicó-RN 2016

(2)

JOSÉ RUMMENIGGE PEREIRA MAIA

TÉCNICAS DE VISUALIZAÇÃO DE DADOS PARA AUXÍLIO AO PROCESSO DE TOMADA DE DECISÃO NA POLÍCIA MILITAR NO MUNICÍPIO DE CAICÓ/RN

Trabalho de Conclusão de Curso II apresentado ao curso de graduação em Sistemas de Informação, como parte dos requisitos para obtenção do título de Bacharel em Sistemas de Informação da Universidade Federal do Rio Grande do Norte. Orientadora: Prof.ª Aislânia Alves de Araújo, MSc.

Coorientador: Amarildo Jeiele Ferreira de Lucena, Graduado.

Caicó-RN 2016

(3)

(4)

(5)

AGRADECIMENTOS

Agradeço primeiramente a Deus que permitiu a minha existência e que me guiou por toda a vida. Embora muitos duvidem da sua existência hoje, eu sei que por trás de um grande sistema sempre tem um grande desenvolvedor.

Agradeço aos meus pais Cecílio Segundo Maia e Rosenilda Pereira que estiveram comigo durante todos esses anos, principalmente nos anos da faculdade.

Agradeço aos meus orientadores o Prof. Amarildo Jeiele Ferreira de Lucena e a Prof.ª Aislânia Alves de Araújo que me auxiliaram durante todo o desenvolvimento desta monografia.

Agradeço ao professor Flavius da Luz e Gorgônio por fornecer o espaço do Laboratório de Inteligência Computacional Aplicada a Negócios (LABICAN) e por participar, junto com os orientadores, na supervisão do desenvolvimento do trabalho.

Agradeço à Central de Operações da Polícia Militar (COPOM) de Caicó-RN por ter fornecido, por intermédio do professor Amarildo Jeiele Ferreira de Lucena, a base de dados de ocorrências criminais utilizada para obter os resultados desta pesquisa.

(6)

“A primeira e principal obrigação do governo é a segurança pública.” (Arnold Schwarzenegger)

(7)

RESUMO

A visualização de dados é compreendida como a ciência da representação de dados em formato gráfico. Ela permite que os tomadores de decisão analisem estatísticas de forma visual, fazendo com que os mesmos identifiquem padrões nos dados e obtenham um entendimento mais apurado sobre dificuldades encontradas nos registros. O presente trabalho trata-se de uma pesquisa exploratória onde foram estabelecidos métodos, parâmetros e técnicas para a visualização de dados. Os dados utilizados na pesquisa são da base de dados criminais da Polícia Militar do município de Caicó-RN. O objetivo da pesquisa foi compreender o crescimento criminal da cidade com o uso da visualização dos dados integrada com os processos do KDD sobre as ocorrências criminais a partir de uma base com 37.554 registros de ocorrências registradas no período de 2008 a 2014. Foram aplicadas técnicas de visualização como gráficos, mapeamento de pontos quentes, comparação de dados de ocorrências criminais e análise de séries temporais utilizando as seguintes tecnologias da: Google Maps API 3, Google Maps Geocoding API e Google Charts. Com a utilização das técnicas de visualização em mapas de pontos quentes foi possível perceber o crescimento anual dos crimes no município, assim como o acompanhamento da expansão criminal no ano de 2013, durante os doze meses. Com a utilização dos gráficos foi possível obter estatísticas para identificar quais crimes ocorreram com maior frequência e quais períodos dos sete anos ocorreram o maior índice de registros. Também foi possível realizar comparações criminais paralelas entre os períodos festivos municipais predeterminados para a análise. Embora não tenham sido abordadas todas as técnicas visuais possíveis, conclui-se que a pesquisa foi satisfatória trazendo resultados relevantes para o auxílio à tomada de decisão da Polícia Militar no município de Caicó-RN.

(8)

ABSTRACT

Data visualization is understood as a data representation science in graphical format. It allows the decision makers to analize statistics in a visual way, making possible them identify patterns in the data and getting more accurate understanding about difficults found on them. The present work is a exploratory research where were established methods, parameters and techniques for data visualization. The data used in research came from a militar police criminal database in the city of Caicó-RN. The main objective of this research it is comprehend the criminal growth in city with the usage of data visualization integrated with the KDD process over the criminal ocurrences, the base hold 37.554 entries of ocurrences recorded in the period of 2008 and 2014. Were applied visualization techiques like graphs, hotspots mapping, data comparison of criminal ocurrences and time series analysis using the following technologies from Google: Google Maps API 3, Google Maps Geocoding API and Google Charts. With usability of visualization techniques in hotspots maps it was possible to see the yearly criminal growth in the city, just like the accompaniment of criminal expansion in the year of 2013, through out the twelve months. With the usability of graphs was possible to obtain statistics to identify which crimes most happened with greater rate and what periods of seven year most there were occurrences records, also was possible to do a parallel criminal comparison over the municipal festive periods predetermined to the analysis. It's concluded that this research was satisfatory, bringing relevants results to the police decision making in the city, although not were addressed all possible visual tecniques and the database had many invalids records to hotspot mapping.

(9)

LISTA DE FIGURAS

Figura 1 – Uma explicação dos passos que compõem o processo do KDD... 19

Figura 2 – Gráfico de pizza ... 22

Figura 3 – Gráfico de barras no estilo vertical ... 23

Figura 4 – Gráfico de barras no estilo horizontal ... 23

Figura 5 – Gráfico de barras agrupadas ... 24

Figura 6 – Gráfico de linhas ... 24

Figura 7 – Sistema de informação geográfica com pontos quentes ... 25

Figura 8 – Tendência de longo termo ... 27

Figura 9 – Variações cíclicas ... 28

Figura 10 – Variações sazonais ... 28

Figura 11 – Movimentos irregulares ... 29

Figura 12 – Google Maps API aplicada em uma página HTML ... 35

Figura 13 – Mapeamento de pontos quentes entre 2008 e 2014 na cidade de Caicó ... 41

Figura 14 – Ampliação do mapa sobre o centro de Caicó ... 42

Figura 15 – Distribuição criminal de 2008 ... 43

Figura 16 – Distribuição criminal até 2009 ... 43

Figura 21 – Distribuição criminal até 2014 ... 46

Figura 22 – Os dez tipos de ocorrências criminais com maior frequência ... 47

Figura 23 – Total de ocorrências criminais entre 2008 e 2014 ... 48

Figura 24 – Top 10 bairros com maior incidência criminal ... 48

Figura 25 – Tendência em incidências criminais, 2008-2014 ... 49

Figura 26 – Comparação de ocorrências entre carnavais de 2013 e 2014 ... 52

Figura 27 – Comparação de ocorrências entre as festas de Sant'Ana de 2013 e 2014 ... 53

Figura 28 – Comparação de cinco tipos de ocorrências no período de 2008 a 2014 ... 54

Figura 29 – Ocorrências criminais de janeiro de 2013 ... 65

Figura 30 – Ocorrências criminais até fevereiro de 2013 ... 65

Figura 31 – Ocorrências criminais até março de 2013 ... 66

Figura 32 – Ocorrências criminais até abril de 2013 ... 66

Figura 33 – Ocorrências criminais até maio de 2013 ... 67

Figura 34 – Ocorrências criminais até junho de 2013 ... 67

Figura 35 – Ocorrências criminais até julho de 2013 ... 68

(10)

Figura 37 – Ocorrências criminais até setembro de 2013 ... 69

Figura 38 – Ocorrências criminais até outubro de 2013 ... 69

Figura 39 – Ocorrências criminais até novembro de 2013 ... 70

(11)

LISTA DE TABELAS

Tabela 1 – Dados selecionados que compõem a base de dados da COPOM ... 34

Tabela 2 – Todas as colunas que compõem a tabela event ... 38

Tabela 3 – Dados selecionados para aplicação das técnicas de visualização ... 39

Tabela 4 – Total de ocorrências válidas e inválidas na base da COPOM ... 40

Tabela 5 – Tabela que compões os dados das ocorrências por trimestre ... 50

(12)

LISTA DE SIGLAS E ABREVIAÇÕES

API (Application Programming Interface)

BPM (Batalhão de Polícia Militar)

COPOM (Central de Operações da Polícia Militar)

CSS (Cascading Style Sheets)

HTML (HyperText Markup Language)

JSON (JavaScript Object Notation)

KDD (Knowledge Data Discovery)

KDE (Kernel Density Estimation)

PHP (Hypertext Preprocessor)

SINESP (Sistema Nacional de Informações de Segurança Pública)

SQL (Structured Query Language)

SVG (Scalable Vector Graphics)

URL (Uniform Resource Locator)

(13)

SUMÁRIO

1. INTRODUÇÃO ... 14 1.1. Contextualização e Problema ... 14 1.2. Objetivos do Trabalho ... 15 1.2.1. Objetivo Geral ... 15 1.2.2. Objetivos Específicos... 15 1.3. Delimitação do Estudo ... 15 1.4. Justificativa do Estudo ... 16 1.5. Organização do Texto ... 16

2. VISUALIZAÇÃO DE DADOS E COMPORTAMENTO CRIMINAL NA SOCIEDADE ... 17

2.1. Comportamento Criminal na Sociedade ... 17

2.2. Descoberta de Conhecimento em Bases de Dados ... 18

2.3. Visualização de Dados ... 20

2.3.1. Perspectiva Humana da Visualização de Dados ... 21

2.3.2. Diagramas para Visualização de Dados ... 22

2.3.3. Mapeamento Criminal com Pontos Quentes ... 25

2.3.4. Análise de Séries Temporais ... 26

2.4. Integração do KDD com a Visualização de Dados ... 29

2.5. Trabalhos relacionados ... 31 3. METODOLOGIA ... 32 3.1. Procedimento Metodológico ... 32 3.2. Tipo de Pesquisa ... 32 3.3. Amostragem da Pesquisa ... 32 3.4. Tecnologias Utilizadas ... 34

3.4.1. Google Maps API 3 ... 34

3.4.2. Google Maps Geocoding API ... 35

3.4.3. Google Charts ... 36

3.4.4. Linguagens e Ferramentas ... 36

(14)

3.4.4.2. PHP ... 37

4. 9ANÁLISE DOS RESULTADOS OBTIDOS ... 38

5. CONCLUSÕES E TRABALHOS FUTUROS ... 55

REFERÊNCIAS ... 57

APÊNDICE A – Código Fonte Utilizado no Tratamento das Ocorrências Criminais ... 61

(15)

1.

INTRODUÇÃO

Desde 2004 encontra-se em funcionamento um sistema de gerenciamento nacional de ocorrências criminais chamado SINESP (Sistema Nacional de Informações de Segurança Pública), o objetivo deste sistema é unir, em uma só base de dados, todas as informações dos setores de segurança pública do país. A existência deste datacenter nacional permite análises mais consolidadas sobre as regiões do Brasil, possibilitando ações efetivas como análises e estatísticas de dados para a prevenção de crimes.

A eficácia policial vem melhorando com a modernização dos setores de segurança pública devido a utilização de sistemas de gerenciamento de dados, aprimorando os resultados e a qualidade dos serviços policiais prestados à sociedade. A política policial deixa de ser opressiva, passando a ser mais preventiva com a antecipação dos fatos adquirida mediante conhecimento de informações e estatísticas (FERRER, 2005).

Porém, com a utilização de sistemas de gerenciamento de ocorrências criminais, cresce a quantidade de dados sobre boletins de ocorrências nas bases de dados das centrais policiais. O rápido crescimento desses dados excede a compreensão humana em setores de segurança pública, pois decisões policiais importantes não são tomadas de acordo com a quantidade dos mesmos, mas sim com a utilização de ferramentas para a extração de conhecimento valioso que está embutido nessa vasta quantidade (HAN; KAMBER, 2011).

Uma técnica utilizada para extração de conhecimento em bases de dados é a visualização de dados que, por disponibilizar diversos tipos de representações visuais, possibilita ao usuário buscar por padrões e tendências que o auxiliarão na tomada de decisão policial após serem identificados. O objetivo da visualização de dados é passar informações de forma efetiva sobre determinados conjuntos de dados aos usuários utilizando-se de gráficos estatísticos, plotagens em mapas e tabelas (FRY, 2007).

1.1. Contextualização e Problema

Tendo em vista o problema da quantidade de ocorrências criminais e da disponibilidade de dados armazenados pela Polícia Militar, seria possível auxiliar a tomada de decisão policial no município de Caicó, utilizando a visualização de dados sobre uma base de dados criminais da cidade para adquirir informações e identificar padrões sobre o comportamento criminal local?

(16)

Esta questão é de relevante importância devido ao grande volume de boletins de ocorrências armazenados eletronicamente na central de polícia do município que, analisados, podem vir a facilitar a obtenção de informações valiosas, auxiliando a busca por padrões de ocorrências nos dados armazenados e sugerindo a existência de que possíveis crimes possam ter algum tipo de relacionamento em comum ou com algum tipo de evento cultural.

1.2. Objetivos do Trabalho

1.2.1. Objetivo Geral

Este trabalho tem como objetivo geral utilizar técnicas de visualização de dados como gráficos, mapeamento de pontos quentes, comparação de dados de ocorrências criminais, análise de séries temporais para apoiar a tomada de decisão policial do município de Caicó-RN.

1.2.2. Objetivos Específicos

O objetivo será dividido nos seguintes objetivos específicos:

 Selecionar os dados dos boletins de ocorrências que serão utilizados para a visualização dos mesmos, pois nem todos são adequados para visualização;

 Transformar os dados inválidos das ocorrências criminais em valores próximos ou remover essas ocorrências, caso não haja possibilidade de recuperação;

 Utilizar técnicas de visualização de mapeamento de pontos quentes, gráficos de pizza, gráficos de colunas, gráficos de linhas, comparação periódica de ocorrências criminais, comparação anual de ocorrências criminais;

 Analisar a distribuição criminal em determinado intervalos de tempos.

 Verificar o acompanhamento sazonal de determinados tipos de crimes.

1.3. Delimitação do Estudo

Técnicas de mapeamento e visualização criminal são capazes de fornecer aos tomadores de decisões um alcance sofisticado na prevenção de crimes, uma vez que detalhes de como ocorreram tais delitos sejam armazenados de forma concisa (MOHLER, 2014). Com o uso de técnicas como estatísticas visuais é possível investigar o impacto dos tipos de ocorrências assim como determinar futuras casualidades que venham a ocorrer em determinados domínios.

(17)

Desde 2008, encontra-se operando no 6º BPM (Batalhão de Polícia Militar) do município de Caicó-RN, um sistema de gerenciamento de informações utilizado pela COPOM (Central de Operações da Polícia Militar), que visa à manutenção de informações criminais da cidade e região, onde são cadastrados todos os boletins de ocorrências registrados por vítimas da criminalidade ou cidadãos local.

O presente trabalho limita-se na visualização de dados sobre os boletins de ocorrências do município de Caicó-RN cadastrados entre os anos de 2008 a 2014, nos quais serão utilizadas as técnicas de visualização de dados supracitadas nos objetivos específicos visando a identificação de padrões que levem obtenção de conhecimento útil sobre o comportamento criminal da cidade.

1.4. Justificativa do Estudo

Utilizando técnicas de visualização de dados, este trabalho visa alcançar um resultado satisfatório na análise comportamental de crimes, dado que, a aplicação das técnicas será realizada sobre os dados de boletins de ocorrências do município de Caicó-RN que vão de 2008 a 2014.

1.5. Organização do Texto

Este trabalho está organizado da seguinte forma:

 Neste capítulo foram apresentados uma contextualização e problema, objetivos, delimitações e justificativa utilizada;

 No Capítulo 2 é feito a fundamentação teórica sobre visualização de dados e comportamento criminal;

 No Capítulo 3 é apresentada a metodologia do trabalho e as tecnologias utilizadas para a obtenção da análise dos resultados;

 No Capítulo 4 são apresentadas as análises dos resultados após a visualização dos dados;

 No Capítulo 5 são apresentadas as conclusões e algumas propostas para trabalhos futuros.

(18)

2. VISUALIZAÇÃO DE DADOS E COMPORTAMENTO CRIMINAL

NA SOCIEDADE

2.1. Comportamento Criminal na Sociedade

A criminalidade na sociedade comporta-se de forma bastante estratégica, seja ela organizada ou não, pois os criminosos tendem a cometer tais insurgências em locais de conforto onde não haja perigo dos mesmos serem abordados pelo aparato policial. Eles visam realizar os mesmos tipos de crimes, geralmente no mesmo tempo e localização, que foram bem sucedidos no passado (PERRY et al, 2013).

Associações criminosas são grupos de pessoas que praticam atividades consideradas de forma ilegal perante a sociedade, com o objetivo de beneficiarem-se materialmente dos atos ilícitos cometidos pelos mesmos, conforme o artigo 1º, § 1º da Lei nº 12.850/2013 (BRASIL, 2013) que:

“Considera-se organização criminosa a associação de 4 (quatro) ou mais pessoas estruturalmente ordenada e caracterizada pela divisão das tarefas, ainda que informalmente, com o objetivo de obter direta ou indiretamente, vantagem de qualquer natureza, mediante a prática de infrações penais cujas penas máximas sejam superiores a 4 (quatro) anos, ou que sejam de caráter transacional”.

Segundo Bernica et al (2013), gangues de rua ganham influência em uma determinada região onde as instabilidades políticas, geográficas, sociais, econômicas e culturas predominam. A vulnerabilidade das pessoas nessas áreas oferece às gangues uma forma mais fácil de recrutar novos integrantes criminosos para fazerem parte das mesmas, ganhando mais força e poder de domínio. Em regiões onde o governo local convive com as invulnerabilidades supracitadas, correm um maior risco de gangues sobrepor às forças policiais através do combate tático ou do combate direto devido à desorganização governamental.

As pessoas que já foram vítimas de algum tipo de crime no passado correm o risco desproporcional de serem vítimas novamente, seja no mesmo local ou em locais próximos, pelo mesmo infrator ou por grupos associados ao mesmo que, de antemão, realizara determinada infração. Este fenômeno é também conhecido no conceito da literatura criminológica como revitimização, que tanto ocorre em propriedades públicas e privadas assim como na população em geral (OATLEY; EWARD, 2003).

(19)

Na teoria criminal, um crime que ocorreu em uma determinada hora e em um determinado local pode vir a acontecer novamente, isso ocorre devido ao processo de revitmização. Baseado nisso, indivíduos perigosos para a sociedade terão motivos suficientes para praticarem atos ilícitos em certos locais e horas (FOX et al, 2012). Com o decorrer do tempo, grupos de crimes relacionados serão formados nessas zonas, assumindo que futuros crimes possam ocorrer novamente em tais locais, dando a unidades competentes a possibilidade de atuarem baseando-se em padrões criminais encontrados em históricos desses delitos (GERBER, 2014).

É altamente aceitável afirmar que o crime se espalha por ambientes e locais de uma mesma região como se fosse um processo contagioso de uma doença. Assaltantes visam atacar grupos de alvos próximos devido à vulnerabilidade do local. A contaminação desta violência se espalha levando à formação de grupos criminais locais dentro de um espaço e tempo (MOHLER et al, 2012).

2.2. Descoberta de Conhecimento em Bases de Dados

A descoberta de conhecimento em bases de dados, vinda do acrônimo em inglês (Knowledge Discovery in Databases – KDD), é baseada no desenvolvimento de métodos e técnicas que são utilizados para abstrair informações significantes em uma vasta quantidade de dados brutos. O método tradicional para tornar tais dados em conhecimento útil é fundamentado na análise manual e interpretação dos mesmos (FAYYAD; PIATETSKY-SHAPIRO; SMYTH, 1996).

Ainda de acordo com Fayyad, Piatetsky-Shapiro e Smyth (1996), o processo KDD utiliza uma base de dados adjunta de seleções, pré-processamentos, subamostras e transformações necessárias que possam ser realizadas sobre a mesma, aplica-se então as tarefas de mineração de dados, enumera os padrões dos dados e estima os resultados da mineração de modo que sejam identificados os subconjuntos de tais padrões de forma específica, sendo possível a identificação de conhecimento plausível.

A Figura 1 ilustra o passo-a-passo dos processos interativos e iterativos do KDD, que envolve as várias fases do mesmo, bem como as muitas decisões que podem ser tomadas pelo usuário. O processo KDD compreende muitos passos que envolvem preparação de dados, busca por padrões, avaliação de conhecimento e refinação de dados, todos repetidos em várias interações até que se alcance algum conhecimento válido para a tomada de decisão.

(20)

Figura 1 – Uma explicação dos passos que compõem o processo do KDD

Fonte: Adaptado de (FAYYAD; PIATETSKY-SHAPIRO; SMYTH, 1996).

Para Frawley et al (1992), a descoberta de conhecimento em bases de dados é interpretada como um processo que automatiza a busca por padrões em um largo volume de dados, essa busca por padrões visa adquirir o conhecimento que está omitido no dados brutos que estão armazenados em uma base. O conhecimento obtido neste processo também pode ser reutilizado futuramente como dados adicionais em pesquisas para descoberta de novos padrões.

O processo por extenso do KDD é subdivido em nove passos, cada qual definindo uma participação de suma importância para se alcançar o conhecimento implícito contido nos dados analisados. A seguir são descritos cada passo que compõe o KDD (FAYYAD; PIATETSKY-SHAPIRO; SMYTH, 1996).

a. Entendimento do domínio da aplicação: Este passo tem por objetivo distinguir o objetivo do KDD a partir do ponto de vista do cliente;

b. Seleção: Cria-se um conjunto alvo de dados onde as descobertas de informações serão realizadas;

c. Pré-processamento: Remove dados inválidos do conjunto caso seja necessário, define estratégias para lidar com os dados omitidos;

d. Redução de dados: Métodos de transformação são utilizados para buscar características que represente os dados de acordo com o objetivo da tarefa;

e. Método particular de mineração de dados: Visa buscar um dos métodos de mineração tal como classificação, redução, sumarização, agrupamento, etc. para alcançar os objetivos do KDD;

(21)

f. Análise explanatória: Após a escolha do método de mineração, decide-se qual modelo e parâmetros poderão ser utilizados na busca por padrões de dados;

g. Mineração de dados: Busca por padrões de interesse em um conjunto particular de representações, utilizado regras de classificação e árvores de regressão;

h. Interpretação dos dados minerados: Envolve visualização dos padrões extraídos dado modelo de extração. Neste passo é possível retornar dos passos (a-g) supracitados para iterações posteriores;

i. Descoberta de conhecimento: Utiliza o conhecimento abstraído dos dados analisados em outro sistema ou simplesmente gera uma documentação sobre o mesmo para posteriormente apresentar às partes interessadas.

2.3. Visualização de Dados

A ciência da representação visual de dados é interpretada como a informação abstraída de modelos esquemáticos, onde são inclusos variáveis de unidades de informação. É uma técnica vista por muitos estudiosos da área de estatística como sendo uma forma de comunicação visual, pois a visualização em si não é baseada na pesquisa de um único valor, mas sim pela interpretação de vários valores que compõem uma base de dados (FRIENDLY; DENIS, 2009).

Como a taxa de geração de dados está em constante crescimento em bases de dados, utilizar métodos de processamento, analise e interpretação sobre essas informações tem se tornado um desafio para a visualização de dados. Para lutar contra esse desafio, surge o termo de ciência de dados, que visa criar um significado para essa grande quantidade de dados armazenados obtendo os mesmos em formato bruto, buscando entendê-los, processando-os, extraindo informações dos mesmos e se comunicando com eles de forma visual. (PRESS, 2013).

O objetivo principal dessa técnica é a habilidade de analisar os dados divulgando a informação clara e precisa. Isso não implica que a visualização tenha que ser complexa demais ou possua um alto nível de sofisticação, ela apenas precisa ser funcional e elegante para transmitir ideias efetivamente. A forma estética e funcional precisa fornecer a compreensão necessária sobre um conjunto de dados difuso e complexo, comunicando os aspectos dos dados de uma forma intuitiva (FRIEDMAN, 2008).

Segundo Marcelionis (2015) a visualização de dados está em crescimento atualmente. A utilização de mapas e gráficos e a combinação de ambos estão mostrando que a transmissão

(22)

da mensagem pode ser mais profunda e mais eficiente do que apenas uma mera apresentação de números, pois a visualização de dados é ao mesmo tempo arte e ciência.

O propósito da visualização de dados se baseia em dois princípios: um é a forma de fazer com que informações abstratas façam sentido para quem estiver vendo e o outro é comunicar essas informações de forma efetiva, pois informações abstratas não relatam os dados como sendo algo tangível e a visualização de dados busca isso, embora os dados não pertençam ao mundo físico, o foco é sempre dar forma para o que não tem, pois para termos eficiência na visualização de dados precisamos seguir princípios derivados do entendimento humano (FEW, 2013).

2.3.1. Perspectiva Humana da Visualização de Dados

Na perspectiva humana, uma tabela preenchida com números pode fazer com que uma pessoa passe horas tentando entender o significado dos dados que estão presentes ali. Em contrapartida, se esses dados forem exibidos de forma visual, essa pessoa irá perceber imediatamente o significado dos mesmos, pois o entendimento fica óbvio com uma boa ilustração gráfica desses números. A história dos dados pode ser mais bem interpretada quando contada de forma gráfica em vez de ser contada de forma verbal (FEW, 2013).

Ainda segundo Few (2013), a visualização de dados age efetivamente nos sentidos humanos, quando acontece uma mudança entre a percepção que é a intuição de aprender algo por meio de estímulos sensoriais e a cognição que é um conjunto de processos mentais onde um indivíduo adquire conhecimento através da percepção. Essa mudança entre cognição e percepção visa utilizar o máximo possível das habilidades cerebrais para que o indivíduo possa alcançar o conhecimento baseando-se no que ele vê.

No cérebro humano, o lobo frontal é responsável por várias funcionalidades exercidas pelo ser humano, como: atenção e concentração, organização, expressão, personalidade, emoções, ou seja, atividades relacionadas à cognição do indivíduo que lidam com a forma de pensar do mesmo. O lobo cerebral localizado na parte traseira do cérebro lida com a visualização e percepção do indivíduo. Este lobo, chamado de lobo occipital, age mais rápido e eficientemente que o frontal, pois o mesmo opera unicamente o sentido da visão de modo que a percepção ocorre rapidamente sem muitos esforços (NORENZAYAN; CHOI; PENG, 2007).

A forma como os humanos percebem e reagem a determinadas imagens produzidas sobre informações de dados, influencia os mesmos no entendimento da entrada de novos

(23)

dados e como esses dados podem influenciar na produção de novas imagens. Deste modo, os fatores humanos contribuem de forma significante para o processo de visualização, sendo fundamentais na produção de ferramentas computacionais que auxiliem a visualização de dados e a análise dos mesmos. Desta forma, a análise se torna mais fácil e eficiente quando utilizado ferramentas que a auxiliem a visualização de dados (ALEXANDRE; TAVARES, 2010).

2.3.2. Diagramas para Visualização de Dados

A apresentação de dados em forma gráfica deve ser elegante e descritiva, existem várias técnicas convencionais para a visualização dos mesmos, essas técnicas são utilizadas em várias ocasiões para ilustrar dados de uma base. Essas técnicas de visualização são conhecidas como gráficos de pizza, gráficos de barras, gráficos de combinação, gráficos de coluna, gráficos de linha, entre outras (FRIEDMAN, 2007). As Figuras Figura 2 a Figura 6 ilustram gráficos com dados hipotéticos meramente ilustrativos.

O gráfico de pizza é um gráfico de estatística circular divido em fatias que representa a proporção de seus valores numéricos, o tamanho do arco de cada fatia depende da quantidade de dados que ele representa. Este gráfico tem mais de dois séculos de idade, sendo sua primeira aparição feita em 1801, onde o mesmo era usado para dividir áreas, populações e rendas de estados europeus (SPENCE, 2005). A Figura 2 ilustra um gráfico do tipo pizza, as categorias descritas na imagem representam rótulos como, por exemplo, tipos de ocorrências e os valores mostram a proporção em que cada tipo foi registrado.

Figura 2 – Gráfico de pizza

(24)

O gráfico de barras é utilizado na visualização de dados para representar valores agrupados em categorias, ilustrando-os como barras verticais e horizontais. A proporção desses valores é dada com base no comprimento que cada barra possui, quanto maior são os valores, mais escalável serão as faixas que os representam no gráfico, de modo que elas preencham do espaço do mesmo. O objetivo da utilização deste gráfico é produzir uma comparação entre categorias de dados (ARCHARD, 1969). A Figura 3 ilustra um gráfico de barras no estilo vertical e a Figura 4 ilustra um gráfico de barras no estilo horizontal.

Figura 3 – Gráfico de barras no estilo vertical

Fonte: Autoria própria

Figura 4 – Gráfico de barras no estilo horizontal

Ainda segundo University Of Leicester, os gráficos de barras agrupadas podem ser usados para exibir subconjuntos de dados de cada categoria. Os gráficos de colunas agrupadas podem ser utilizados também em forma vertical e horizontal, dependendo da natureza dos

(25)

dados que serão apresentados. A Figura 5 mostra um gráfico de barras agrupadas, os dados das séries e categorias não condizem com valores reais, a categoria representa um conjunto de valores como, por exemplo, o ano e as séries os tipos de ocorrências.

Figura 5 – Gráfico de barras agrupadas

Os gráficos de linha têm por função exibir informações utilizando séries de marcadores conectados a um segmento de linha. O valor desses marcadores é ordenado pelos dados do eixo „x‟ com os dados do eixo „y‟ e então é ligada uma linha entre esses marcadores para mostrar a progressão dos valores obtidos. Os gráficos de linha podem ser utilizados para analisar tendências em dados sobre o passar do tempo, de forma que a linha do gráfico seja ilustrada cronologicamente (FRIENDLY, 2008). A Figura 6 ilustra um gráfico de linhas, as categorias representam períodos e as séries o total de registros armazenados em cada período.

Figura 6 – Gráfico de linhas

(26)

2.3.3. Mapeamento

Criminal com Pontos Quentes

A técnica hot spots (pontos quentes traduzido do inglês) é o processo de mapeamento criminal de locais com a maior incidência de crimes. É um método utilizado para o auxílio à tomada de decisão policial, onde o espaço criminal é demarcado em um mapa utilizando-se uma cor codificada que se intensifica de acordo com a quantidade de marcações que ocorrem no mesmo local. Este método tem como objetivo mostrar padrões de crimes baseando-se na localização onde os mesmos ocorreram. Para cada tipo de crime, é criado um mapeamento em uma escala de tempo que utilizam desde várias semanas até mesmo anos de ocorrências criminais (MOHLER, 2014).

A Figura 7 ilustra o mapeamento criminal da área Urban Renewal da cidade de San Francisco Califórnia utilizando o sistema de informações geográficas SpatialKey. O sistema utiliza uma base de dados criminal local de 2002 com 14.653 registros de ocorrências criminais. A área demarcada no mapa refere-se à região de Tenderloin, bairro da área central da cidade (MCCUNE, 2009).

Figura 7 – Sistema de informação geográfica com pontos quentes

Fonte: (MCCUNE, 2009)

O mapeamento de pontos quentes é utilizado para a predição de crimes baseando-se na análise retrospectiva de dados históricos, identificando-se áreas com o maior teor de crimes, possibilitando que recursos aprimorados no combate ao crime sejam implantados em pontos

(27)

estratégicos com mais eficiência. Pesquisas na área de mapeamento criminal mostram que a utilização de técnicas de visualização como mapeamento de pontos quentes, elipse espacial, grade de mapeamento temático, KDE (Kernel Density Estimation) facilitam o uso e a interpretação espacial da localização, tamanho, forma e orientação de grupos de incidentes criminais (CHAINEY; TOMPSON; UHLIG, 2008).

No procedimento de mapeamento é utilizada uma base histórica de dados para prever o risco de futuras insurgências em determinadas áreas de uma região, este método fundamenta-se no fato de que crimes não são distribuídos de forma uniforme e busca identificar as áreas com o maior volume de crimes. Recursos e intervenções adaptadas a um determinado tipo de crime podem ser delegados para locais com maior incidência criminal no objetivo de intervir crimes específicos (PERRY et al, 2013).

Este procedimento é mais amplamente utilizado para se obter o conhecimento da quantidade dos riscos de crimes que poderão ocorrer futuramente em um determinado tempo e local. Adquirindo o conhecimento que esta técnica fornece, unidades policiais podem traçar estratégias no combate ao crime utilizando-se das ocorrências marcadas dos crimes passados que, com o passar do tempo, formam grupos criminais onde insurgências possam ocorrer no futuro (MOHLER et al, 2012).

Esses grupos históricos de insurgências em locais com os maiores índices de incidências criminais baseiam-se nos métodos estatísticos como forma mista de modelos e também na estimação por densidade. Embora muito utilizado, esta técnica não acrescenta variáveis como fatores ambientais que podem ser vitais na busca por padrões que indiquem a predição de futuros crimes (WANG; BROWN; GERBER, 2012).

Técnicas de aprimoramento do mapeamento de pontos quentes como o KDE utiliza uma função de densidade probabilística em espaço tridimensional para criar registros históricos sobre crimes ocorridos. Esta técnica permite que unidades competentes no combate ao crime rapidamente analisem e identifique as áreas com a maior concentração de crimes (GERBER, 2014).

2.3.4. Análise de Séries Temporais

Análise de séries temporais resume-se a uma sequência de valores ou eventos obtidos sobre as medidas repetidas do tempo, consistindo de sequências de eventos ordenados, com ou sem noção do tempo (HAN; KAMBER, 2011). Em dados de séries temporais, cada

(28)

instância representa um diferente passo temporal e os atributos concedem valores associados a esse tempo (HALL; WITTEN; FRANK, 2011).

Uma série temporal constitui uma classe popular de dados sequenciais onde os registros de dados são indexados pelo tempo. Caso não haja noções de tempo em uma base de dados, a ordem entre os registros é vital para descrição e modelação dos mesmos. Existe uma pequena diferença entre sequência temporal e séries temporais, as sequências temporais incluem coleções de dados ordenados, porém não datados em suas amostras e as séries temporais são elementos de séries contínuas datadas e definidas como uma sequência de pares assim como mostra a Equação (1) (KANTARDZIC, 2011).

([ ] [ ] [ ]) ( )

Onde

T = Série temporal. p = Registros.

t = Tempos onde

Um dos aspectos da visualização de dados em séries temporais concentra-se em análises de tendências. As análises de tendências consistem em quatros componentes ou movimentos que caracterizam os dados, encontram padrões e possibilitam as pessoas que estão vendo o gráfico uma possível predição de valores futuros. Os quatro movimentos que compõem as séries temporais são: movimentos ou tendências de longo termo, movimentos ou variações cíclicas, movimentos ou variações sazonais e movimentos aleatórios ou irregulares (HAN; KAMBER, 2011).

Os movimentos ou tendências de longo termo consistem na estimação de tendências de longo tempo (KANTARDZIC, 2011). A linha tracejada na Figura 8 ilustra a direção em que o gráfico de séries temporais está se movendo ao longo do intervalo temporal.

Figura 8 – Tendência de longo termo

(29)

Os movimentos ou variações cíclicas representam o comportamento dos padrões de dados que é observado de forma cíclica (DUNHAM, 2003). A linha tracejada na Figura 9 ilustra oscilações na linha de tendências.

Figura 9 – Variações cíclicas

Fonte: adaptado de (KANTARDZIC, 2011).

Os movimentos ou variações sazonais são movimentos relacionados ao calendário. Geralmente incluem eventos que ocorrem anualmente como, por exemplo, o aumento na venda de chocolates antes do dia dos namorados ou a queima de estoque no período de Natal (HAN; KAMBER, 2011). A Figura 10 ilustra padrões aproximadamente idênticos durante meses correspondentes de sucessivos anos.

Figura 10 – Variações sazonais

Movimentos aleatórios ou irregulares (Outliers) são movimentos irregulares que representam discrepâncias (KANTARDZIC, 2011). A Figura 11 ilustra o movimento esporádico de séries temporais devido a eventos irregulares ou aleatórios.

(30)

Figura 11 – Movimentos irregulares

2.4. Integração do KDD com a Visualização de Dados

Devido à dificuldade enxergada na complexidade de dados brutos, usar esses dados de forma que traga uma solução compreensiva para quem os analisa, exige o entendimento de diversas áreas como: estatísticas, mineração de dados, design gráfico e visualização de informações. Cada área é operada isolada das outras. Como técnicas visuais não facilitam o trabalho análise com dados brutos, técnicas de mineração de dados tem mais habilidades para fazer tal serviço, porém estão distante de uma forma plausível de interação com os dados analisados. As visualizações de dados produzidas em softwares ajudam na interação entre o ser humano e as análises, pois as mesmas possibilitam a representação de vários tipos de dados abstratos em formato de gráficos (FRY, 2007).

Técnicas interativas de visualização são aplicadas junto ao KDD com sucesso. Na área de estatísticas gráficas e interativas, a visualização de dados combina várias técnicas visuais, como gráficos de barras e gráficos de linha, para relacionar objetos gráficos de uma janela de software com objetos gráficos em outra janela do mesmo do software ou afins. Em vários casos de visualização, os usuários podem encontrar padrões nas representações gráficas, como agrupamentos locais e linhas concorrentes. Devido às capacidades visuais bem estabelecidas, fica bem mais legível ao analista detectar tais padrões em visualizações gráficas do que em dados numéricos brutos (FELDMAN; KLÖSGEN; ZILBERSTEIN, 1997).

Ainda segundo Feldman; Klösgen; Zilberstein (1997), técnicas visuais são usadas dentro do processo KDD em tarefas de pré-processamento para que haja uma familiarização com os dados de uma base detectando as dependências entre as variáveis. Essas introspecções são usadas então para focar em tarefas de mineração de dados, como por exemplo, selecionar variáveis identificadas para uma tarefa. A visualização serve para mostrar os resultados da

(31)

mineração de dados, de forma interativa, para que os analistas possam iteragir com as visualizações.

O KDD age como um framework1 sistemático dentro do conceito de visualização de dados, visando guiar a exploração de informações e a descoberta de conhecimento. A visualização tem um importante papel no processo do KDD, pois a mesma fornece duas camadas em que uma mantém um alto grau de interatividade e feedback2 com o usuário, enquanto a outra é beneficiada sincronicamente com a utilização de buscas na base de dados, agindo ambas as camadas em simultânea cooperação (FOONG, 2001).

Nesse processo de descoberta de conhecimento em bases de dados, existe uma conciliação entre as áreas de design e análise de dados, que buscam unificar todo o processo. Profissionais na área de design gráficos buscam conhecimento nas ciências computacionais para aprimorar as técnicas de visualização de dados e estatísticos transmitem os dados de forma mais efetiva devido compreender os princípios de design visual que operam por trás da representação dos dados (FRY, 2007).

Fry (2007) enfatiza o processo de compreensão de conhecimento como um conjunto de medidas a serem tomadas no processo do KDD, embora não seja necessário seguir todas elas diretamente. As medidas são:

Seleção: Obter alguma forma ou significado para um determinado conjunto de dados que serão utilizados durante o processo e ordenar o mesmo em classes.

Filtragem: Remover todas as variáveis desnecessárias para a busca de conhecimento nas tabelas da base dados deixando apenas as que contêm dados de interesse.

Visualizar: Aplicar métodos de visualização de dados para buscar padrões e formas que serão apresentadas visualmente.

Refinar: Aperfeiçoar a representação visual frisando a claridade dos dados de forma mais atraente para o analista.

Interagir: Adicionar funcionalidades que possam alterar os dados da análise tornando a visualização mais dinâmica.

Entre essas medidas existem conexões importantes que mostram a importância de cada uma em todo o processo da descoberta de conhecimento. O seguimento cordial do KDD leva a uma analogia com uma linha de montagem, onde analistas lidam com os processos de

1

Conjunto de códigos em comum que fornece funcionalidades abstratas. 2_{Reação a um estímulo.}

(32)

obtenção, filtragem e busca de dados e os profissionais de design lidam com a apresentação dos mesmos (FRY, 2007).

2.5. Trabalhos relacionados

No trabalho de Henriques (2014) foram aplicados métodos quimiométricos no tratamento da informação multivariada relativa a estatísticas criminais, sobre uma variedade de dados relacionados à detenção e delitos cometidos nos EUA durante o período de 2005 a 2011. Os resultados da pesquisa mostraram que a combinação de métodos quimiométricos como análise de agrupamentos hierárquico e análise de componentes principais junto com medidas econométricas como curva de Lorenz e coeficiente de Gini permitiu tirar conclusões sobre a distribuição e relação espácio-temporal de vários tipos de crimes.

No trabalho de Guillen (2015), foi aplicada uma metodologia para geocodificar os endereços de ocorrências criminais para a análise espacial da distribuição espacial dos crimes através da estatística espacial. A metodologia seguiu quatro etapas sendo a primeira uma análise explanatória dos dados, a segunda uma análise de densidade criminal, a terceira uma análise do impacto da geocodificação e a quarta uma correlação espacial entre a intensidade da distribuição criminal e os locais de baixa renda. Os resultados da pesquisa foram importantes no auxílio da estatística espacial criminal e no estudo de padrões e compreensão dos crimes.

O trabalho de Da Silva et al (2014) tinha por objetivo estudar, analisar e compreender a dinâmica socioespacial e da violência urbana em Belém-PA, com foco nos bairros da 12ª Área Integrada de Segurança Pública e Defesa Social (AISP) nos períodos de 2011 e 2013. Foi utilizada a produção cartográfica como ferramenta de auxílio na visualização dos pontos de homicídios, que são a variável criminológica selecionada, para estudar o comportamento criminal na área.

O trabalho de Perazzoni (2013) tinha por objetivo demonstrar que as tecnologias de Sistemas de Informações Geográficas (SIG), ainda pouco conhecidas no meio policial, podem e devem se revestir em importante aliadas às ações de investigação e repressão a ilícitos relacionados ao desmate ilegal no interior de áreas protegidas na Amazônia. Pois, dada a grande extensão da Amazônia, o uso de imagens de satélites assim como recursos de modelação e análise de informações espaciais e não espaciais resultou em valioso meio investigativo sobre o andamento do desmatamento da floresta.

(33)

3. METODOLOGIA

3.1. Procedimento Metodológico

O presente trabalho visa utilizar técnicas de visualização de dados para obter a representação visual dos dados policiais de boletins de ocorrências armazenados na base de dados da central de Polícia Militar do município de Caicó-RN. Esses dados foram abstraídos de forma esquemática, de maneira que se incluíssem todas as variáveis possíveis das tabelas para uma melhor interpretação dos mesmos, dado que nem todos os campos foram utilizados, porém foram de grande valia para a obtenção de informações úteis para as análises.

Os dados criminais que foram utilizados neste trabalho, para as análises e buscas por informações plausíveis visando o apoio à tomada de decisão policial, foram obtidos da base de dados do sistema da COPOM. Esta base de dados está localizada na central de ocorrências da Polícia Militar da cidade de Caicó-RN e detém registros de ocorrências criminais local nos anos de 2008 a 2014. A base de dados da COPOM, adquiridas no período em que esta pesquisa se iniciava em 2015, possui um grande volume de dados sobre as ocorrências criminais que ocorreram na região durante os anos de 2008 e 2014. Na base de dados encontra-se um total de 37.554 registros de ocorrências que aconteceram nesse período.

3.2. Tipo de Pesquisa

Este trabalho trata-se de uma pesquisa exploratória onde foram estabelecidos métodos, parâmetros e técnicas para a visualização de dados visando a descoberta de informações úteis, que venham propiciar aos analistas, uma melhor interpretação na análise dos dados através da visualização gráfica das estatísticas criminais, onde essas visualizações serão utilizadas para o apoio à tomada de decisão no combate ao crime de Caicó/RN. O método de pesquisa segue uma abordagem quantitativa, pois se trata da aplicação de técnicas visuais em um grande volume de dados, onde os resultados obtidos serão de contribuição ampliada sobre o conhecimento adquirido, considerando-se uma viável opção para que outros pesquisadores compartilhem do mesmo conhecimento.

3.3. Amostragem da Pesquisa

Foram utilizados os processos de seleção, transformação, visualização e interação do KDD sobre os dados recolhidos na base como, por exemplo, obter o conhecimento do domínio onde foram aplicadas as técnicas de visualização de dados, selecionar o conjunto de dados alvo para análise, fazer limpeza para remoção de dados desnecessários à visualização,

(34)

transformar valores em expressões abstratas e numéricas. Então foram aplicadas as técnicas visuais supracitadas sobre a base de dados de ocorrências de crimes locais, possibilitando adquirir informações que levem ao reconhecimento de padrões nos dados pesquisados, facilitando a identificação de quais crimes mais ocorreram na região e quais setores da cidade possuem os maiores índices de violência.

O universo da pesquisa foi baseado nos registros de ocorrências criminais no período entre 2008 e 2014, a base em si contém várias tabelas em sua estrutura, porém apenas a tabela event será utilizada durante a coleta dos resultados, pois a mesma contém a junção de todas as demais tabelas da base de dados. O banco de dados utilizado foi o PostgreSQL, um sistema de gerenciamento de bancos de dados objeto relacional de código aberto que está em desenvolvimento ativo há mais de quinze anos (POSTGRESQL3).

A base de dados da COPOM é composta por vários campos que compõem a estrutura do formulário para a coleta dos dados das ocorrências criminais, esses dados representam valores como a data da ocorrência, o bairro onde aconteceu a ocorrência, tipo da ocorrência, coordenadas geográficas, entre outros. Durante o procedimento de pré-processamento do KDD, alguns dados que foram irrelevantes para a pesquisa como, por exemplo, o nome do interessado e o telefone do mesmo, foram descartados de forma que apenas os valores necessários componham a estrutura básica e necessária que foram visualizados em gráficos, utilizando as técnicas de visualização de dados. A Tabela 1 mostra uma pequena parte da estrutura da tabela event, onde são mostradas algumas informações importantes que serão utilizadas durante o processo de busca e exibição. Os dados contidos nela foram adquiridos utilizando a seguinte SQL (Structured Query Language4) no banco de dados:

select idcodigo_eve, idcodigotip_eve, idbairro_eve, datareg_eve, latitude, longitude

from event limit 100 offset 1000;

3_{Disponível em: < http://www.postgresql.org/about/>. Acesso em: abr. 2016.} 4_{Linguagem de busca padrão utilizada por bancos de dados relacionais.}

(35)

Tabela 1 – Dados selecionados que compõem a base de dados da COPOM idcodigo_eve idcodigotip_eve idbairro_eve datareg_eve latitude longitude

28530 66 10 17-08-2013 -6.45860 -37.10742 28552 62 13 18-08-2013 -6.45996 -37.09368 28592 66 15 19-08-2013 -6.47391 -37.09734 28648 159 7 22-08-2013 -6.46016 -37.09497 28703 211 10 08-24-2013 -6.45691 -37.10753 28708 120 16 08-25-2013 -6.44992 -37.09248 57 163 45 03-31-2008 28716 66 16 08-25-2013 -6.44783 -37.0916 28775 120 15 08-29-2013 -6.45996 -37.0936 28788 109 7 08-30-2013 -6.45976 -37.0954

3.4. Tecnologias Utilizadas

Neste trabalho foram utilizadas as tecnologias de mapas da Google para obter os resultados visuais que pudessem auxiliar os resultados obtidos da presente pesquisa, essas tecnologias foram selecionadas pela facilidade encontrada na integração delas com as linguagens de programação Java e PHP. Ambas as linguagens de programação foram escolhidas por serem as mais populares segundo o rank anual da TIOBE5, sendo Java a linguagem desktop mais popular e PHP a linguagem web mais popular.

3.4.1. Google Maps API 3

A API (Application Programming Interface) de mapas da Google foi introduzida em meados de 2005 com o objetivo de revolucionar a interação dos usuários com mapas digitais na web, permitindo que os mesmos pudessem navegar sobre o mapa mundial apenas com o mouse do computador, isso foi uma inovação no período. A API de mapas continuou sendo atualizada pela empresa até que maio de 2009, na conferência Google I/O, a API versão 3 foi anunciada e em maio de 2010 a biblioteca foi oficializada estável após um ano de teste beta (SVENNERBERG, 2010).

Ainda segundo Svennerberg (2010), a biblioteca de mapas utiliza em seus mecanismos internos a linguagem de marcação de texto HTML (HyperText Markup Language), a linguagem de programação para navegadores JavaScript assim como a linguagem de folhas

(36)

de estilo CSS (Cascading Style Sheets) para trabalhar com a parte visual, essas tecnologias trabalham juntas. As imagens do mapa são carregadas dinamicamente no fundo da aplicação, via chamadas Ajax, assim que o usuário interage diretamente nas localidades do mapa. Chamadas Ajax são chamadas assíncronas feitas ao servidor da Google de forma que não haja a necessidade de carregar toda a página web onde o mapa se encontra. A Figura 12 ilustra o mapa da Google inserido em uma página HTML sendo o centro do mesmo a cidade de Caicó.

Figura 12 – Google Maps API aplicada em uma página HTML

3.4.2. Google Maps Geocoding API

A API de geocodificação da Google compõe a biblioteca de mapas padrão e trabalha com a conversão de dados em formato de endereço de ruas no estilo (Av. Cel. Martiniano, 670) e o transforma em coordenadas geográficas divididas em valores do tipo flutuante chamados de latitude e longitude (-6.467016, -37.089415). Para utilizar essa API é necessário obter uma chave de autenticação ligada a uma conta da Google, com isso o sistema pode monitorar a quantidade de requisições feitas diariamente por conta, dando um limite de 5.000 requisições por dia. Passando desse limite, as requisições são bloqueadas pelo sistema.

O formato exigido pela API de geocodificação nas requisições feitas em aplicações segue a seguinte estrutura: http://maps.googleapis.com/maps/api/geocode/output?parameters onde “http://maps.googleapis.com/maps/api/geocode” representa a URL (Uniform Resource Locator) onde fica hospedado o serviço do Google Geocoding, o output é formato desejado de retorno do serviço como XML (eXtensible Markup Language) ou JSON (JavaScript Object Notation), e parameters são os dados utilizados para realizar a pesquisa dos locais das

(37)

ocorrências, utiliza-se o endereço de uma rua para buscar as coordenadas da mesma ou utiliza-se as coordenadas para adquirir o endereço da rua que as representa, fazendo assim uma geocodificação inversa.

3.4.3. Google Charts

A API de gráficos da Google fornece uma variada gama de ferramentas para a visualização e estatística de dados, utilizando desde um simples gráfico de linhas até mapas de árvores hierárquicas complexas, a galeria de gráficos contidos nessa API prover um grande número de tipos de gráficos diferentes disponíveis para serem usados em aplicações variadas. A API segue o mesmo esquema da API de mapas onde os gráficos são inseridos dentro das páginas HTML.

A forma mais simples para utilizar a biblioteca Google Charts é mediante o uso da linguagem JavaScript embutida na página da aplicação, carrega-se as dependências da API, lista os dados que serão utilizados na geração dos gráficos, seleciona as opções que irão customizar a forma como os gráficos serão exibidos, então cria o gráfico baseado nessas informações e o insere na página HTML para ser visualizada as estatísticas.

Gráficos são altamente interativos, em relação aos dados que eles representam, expondo os eventos que permite aos usuários interagirem na criação de dashboards complexas assim como outras experiências integradas em uma página web. A API da Google utiliza tecnologia SVG (Scalable Vector Graphics) integrada com HTML5, que é a atualização mais recente da linguagem de marcação, para fornecer uma compatibilidade e portabilidade multi-plataforma para a utilização da mesma em diferentes tipos de dispositivos tecnológicos.

3.4.4.

Linguagens e Ferramentas 3.4.4.1.

Java

Java é uma linguagem de programação orientada a objetos utilizada no desenvolvimento de aplicações móveis, web e desktop. Ela foi desenvolvida inicialmente pela Sun Microsystems na década de noventa sendo vendida à Oracle em 2009. A linguagem tinha por objetivo portabilizar as aplicações desenvolvidas, fazendo com que as mesmas pudessem ser executadas em qualquer sistema operacional, seguindo a seguinte regra de independência: “escreva uma vez, execute em qualquer lugar”, traduzida do inglês: “write once, run anywhere”. A linguagem é disponibilizada gratuitamente com uma vasta quantidade de

(38)

bibliotecas que auxiliam os desenvolvedores no processo de construção de softwares (NAUGHTON, 1996).

3.4.4.2.

PHP

A linguagem de programação PHP (Hypertext Preprocessor), é uma linguagem disponibilizada gratuitamente assim como Java, ela é interpretada e não compilada sendo utilizada no lado do servidor para a construção de páginas Web. Essa linguagem de programação tem por objetivo construir páginas HTML dinamicamente de forma que, a cada requisição feita ao servidor, seja retornada uma estrutura diferente de HTML para o cliente de acordo com o que ele está interagindo no sistema.

A origem da linguagem foi em 1994, criada por Ramus Lerford. No início ela era chamada de Personal Home Page Tools sendo renomeada para Hypertext Preprocessor posteriormente. A linguagem era voltada para a geração dinâmica de páginas que o próprio criador da linguagem utilizava para monitorar o acesso a seus currículos na internet. Com o passar do tempo, novos recursos foram adicionados pelo criador da linguagem como a conexão com bancos de dados, em 1995 o código fonte passa a ser livre fazendo com que vários outros programadores pudessem dar crescimento e continuação à linguagem (DALL‟OGLIO, 2015).

(39)

4. ANÁLISE DOS RESULTADOS OBTIDOS

Os resultados deste trabalho foram adquiridos mediante a aplicação das técnicas de visualização de dados sobre a base dados da COPOM, seguindo determinados processos do KDD desde a seleção dos dados até a utilização das técnicas visuais. Essas técnicas foram aplicadas sobre esta base com o objetivo de adquirir conhecimento útil e auxiliar a tomada de decisão policial de Caicó-RN. A seleção dos dados, a transformação dos mesmos, a aplicação das técnicas de visualização e estatísticas desses dados, utilizando as tecnologias supracitadas das APIs da Google são os processos relevantes para a obtenção do conhecimento útil que este trabalho obteve.

A base de dados da COPOM contém uma tabela principal chamada event, essa tabela contém os dados principais das ocorrências criminais assim como referências para outras tabelas que se relacionam com a mesma. A Tabela 2 mostra todas as colunas que a tabela event possui assim como o tipo de dados que as representa como integer (número inteiro), string (texto), date (data do ano) e char (caractere) e double (número real).

Tabela 2 – Todas as colunas que compõem a tabela event

atributos tipo de atributo coluna tipo

idcodigo_eve integer horaenv_eve string

controle_eve string horades_eve string

localidade_eve string horacheg_eve string

pontoreferencia_eve string horafin_eve string

interessado_eve string grupo_eve string

telefone_eve string datareg_eve date

idcodigotip_eve integer terminadesp_eve string

naturezatip_eve string usuariodesp_eve string

idcodigosbt_eve integer idcodigovtr_eve integer

historico_eve string vtr_eve string

idbairro_eve integer cmtvtr_eve string

descricaobai_eve string providencia_eve string

idcodigomunicipio_eve integer idcodigofinalizacao_eve integer

municipio_eve string finalizacao_eve string

terminalate_eve string event_eve string

usuarioate_eve string historicofinal_eve string

enviada_eve string usuariofin_eve string

usuarioenv_eve string latitude double

horareg_eve string longitude double

(40)

No processo de seleção de dados da tabela event, apenas algumas colunas foram selecionadas para a aplicação das técnicas de visualização, esses dados são essenciais para pesquisa porque possui valores não relacionados diretamente com os dados pessoais dos envolvidos na ocorrência e são dados úteis para serem visualizados e analisados em gráficos. Por questão de sigilo, dados pessoais como o interessado no evento interessado_eve, o telefone do mesmo telefone_eve, usuários do sistema usuarioenv_eve e usuariofin_eve, finalização finalizacao_eve, entre outros, foram descartados nesse processo por não condizerem com o interesse da pesquisa. A Tabela 3 mostra apenas os dados que foram utilizados para a aplicação das técnicas visuais.

Tabela 3 – Dados selecionados para aplicação das técnicas de visualização

coluna tipo Descrição

idcodigo_eve integer Código da ocorrência. localidade_eve string Localidade da ocorrência. idcodigotip_eve integer Código do tipo de ocorrência. naturezatip_eve string Natureza do tipo de ocorrência.

idbairro_eve integer Código do bairro aonde aconteceu a ocorrência. descricaobai_eve string Descrição do bairro onde aconteceu a ocorrência. municipio_eve string Descrição do município da ocorrência.

datareg_eve date A data da ocorrência. latitude double Coordenada de latitude. longitude double Coordenada de longitude

Após a seleção dos dados que foram compostas as buscas no banco de dados para aplicar as técnicas de visualização, foram realizadas tarefas de pré-processamento para tratar e remover dados ilegíveis e inutilizáveis contidos na tabela. O processo de transformação de dados foi aplicado também para adquirir as coordenadas geográficas das ocorrências. Em cada ocorrência registrada na base de dados, continha um valor que representava o endereço físico do evento, como por exemplo, Av. Cel. Martiniano.

Foi então elaborado um algoritmo na linguagem de programação Java para obter o valor da coluna localidade_eve e o valor da coluna municipio_eve e enviar à API de geocodificação de mapas da Google, e assim adquirir as coordenadas geográficas de cada ocorrência em valores numéricos. Como mostra a Tabela 3, a latitude e a longitude, que representam as coordenadas, são números reais e foram obtidos mediante o uso da Google

(41)

Maps Geocoding API utilizando a localidade da cada ocorrência. O valor da coluna município_eve deveria coincidir com a palavra “CAICÓ”, isso para restringir as ocorrências registradas apenas no município, algumas ocorrências de municípios próximos foram descartadas. A URL utilizada na API para a busca das coordenadas seguiu o seguinte esquema:

http://maps.googleapis.com/maps/api/geocode/json?address="endereço"+ Caicó+-+RN"

Onde o tipo de retorno escolhido foi JSON e o escopo da busca seria apenas no município de Caicó para evitar a busca por endereços não condizentes com a cidade, conforme é possível verificar no “APÉNDICE A”

A base de dados tinha um total de 37554 registros de ocorrências criminais onde 36272 eram ocorrências do próprio município no período de sete anos entre 2008 e 2014, as ocorrências restantes pertenciam a municípios vizinhos que foram registradas no sistema da COPOM e de ocorrências sem uma localidade descrita. A base de dados da COPOM continha muitos valores errados na localidade das ocorrências como “"KJHGF" e “AAAAA” que tornava impossível a busca das coordenadas geográficas desses incidentes. Algumas localidades eram descritas como bares e próximas a mercados não cadastrados na Google, essas ocorrências também não contaram no processo de transformação.

Houve uma perda expressiva na transformação dos valores de endereços físicos em coordenadas geográficas numéricas de ilegibilidade de algumas ocorrências. A Tabela 4 mostra a quantidade de ocorrências válidas e inválidas que foram tratadas na base de dados.

Tabela 4 – Total de ocorrências válidas e inválidas na base da COPOM

ano total válidas inválidas

2008 2779 757 2022 2009 3491 1177 2314 2010 5461 1599 3862 2011 5006 1705 3301 2012 5770 4087 1683 2013 6690 4784 1906 2014 7075 4652 2423 Total 36272 18761 17511

(42)

Como mostra a Tabela 4, tivemos 51,72% das ocorrências válidas e 48,28% das ocorrências inválidas no total. A API de geocodificação de mapas da Google foi utilizada para dar apoio à aplicação da técnica de mapeamentos de pontos quentes baseando-se nos valores numéricos das coordenadas geográficas. A técnica de mapeamento de pontos quentes foi aplicada utilizando a tecnologia de mapeamento da Google versão 3, com esta tecnologia é possível agrupar sobre o mapa da cidade de Caicó todas as ocorrências válidas que foram adquiridas com a API de geocodificação, cada ponto quente pintado na camada do mapa representa os valores de latitude e longitude de cada ocorrência. A Figura 13 ilustra a técnica de mapeamento de pontos quentes sendo aplicada sobre a zona central, zona leste e oeste do município, todas as 18761 ocorrências criminais válidas foram agrupadas, independente da natureza de cada insurgência.

Figura 13 – Mapeamento de pontos quentes entre 2008 e 2014 na cidade de Caicó

Quanto mais as ocorrências vão sendo mapeadas juntas umas das outras, a intensidade dos pontos vai tomando uma cor mais intensa na camada de visualização da API de mapas, mostrando que aquela zona teve um aumento expressivo na intensidade de ocorrências dentro dos sete anos de armazenamento. Na Figura 13 é possível ver alguns pontos intensos em várias regiões da cidade, isso se dar devido a uma grande parte das ocorrências não conterem o número do imóvel próximo aonde ocorreu o crime, tendo apenas nome da rua ou avenida como Av. Seridó, fazendo com que a localidade seja mapeada em um único ponto.