• Nenhum resultado encontrado

Deteção e caracterização geo-espacial das zonas de acumulação de acidentes rodoviários

N/A
N/A
Protected

Academic year: 2020

Share "Deteção e caracterização geo-espacial das zonas de acumulação de acidentes rodoviários"

Copied!
234
0
0

Texto

(1)

Luís Filipe Cruz Ramos

Deteção e Caracterização Geo-Espacial

das Zonas de Acumulação de Acidentes

Rodoviários

Luís Filipe Cruz Ramos

De

teção e Car

acter

ização Geo-Espacial

das Zonas de Acumulação de Acidentes R

odo

viár

ios

Universidade do Minho

(2)
(3)

Dissertação de Mestrado

Ciclo de Estudos Integrados Conducentes ao Grau de

Mestre em Engenharia e Gestão de Sistemas de Informação

Trabalho efetuado sob a orientação da

Professora Doutora Maribel Yasmina Santos

Luís Filipe Cruz Ramos

Deteção e Caracterização Geo-Espacial

das Zonas de Acumulação de Acidentes

Rodoviários

Universidade do Minho

(4)
(5)

Esta dissertação é dedicada aos meus pais pelo sacrifício de proporcionarem aos filhos tudo aquilo que nunca tiveram. Ao meu avô Aureliano.

(6)
(7)

A

GRADECIMENTOS

Em primeiro lugar, gostaria de expressar os meus sinceros agradecimentos aos meus pais, Francisco Ramos e Ana Paula Ramos, pela educação que me proporcionaram, pelo apoio e incentivos constantes na minha formação, assim como ao longo de toda a minha vida, e aos meus irmãos Margarida e Pedro, pela paciência nos momentos mais difíceis.

À minha orientadora, Professora Doutora Maribel Yasmina Santos, por me ter confiado a realização desta dissertação, pela sua orientação, partilha de conhecimento, apoio e disponibilidade demonstrada ao longo da dissertação, mesmo quando o tempo disponível escasseava.

Gostaria de agradecer ao Professor Doutor João Moura Pires e ao Luís Silva da Universidade Nova de Lisboa, membros da equipa PIAR: Padrões de Incidência de Acidentes Rodoviários, formada no âmbito deste projeto, pela partilha de conhecimentos, ideias e opiniões.

Quero agradecer à Altran Portugal pela oportunidade concedida de realizar esta dissertação sob um contrato de estágio remunerado. Destaque para os inúmeros esclarecimentos elucidativos da Eng.ª Vera Luz sobre a temática em estudo e também para o Eng.º Bruno Silva, por facilitarem o processo de comunicação e partilha de informação com a Autoridade Nacional de Segurança Rodoviária.

Uma palavra de agradecimento à Autoridade Nacional de Segurança Rodoviária por facultarem a base de dados nacional de acidentes rodoviários, que permitiu abordar um problema real com dados reais e pela partilha de uma enormidade de conhecimentos de forma tão vibrante e entusiasmante por parte do Eng.º Carlos Lopes, o impulsionador e grande entusiasta de todo o projeto.

Por fim, e não menos importante, a todos os meus amigos pela partilha de amizade ao longo da vida. Em especial aos que me seguiram neste percurso académico: Fabiano Rodrigues, Graciano Fernandes, Pedro Veloso e Rui Veloso.

(8)
(9)

R

ESUMO

Atualmente, os acidentes rodoviários constituem um grande problema de saúde pública, estando previsto o seu agravamento se a segurança rodoviária não for tratada de forma adequada, morrendo, anualmente, cerca de 1,2 milhões de pessoas a nível global. Em 2012, Portugal registou 573 vítimas mortais, no local, em acidentes rodoviários, revelando-se a maior queda percentual da União Europeia relativamente a 2011, a par da Dinamarca, embora continue acima da média. Além do impacto provocado pelas vítimas mortais, foi calculado que o custo económico e social dos acidentes rodoviários pesava cerca de 1,17% do PIB português em 2010.

No presente projeto de dissertação, em parceria com a Autoridade Nacional de Segurança Rodoviária, é dada ênfase à utilização de técnicas de Visual Analyics, para a suportar a exploração de informação espácio-temporal da sinistralidade rodoviária em Portugal, e assim detetar e caracterizar no espaço geográfico zonas de acumulação de acidentes e pontos negros. Para isso espera-se a identificação de pontos negros para diferentes parametrizações e de pontos negros em janelas deslizantes de 12 meses, além de análises iterativas envolvendo os acidentes rodoviários e dados estatísticos do Instituto Nacional de Estatística. O Visual Analytics permite combinar técnicas de análise de dados com visualizações interativas, que facilita o processo de descoberta de conhecimento em conjuntos de dados de grande dimensão e complexos, enquanto o Geovisual Analytics facilita a exploração de informação espácio-temporal, através de mapas com diferentes variáveis e parâmetros em análise. Atualmente os pontos negros apresentam-se restritos a janelas fixas anuais, mas a aplicação de técnicas de Visual Analytics permitiu identificar no espaço, e no tempo, o deslocamento de pontos negros de janelas temporais de 12 meses, descartados em janelas temporais de anos civis. A utilização de diferentes parametrizações na identificação de pontos negros permitiu ainda identificar locais que estão próximos de se tornar em pontos negros. Através das visualizações criadas acredita-se que o estudo e a identificação de contramedidas para este flagelo social e económico possa ganhar novos fundamentos e que assim o processo de tomada de decisão seja suportado e melhorado.

Para além do estudo dos pontos negros, e da sua evolução, este trabalho focou ainda o estudo da transferência de tráfego entre a A23 e as suas vias alternativas com a introdução de portagens nas ex-SCUTS. Deste estudo resultou a proposta de uma metodologia para problemas do género.

(10)
(11)

A

BSTRACT

Nowadays, road accidents are a major public health problem, their escalation is forecasted if road safety is not treated properly, dying about 1.2 million people every year globally. In 2012, Portugal recorded 573 fatalities, on local, in road accidents, revealing the largest percentage drop of the European Union for 2011, along with Denmark, although still above average. Beyond the impact caused by fatalities, it was calculated that the economic and social cost of road accidents weighed about 1.17% of the Portuguese GDP in 2010.

In this dissertation project, in partnership with the Portuguese Road Safety Authority, the emphasis is on using Visual Analyics techniques to support exploration of spatio-temporal information of road accidents in Portugal, and so detect and characterize the geographical space accumulation zones of accidents and black spots. For this is expected to identify black spots for different parameterizations and black spots on sliding windows of 12 months, and still expected iterative analysis involving road accidents and statistics from the National Statistical Institute. Visual Analytics allows the combination of data analysis techniques with interactive visualizations, which facilitates the process of knowledge discovery in sets of large and complex data, while the Geovisual Analytics facilitates the exploration of space-time information through maps with different variables and parameters in analysis.

Currently the black spots have been restricted to annual fixed windows, but the application of Visual Analytics techniques identified in space and time, the displacement of black spots on sliding windows of 12 months, disposed in fixed annual time windows. The use of different parameterization in the identification of black spots still possible to identify locations that are close to becoming black spots. Through the created visualizations it is believed that the study and identification of countermeasures to this social and economic scourge can gain new grounds and thus the decision-making process is supported and improved.

In addition to the study of black spots, and its evolution, this work also focused on the study of traffic transfer between the motorway A23 and its alternative routes, with the introduction of tolls on former SCUTS (highways free of charge). This study resulted in the proposal of a methodology for gender issues.

(12)
(13)

C

ONTEÚDO

Agradecimentos ... vii Resumo... ix Abstract... xi Conteúdo ... xiii Lista de Figuras ... xv

Lista de Tabelas ... xxi

Lista de Abreviaturas, Siglas e Acrónimos ... xxiii

1. Introdução ... 1

1.1 Enquadramento ... 1

1.2 Motivação ... 5

1.3 Finalidade e Objetivos ... 9

1.4 Estrutura da Dissertação ... 10

2. Enquadramento Conceptual e Tecnológico ... 13

2.1 Necessidade de Adoção de Metodologias ... 13

2.2 Estratégia de Pesquisa Bibliográfica ... 15

2.3 Visual Analytics ... 16

2.4 Tecnologias Consideradas ... 57

3. Compreensão dos dados e Caracterização da sinistralidade rodoviária ... 59

3.1 Compreensão do Negócio... 59

3.2 Compreensão dos Dados ... 61

3.3 Preparação dos Dados ... 84

3.4 Caracterização da Sinistralidade Rodoviária ... 95

4. Transferência de tráfego entre vias: proposta de metodologia e respetiva aplicação ... 109

4.1 Motivação e enquadramento ... 109

4.2 Proposta de metodologia ... 111

4.3 Caracterização e compreensão de dados ... 114

4.4 Preparação de dados ... 116

4.5 Definição da estratégia de análise ... 118

(14)

4.7 Análise das consequências ... 125

5. Pontos Negros: identificação, caracterização e análise dinâmica ... 133

5.1 Motivação e enquadramento ... 133

5.2 Processo de identificação de pontos negros ... 135

5.3 Pontos negros identificados ... 136

5.4 Geovisualização dos pontos negros ... 137

5.5 Deteção Dinâmica de Pontos Negros ... 147

5.6 Resultados obtidos ... 156

6. Conclusões ... 161

6.1 Síntese e Contribuições ... 161

6.2 Trabalho futuro ... 167

Referências Bibliográficas ... 169

Referências Web Complementares ... 177

Anexos ... 179

Anexo A – Metodologia CRISP-DM ... 179

Anexo B – Esquema da Base de Dados ... 193

Anexo C – Descrição dos Atributos ... 194

Anexo D – Relatórios de Qualidade dos Dados... 202

Anexo E – Dados Estatísticos do INE ... 203

Anexo F – Feriados de Portugal (2007-2013) ... 204

Anexo G – Scripts e Guiões da Preparação dos Dados ... 205

Anexo H – Shapefiles de Portugal ... 206

Anexo I – Entregáveis do Estudo da Transferência de Tráfego na A23 ... 207

Anexo J – Visual Analytics dos Mapas Temáticos ... 208

Anexo K – Visual Analytics dos Pontos Negros ... 209

(15)

L

ISTA DE

F

IGURAS

Figura 1. Comparação entre as 10 principais causas de morte em grupos económicos de países, em

2011 (World Health Organization, 2013b) ... 5

Figura 2. Fatalidades por milhão de habitantes nos membros da União Europeia e Croácia (European Comission, 2013b) ... 7

Figura 3. Evolução dos Pontos Negros 2011-2012 ... 8

Figura 4. Estrutura Hierárquica do CRISP-DM (adaptado de Wirth & Hipp, 2000) ... 14

Figura 5. Fases da metodologia CRISP-DM (Santos & Ramos, 2009) ... 15

Figura 6. Integração de métodos de Visual Analytics e automática de dados com tecnologias de base de dados para uma tomada de decisão interativa e escalável (Keim et al., 2008) ... 17

Figura 7. Disciplinas científicas que o Visual Analytics integra de modo a melhorar a divisão do trabalho entre humanos e máquinas (Keim et al., 2008) ... 18

Figura 8. Relacionamento entre as áreas de Investigação de suporte ao Visual Analytics (Keim et al., 2008) ... 20

Figura 9. Ilustração técnica de um Nissan NSX (Krüger et al., 2006) ... 25

Figura 10. Valor final do preço das ações de uma série temporal (Dow Jones, 2012)... 36

Figura 11. Parâmetros da espiral (Tominski & Schumann, 2008) ... 37

Figura 12. Representação espiral utilizando codificação de 27 e 28 dias, respetivamente (Aigner et al., 2008) ... 38

Figura 13. Interface do utilizador de uma ferramenta de construção de Espirais Temporais (Aigner et al., 2008) ... 38

Figura 14. Construção de um horizon graph (adaptado de Javed et al., 2010) ... 39

Figura 15. Variáveis visuais definidas (adaptado de Bertin, 1983) ... 40

Figura 16. Choropleth Map das vítimas mortais em acidentes rodoviários em Portugal entre 1996 e 2013 ... 41

Figura 17. Distribuição geográfica dos acidentes com vítimas mortais entre 2007 e 2012, em Portugal ... 42

Figura 18. Change map representativo da variação da população estados dos Estados Unidos da América, entre 1950-2000 (United States Census Bureau, 2012) ... 43 Figura 19. Exemplo de um chart map aplicado sobre os estados do Canadá em 2003, 2004 e 2005 43

(16)

Figura 20. Sequência de mapas apresentando a quantidade de acidentes em cada estação

meteorológica de 2012 ... 44

Figura 21. Visualização com o traçado das tendências sobrepostos (Robertson et al., 2008) ... 46

Figura 22. Pequenas múltiplas visualizações das tendências de cada país (Robertson et al., 2008) ... 46

Figura 23. Exemplo de Growth Ring Map com diferentes padrões de comportamento (Bak et al., 2009) ... 46

Figura 24. Fragmento de um Growth Ring Map apresentando uma distribuição espácio-temporal de fotos do Flickr tiradas na Suíça (Andrienko et al., 2011a) ... 47

Figura 25. Cubo espácio-temporal aplicado ao mapa Minard da campanha russa de Napoleão (Faculty of Geo-Information Science and Earth Observation, 2003) ... 49

Figura 26. Visualização de distribuições de acidentes relacionados com álcool nos condados do North Carolina, entre 1980 e 2005 (Thakur & Hanson, 2010) ... 50

Figura 27. Cubo espácio-temporal com quatro camadas temporais selecionadas (Faculty of Geo-Information Science and Earth Observation, 2003) ... 51

Figura 28. Visualização de trajetórias 2D e 3D coloridas com base na velocidade de circulação em San Francisco (Tominski et al, 2012) ... 52

Figura 29. Agregação de trajetórias espácio-temporais (Andrienko et al., 2010). Em cima: trajetórias por pontos dos cargueiros durante 1 dia. Em baixo: densidade do movimento dos cargueiros utilizando uma técnica de renderização do volume. ... 52

Figura 30. Frequência relativa do número de acidentes anual ... 63

Figura 31. Frequência relativa do número de acidentes por distrito ... 64

Figura 32. Frequência relativa do número de acidentes por tipo de via ... 66

Figura 33. Frequência relativa do número de acidentes por fator atmosférico ... 68

Figura 34. Distribuição do número de acidentes pela sua natureza ... 68

Figura 35. Frequência relativa do número de acidentes anual ... 73

Figura 36. Frequência relativa do número de acidentes por distrito ... 74

Figura 37. Frequência relativa do número de acidentes por tipo de via ... 75

Figura 38. Frequência relativa do número de acidentes por fator atmosférico ... 77

Figura 39. Distribuição do número de acidentes pela sua natureza ... 77

Figura 40. Distribuição da população presente e residente, por região ... 82

Figura 41. Taxa de população ativa, por região ... 82

(17)

Figura 43. Distribuição da população por setor de economia e região ... 83

Figura 44. Esquema da Preparação de Dados ... 84

Figura 45. Relações entre os polígonos e os registos de acidentes e dados estatísticos, no Tableau ... 97

Figura 46. Dashboard Mapa das Consequências (3 Níveis) (1) ... 100

Figura 47. Dashboard Mapa das Consequências (3 Níveis) (2) ... 101

Figura 48. Dashboard Comparação Mapas das Consequências e dos Rácios ... 102

Figura 49. Dashboard Mapa dos Feridos Ligeiros e Graves, e Vítimas Mortais ... 102

Figura 50. Dashboard Mapa e Timeline dos Acidentes ... 103

Figura 51. Dashboard Diferença das Consequências Humanas e Acidentes (1) ... 104

Figura 52. Dashboard Diferença das Consequências Materiais (1) ... 104

Figura 53. Dashboard Diferença das Consequências Humanas e Acidentes (2) ... 105

Figura 54. Dashboard Diferença das Consequências Materiais (2) ... 105

Figura 55. Dashboard Quantidade de Acidentes por Feriado (e ano) ... 106

Figura 56. Dashboard Condições de Aderência da Via e Fator Atmosférico ... 107

Figura 57. Dashboard Consequências Humanas e Materiais (Ano, Via, Concelho e Distrito) ... 107

Figura 58. Mapa estilizado da A23 ... 111

Figura 59. Fases da metodologia proposta ... 112

Figura 60. Processo de deteção da quilometragem dos lanços da A23 ... 117

Figura 61. Tráfego ao longo do tempo, nos lanços da A23 ... 119

Figura 62. Apresentação dos lanços com picos e quedas de tráfego ... 120

Figura 63. Tráfego médio mensal dos lanços, por período temporal ... 120

Figura 64. Tráfego médio mensal dos períodos temporais, por troços ... 121

Figura 65. Explicação do termo lanços consecutivos ... 121

Figura 66. Diferenças de tráfego entre lanços consecutivos ... 122

Figura 67. Média da variação relativa de tráfego entre lanços consecutivos... 123

Figura 68. Diferença (antes-depois) da média da variação relativa de tráfego entre lanços consecutivos ... 124

Figura 69. Dashboard com informação do número de acidentes, consequências humanas, entre outros, dos lanços e troços, ao longo dos meses dos diferentes períodos temporais ... 124

Figura 70. Gráfico acumulado dos acidentes da A23, entre Jan-Out de 2011 e 2012... 125

Figura 71. Gráfico acumulado dos feridos ligeiros da A23, entre Jan-Out de 2011 e 2012 ... 125

(18)

Figura 73. Gráfico acumulado das vítimas mortais da A23, entre Jan-Out de 2011 e 2012 ... 126

Figura 74. Gráfico acumulado do somatório do Indicador de Gravidade dos acidentes da A23, entre Jan-Out de 2011 e 2012 ... 126

Figura 75. Gráfico acumulado dos acidentes das vias alternativas, entre Jan-Out de 2011 e 2012 ... 127

Figura 76. Gráfico acumulado dos feridos ligeiros das vias alternativas, entre Jan-Out de 2011 e 2012 ... 127

Figura 77. Gráfico acumulado dos feridos graves das vias alternativas, entre Jan-Out de 2011 e 2012 ... 127

Figura 78. Gráfico acumulado das vítimas mortais das vias alternativas, entre Jan-Out de 2011 e 2012 ... 127

Figura 79. Gráfico acumulado do somatório do Indicador de Gravidade dos acidentes das vias alternativas, entre Jan-Out de 2011 e 2012 ... 127

Figura 80. Gráfico acumulado dos acidentes da A23 com as vias alternativas, entre Jan-Out de 2011 e 2012 ... 128

Figura 81. Gráfico acumulado dos feridos ligeiros da A23 com as vias alternativas, entre Jan-Out de 2011 e 2012 ... 128

Figura 82. Gráfico acumulado dos feridos graves da A23 com as vias alternativas, entre Jan-Out de 2011 e 2012 ... 128

Figura 83. Gráfico acumulado das vítimas mortais da A23 com as vias alternativas, entre Jan-Out de 2011 e 2012 ... 128

Figura 84. Gráfico acumulado do somatório do Indicador de Gravidade dos acidentes das vias alternativas, entre Jan-Out de 2011 e 2012 ... 128

Figura 85. Comparação das relações entre o número de acidentes e o número de feridos ligeiros e indicadores de gravidade, da A23 e Agregado ... 130

Figura 86. Comparação das relações entre o número de acidentes e o número de feridos ligeiros e indicadores de gravidade, das vias alternativas e Agregado ... 131

Figura 87. Dashboard Mapa dos Pontos Negros – Janela Temporal Fixa (1) ... 141

Figura 88. Integração mapa estático do Google Maps, com recurso às coordenadas geográficas dos pontos negros ... 141

Figura 89. Dashboard Mapa dos Pontos Negros – Janela Temporal Fixa (2) ... 142

Figura 90. Dashboard Mapa dos Pontos Negros – Janela Temporal Fixa (3) ... 142

(19)

Figura 92. Dashboard Comparar Parametrizações – Janela Temporal Fixa (1) ... 144

Figura 93. Dashboard Comparar Parametrizações – Janela Temporal Fixa (2) ... 144

Figura 94. Dashboard Estatísticas dos Pontos Negros – Janela Temporal Fixa ... 145

Figura 95. Dashboard Acidentes dos Pontos Negros – Janela Temporal Fixa ... 145

Figura 96. Dashboard Estatísticas dos Acidentes I – Janela Temporal Fixa ... 146

Figura 97. Dashboard Estatísticas dos Acidentes II – Janela Temporal Fixa ... 146

Figura 98. Dashboard Distribuição Mensal dos Acidentes - Janela Temporal Fixa ... 147

Figura 99. Dashboard Pontos Negros por Parâmetros - Janela Temporal Fixa ... 150

Figura 100. Dashboard Pontos Negros Contidos - Janela Temporal Fixa ... 151

Figura 101. Dashboard Acidentes Partilhados pelos Pontos Negros- Janela Temporal Fixa ... 151

Figura 102. Dashboard Mapa dos Pontos Negros - Janela Temporal Deslizante ... 152

Figura 103. Dashboard Mapa Portugal & Lisboa & Porto – Janela Temporal Deslizante ... 153

Figura 104. Dashboard Comparações de Janelas Deslizantes - Janela Temporal Deslizante ... 154

Figura 105. Dashboard Estatísticas dos Pontos Negros - Janela Temporal Deslizante ... 155

Figura 106. Dashboard Distribuição Mensal dos Acidentes - Janela Temporal Deslizante ... 155

Figura 107. Comparação entre pontos negros de diferentes parametrizações ... 157

Figura 108. Comparação do deslocamento de pontos negros entre duas iterações consecutivas ... 160

Figura 109 - Metodologia CRISP-DM: Compreensão do Negócio (Santos & Ramos, 2009) ... 180

Figura 110. Metodologia CRISP-DM: Compreensão dos Dados (Santos & Ramos, 2009)... 183

Figura 111. Metodologia CRISP-DM: Preparação dos Dados (Santos & Ramos, 2009) ... 185

Figura 112. Metodologia CRISP-DM: Modelação (Santos & Ramos, 2009) ... 187

Figura 113. Metodologia CRISP-DM: Avaliação (Santos & Ramos, 2009) ... 189

(20)
(21)

L

ISTA DE

T

ABELAS

Tabela 1. Recursos de Hardware ... 60

Tabela 2. Distribuição do número de acidentes por ano ... 63

Tabela 3. Distribuição do número de acidentes por mês ... 64

Tabela 4. Distribuição do número de acidentes por distrito ... 65

Tabela 5. Distribuição do número de acidentes por tipo de via ... 65

Tabela 6. Distribuição do número de acidentes por estado de conservação da via ... 67

Tabela 7. Distribuição do número de acidentes pela condição de aderência da via ... 67

Tabela 8. Atributos com valores inválidos ... 70

Tabela 9. Distribuição do número de acidentes por ano ... 72

Tabela 10. Distribuição do número de acidentes por mês... 73

Tabela 11. Distribuição do número de acidentes por distrito ... 74

Tabela 12. Distribuição do número de acidentes por tipo de via (corrigido) ... 75

Tabela 13. Distribuição do número de acidentes por estado de conservação da via ... 76

Tabela 14. Distribuição do número de acidentes pela condição de aderência da via ... 76

Tabela 15. Atributos com valores inválidos ... 79

Tabela 16. Parâmetros da story Mapas Temáticos ... 98

Tabela 17. Campos Calculados da story Mapas Temáticos (fonte Acidentes Rodoviários e Dados Estatísticos) ... 98

Tabela 18. Combinação de Atributos da story Mapas Temáticos ... 99

Tabela 19. Taxas de portagem da A23 ... 115

Tabela 20. Quilometragens das vias consideradas para a identificação de pontos negros ... 136

Tabela 21. Número de pontos negros identificados pelo processo e pela ANSR, de 2010 a 2012 .... 137

Tabela 22. Parâmetros da story Pontos Negros Janelas Fixas ... 139

Tabela 23. Campos Calculados da story Pontos Negros Janelas Fixas ... 139

Tabela 24. Combinação de Atributos da story Pontos Negros Janelas Fixas ... 139

Tabela 25. Parâmetros da story Pontos Negros Janelas Deslizantes ... 140

Tabela 26. Campos Calculados da story Pontos Negros Janelas Deslizantes ... 140

Tabela 27. Quantidade de pontos negros identificados pelos diferentes ensaios ... 148

Tabela 28. Descrição dos atributos da tabela BEAV_ACIDENTE ... 194

(22)

Tabela 30. Descrição dos atributos da tabela Densidade Populacional ... 199 Tabela 31. Descrição dos atributos da tabela Idade Média da População Residente ... 199 Tabela 32. Descrição dos atributos da tabela População Residente Desempregada ... 199 Tabela 33. Descrição dos atributos da tabela População Residente Economicamente Ativa e Empregada ... 199 Tabela 34. Descrição dos atributos da tabela População Residente por Faixa Etária ... 200 Tabela 35. Descrição dos atributos da tabela População Residente Presente ... 200 Tabela 36. Feriados de Portugal entre 2007 e 2013 ... 204

(23)

L

ISTA DE

A

BREVIATURAS

,

S

IGLAS E

A

CRÓNIMOS

ANSR – Autoridade Nacional de Segurança Rodoviária BEAV – Boletim Estatístico de Acidentes de Viação

CRISP-DM – Cross-Industry Standard Process for Data Mining DCBD – Descoberta de Conhecimento em Base de Dados DGV – Direção-Geral de Viação

FCT-UNL – Faculdade de Ciências e Tecnologia da Universidade Nova de Lisboa GISc – Geographic Information Science

GISs – Geographic Information Systems GNR – Guarda Nacional Republicana

IMT - Instituto da Mobilidade e dos Transportes INE – Instituto Nacional de Estatística

OMS – Organização Mundial de Saúde PSP – Polícia de Segurança Pública RNA – Redes Neuronais Artificiais SIG – Sistema de Informação Geográfica SIG – Sistemas de Informações Geográficas TMDA – Tráfego Médio Diário Anual

TMDM – Tráfego Médio Diário Mensal UE – União Europeia

(24)
(25)

C

APÍTULO

1

1.

I

NTRODUÇÃO

Neste capítulo introdutório é feito um enquadramento sobre a temática a abordar e descrita a motivação para a realização da dissertação. De seguida são descritos os objetivos e o contributo que se pretende dar com o trabalho. Conclui-se o capítulo com uma breve descrição de cada capítulo.

1.1 Enquadramento

Estamos a viver num mundo que enfrenta uma quantidade cada vez maior de dados que precisam de ser processados e tratados diariamente, uma vez que praticamente todas as áreas económicas, sociais, científicas, industriais, etc., e qualquer atividade política ou pessoal geram grandes quantidades de dados, tendo como base a ideia de que grandes volumes de dados podem ser fonte de conhecimento, contido de uma forma implícita, e que pode ser extraído com a ajuda de técnicas apropriadas (Fayyad et al., 1996; Santos & Azevedo, 2005).

Com o aumento dos dispositivos de armazenamento, a criação e a recolha de dados influenciou o modo como lidamos com a informação. Atualmente, a aquisição de dados brutos não constitui um problema, mas sim a capacidade de identificação de métodos e modelos que possam transformar os dados em conhecimento confiável.

Como a capacidade de recolha e armazenamento de dados aumenta a um ritmo superior ao da nossa capacidade de tomar decisões com base nos dados recolhidos, na maioria das vezes, os dados são armazenados sem lhes ser dedicada a atenção necessária ao seu processamento (filtragem, refinamento, etc.), com vista ao posterior uso que poderão ter (Andrienko et al., 2010). Pior ainda é que para um grande número de aplicações os dados brutos não têm valor per si, sendo necessário extrair informação neles contidas.

É importante realçar que aos dados estão sempre associados a custos de criação, aquisição, armazenamento e manutenção (Andrienko et al., 2010), não esquecendo também o tempo despendido nestas tarefas, pelo que quanto menor for a sua taxa de aproveitamento, menos eficiente e eficaz é a sua gestão.

(26)

O excesso de informação tem associado a si o perigo de nos desfocarmos do propósito que queremos alcançar (Andrienko et al., 2010), podendo os dados serem irrelevantes para a tarefa a executar, ou terem sido processados e/ou apresentados de modo inadequado.

Com o aumento da competitividade dos mercados e do aumento da concorrência a nível global, em muitas áreas de aplicação, o sucesso depende da informação certa estar disponível no momento certo. Segundo Andrienko et al., (2010), o excesso de informação além de apresentar custos, muitas das vezes avultados, pode também implicar o desaproveitamento de oportunidades científicas e industriais, devido à falta de capacidade em lidar com enormes volumes de dados.

Além da quantidade de dados, estes provêm muitas vezes de diferentes fontes o que levanta problemas de integração e homogeneização dos mesmos.

A Altran Portugal propôs o tema desta Dissertação, na qual se pretende detetar e caracterizar no espaço geográfico os padrões associados aos pontos negros de acidentes rodoviários em Portugal, e estudar as consequências de transferência de tráfego entre vias principais e alternativas, submetendo um pedido junto da Autoridade Nacional de Segurança Rodoviária (ANSR), para que pudesse utilizar o seu conjunto de dados reais.

1.1.1 Autoridade Nacional da Segurança Rodoviária

De acordo com a Organização Mundial de Saúde (OMS) e o Banco Mundial (BM) (Peden et al., 2004), os acidentes de trânsito constituem uma grande crise de saúde pública e de desenvolvimento, estando previsto o seu agravamento se a segurança rodoviária não for tratada de forma adequada pelos Estados-Membros. Por isso, a sinistralidade rodoviária é um fenómeno cada vez mais importante em Portugal ou em qualquer outro país. Embora as condições atmosféricas e as infraestruturas rodoviárias sejam um fator importante na ocorrência de acidentes existem outros fatores que podem influenciar este acontecimento, como o civismo rodoviário dos condutores. Assim, o fenómeno da sinistralidade rodoviária é um problema que afeta toda a sociedade em geral e que depende da postura pró-ativa de cada cidadão na sua mitigação (Donário & Santos, 2012).

No combate à sinistralidade rodoviária, o Ministério da Administração Interna (MAI) criou um serviço central (departamento) da administração direta do Estado, dotado de autonomia administrativa, que concentra em si as atribuições respeitantes às políticas de prevenção e segurança rodoviária e de processamento contraordenacional, a ANSR, que concentra as atribuições da extinta Direção-Geral de Viação (DGV), assim como as dos também extintos, Conselho Nacional de Segurança Rodoviária (CNSR) e Comissões Distritais de Segurança Rodoviária (CDSR) (Ministério da Administração Interna &

(27)

Autoridade Nacional de Segurança Rodoviária, 2011). A ANSR surge, dos pedidos e recomendações do relatório da OMS (Peden et al., 2004), como uma entidade coordenadora de todas as políticas de segurança rodoviária permitindo assim, que nela se concentre toda a coordenação estratégica do combate à sinistralidade, desde a conceção, processamento de contraordenações (após levantamento do auto pela entidade fiscalizadora), e supervisão da implementação das medidas de sensibilização, prevenção, fiscalização e dissuasão dos comportamentos que motivam em larga medida os acidentes rodoviários, para além do apoio a título consultivo. Estas entidades coordenadoras são apontadas como fator crítico de sucesso no combate à sinistralidade rodoviária por organismos internacionais como a Organização das Nações Unidas (ONU), a Organização Mundial de Saúde, o Banco Mundial e a Organização para a Cooperação e Desenvolvimento Económico (OCDE) (Peden et al., 2004).

A ANSR tem como missão “traçar o rumo da segurança rodoviária sustentável” e o “planeamento e coordenação a nível nacional de apoio à política do Governo em matéria de segurança rodoviária, bem como a aplicação do direito contraordenacional rodoviário” (ANSR, 2007). Tem ainda como ambição colocar Portugal, até 2015, no top 10 da Europa com menor taxa de sinistralidade rodoviária, ou seja, alcançar o valor de 62 mortos por milhão de habitantes, equivalente a uma redução de 31,9% (base 2006) (ANSR, 2009).

1.1.2 Grupo Altran

A Altran Portugal (Altran, 1999), criada em 1998, pertence à multinacional francesa Altran Group (Altran, 1998) que conta com mais de 30 anos de atividade, 20 000 colaboradores e atividade operacional em mais de 20 países. Atualmente a Altran Portugal tem mais de 500 colaboradores e está presente em vários setores de atividade como Financeiro, Telecomunicações & Media, Indústria, Utilities e Administração Pública.

A Altran Portugal desenvolveu um data warehouse (Han et al., 2012) para a ANSR e um conjunto de aplicações para o registo da informação de acidentes rodoviários (sempre que há intervenção das autoridades).

O data warehouse da ANSR contém informações diversas sobre acidentes rodoviários, como a caracterização do local do acidente, da via, da data e hora, dos veículos e pessoas envolvidas, as condições climatéricas e de luminosidade na altura do sinistro, entre outros. O levantamento e registo destas informações são feitos, em Portugal, pela Polícia de Segurança Pública (PSP) e pela Guarda Nacional Republicana (GNR). Desde 1 de Janeiro de 2004 que esse registo é feito através do atual

(28)

Boletim Estatístico de Acidentes de Viação (BEAV), sendo depois essa informação é adicionada à base de dados nacional de acidentes rodoviários.

Os métodos de aquisição de dados por parte da ANSR diferem atualmente, da PSP para a GNR. A PSP utiliza um sistema informático próprio, sem mapeamento para os campos do BEAV, em que são enviados dados todos os dias para a ANSR, sendo sujeitos a validação; a GNR regista manualmente os dados no BEAV, existindo depois um funcionário, na ANSR, que insere todos os dados no sistema. É do interesse da ANSR detetar e caracterizar, de um modo geoespacial, as zonas de acumulação de acidentes rodoviários e a sua evolução ao longo dos anos, através de visual analytics. Atualmente a ANSR identifica os pontos negros das vias, em Portugal. Um ponto negro é definido como um segmento de via com um máximo de 200 metros de extensão no qual se registaram, pelo menos, 5 acidentes com vítimas (feridos ligeiros, feridos graves ou vítimas mortais), no ano em análise, e cujo somatório dos indicadores de gravidade dos seus acidentes é superior a 20.

𝐼𝑛𝑑𝑖𝑐𝑎𝑑𝑜𝑟 𝐺𝑟𝑎𝑣𝑖𝑑𝑎𝑑𝑒 = 3 × 𝐹𝐿 + 10 × 𝐹𝐺 + 100 × 𝑉𝑀  FL – Número de feridos ligeiros

 FG – Número de feridos graves  VM – Número de vítimas mortais

Devido ao elevado número de acidentes e de pontos negros que se registaram em 2012, embora em decréscimo (ANSR, 2013b), e como o estudo georreferenciado dos acidentes, a sua deteção e caracterização de é do interesse da ANSR, foi estabelecido um projeto entre a Universidade do Minho (UMinho), a Faculdade de Ciências e Tecnologia da Universidade Nova de Lisboa (FCT-UNL) e a Altran Portugal, através do lançamento de uma proposta de dissertação de mestrado em cada uma das universidades. Na FCT-UNL será feito o estudo do caso geral da sinistralidade rodoviária em Portugal, enquanto na UMinho estudar-se-á a componente geográfica a nível nacional.

1.1.3 Visual Analytics

Segundo Thomas & Cook (2005), Visual Analytics é a ciência do raciocínio analítico facilitado por interfaces visuais interativas. Combina técnicas de análise automatizadas com visualizações interativas para uma compreensão eficaz, raciocínio e tomada de decisão com base em conjuntos de dados espácio-temporais grandes e complexos. O Visual Analytics tem, assim, a capacidade de transformar o excesso de informação numa oportunidade, uma vez que tem como objetivo fazer com que o nosso

(29)

modo de processamento de dados e informações seja transparente a um discurso analítico, demonstrando a veracidade das conclusões (Andrienko et al., 2010), através de tendências e padrões. Os mapas são produtos indispensáveis de dados numéricos para visualizar ou analisar vários assuntos. De acordo com o tipo de leitor do mapa, ou do tema, diferentes mapas são produzidos para fins diferentes, e o uso de técnicas apropriadas de visualização permite a análise correta.

De modo a processar a quantidade vasta e heterogénea de dados recolhidos, é necessário implementar ferramentas automatizadas para análise de dados. No entanto, segundo Andrienko et al. (2010), estas ferramentas continuam a enfrentar um problema associado à compreensão e à “análise das nossas análises”, uma vez que quem programa e parametriza as ferramentas e os seus métodos, enviesa intrinsecamente as análises com conhecimentos adquiridos de análises previamente realizadas, o que faz com que os processos de tomada de decisão automatizados sejam complexos e imprecisos.

1.2 Motivação

Os acidentes rodoviários são um dos principais problemas de saúde pública global e requerem esforços concertados para uma prevenção eficaz e sustentável, embora o problema ainda seja descurado. De todos os sistemas que as pessoas têm de lidar diariamente, o transporte rodoviário é o mais complexo e perigoso. O número de vítimas mortais mundial em acidentes rodoviários aumentou entre 2000 e 2011 em 300 000 (World Health Organization, 2013b), encontrando-se atualmente em 1,3 milhões. A Figura 1 representa a distribuição de vítimas mortais, em cada 1 000, pelas 10 maiores causas de morte através das diferentes classificações de países quanto ao seu desenvolvimento económico, em 2011.

Figura 1. Comparação entre as 10 principais causas de morte em grupos económicos de países, em 2011 (World Health Organization, 2013b)

(30)

É notório o maior número de vítimas mortais provenientes de acidentes rodoviários em países em desenvolvimento (médio-baixo e médio-alto) em relação aos países desenvolvidos e subdesenvolvidos. No entanto, sem o aumento dos esforços e de novas iniciativas, o número total de vítimas mortais e feridos globais, em acidentes rodoviários, deverá aumentar em cerca de 65% entre 2000 e 2020, sendo que para os países em desenvolvimento ou subdesenvolvidos espera-se que as vítimas mortais aumentem até 80%. A maioria destas mortes estão atualmente entre pedestres, ciclistas e motociclistas (Peden et al., 2004).

A sinistralidade rodoviária é um fenómeno a ter em atenção, pois apresenta consequências económicas relevantes para o país, uma vez que segundo Donário & Santos (2012) o montante do custo económico e social dos acidentes rodoviários pesava, em 1996, cerca de 2,41% do Produto Interno Bruto (PIB) português, e em 2010 este valor foi cerca de 1,17%. Não obstante, o custo total para a sociedade, nesse período, cifrou-se em cerca de 37 549 milhões de euros, o que se tivermos em linha de conta o somatório dos PIBs de 1996 a 2010, constata-se que o valor que a sociedade “perdeu” com as vítimas mortais pesa cerca de 1,64% do total da riqueza gerada neste período. Verifica-se então que, no período de 1996 até 2010, o custo económico e social anual médio dos acidentes rodoviários em Portugal foi cerca de 2 500 milhões de euros, contemplando mortos e feridos graves e ligeiros.

Em 2010, o total dos custos económicos e sociais dos acidentes com vítimas mortais foi de aproximadamente 463 milhões de euros, enquanto os acidentes com feridos graves tiveram um custo de 268 milhões de euros e os acidentes com feridos ligeiros um custo de 1 159 milhões de euros. Com base nestes dados o custo médio, aproximado, por acidente com vítimas mortais é de cerca de 680 mil euros, tendo um acidente com feridos graves um custo médio de 125 mil euros e um acidente com feridos ligeiros 35 mil euros. No que respeita ao custo médio, aproximado, por vítima mortal é de cerca de 620 mil euros, tendo um ferido grave um custo médio de 103 mil euros e um ferido ligeiro 26 mil euros. O custo médio por vítima é de aproximadamente 40 mil euros (Donário & Santos, 2012). Mais grave do que o fator económico inerente aos acidentes é o número de vítimas mortais que deles resultam. Portugal detinha, em 1995, o maior número de vítimas mortais por milhão de habitantes, com 271 mortes, no entanto em 2012 o valor tinha descido para 68 mortes, mantendo-se mesmo assim acima da média da União Europeia (UE), de 55 mortes (European Comission, 2013a; 2013b) como se pode verificar na Figura 2.

(31)

Figura 2. Fatalidades por milhão de habitantes nos membros da União Europeia e Croácia (European Comission, 2013b)

A elevada taxa de sinistralidade rodoviária tem merecido uma atenção especial por parte das autoridades rodoviárias e instituições particulares, nomeadamente Instituto da Mobilidade e dos Transportes (IMT), Autoridade Nacional Segurança Rodoviária (ANSR), Direção Geral de Saúde (DGS), Guarda Nacional Republicana (GNR), Polícia de Segurança Pública (PSP), Automóvel Clube de Portugal (ACP), Prevenção Rodoviária Portuguesa (PRP), entre outros, tendo resultado em campanhas de prevenção mais punitivas (velocidade, condução com álcool e sem cinto de segurança, entre outras), e uma consequente ação policial mais forte; e embora na última década se tenham registado em Portugal melhorias significativas na redução da sinistralidade, há ainda muito a fazer até que se atinjam os níveis de segurança da circulação registados em diversos países da EU (European Comission, 2013a).

Esta atenção por parte das autoridades rodoviárias é influenciada pela Década da Ação para a Segurança Rodoviária (2011-2020) definida por governos de todo o mundo, e da qual Portugal faz parte (World Health Organization, 2013a). O objetivo desta década centra-se na estabilização e posterior redução da tendência no aumento do número de fatalidades devido a acidentes rodoviários, prevendo-se que sejam poupadas 5 milhões de vidas neste período.

Em 2011 os acidentes rodoviários ocupavam o 9º lugar na lista da principal causa de morte no mundo (World Health Organization, 2013b), em 2013 já ocupa o 8º lugar, sendo mesmo a principal causa de morte de jovens entre 15-29 anos (World Health Organization, 2013a). Embora o número de vítimas mortais, causadas por acidentes rodoviários não tenha aumentado entre 2010 e 2013, globalmente, continua a ser inaceitável o valor de 1,24 milhões de fatalidades (World Health Organization, 2013a). Segundo dados da União Europeia (World Health Organization, 2013b), em 2012, quase 28 000 pessoas foram vítimas mortais de acidentes rodoviários nas estradas da União Europeia, representando

(32)

um decréscimo de 9% face a 2011. A Dinamarca e Portugal registaram as maiores quedas de vítimas mortais por milhão de habitantes, entre 2011 e 2012. Em Portugal, em 2012, verificaram-se 573 vítimas mortais no local, apresentando um decréscimo de 16,8% face às 689 de 2011. Relativamente ao número de acidentes com vítimas, Portugal registou uma redução de 2 674 acidentes (passando de 32 541 para 29 867), entre 2011 e 2012, a que corresponde uma percentagem de 8,2% (ANSR, 2013b; European Comission, 2013b); European Comission, 2013b).

De acordo com a ANSR (2013b), em 2012, foram identificados em Portugal 33 pontos negros, onde se registaram 201 acidentes, 7 vítimas mortais, 11 feridos graves e 281 feridos ligeiros. Estes valores registam um decréscimo face aos 41 pontos negros identificados em 2012 (ANSR, 2012), de onde resultaram 256 acidentes, 3 vítimas mortais, 13 feridos graves e 367 feridos ligeiros, embora o número de vítimas mortais tenha registado um aumento, como se pode verificar na Figura 3.

Figura 3. Evolução dos Pontos Negros 2011-2012

Com base nos dados da ANSR (2013b), a deteção e caracterização dos pontos negros poderá desempenhar um papel mais relevante no estudo da sinistralidade rodoviária em Portugal, uma vez que em 2012, somente 0,67% (201/29 867) dos acidentes com vítimas ocorreram em pontos negros, o que pode indiciar a não adequabilidade da deteção de pontos negros. Assim, é importante aprofundar o estudo da deteção e caracterização de pontos negros, identificar correlações e descoberta de padrões entre os dados, de modo a contribuir para o estudo da sinistralidade rodoviária portuguesa. Neste estudo serão utilizados somente acidentes com consequências humanas (feridos ligeiros, feridos graves ou vítimas mortais), uma vez que os acidentes só com danos materiais não são úteis para o estudo dos pontos negros e das consequências da transferência de tráfego entre vias principais e vias alternativas, uma vez que não apresentam consequências humanas.

(33)

1.3 Finalidade e Objetivos

No âmbito desta dissertação procura-se detetar e caracterizar, no espaço, as zonas de acumulação de acidentes rodoviários em Portugal Continental, com base nos registos de sinistralidade rodoviária, resultantes do preenchimento do BEAV.

Para dar cumprimento à finalidade deste projeto de dissertação, foram definidos dois objetivos gerais para a sua concretização, nomeadamente:

 Detetar e caracterizar no espaço geográfico os padrões associados aos pontos negros de acidentes rodoviários, com base em técnicas de geovisualização analítica sobre os dados da ANSR, caracterizando, também, a sinistralidade rodoviária em Portugal e a sua evolução ao longo dos anos;

 Analisar, de forma georreferenciada, padrões de acumulação de acidentes rodoviários e respetivos fatores de influência, no que diz respeito à transferência de tráfego entre vias. Para se conseguir atingir os objetivos propostos é necessário concretizar um conjunto de tarefas, tais como:

 Revisão da literatura sobre os conceitos teóricos de Visual Analytics, Geovisual Analytics, entre outros e sobre a temática da sinistralidade rodoviária, com foco em Portugal;

 Compreensão dos dados, consistindo na descrição, exploração e verificação da qualidade dos dados fornecidos pela ANSR;

 Preparação dos dados, consistindo na seleção e processamento (limpeza, construção, integração e formatação) dos dados fornecidos pela ANSR;

 Proposta de metodologia para o estudo das consequências humanas e materiais (e.g., acidentes rodoviários), resultantes da transferência de tráfego entre vias principais e vias alternativas;

 Caracterização e análise dinâmica dos pontos negros, através de janelas espácio-temporais

deslizantes (12 meses), e utilização de diferentes parametrizações no processo de identificação de pontos negros.

Com a elaboração desta dissertação espera-se a disponibilização de ferramentas de Visual Analytics que proporcionem à ANSR novos insights sobre a sinistralidade rodoviária em Portugal, através da disponibilização de vários dashboards de exploração e análise interativa da informação associada à sinistralidade rodoviária.

(34)

1.4 Estrutura da Dissertação

Na elaboração do presente documento, que relata todo o trabalho desenvolvido no âmbito da dissertação, procurou-se adotar uma escrita simples e fundamentada. Ainda neste âmbito, é importante salientar que o documento foi escrito tendo como base o novo acordo ortográfico que entrou em vigor em Janeiro de 2009, em Portugal, e que a estrutura adotada respeita o guia de dissertação disponibilizado pela coordenação do Mestrado Integrado em Engenharia e Gestão de Sistemas de Informação.

Assim, este documento encontra-se estruturado em seis capítulos:

 Capítulo 1: O presente capítulo tem como principal objetivo contextualizar e enquadrar a dissertação na área em estudo, descrevendo a sua principal finalidade e os objetivos para a sua realização.

 Capítulo 2: O capítulo dois descreve a necessidade de adoção de metodologias, é explicada a estratégia de pesquisa bibliográfica e evidencia a revisão de literatura efetuada no âmbito do projeto, fazendo referência aos conceitos mais relevantes do Visual Analytics. É apresentado também o enquadramento tecnológico do projeto.

 Capítulo 3: No capítulo três é descrita a compreensão do negócio, a compreensão (descrição, exploração e verificação da qualidade) dos dados, as preparações (seleção, limpeza, construção, integração e formatação) que foram realizadas sobre os dados, a descrição do processo de importação dos dados para a ferramenta analítica, concluindo com a apresentação das visualizações analíticas construídas para a caracterização da sinistralidade rodoviária e as principais conclusões delas extraídas.

 Capítulo 4: No capítulo quatro é descrita uma proposta de metodologia para o estudo de transferência de tráfego entre vias, e é apresentada a respetiva aplicação sobre o desvio de tráfego da autoestrada A23 para as suas vias alternativas.

 Capítulo 5: O capítulo cinco foca-se no estudo geovisual dos pontos negros, apresentando também uma proposta de deteção dinâmica de pontos negros, através da manipulação de parametrizações para a sua identificação e da utilização de janelas temporais deslizantes de 12 meses.

 Capítulo 6: Por último, o capítulo seis apresenta as conclusões e resultados do trabalho realizado, evidenciando as dificuldades sentidas no seu desenvolvimento e fazendo uma referência ao trabalho futuro proposto.

(35)

Para além dos seis capítulos enunciados, este documento faz referência a um conjunto de anexos que complementam o trabalho desenvolvido e às referências bibliográficas utilizadas para a sua concretização.

(36)
(37)

C

APÍTULO

2

2.

E

NQUADRAMENTO

C

ONCEPTUAL E

T

ECNOLÓGICO

Neste capítulo é apresentada a abordagem metodológica adotada para o projeto e o seu estado da arte. Numa primeira fase é referida a importância para a necessidade de adoção de metodologias em projetos de natureza científica, e descrita a metodologia Cross-Industry Standard Process for Data Mining (CRISP-DM) utilizada para a compreensão, preparação e avaliação da qualidade dos dados. O estado da arte do Visual Analytics encontra-se dividido pelos seus princípios e componentes, dimensões de análise, técnicas de visualização utilizadas e, por último, os desafios e oportunidades que ele coloca.

Por fim é apresentado o enquadramento tecnológico do projeto, com a explicação das tecnologias e ferramentas consideradas, e utilizadas, para o desenvolvimento do projeto.

2.1 Necessidade de Adoção de Metodologias

Um método representa o “meio, procedimento ou técnica utilizada para realizar um processo de uma forma lógica, ordenada e sistemática”. De acordo com os autores Berndtsson et al. (2008), um dos objetivos de um projeto de dissertação é “obter capacitação na utilização de um método científico, o qual pode ser aplicado durante a estruturação e resolução de problemas mais complexos”.

Sendo este um projeto de natureza científica, surge a necessidade de recorrer a abordagens de investigação metodológicas que sustentem e deem crédito a todo o trabalho realizado, sendo para isso elaborada uma estratégia de pesquisa bibliográfica bem definida e descrita, de modo a que os resultados de cada passo sejam facilmente compreendidos e que cada passo esteja devidamente interligado com o seguinte.

Para a condução do processo de compreensão, preparação e avaliação da qualidade dos dados foi escolhida a metodologia CRISP-DM, uma vez que embora não sendo este um projeto de data mining, as suas fases de compreensão e preparação dos dados são apropriadas ao desenvolvimento deste projeto.

(38)

A metodologia CRISP-DM é baseada em tentativas anteriores para definir metodologias de descoberta de conhecimento (Chapman et al., 2000; IBM, 2011; Wirth & Hipp, 2000). A metodologia CRISP-DM permite conduzir o analista através de todo o processo de data mining, de um modo orientado e bem definido, sendo por isso considerada um guia de utilizador devido à descrição detalhada das tarefas a executar em cada fase, as relações entre elas e os resultados esperados pela concretização das mesmas, fornecendo uma visão geral do seu ciclo de vida (Wirth & Hipp, 2000; Santos & Ramos, 2009). Foi desenvolvida por um consórcio de empresas, em 1996, motivado pelo mercado de data mining e pela necessidade de um processo padronizado (Chapman et al., 2000).

Em termos hierárquicos é composta por quatro níveis de abstração (do geral para o específico): fases, tarefas genéricas, tarefas especializadas e instâncias do processo (ver Figura 4).

Fases Tarefas Genéricas Tarefas Especializadas Instâncias do Processo Contexto

Figura 4. Estrutura Hierárquica do CRISP-DM (adaptado de Wirth & Hipp, 2000)

As seis fases da metodologia são iterativas, não tendo uma sequência fixa, dependendo do desempenho das outras fases ou das tarefas de uma determinada fase (ver Figura 5) (Chapman et al., 2000; IBM, 2011; Santos & Azevedo, 2005; Santos & Ramos, 2009). São elas a Compreensão do Negócio, Compreensão dos Dados, Preparação dos Dados, Modelação, Avaliação e Desenvolvimento. Nesta dissertação foram seguidas somente as fases de Compreensão do Negócio, Compreensão dos

(39)

Dados e Preparação dos Dados, uma vez que não foi feito data mining sobre os dados. No Anexo A – Metodologia CRISP-DM estão descritas todas as tarefas que compõe cada uma das seis fases do CRISP-DM. Compreensão do Negócio Compreensão dos Dados Preparação dos Dados Modelação Avaliação Desenvolvimento Dados

Figura 5. Fases da metodologia CRISP-DM (Santos & Ramos, 2009)

2.2 Estratégia de Pesquisa Bibliográfica

“The use of a systematic method is the soul of research” (Berndtsson et al., 2008)

A estratégia de pesquisa bibliográfica assentou sobre a definição dos conceitos-chave relacionados com a temática da Dissertação. No entanto, antes de se definirem os conceitos-chave, foi pedido à orientadora indicações de referências bibliográficas e referências para conceitos. Este pedido resultou na obtenção das seguintes referências: Andrienko et al., (2010); Berry & Linoff, (1999; Edsall et al., (1995); Han et al., (2012); Keim et al., (2008); Lavrač et al., (2008); Witten et al., (2011).

Uma vez que a maior parte da literatura da temática se encontra em inglês, os termos utilizados para a pesquisa foram: Visual Analytics, Geovisual Analytics, Geospatial Analytics, Thematic Maps, Geovisualization e Data Quality. No entanto os termos também foram pesquisados em língua portuguesa: Análise Visual, Análise Geovisual, Análise Geoespacial, Mapas Temáticos, Geovisualização e Qualidade dos Dados.

A pesquisa destes conceitos, em inglês, centrou-se em artigos científicos procurados nas livrarias e repositórios online, pela seguinte ordem: IEEE Xplore , ScienceDirect, CiteSeerX e ACM Digital Library. A pesquisa nestes sites foi possível através da ligação VPN à rede da UMinho e graças aos protocolos que a Universidade tem com estas instituições.

(40)

Para a pesquisa dos conceitos em português foram utilizados a B-ON e os Repositórios da Universidade do Minho e Universidade Nova de Lisboa. Ainda foi utilizado o Google Scholar, sempre que um artigo específico não era encontrado nas livrarias e repositórios referidos. Foi definido como gestor de referências e documentos o Mendeley (Mendeley, 2008).

Estes conceitos-chave permitem elaborar uma contextualização do tema no âmbito da comunidade científica, sendo que a contextualização será ainda mais desenvolvida até à entrega da Dissertação, pois à medida que a Dissertação vai avançado será necessária a assimilação de novos conceitos e a sua contextualização.

Embora a pesquisa bibliográfica seja iniciada pela identificação dos principais conceitos da temática, também é importante identificar quais os autores mais influentes da área, quando já existir alguma sensibilidade em relação a ela.

Na primeira fase da pesquisa teve-se em consideração o título do artigo, o número de citações e o abstract, tendo relevância o ano da publicação do artigo. A leitura integral do artigo só era feita caso o abstract fosse interessante e relacionado com a temática.

Para efetuar o cruzamento de referências entre artigos foi criado um mapa em que um tópico correspondia a cada artigo lido na íntegra, e cada subtópico correspondia às referências interessantes do respetivo artigo. Após a leitura de vários artigos foi efetuada a ligação entre as referências que se repetiam entre os artigos, e sucessivamente foram lidos os abstracts dessas referências, fechando assim um processo iterativo.

2.3

Visual

Analytics

Visual Analytics é um termo relativamente recente, que tem vindo a ser utilizado desde 2005 com a publicação do livro “Iluminating the Path” (Thomas & Cook, 2005). É definido como “a ciência do raciocínio analítico facilitado por interfaces visuais interativas”.

Combina técnicas de análise automatizadas com visualizações interativas para uma compreensão, raciocínio e tomada de decisão eficaz com base em conjuntos de dados muito grandes e complexos (Keim et al., 2008), ou seja, concentra-se no raciocínio analítico facilitado por interfaces visuais interativas permitindo abordar problemas cuja dimensão, complexidade e necessidade de uma análise humana e tecnológica conjunta é requerida.

Segundo Keim et al. (2008) vai mais longe referindo que o Visual Analytics tem como objetivo central a criação de ferramentas e técnicas que permitam que as pessoas sintetizem as informações e consigam

(41)

obter uma perceção a partir de dados dinâmicos, ambíguos e muitas das vezes conflituosos. Como resultado desta perceção deverá ser detetada informação (ou padrões) previamente prevista e descobertas novas informações inesperadas, de modo a que seja possível realizar avaliações oportunas, compreensíveis (lógicas) e que possam ser comprovadas, através de comunicação facilitada das informações.

O Visual Analytics tem a capacidade de transformar o excesso de informação numa oportunidade de gerar conhecimento, uma vez que tem como objetivo fazer com que o nosso modo de processamento de dados e informações seja claro num discurso analítico, demonstrando a veracidade das conclusões, i.e., a visualização deste processo de exploração de informação vai proporcionar que o conhecimento vá sendo adquirido ao longo do processo, através da visualização, em vez de ser deixado exclusivamente para os resultados finais. Assim, promove a avaliação construtiva, a correção e melhoria rápida dos processos e modelos, promovendo a melhoria do conhecimento e das decisões (ver Figura 6). O raciocínio analítico torna-se central na tarefa do analista em aplicar julgamentos humanos para chegar a conclusões a partir de uma combinação de evidências e suposições (Thomas & Cook, 2005).

Figura 6. Integração de métodos de VisualAnalytics e automática de dados com tecnologias de base de dados para uma tomada de decisão interativa e escalável (Keim et al., 2008)

Segundo Andrienko et al. (2007), Andrienko et al. (2010) e Keim et al. (2008), as soluções de Visual Analytics fornecem a tecnologia que combina os pontos fortes do processamento de dados pelo ser humano e pela eletrónica (ver Figura 7), recorrendo a gráficos para atingir a visualização. A visualização

torna-se o meio de um processo de análise semi-automatizado, onde os seres humanos e as máquinas (computadores) cooperam conjugando as suas capacidades distintas para a obtenção de melhores resultados. No entanto a combinação da visualização com a análise computacional, e com a modelação não é suficiente para reforçar as capacidades dos humanos e dos computadores, sendo

(42)

necessário criar novos métodos através do cruzamento de investigações de diversas disciplinas, que serão enumeradas à frente.

Embora se conjuguem capacidades entre o utilizador e a máquina, o utilizador é a autoridade máxima que define a direção da análise ao longo da sua tarefa, de modo a ultrapassar a incapacidade do computador em incorporar conhecimentos e critérios intangíveis. O design das ferramentas e das técnicas deve ser baseado nos princípios cognitivos, de design e perceção. Ao mesmo tempo, o sistema tem de permitir a construção de um discurso analítico com o analista (Andrienko et al., 2007; Keim et al., 2008).

Esta abordagem permite que se melhore a qualidade das soluções geradas e que se reduza a largura e/ou profundidade da procura (e.g., descartar determinados atributos), e assim, permite poupar tempo de computação e esforço ao utilizador em examinar os modelos, que se tornam mais pequenos. A interação necessária entre humanos e máquinas exige ao Visual Analytics o desenvolvimento científico e tecnológico sobre o raciocínio analítico, interação, transformação dos dados e representações para a computação e visualização, bem como a elaboração de relatórios analíticos. O feedback que o utilizador recebe deve ser imediato e apresentado de forma apropriada.

Figura 7. Disciplinas científicas que o VisualAnalytics integra de modo a melhorar a divisão do trabalho entre humanos e máquinas (Keim et al., 2008)

Depois do seu surgimento (Thomas & Cook, 2005), foi feita uma tentativa de estabelecer o Visual Analytics como uma disciplina científica, para a consolidação da investigação relevante que tinha sido realizada no âmbito de diferentes disciplinas, e para dar novos estímulos ao seu desenvolvimento, onde consideraram como principais características da investigação (Andrienko et al., 2010):

 Destacar a análise de dados, resolução de problemas e/ou tomada de decisão;

 Promover o processamento computacional, aplicando técnicas automatizadas para processamento de dados, algoritmos de descoberta de conhecimento, e adiante;

(43)

 Apoiar a origem dos resultados analíticos, com a construção e exibição de mapas com diferentes variáveis em análise;

 Suportar a comunicação dos resultados analíticos para destinatários relevantes, ou seja, o modo como a informação é exibida, pois se os mapas não forem adequados ou contiverem demasiada informação serão pouco úteis e não facilitam a aquisição de conhecimento a quem os analisa.

Apoiada nas áreas da Visualização de Informação (e.g. Geovisualização), Geographic Information Science, Data Mining, Gestão de Dados, Ciências Cognitivas, Interação entre Humanos e Computadores (ver Figura 8), tem sido feito o esforço em estabelecer o Visual Analytics como uma disciplina científica, para a resolução de problemas de decisão complexos, através da consolidação da investigação nas áreas de Geographic Information Science e Geovisualização (Andrienko et al., 2007; Andrienko et al., 2010; Keim et al., 2008). Estas duas áreas são importantes, uma vez que envolvem o processamento computacional de informação geográfica, através de representações gráficas de dados (Longley et al., 2005), e aceleram este processo para apoiar a formação de ideias, centrando-se na conceção e utilização de novos mapas e funcionalidade para fazê-lo (Andrienko et al., 2007; Goodchild, 2009), respetivamente.

Emergindo de uma investigação altamente orientada para a aplicação, as diferentes comunidades de investigação trabalharam em soluções específicas usando o reportório e os padrões das suas áreas, e as exigências do Visual Analytics introduziu novas dependências entre elas Andrienko et al. (2010) e Keim et al. (2008).

A vantagem do trabalho de investigação orientado às aplicações é as áreas terem em comum desafios científicos similares e mais-valias científicas significativas onde o estabelecimento de uma estreita colaboração, entre elas, pode ser identificado. O benefício de colaboração pode resolver problemas comuns, conjuntamente, que levarão a melhores resultados ao nível de cada área, e de um modo mais eficiente, e a integração dos resultados apropriados de cada uma das áreas permitirá estabelecer a base para soluções significativamente melhores em muitas aplicações importantes da análise de dados (Keim et al., 2008).

(44)

Figura 8. Relacionamento entre as áreas de Investigação de suporte ao VisualAnalytics (Keim et al., 2008)

Um exemplo de um problema comum em várias das áreas de investigação é a escalabilidade com a quantidade de dados. Quanto maior é o conjunto de dados a ser tratado, mais difícil se torna de gerir, analisar e visualizar esses dados de forma eficaz. A investigação de formas adequadas para representar grandes volumes de dados em volumes menores, contendo as informações mais relevantes, beneficia as áreas da gestão, análise e visualização de dados, que aliada a uma estreita colaboração entre as diferentes áreas pode conduzir a resultados de processamento significativamente melhores.

2.3.1 Princípios e Componentes

Devido à relevância das áreas de investigação que suportam o Visual Analytics torna-se necessário fornecer uma breve explicação do âmbito e do contributo que as principais áreas têm para o seu desenvolvimento. A área de data mining será abordada no subcapítulo de Descoberta de Conhecimento em Bases de Dados.

2.3.1.1 Geovisual Analytics

Atualmente, a necessidade das pessoas tomarem decisões relacionadas com o espaço é fundamental e frequente, quer seja para o desenvolvimento e seleção de políticas, planos, cenários, projetos ou intervenções, onde os problemas têm uma componente geográfica e/ou espacial. As decisões podem ser a longo termo (e.g., gestão de infraestruturas) ou a curto termo (e.g., alterações em planos de emergência).

Estas aplicações requerem que sejam examinadas numerosas variantes possíveis de distribuição espácio-temporal das ações (cenários). O carácter espacial (nalguns casos espácio-temporal) em conjunto com a necessidade de integrar informações complexas e heterogéneas, dificultam a tomada

(45)

de decisão por parte das pessoas e são exigentes para com as ferramentas e a tecnologia, uma vez que todos os dados devem ser analisados sobre um ponto de vista homogéneo (Andrienko et al., 2007).

Segundo Andrienko et al. (2007) o Geovisual Analytics fornece a capacidade computacional que permite a resolver esses problemas de decisão complexos, através da melhoria da capacidade humana de analisar, raciocinar, visionar e deliberar; e da criação de modelos de simulação e otimização que são aplicados à geração, e avaliação, de possíveis cenários. A escolha do cenário não pode ser completamente automática e depende de muitos critérios que não podem ser quantificados facilmente, para o processamento automático (e.g., propriedades da distribuição espacial ou temporal), dependendo a avaliação da qualidade do cenário do julgamento de um analista humano, com base nos seus conhecimentos sobre a área em estudo. No entanto como é impossível para um analista a revisão e avaliação de todos os cenários, é necessário apoio computacional (e.g., clustering de cenários similares e generalização de grupos de cenários) para que o analista possa explorar e avaliar as categorias de cenários através de interfaces visuais interativas.

Geovisual Analytics pode ser visto como uma subárea do Visual Analytics com um foco específico no espaço e no tempo, colocando problemas específicos de investigação e exigindo abordagens próprias para a resolução de problemas de investigação mais genéricos do Visual Analytics. Os objetivos do Geovisual Analytics estão alinhados com os do Visual Analytics, e tem como objetivos principais explorar uma forma de simplificar a complexidade dos problemas geográficos de modo a apoiar o trabalho dos utilizadores, com diferentes perfis, e a integrar as tecnologias computacionais no processo de tomada de decisão (Andrienko et al., 2007).

As ferramentas existentes, em particular as GIS, muitas das vezes são incapazes de lidar com problemas de tamanho e complexidade real, o que leva os utilizadores a particionar os problemas, de modo a conseguirem adaptá-los às capacidades das ferramentas. A razão para esta incapacidade não se centra com as limitações do desempenho do computador ou com o tamanho da memória, mas sim com o facto dos problemas de decisão espacial serem mal definidos, e não podendo assim ser convertidos de forma adequada para o processamento automático. Para ultrapassar este problema, relembro que, é necessário ferramentas que permitam uma interação sinergética entre os humanos e os computadores, em que cada um aplique as suas capacidades únicas da melhor forma possível (Andrienko et al., 2007).

No entanto o Geovisual Analytics distingue-se do Visual Analytics: 1) na complexidade natural do espaço temporal e geográfico; 2) nos múltiplos atores, e 3) nos critérios e conhecimentos tácitos.

Imagem

Figura 2. Fatalidades por milhão de habitantes nos membros da União Europeia e Croácia (European Comission, 2013b)
Figura 8. Relacionamento entre as áreas de Investigação de suporte ao  Visual Analytics  (Keim et al., 2008)
Figura 13. Interface do utilizador de uma ferramenta de construção de Espirais Temporais (Aigner et al., 2008)
Figura 16.  Choropleth Map  das vítimas mortais em acidentes rodoviários em Portugal entre 1996 e 2013
+7

Referências

Documentos relacionados

Conclui-se que o teor de prolina varia entre as cultivares de mandioca, sendo maior nas cultivares Platina’ e ‘Caravela’, seguidas por ‘BRS Kiriris’, ‘BRS Verdinha’,

Miquéias explicou que Deus valorizava e procurava como características do seu povo a justiça, a misericórdia e um andar humilde diante dEle (conf.. Ao mesmo tempo, Deus

O terceiro momento, a Aplicação do Conhecimento é a síntese do que foi discutido, onde há o resgate das questões iniciais e a aplicação dos conceitos

Assegurada a reposição da normalidade das condições de vida da população da área afetada pelo acidente grave ou catástrofe, deverá ser declarada a desativação

Cargas pontuais (F ou M): Matematicamente, a aplicação pontual de cargas não existe (é preciso uma área para aplicar, ainda que pequena) e sua ocorrência provocará uma

Associação de sintomas osteomusculares, por região anatômica e sexo, referidos por trabalhadores de uma indústria metalúrgica, nos últimos doze meses, nos últimos sete dias e

Caso o pagamento não seja realizado no prazo estabelecido em edital a venda será cancelada e o login bloqueado para compras no site do leiloeiro e o mesmo só será

Esse conhecimento superior, da consciência, é sabedoria pura e não pode ser patrimônio de nenhuma civilização ou doutrina específica, é de todos e de ninguém