• Nenhum resultado encontrado

Modelagem da base de dados georreferenciada em uma rede bipartida

3.2 Proposta de modelagem de dados usando técnicas de AM com ênfase na segurança

3.2.3 Modelagem da base de dados georreferenciada em uma rede bipartida

Um dos métodos mais populares de construção de redes é o k NN (Berton, 2016, 2017). Este algoritmo permite conectar um vértice x , pertencente ao conjunto de dados i

1, , ,2 n

Xx xx , aos seus k vizinhos mais próximos, com base em alguma medida de similaridade (geralmente, a distância euclidiana). Em outras palavras, a rede dos k - vizinhos mais próximos, para um conjunto de n objetos, em um espaço métrico X

(conjunto de pontos no plano com distância euclidiana), compreende uma rede com X

sendo o seu conjunto de vértices e uma aresta de u para v, de forma que a aresta (eu v, ) existe se v é um vizinho mais próximo de u , ou seja, se a distância de v para u não é maior do que de u para qualquer outro objeto de X .

Na literatura, são encontrados outros métodos de construção de redes, dentre os quais pode-se citar o epsilon vizinhança (Berton, 2016; Chang e Chen, 2005), no qual um vértice v se conecta com todos vértices u se a distância entre v e u é menor que " "e ,

ou seja,

( )

v,u <e. Outros métodos foram propostos por Berton (2016), tais como, “rgcli” e “mutual knn”, e o método “l2knn”, proposto por Anastasiu (2015).

No geral, as redes complexas são consideradas em um espaço abstrato, no qual a posição dos vértices não tem um significado particular. No caso de redes complexas homogêneas de interação, proteína-proteína ou redes bipartidas de atores e filmes, essa consideração é aceitável (Beckett, 2016). No entanto, existem redes onde a posição espacial ou geográfica dos vértices é particularmente importante, pois influencia a evolução da rede e suas características topológicas. Este é o caso das redes rodoviárias ou das redes de Internet, nas quais a posição das cidades ou dos roteadores podem ser localizadas em um mapa e as arestas correspondem a entidades físicas reais, como estradas e fibras ópticas (Robins, 2004). Este tipo de rede é denominado de rede geográfica, georreferenciada ou espacial e pode ser modelada usando estruturas bipartidas, nas quais as entidades físicas ou observações representam um tipo de vértice e suas localizações representam outro tipo de vértice. Neste caso, as arestas são incluídas entre as entidades físicas e suas respectivas localizações. Um exemplo didático é o caso de uma rede bipartida entre usuários e check-in, onde um dos tipos de vértices representa os usuários, o outro tipo representa os check-in e as arestas são incluídas entre os usuários e seus respectivos check-in. É importante ressaltar, como já descrito anteriormente, que em muitos casos, os conjuntos de dados com informações geográficas são naturalmente

relacionais (Krzanowski e Bina; 2010; Berton, 2016), como por exemplo, redes de energia, redes de aeroportos, redes de metrô e redes neurais (Zhang, 2008 e Spanurattana e Murata, 2011).

Neste trabalho, as bases de dados georreferenciadas contento os registros observacionais integrados aos dados geoespaciais são armazenados em uma única tabela, visando correlacionar informações redundantes e/ou superabundantes. Tal característica possibilitou que os dados fossem modelados utilizando estruturas de dados em rede no formato Tabela atributo-valor. Neste formato não há a necessidade de se estabelecer pressupostos ou relações entre as observações (instâncias ou linhas da tabela), pela abordagem de redes complexas.

Neste contexto, como é de interesse da pesquisa entender as relações entre acidentes que estão de alguma forma ligados às suas localizações geográficas, necessitou-se explorar uma modelagem que permitisse que se modelasse a correlação entre os acidentes e suas respectivas localizações geográficas. Dentre as técnicas de AM exploradas neste trabalho, a modelagem de redes que mais se aproximou desse objetivo foram as redes complexas bipartidas.

A vantagem da modelagem de dados usando redes complexas bipartidas é que não há a necessidade de se explorar métodos de construção para a detecção de comunidades, como em redes complexas homogêneas. Neste caso, a rede é construída com base na real instanciação das observações que compõem o banco de dados de acidentes rodoviários, o que implica em um considerável ganho computacional na manipulação dos dados.

Além disso, a arquitetura de dados por redes complexas bipartidas torna o processo de modelagem de dados mais tangível à área de engenharia e pesquisas desenvolvidas no âmbito da segurança viária, quando comparadas às ANN e BNN, que são consideradas “caixas pretas”, uma vez que não se pode estimular a priori o número ideal de camadas de dados, sendo este processo determinado de forma iterativa.

Com base nesta problemática, foi proposto um método de modelagem de dados de acidentes rodoviários com base em redes complexas bipartidas, assumindo-se que o conjunto de dados é IID e georreferenciado.

A Figura 3.7 ilustra a modelagem de predição proposta a partir de bases de dados de acidentes rodoviários utilizando a abordagem de redes complexas bipartidas.

Figura 3.7 - Proposta de modelagem de dados rodoviários com ênfase na predição de

acidentes com base em redes complexas bipartidas. Não teria de indicar a fonte como nas demais figuras? Verificar tamanho dos textos.

O método proposto possui três etapas, que são: (1) criação do conjunto de vértices V 1

e V , (2) criação das arestas e estrutura topológica inicial e (3) processamento da estrutura 2

inicial, ponderação da rede e predição de links por meio de filtragem colaborativa.

(1) Criação dos conjuntos de vértices V e 1 V 2

A primeira etapa compreende a criação dos conjuntos de vértices e a instanciação da rede. De forma geral, um tipo de vértice irá representar as observações (registros de acidentes), e o outro tipo de vértice irá representar os marcos quilômetros em que estes acidentes ocorrem. Formalmente, considere-se o conjunto de acidentes

{

x1 x2 xn

}

X = , ,, com ∈xi ℝ , ou seja, xi =

{

a1,a2,,am

}

.

Esse conjunto de dados será então descrito como uma rede bipartida G=

(

V,E,W

)

, na qual V =V1V2, V 1 V2=∅ e V é um conjunto de 1 n vértices, no qual cada vértice u

V corresponde a um ponto 1 xiX .

Neste trabalho, considerou-se que uma dada variável a representa os marcos i

quilômetros (km) nos quais os acidentes x ocorreram. Sendo assim, selecionou-se todos i

os valores possíveis em a , sem repetição. Considerando o trecho em análise, os valores i

possíveis em a estão no intervalo i S

125,126, ,145,145 500 

variando a cada 1 km, ou seja, S possui 22 valores possíveis. Portanto, V será composto por um conjunto de 2

22 vértices e cada vértice uV corresponde a um valor j 2 S . A Tabela 3.4 ilustra

um exemplo da base de dados de acidentes.

Tabela 3.4: Representação genérica da base de dados.

Acidentes a 1a m km 1 x ... ... ... 125 2 x ... ... ... 125 3 x ... ... ... 126 4 x ... ... ... 126 5 x ... ... ... 127 6 x ... ... ... 127 ... ... ... ... ... n x ... ... ... 145 + 500 m

A Figura 3.8 ilustra a primeira etapa, que corresponde a instanciação da rede e criação dos conjuntos de vértices V e 1 V com base na Tabela 3.4. 2

Figura 3.8 - Instanciação da rede e criação do conjunto de vértices V e 1 V . 2

Fonte: Autora (2018).

Observa-se que nesta fase a rede ainda não possui arestas. Na próxima etapa será abordada a criação das arestas entre os conjuntos de vértices V e 1 V . 2

(2). Criação das arestas e estrutura topológica inicial

Nessa etapa serão criadas as arestas entre os vértices do conjunto V e os vértices do 1

EV ×1 V2. Assim, uma aresta entre uV1 e vV2 existe se o acidente u ocorreu no quilometro v. A Figura 3.9 ilustra a segunda etapa, a qual corresponde a criação das arestas entre os vértices (V1e V2) e a geração da estrutura topológica inicial. Além disso, o peso de uma aresta ( uv, ) será inicialmente 1, porém, não se descarta a possibilidade de uma formulação na qual a aresta seja inicializada de maneira ponderada considerando alguma restrição ou característica.

Figura 3.9 - Etapa de criação das arestas e a topologia inicial da rede.

Fonte: Autora (2018).

Observa-se que a rede construída é desconexa e possuí vários componentes, por exemplo, os vértices x , 1 x e o km 125 representa um componente. Essa característica 2

dificulta a aplicação de algoritmos de mineração e análise, por exemplo, algoritmos que utilizam informações de vizinhança, conceitos de inferência coletiva e principalmente propagação de informações tem seu desemprenho prejudicado em redes desconexas. A redução do desempenho desse algoritmo está associada a perda do conceito de vizinhança, ocasionado pela obtenção de redes esparsas.

Ressalta-se que neste estudo não foi adotada a abordagem multinível direcionada a compactação da rede, ou seja, a obtenção de redes mais densas. Este procedimento permite selecionar a melhor estrutura da rede para realizar o processo de predição de links. Essa limitação é indicada como recomendação a trabalhos futuros.