• Nenhum resultado encontrado

4.2 Dados de Acidentes

4.2.2 Análise e Seleção das Características

Como descrito na seção anterior, os dados utilizados neste trabalho possuem muitos atribu- tos. No caso deste estudo, essa grande quantidade de atributos e a complexidade dos seus valores tornou complexo a classificação, fazendo com que fosse necessário selecionar os atributos mais importantes e significativos ao estudo. Portanto, além do pré-processamento

4.2 Dados de Acidentes 53

e da simplificação dos valores das características descritos na seção anterior, também foi necessário avaliar quais os atributos não são relevantes ao estudo.

Inicialmente, o atributo “causa_acidente” foi retirado por descrever uma característica pós-acidente, que não necessariamente caracteriza a rodovia em si, mas um possível com- portamento do motorista que causou o acidente. Possíveis valores da causa do acidente são: falta de atenção do motorista, direção sob efeito do álcool, ultrapassagem indevida, entre outras. Além da causa descrever qualquer trecho da rodovia, o atributo “tipo_acidente” é muito parecido com a causa do acidente e se adequa melhor à este estudo, possuindo como possíveis valores: colisão, capotamento e atropelamento.

Como foi criado um atributo derivado chamado “gravidade” que descreve a gravidade do acidente de acordo com a quantidade de vítimas, feridos graves, feridos leves e ilesos, os atri- butos pessoas, mortos, feridos leves, feridos graves, feridos, ilesos, ignorados e classificação do acidente foram retirados por já serem contemplados neste novo atributo criado.

Para ajudar na identificação dos demais atributos não relevantes ao estudo, foi utilizada a ferramenta LIME, responsável por identificar o peso e a importância que cada atributo da base de dados possui na classificação dos dados [59]. Para utilizar o LIME, é necessário es- colher um modelo de classificação que servirá de base para o Explainer, classe provida pela ferramenta que permite a identificação do atributo. Para este teste, utilizamos o RandomFo- rest por ser um classificador capaz de lidar bem com dados desbalanceados [52].

Inicialmente, o modelo foi treinado com os dados de acidente, de acordo com a classe “gravidade”. Com isso, o LIME foi utilizado para explicar, para uma instância aleatória, os atributos que mais contribuíram para sua classificação, juntamente com a probabilidade daquela instância ser um verdadeiro positivo.

Dada uma instância aleatória classificada como GRAVE, de acordo com a Figura 4.4, ela possui 95% de chance de ser um verdadeiro positivo, ou seja, de ser um acidente realmente grave. A Figura 4.5 mostra quais os atributos influenciam mais para considerar a instância como grave (destacados em azul) e quais os atributos que têm mais peso para considerar essa instância como não-grave (destacados em laranja). Para essa instância analisada, vemos que o tipo do acidente tem mais influência para classificar a instância como grave, e que os atributos sentido da via, tipo da pista e traçado da via possuem mais influência para classificar a instância como não-grave.

4.2 Dados de Acidentes 54

Figura 4.4: Probabilidade da instância ser grave.

Figura 4.5: Influência dos atributos na classificação.

De forma análoga, temos um exemplo de instância classificada como não-grave. O LIME explica que a instância tem 80% de chance de ser não grave (Figura 4.6), que o atributo tipo_acidente tem influência na classificação da instância como grave (destacado em azul na Figura 4.7) e que os atributos turno, sentido via e tipo da pista ajudaram na classificação da instância como não-grave (destacados em laranja na Figura 4.7).

Figura 4.6: Probabilidade da instância ser grave.

Essa análise foi feita para diversas instâncias e tornou possível chegar à conclusão que os atributos número de veículos, uso do solo, data do acidente e município não contribuem na classificação dos dados. A Tabela 4.3 descreve o conjunto de atributos finais.

Com a definição dos atributos a serem usados, foi criado um novo atributo derivado chamado “frequência”. Segundo Ren et al., é difícil prever se um acidente de trânsito vai

4.2 Dados de Acidentes 55

Figura 4.7: Influência dos atributos na classificação.

acontecer ou não, motivo que os levaram a criar o atributo “risco” em seu trabalho, que permitiu melhorar a classificação de risco de acidentes em Beijing [58]. Esse atributo “risco” representa a frequência de acidentes que aconteceram na mesma janela de tempo, para uma determinada quantidade de dias.

Atributo Descrição

ufbr Unidade da federação e o identificador da BR do aci- dente. Ex.: PB-230; MG-116.

km Identificação do quilômetro onde ocorreu o acidente. dia_semana Dia da semana da ocorrência, representado por núme-

ros. Ex.: 1 (Domingo), 2 (Segunda-feira), etc.

turno Turno do dia no momento do acidente: manhã ou

noite.

tipo_pista Tipo da pista considerando a quantidade de faixas: simples ou múltipla.

sentido_via Sentido da via considerando o ponto de colisão: Cres- cente ou decrescente.

traçado_via Descrição do traçado da via: reta, curva ou cruza- mento.

4.2 Dados de Acidentes 56

condição_meteorológica Condição meteorológica no momento do acidente: boa (céu claro, sol, nublado) ou ruim (chuva, granizo, nevoeiro/neblina).

tipo_acidente Identificação do tipo de acidente: colisão, capota- mento ou atropelamento.

gravidade Indicação da gravidade do acidente de acordo com as vítimas e feridos: grave ou não grave.

Tabela 4.3: Atributos dos dados de acidentes da PRF.

Adaptando o atributo risco para este estudo, propusemos a frequência do acidente, que é dada pela soma de acidentes que aconteceram em um trecho de um quilômetro de uma rodovia brasileira, dividida pela quantidade de acidentes totais da base de dados, dada por:

f = P a(r, k)

n (4.1)

em que f é a frequência, a(r, k) são os acidentes que aconteceram na rodovia r e no quilô- metro k e n é o número total de acidentes registrados.

A base de dados final possui 1.650.400 instâncias de acidentes, dos quais 1.390.423 são considerados não-graves e 259.977 são considerados graves, o que a caracteriza como uma base de dados desbalanceada. É possível ver esse desbalanceamento na Figura 4.8, que mostra a quantidade de acidentes por estado, juntamente com sua classe. Os testes realizados neste estudo levam em consideração a base desbalanceada, com todos os dados de acidentes, e uma base de dados balanceada, gerada pela exclusão de instâncias aleatórias consideradas não-grave. A base balanceada possui 259.977 acidentes considerados graves e 260.000 acidentes não-grave (Figura 4.9).

Também foi feita a correlação entre as características finais para cada base de dados, onde podemos visualizar quais atributos podem influenciar mais na classificação dos tre- chos das rodovias. A Figura 4.10 mostra a correlação dos atributos para a base de dados desbalanceada, enquanto a Figura 4.11 mostra a correlação para a base de dados balanceada. Comparando as duas figuras, é possível notar que, para a base de dados desbalanceada, existe

4.2 Dados de Acidentes 57

4.2 Dados de Acidentes 58

4.2 Dados de Acidentes 59

Figura 4.10: Correlação entre atributos da base de dados desbalanceada.