• Nenhum resultado encontrado

5.9

Discussão

De modo geral, os resultados obtidos neste estudo foram bastante satisfatórios. Comparando com a literatura, foi possível melhorar a classificação dos dados de acidentes de acordo com sua gravidade, tornando viável o uso do classificador na identificação de trechos com risco de acidentes graves nas rodovias do Brasil.

Como foi possível concluir após a análise dos resultados, os experimentos feitos com a base de dados desbalanceada não são interessantes para o objetivo desta pesquisa. Esses experimentos obtiveram um bom nível de acurácia, mas não quer dizer que foram resultados bons, já que os valores das métricas de precisão, revocação e medida F foram baixos.

Portanto, a comparação entre os resultados considerou apenas os experimentos feitos com a base de dados balanceada, com ou sem o uso do atributo “frequência”. A Tabela 5.15 mostra as métricas de acurácia, precisão, revocação e medida F obtidos nos experimentos, detalhando se o experimento foi feito com a presença ou ausência do atributo frequência.

Experimento Frequência? Acurácia Precisão Revocação Medida F

SVM Linear Não 57,3% 60% 57% 54%

XGBClassifier Sim 64,9% 65,13% 64,9% 64,8%

RandomForest + Não 84,58% 88,14% 84,58% 84,06%

BernoulliNB

Logistic Regression + Não 84,58% 88,14% 84,58% 84,06%

ExtraTreesClassifier

ExtraTreesClassifier Sim 61,2% 61,23% 61,2% 61,15%

Rede Neural Artificial Não 83% 83% 83% 83%

Rede Neural Artificial Sim 85% 87% 85% 84%

Tabela 5.15: Resultados dos experimentos.

Como pode ser visto na comparação entre resultados, SVM foi o classificador com o pior resultado para este trabalho. Os outros piores resultados foram de modelos treinados com a base de dados balanceada com a adição do atributo frequência, que indica a frequência de acidentes ocorridos por quilômetro da rodovia: XGBClassifier e Extra Trees Classifier.

5.10 Considerações Finais 78

liNB e a combinação entre Logistic Regression e Extra Trees Classifier retornaram os me- lhores valores para as métricas avaliadas. O Random Forest + BernoulliNB e o Logistic Regression + Extra Trees Classifier obtiveram os mesmos valores para todas as métricas e ambos foram treinados com a base de dados balanceada sem a adição do atributo frequência. Já a Rede Neural Artificial obteve dois bons resultados: com e sem o uso do atributo frequência. Ainda assim, quando comparados, o teste feito com o uso do atributo frequência obteve uma revocação 2% mais alta, uma precisão 4% maior e uma acurácia 2% maior. Isso mostra que o uso de tal atributo ajudou o classificador a melhorar a previsão dos riscos de acidentes em trechos de rodovias. Além disso, a rede neural foi a única que, com o uso de tal atributo, conseguiu melhores resultados. Todos os outros classificadores não conseguiram lidar bem com essa característica.

Comparando o uso da Rede Neural Artificial com o atributo frequência e com o Random Forest + BernoulliNB e o Logistic Regression + Extra Trees Classifier sem o uso do atributo, podemos ver que a diferença entre os resultados das métricas é pequena, onde a medida F da rede neural é apenas 0,06% mais baixa e a precisão apenas 1,14%. A acurácia e a revocação da rede neural foram melhores em 0,42%.

Considerando os estudos da literatura citados na Seção 3 que fazem uso das métricas avaliadas nesta pesquisa, a Tabela 5.16 apresenta um comparativo entre os resultados de tais estudos e os resultados obtidos nesta pesquisa, mostrando que foi possível melhorar os resultados dos classificadores.

5.10

Considerações Finais

Neste capítulo, foram discutidos em maiores detalhes os resultados dos experimentos rea- lizados com as diferentes técnicas de aprendizado de máquina abordadas neste estudo. De modo geral, os resultados foram bastante satisfatórios, mostrando que foi possível melhorar os resultados obtidos pelos classificadores, tornando possível identificação de trechos com risco de acidentes graves nas rodovias do Brasil.

No próximo capítulo, serão apresentadas as considerações finais sobre o trabalho desen- volvido nesta pesquisa, suas contribuições e os trabalhos futuros.

5.10 Considerações Finais 79

Autor(es) Algoritmos Resultados

Nossa abordagem Rede Neural Artificial Acurácia: 85%; Precisão: 87%; Revocação: 85%. Medida F: 84%.

Nossa abordagem RandomForest + Acurácia: 84,58%;

BernoulliNB e Precisão: 88,14%;

Logistic Regression + Revocação: 84,58%. ExtraTreesClassifier Medida F: 84,06%. Tiwari et al. [72] Lazy Classifier (IBK) Acurácia: 84,47%.

Bülbül e Kaya [9] CART Acurácia: 81,5%;

Precisão: 81,2%; Revocação: 81%.

Tiwari et al. [73] Decision Tree Acurácia: 81%;

Precisão: 73%; Revocação: 70,6%.

Kumar et al. [32] Random Forest Acurácia: 81%.

Satu et al. [64] J48 (pruned) Acurácia: 78,9%;

Precisão: 62,6%. Iranitalaba e Aemal Khattakb

[23]

Nearest Neighbor Classifica- tion (NNC) e K-means Clus- tering

Acurácia: 73,95%

Tambouratzis et. al. [70] Redes Neurais Artificiais e Árvores de Decisão

Acurácia: 70%.

Capítulo 6

Conclusão

Recentemente, a comunidade científica tem trabalhado no sentido de propor metodologias para a identificação de áreas ou trechos, em ruas e rodovias, que possuem risco de acidentes. Tal linha de estudo é motivada pela necessidade de soluções que ajudam na diminuição do número de acidentes, que segundo a OMS, é uma das maiores causas de morte no mundo.

Apesar da grande quantidade de estudos para identificação de áreas de risco de acidentes, a análise de dados de acidentes e a classificação de trechos depende do local onde o mesmo acontece, uma vez que cada local possui particularidades.

Estudos utilizam técnicas de mineração de dados e técnicas estatísticas para a identifica- ção de áreas de risco de acidentes, enquanto alguns estudos utilizam técnicas de aprendizado de máquina para prever essas áreas, treinando os modelos com dados históricos. Dos estu- dos que englobam aprendizado de máquina para identificar áreas de risco, alguns utilizaram apenas o número de ocorrências de acidentes agrupados por local para o treinamento do modelo.

Esta pesquisa teve por objetivo classificar, considerando diversos fatores, trechos de ro- dovias federais brasileiras de acordo com seu risco de acidente, este podendo ser grave ou não-grave. Um trecho de rodovia classificado como grave indica que, dado uma série de fa- tores, este trecho é propenso a ocorrência de acidentes graves. De forma análoga, um trecho de rodovia classificado como não-grave indica que, dado uma série de fatores, o trecho não possui propensão a acidentes.

Para isso, este estudo fez uso de uma base de dados com informações de dez anos de acidentes, de 2007 a 2017, disponibilizados pela Polícia Rodoviária Federal (PRF). Estes

81

dados possuem diversas informações sobre acidentes que aconteceram em rodovias de todo o Brasil.

Os dados coletados foram pré-processados para a retirada de valores repetidos, e técnicas de seleção de atributos foram aplicadas com o intuito de reduzir a dimensionalidade dos da- dos, usando apenas características consideradas importantes para a classificação. O conjunto final de atributos dos dados consiste em informações sobre a data do acidente, o trecho da rodovia na qual o acidente ocorreu, o dia da semana, o turno, o tipo da rodovia, o sentido da pista, o traçado da via, a condição meteorológica no momento do acidente, o tipo do acidente e a gravidade. A gravidade do acidente foi calculada a partir da quantidade de casualidades e feridos, onde um acidente foi considerado grave quando houve mortos ou feridos graves, e foi considerado não-grave quando não houveram feridos ou os ferimentos dos envolvidos foram leves.

Diferentes modelos de aprendizado de máquina foram usados para classificar os dados e, ao final do estudo, comparar os resultados. Além do SVM e da Rede Neural, modelos muito utilizados na literatura, foi utilizada uma ferramenta de aprendizado de máquina automati- zado chamada TPOT, com o intuito de encontrar os melhores classificadores e configurações para o dados utilizados.

Os resultados obtidos nos experimentos mostraram que algumas técnicas de aprendizado de máquina supervisionado produzem uma ótima classificação dependendo dos atributos utilizados e da base de dados. Os testes feitos com a base de dados desbalanceada foram ruins, uma vez que a classe “grave” foi ignorada e todos os trechos foram classificados como não-graves.

Já os testes com a base de dados balanceada foram feitos de duas formas: com o uso do atributo frequência e sem o uso do atributo. Para a base de dados balanceada com a adição do atributo frequência, o melhor modelo foi a rede neural, que obteve 85% de acurácia, 87% de precisão, 85% de revocação e 84% de medida F.

Para o teste feito com a base de dados balanceada sem a adição do atributo frequência, dois classificadores obtiveram ótimos resultados: a combinação dos classificadores Random- Forest + BernoulliNB e a combinação dos classificadores LogisticRegression + ExtraTrees- Classifier. Ambas as combinações resultaram em 84,58% de acurácia, 88,14% de precisão, 84,58% de revocação e 84,06% medida F.

6.1 Contribuições 82

6.1

Contribuições

As principais contribuições deste trabalho são:

• Implementação de modelos capazes de classificar e prever trechos de rodovias brasi- leiras que possuem risco de acidentes graves ou não-graves;

• Análise comparativa de diversos modelos de aprendizado de máquina supervisionado;

• Modelo de aprendizado de máquina com resultados de métricas superiores a outras soluções na literatura;

• Uso de boas técnicas de pré-processamento e seleção de características para redução da dimensionalidade dos dados;

• Uso de características de acidentes que, em sua totalidade, não são consideradas em outros estudos na literatura.