• Nenhum resultado encontrado

Dado o contexto atual referente à temática de ciência de dados e sua popularização no âmbito corporativo, é evidente a importância que os projetos nessa área possuem para que as empresas não percam sua competitividade frente a seus concorrentes, visto que é uma transformação contínua para a cultura de tomada de decisão baseada em dados.

Esse trabalho teve como objetivo geral elaborar um modelo preditivo que identificasse se uma manutenção de máquina seria finalizada dentro do prazo previsto a partir de algumas características dessa manutenção, além de avaliar

as variáveis utilizadas pelo modelo para que fosse possível compreender o que leva uma manutenção a atrasar, auxiliando na tomada de decisão de uma empresa de transporte e logística de combustíveis. Por meio da seleção de variáveis relevantes para o modelo, uma análise descritiva delas e a visualização dos dados com uso do Truncated SVD para redução de dimensionalidade, foi possível aplicar o KNN com diferentes parâmetros e, a partir dos indicadores escolhidos para a avaliação do algoritmo, definir a melhor forma de aplicar o modelo. Depois disso, foi realizada a análise de sensibilidade do modelo, mostrando os resultados finais da classificação e seus falsos positivos e falsos negativos.

Para selecionar as melhores variáveis para o modelo, foi feita uma avaliação inicial das três bases de dados concedidas pela empresa. Observando cada coluna disponível, a decisão de utilizar uma variável ou não foi feita considerando principalmente o quanto ela representa uma característica da máquina ou da manutenção em questão. Além disso, foi avaliada a quantidade de dados preenchidos, dado que algumas colunas possuíam muitos registros vazios, não podendo ser aproveitadas no modelo.

As variáveis selecionadas na base de dados final foram analisadas por meio de uma descrição das suas principais características, como tipo de variável, distribuição e rótulos de dados, a fim de apresentar o comportamento dos dados utilizados. A comparação de manutenções dentro e fora do prazo a partir de algumas variáveis permitiu identificar possíveis características que influenciam no cumprimento do prazo de uma manutenção, e as visualizações temporais das manutenções mostraram uma melhoria ao longo dos anos em relação aos prazos, apesar de uma crescente quantidade de registros sendo finalizados com atraso a partir de 2018. Ademais, a correlação entre as variáveis utilizadas e a target, que indica o cumprimento do prazo ou não, não revelou nenhum valor relevante que sugerisse alguma característica principal associada ao prazo da manutenção.

A aplicação do Truncated SVD permitiu a visualização dos dados da base e, com auxílio dos gráficos, foi possível identificar que, no geral, os pontos se agrupam com outros que têm o mesmo valor na variável target. Ou seja,

manutenções ocorridas no prazo aparecem mais próximas entre si, e o mesmo acontece para as atrasadas. Dado que o KNN utiliza a distância de um ponto aos seus mais próximos para realizar a classificação, essa característica da base sugeriu que o modelo traria resultados satisfatórios.

Na aplicação do modelo, foram utilizadas tanto a base de dados original quanto as bases geradas pela aplicação do Truncated SVD, com 2 e 3 dimensões. Os valores de k do KNN variaram de 2 a 5, visto que números maiores testados geraram resultados inferiores. Utilizando o F1 Score como principal indicador de avaliação da classificação, mas analisando também a acurácia, precisão, recall e AUC de cada possibilidade, foi encontrado o modelo com melhor resultado. Essa análise foi feita inicialmente com os diferentes valores de k para cada base de dados, depois entre os melhores resultados encontrados em cada uma.

Depois da escolha do melhor modelo, uma análise de sensibilidade foi feita, com o intuito de detalhar os indicadores calculados na base de teste, observando quantas manutenções foram classificadas erroneamente, tanto para falsos positivos quanto falsos negativos. A plotagem da matriz de confusão e da curva ROC auxiliam na compreensão desse resultado, evidenciando, por exemplo, que o modelo gerou um maior número de falsos negativos, como havia sido priorizado anteriormente.

Pelo que foi observado ao longo do trabalho, algumas características relacionadas às manutenções têm maior influência no cumprimento do prazo do que outras. Alguns indícios disso estão na análise das variáveis, que indicam maior porcentagem de atrasos os registros de manutenção de equipamentos defeituosos, principalmente das máquinas do tipo M2 e de criticidade B. A partir desses resultados, é possível atuar para que próximas manutenções descritas de tal forma sejam priorizadas, caso necessário.

Considerando os indicadores de avaliação calculados, o resultado final pode ser considerado satisfatório. Para futuros registros de manutenções, mantendo-se uma acurácia próxima de 73,5% e precisão de 72,2%, o modelo poderá servir de balizador na decisão de como a equipe de manutenção da empresa deve priorizar os trabalhos a serem executados e o esforço e recursos

alocados em cada um deles. Isso não deve descartar uma análise qualitativa de especialistas, visto que o algoritmo não considera todos os fatores existentes relacionados a uma manutenção ou a outras prioridades da própria empresa, além de não acertar em todas as classificações.

Pode-se destacar nesse projeto e nos resultados obtidos, que, para o problema abordado, o modelo utilizado foi uma escolha correta. Isso porque, considerando que a base de dados utilizada possui a maioria das suas variáveis sendo categóricas que descrevem atributos específicos de uma manutenção ou máquina, a classificação por meio da distância entre os pontos aproveita que esses valores são binários, pois os registros com mesmos atributos tendem a ficar próximos e distante dos diferentes.

Em estudos futuros, podem ser exploradas outras técnicas de Machine Learning para classificar os dados de manutenção apresentados, como Random Forest e redes neurais. Na utilização do Truncated SVD, como nesse trabalho foram utilizados apenas 𝑡 = 2 e 𝑡 = 3, existe a possibilidade de os resultados serem melhores para outros valores de t, podendo ser testados valores entre 4 e 80. Outros valores de k também podem ser testados no KNN, pois, apesar de alguns testes, não foram testadas tantas possibilidades além dos apresentados no projeto. O mesmo modelo pode ser aplicado também com novas variáveis consideradas relevantes para o problema, contanto que a empresa tenha esses dados registrados em volume suficiente para utilização.

Documentos relacionados