• Nenhum resultado encontrado

Para avaliar o desempenho da proposta deste trabalho, foram feitos um conjuntos de expe- rimentos sobre as amostras de trajet´orias (circulac¸˜oes) de trens coletadas na base de dados da empresa ABC.

Com o intuito de descobrir os padr˜oes sequencias, o comportamento de trens em diferentes circulac¸˜oes do mesmo percurso, categorizar os acontecimentos (incidentes) com base em seus impactos, antes de mais nada, foi necess´ario definir uma colec¸˜ao de dados em forma matricial conforme indicado na Figura 7.1, onde para cada trem se indicam suas caracter´ısticas. Cada coluna representa uma vari´avel particular (no caso, os parˆametros clim´aticos e n˜ao clim´aticos). Cada linha corresponde a um determinado membro do conjunto de dados em quest˜ao. O con- junto de dados pode incluir dados para um ou mais trens, correspondente ao n´umero de linhas. A planilha de dados representa todos os cen´arios da amostra de trajet´orias de trens obtidas na base de dados.

As duas amostras de 321 registros (AmV) e 1235 registros (AmGHA) respectivos foram constru´ıdas por um procedimento de amostragem estratificada realizada na populac¸˜ao total (de todo o banco de dados). Cada uma das amostras foi desenvolvidas de forma diferente: Para a amostra AmV selecionou-se as trajet´orias com base na V.m´edia (Velocidade m´edia) dos trens por segmentos (vias) e, a amostra AmGHA foi constru´ıda com base no GHA (Grupo hete-

rogˆeneo de Aderˆencia). Al´em disso, as trajet´orias em quest˜ao dizem respeito a distintos tipos

de trens e suas diferentes circulac¸˜oes no mesmo percurso, mas em dias diferentes.

A construc¸˜ao da planilha de dados apresentada na Figura 7.1 baseia-se, inicialmente, na coleta de informac¸˜oes dispon´ıveis na base de dados fornecida. Nada obstante, a base arma- zenava apenas os dados relativos ao trem (tipo, velocidade m´axima, restric¸˜oes), `a circulac¸˜ao (durac¸˜ao em cada segmento, velocidade m´edia por segmento), e `a condic¸˜ao da malha. Mas, n˜ao armazenava-se os dados relacionados `as informac¸˜oes clim´aticas. Neste fito, foi necess´ario buscar essas informac¸˜oes e acrescent´a-las manualmente. Este processo emp´ırico foi realizado buscando as informac¸˜oes meteorol´ogicas correspondentes a cada dia, hora e local em que o trem circulou, nos sites mais confi´aveis como do INPE (Instituto Nacional de Pesquisas Espaciais)

1 e da WMO (Organizac¸˜ao mundial de Meteorologia) 2. Tendo essas informac¸˜oes, tornou-se

poss´ıvel elaborar uma planilha mais concisa a fim de proceder a operac¸˜oes de treinamento para se descobrir os padr˜oes e o comportamento de trens em valores diferentes das vari´aveis consi- deradas.

Na pr´atica, encontrou-se certos fatores que desempenham um papel fundamental na determinac¸˜ao do comportamento do trem durante a circulac¸˜ao, levando a grau de aderˆencia (Normal, Atra- sado, Adiantado) ao chegar ao final da trajet´oria. Estes fatores s˜ao: temperatura ambiente, chuva, vento, clima, condic¸˜ao da malha, presenc¸a de folhas mortas na malha, ´agua na malha, e, mas n˜ao necessariamente, o per´ıodo do dia, sendo que cada um dos fatores pode ter valores va- riados. Por exemplo, a temperatura pode ter valores (simb´olicos) como: muito quente, quente, m´edio, com intervalos num´ericos definidos para cada valor. A combinac¸˜ao desses atributos, ou melhor, de seus valores, por linha, forma o que chama-se, doravante, de instˆancia. Uma instˆancia, por sua vez, determina um poss´ıvel grau de aderˆencia ao planejamento de uma de- terminada trajet´oria. Para se ter essa certeza, procedeu-se ao processo de minerac¸˜ao de dados, o treinamento da planilha constru´ıda, a fim de descobrir conhecimentos por tr´as dessa gama volumosa de dados.

Nesta finalidade, foi indispens´avel o uso de um software para minerac¸˜ao de dados, usou-se o Weka3, que possui algoritmos eficientes para a extrac¸˜ao de classificadores em bases de dados, os quais identificam a classe de pertencimento de uma determinada observac¸˜ao.

A minerac¸˜ao de modelos de classificac¸˜ao na planilha de dados constru´ıda consistiu em um processo composto por duas fases: aprendizado e teste. Na fase de aprendizado, um algoritmo

1www.inpe.br 2www.wmo.int

3O sistema Weka ´e um software livre (de c´odigo aberto) para minerac¸˜ao de dados, desenvolvido em Java, dentro das especificac¸˜oes da GNU (General Public License. Mais informac¸˜oes: www.cs.waikato.ac.nz/ml/weka/)

classificador, neste caso a ´arvore de decis˜ao (algoritmo C4.5), foi aplicada sobre o conjunto de dados de treinamento. Como resultado, obteve-se a construc¸˜ao do modelo classificador propriamente dito. O conjunto de treinamento correspondeu a um subconjunto de observac¸˜oes selecionadas de maneira aleat´oria a partir da base de dados da empresa. Cada observac¸˜ao do conjunto de treinamento ´e caracterizada por dois tipos de atributos: o atributo classe, que indica a classe a qual a observac¸˜ao pertence, neste caso a aderˆencia podendo ser (Normal, Atrasado ou Adiantado); e os atributos preditivos (temperatura ambiente, chuva, vento, tempo, condic¸˜ao da malha, presenc¸a de folhas mortas na malha, presenc¸a ´agua na malha, e o per´ıodo do dia), cujos valores ser˜ao analisados para que seja descoberto o modo como eles se relacionam com o atributo classe.

A aplicac¸˜ao deste processo pode ser observada na Figura 7.1, onde considera-se o conjunto de dados de treinamento da planilha constru´ıda neste trabalho.

Figura 7.1: Estrutura da planilha constru´ıda

Ap´os o classificador ter sido constru´ıdo, iniciou-se a etapa de teste, que visou avaliar a sua acur´acia atrav´es do emprego de um conjunto de dados de teste. O conjunto de teste cont´em observac¸˜oes que tamb´em foram selecionadas aleatoriamente a partir da planilha de dados. No entanto, estas observac¸˜oes devem ser diferentes das que foram selecionadas para compor o conjunto de treinamento. A acur´acia do classificador representa a porcentagem de observac¸˜oes do conjunto de teste que s˜ao corretamente classificadas por ele. Caso a acur´acia seja alta, o modelo de classificac¸˜ao ´e considerado eficiente e pode ser utilizado para classificar novos casos. Nos treinamentos realizados, obteve-se a acur´acia de 91% ap´os 100 treinamentos, portanto, o modelo de classificac¸˜ao gerado ´e considerado eficiente.