Trabalhos Relacionados - Uma ferramenta de apoio à detecção de falhas e recomendação de parâmet

A maior parte dos trabalhos relacionados ao uso de técnicas de Aprendizado de Máquina no apoio dos usuários no uso dos workflows estão voltados a parte de estrutura¸cão dos mesmos. As tarefas focam em recomendar na maior parte das vezes, qual sequência de atividades implementar nos workflows. Exemplos estão presentes em [31] e [43].

Câmara, em [37], propôs uma abordagem mais próxima ao presente trabalho. Sua pesquisa também está voltada a tarefa de Classifica¸cão, no que diz respeito aos resul-

26 tados de execu¸cão de um workflow. No entanto, o modelo de Aprendizado de Máquina utilizado por Câmara é diferente dos propostos aqui. Ele utiliza Àrvores de Decisão [33]. Este modelo tem uma caracter´ıstica que o difere dos demais que é a sua capacidade de interpreta¸cão do resultado, a partir da sua própria estrutura. Além de responder à per- gunta relativa à falha ou sucesso de execu¸cão do workflow, Câmara abrange a questão do tempo estimado de execu¸cão do workflow para um dado conjunto de parâmetros. Note que a pesquisa também está voltada a diminuir o tempo e recursos financeiros gastos pelos cientistas em seus experimentos.

Também relacionado a Predi¸cão de falhas em workflows, em [38] Samak propôs uma abordagem Não-Supervisionada para o problema utilizando o algoritmo de clusteriza¸cão K-Means. Neste trabalho a ideia é prever a falha de execu¸cão de um workflow em tempo de execu¸cão. Para tal tarefa, os atributos necessários para a verifica¸cão de semelhan¸ca do workflow atual com algum dos clusters previamente extra´ıdos por meio de dados históricos são recomputados de acordo com a produ¸cão de dados de monitoramento das etapas de execu¸cão do experimento.

Gaikwad desenvolveu um trabalho que envolve a Deteçcão de Anomalias, mas voltado para a infraestrutura do ambiente de execu¸cão do workflow. Em [35], procura-se detectar a degrada¸cão de desempenho de execu¸cão e falhas de execu¸cão dos workflows num ambiente de nuvem. Para a deteçcão, foi desenvolvido um algoritmo baseado no método estat´ıstico de modelos Autoregressivos [1].

Em [42], Huang mostra um trabalho relativo à tarefa de recomenda¸cão no âmbito dos workflows cient´ıficos. Sua recomenda¸cão diz respeito a qual arquivo de dados um cientista deve utilizar como entrada de uma etapa de seu experimento, a fim de obter uma execu¸cão de sucesso. Para tornar poss´ıvel essa recomenda¸cão, foi desenvolvido um modelo de confian¸ca. Este modelo foi necessário devido à diferen¸ca entre os tipos de dados utilizados em recomenda¸cão de sites de vendas, por exemplo, e os dados de execu¸cão de workflows ciet´ıficos.

Cap´ıtulo 3

Um Sistema de Detec¸c˜ao de Falhas e

Recomenda¸c˜ao para Parˆametros em

Workflows Cient´ıficos

Um Sistema de Gerenciamento de Workflows, como o SciCumulus [19], acrescen- tou muito ao processo de análise de resultados e proveniência dos mesmos para diversos experimentos cient´ıficos. O suporte do ponto de vista estrutural teve grande avan¸co. Con- tudo, o grande volume de dados gerado pelos SGWfC abre ainda mais possibilidades para solu¸cões que agreguem valor aos responsáveis pelas execu¸cões dos workflows.

Pensando nessas possibilidades, o presente trabalho apresenta uma proposta que visa detectar as execu¸cões com falhas realizando predi¸cões e detectando execu¸cões anô- malas. Também visa diminuir o tempo de execu¸cão total e o tempo gasto pelo cientista realizando uma recomenda¸cão de valores para parâmetros que o cientista não tem certeza de quais usar. Tudo isto é poss´ıvel devido os dados históricos de execu¸cões passadas de um workflow, que são capturados pela proveniência, e utilizando técnicas de Aprendizado de Máquina. Deste modo se tornou poss´ıvel realizar as tarefas de deteçcão de falhas e recomenda¸cões de parâmetros para as novas execu¸cões.

As tarefas executadas pelo sistema agregam muito ao processo de experimenta¸cão cient´ıfica no que tange a custos temporais e financeiros. Como a execu¸cão de uma ativa¸cão de um workflow pode levar muito tempo para ser finalizada, predizer se ocorrerá falhar ou não é de grande valia. Ainda explorando este cenário, mas sob o olhar financeiro e lembrando que na maioria das vezes essas execu¸cões são realizadas em ambientes de

28 computa¸cão em nuvem, uma deteçcão de falha, antes que a mesma ocorra, gera economia de gastos de recursos nesses ambientes e consequentemente economia financeira.

Na Se¸cão 3.1 serão apresentados aspectos gerais do sistema desenvolvido, mos- trando uma arquitetura conceitual e detalhes de técnicas de implementa¸cão utilizados. Já na Se¸cão 3.2, o componente de extra¸cão de dados de proveniência é abordado mais a fundo. A Se¸cão 3.3 trata de detalhar como foi desenvolvida a tarefa de Predi¸cão utilizando o SVM. Seguindo, na Se¸cão 3.4 a tarefa de deteçcão de anomalias usando o SVM OneClass é apresentada e especificada. A abordagem mais probabil´ıstica da tarefa de Predi¸cão realizada pelo sistema é mostrada na Se¸cão 3.5. Por fim, a Se¸cão 3.6 dá detalhes do que foi feito para desenvolver a funcionalidade de Recomenda¸cão de Parâmetros.

No documento Uma ferramenta de apoio à detecção de falhas e recomendação de parâmetros em workflows científicos com mineração de dados (páginas 38-41)