• Nenhum resultado encontrado

A maior parte dos trabalhos relacionados ao uso de t´ecnicas de Aprendizado de M´aquina no apoio dos usu´arios no uso dos workflows est˜ao voltados a parte de estrutura¸c˜ao dos mesmos. As tarefas focam em recomendar na maior parte das vezes, qual sequˆencia de atividades implementar nos workflows. Exemplos est˜ao presentes em [31] e [43].

Cˆamara, em [37], propˆos uma abordagem mais pr´oxima ao presente trabalho. Sua pesquisa tamb´em est´a voltada a tarefa de Classifica¸c˜ao, no que diz respeito aos resul-

26 tados de execu¸c˜ao de um workflow. No entanto, o modelo de Aprendizado de M´aquina utilizado por Cˆamara ´e diferente dos propostos aqui. Ele utiliza `Arvores de Decis˜ao [33]. Este modelo tem uma caracter´ıstica que o difere dos demais que ´e a sua capacidade de interpreta¸c˜ao do resultado, a partir da sua pr´opria estrutura. Al´em de responder `a per- gunta relativa `a falha ou sucesso de execu¸c˜ao do workflow, Cˆamara abrange a quest˜ao do tempo estimado de execu¸c˜ao do workflow para um dado conjunto de parˆametros. Note que a pesquisa tamb´em est´a voltada a diminuir o tempo e recursos financeiros gastos pelos cientistas em seus experimentos.

Tamb´em relacionado a Predi¸c˜ao de falhas em workflows, em [38] Samak propˆos uma abordagem N˜ao-Supervisionada para o problema utilizando o algoritmo de clusteriza¸c˜ao K-Means. Neste trabalho a ideia ´e prever a falha de execu¸c˜ao de um workflow em tempo de execu¸c˜ao. Para tal tarefa, os atributos necess´arios para a verifica¸c˜ao de semelhan¸ca do workflow atual com algum dos clusters previamente extra´ıdos por meio de dados hist´oricos s˜ao recomputados de acordo com a produ¸c˜ao de dados de monitoramento das etapas de execu¸c˜ao do experimento.

Gaikwad desenvolveu um trabalho que envolve a Detec¸c˜ao de Anomalias, mas voltado para a infraestrutura do ambiente de execu¸c˜ao do workflow. Em [35], procura-se detectar a degrada¸c˜ao de desempenho de execu¸c˜ao e falhas de execu¸c˜ao dos workflows num ambiente de nuvem. Para a detec¸c˜ao, foi desenvolvido um algoritmo baseado no m´etodo estat´ıstico de modelos Autoregressivos [1].

Em [42], Huang mostra um trabalho relativo `a tarefa de recomenda¸c˜ao no ˆambito dos workflows cient´ıficos. Sua recomenda¸c˜ao diz respeito a qual arquivo de dados um cientista deve utilizar como entrada de uma etapa de seu experimento, a fim de obter uma execu¸c˜ao de sucesso. Para tornar poss´ıvel essa recomenda¸c˜ao, foi desenvolvido um modelo de confian¸ca. Este modelo foi necess´ario devido `a diferen¸ca entre os tipos de dados utilizados em recomenda¸c˜ao de sites de vendas, por exemplo, e os dados de execu¸c˜ao de workflows ciet´ıficos.

Cap´ıtulo 3

Um Sistema de Detec¸c˜ao de Falhas e

Recomenda¸c˜ao para Parˆametros em

Workflows Cient´ıficos

Um Sistema de Gerenciamento de Workflows, como o SciCumulus [19], acrescen- tou muito ao processo de an´alise de resultados e proveniˆencia dos mesmos para diversos experimentos cient´ıficos. O suporte do ponto de vista estrutural teve grande avan¸co. Con- tudo, o grande volume de dados gerado pelos SGWfC abre ainda mais possibilidades para solu¸c˜oes que agreguem valor aos respons´aveis pelas execu¸c˜oes dos workflows.

Pensando nessas possibilidades, o presente trabalho apresenta uma proposta que visa detectar as execu¸c˜oes com falhas realizando predi¸c˜oes e detectando execu¸c˜oes anˆo- malas. Tamb´em visa diminuir o tempo de execu¸c˜ao total e o tempo gasto pelo cientista realizando uma recomenda¸c˜ao de valores para parˆametros que o cientista n˜ao tem certeza de quais usar. Tudo isto ´e poss´ıvel devido os dados hist´oricos de execu¸c˜oes passadas de um workflow, que s˜ao capturados pela proveniˆencia, e utilizando t´ecnicas de Aprendizado de M´aquina. Deste modo se tornou poss´ıvel realizar as tarefas de detec¸c˜ao de falhas e recomenda¸c˜oes de parˆametros para as novas execu¸c˜oes.

As tarefas executadas pelo sistema agregam muito ao processo de experimenta¸c˜ao cient´ıfica no que tange a custos temporais e financeiros. Como a execu¸c˜ao de uma ativa¸c˜ao de um workflow pode levar muito tempo para ser finalizada, predizer se ocorrer´a falhar ou n˜ao ´e de grande valia. Ainda explorando este cen´ario, mas sob o olhar financeiro e lembrando que na maioria das vezes essas execu¸c˜oes s˜ao realizadas em ambientes de

28 computa¸c˜ao em nuvem, uma detec¸c˜ao de falha, antes que a mesma ocorra, gera economia de gastos de recursos nesses ambientes e consequentemente economia financeira.

Na Se¸c˜ao 3.1 ser˜ao apresentados aspectos gerais do sistema desenvolvido, mos- trando uma arquitetura conceitual e detalhes de t´ecnicas de implementa¸c˜ao utilizados. J´a na Se¸c˜ao 3.2, o componente de extra¸c˜ao de dados de proveniˆencia ´e abordado mais a fundo. A Se¸c˜ao 3.3 trata de detalhar como foi desenvolvida a tarefa de Predi¸c˜ao utili- zando o SVM. Seguindo, na Se¸c˜ao 3.4 a tarefa de detec¸c˜ao de anomalias usando o SVM OneClass ´e apresentada e especificada. A abordagem mais probabil´ıstica da tarefa de Predi¸c˜ao realizada pelo sistema ´e mostrada na Se¸c˜ao 3.5. Por fim, a Se¸c˜ao 3.6 d´a detalhes do que foi feito para desenvolver a funcionalidade de Recomenda¸c˜ao de Parˆametros.

Documentos relacionados