Aplicação de técnicas de mineração de dados para prevenção de erros na geração de árvores filogenéticas

(1)

Instituto de Computa¸

c˜

ao

Departamento de Ciˆ

encia da Computa¸

c˜

ao

Rafael Ferreira Ramalho

Aplica¸c˜

ao de T´ecnicas de Minera¸c˜

ao de Dados para

Preven¸c˜

ao de Erros na Gera¸c˜

ao de ´

Arvores

Filogen´eticas

Niter´

oi-RJ

(2)

ii Rafael Ferreira Ramalho

Aplica¸cão de Técnicas de Minera¸cão de Dados para Preven¸cão de Erros na Gera¸cão de ´

Arvores Filogen´eticas

Trabalho submetido ao Curso de Bacharelado em Ciência da Computa¸cão da Universidade Federal Fluminense como requisito parcial para a obten¸cão do t´ıtulo de Bacharel em Ciência da Computa¸cão.

Orientadores: Prof. Daniel Cardoso Moraes de Oliveira Profa_{. Aline Marins Paes Carvalho}

Niter´oi-RJ 2017

(3)

Ficha Catalográfica elaborada pela Biblioteca da Escola de Engenharia e Instituto de Computação da UFF

R165 Ramalho, Rafael Ferreira

Aplicação de técnicas de mineração de dados para prevenção de erros na geração de árvores filogenéticas / Rafael Ferreira Ramalho. – Niterói, RJ : [s.n.], 2017.

41 f.

Projeto Final (Bacharelado em Ciência da Computação) – Universidade Federal Fluminense, 2017.

Orientadores: Daniel Cardoso Moraes de Oliveira, Aline Marins Paes Carvalho.

1. Mineração de dados. 2. Fluxo de trabalho. 3. Trabalho científico. 4. Árvore filogenética. I. Título.

(4)

(5)

Dedico este trabalho a minha fam´ılia e ami-gos que sempre me apoiaram nesta cami-nhada.

(6)

v

Agradecimentos

`

A minha fam´ılia, meu pai Marcelo, minha mãe Barbara e meu tios João Carlos pelo apoio, incentivo e cobran¸ca quando necessário durante toda a Gradua¸cão.

`

A minha irmã Julia, meus avós maternos, Maria Lélia e Waldyr, minha tia Mônica e minhas primas Larissa e Mariana pelo apoio e incentivo.

`

A minha namorada Ana Clara por ter me apoiado nesse momento conturbado do projeto final onde o tempo ´e curto e muitas das vezes exclusivo da Universidade.

Aos meus orientadores Daniel e Aline pela paciˆencia e orienta¸c˜ao.

Aos professores por qual passei nessa longa jornada da gradua¸c˜ao, pelo aprendizado transmitido e por mim absorvido mesmo com algumas dificuldades.

Aos amigos e colegas que estudaram comigo durante todo a gradua¸cão pela com-panhia e ajuda mútua que com certeza sem ela não estaria terminando essa fase da minha vida tanto pessoal como profissional.

(7)

Resumo

As árvores filogenéticas apresentam a rela¸cão evolutiva entre organismos segundo a teoria da evolu¸cão de Darwin e apoia o desenvolvimento e a escolha de fármacos para tratar uma determinada doen¸ca nos dias atuais. Infelizmente, o processo que leva a gera¸cão de tais árvores (workflow) é computacionalmente intensivo, e, dependendo dos parâmetros escolhidos, existe uma alta taxa de falha em tais processos. Pensando na preven¸cão dos casos de erro de execu¸cão de workflows cient´ıficos na área de filogenia, foram utilizadas algumas técnicas de minera¸cão de dados, tendo como base dados de execu¸cões anteriores, de forma a criar um modelo preditivo para tais casos. Criando padrões com estas execu¸cões extrai-se informa¸cões importantes que podem ser utilizadas para prever se futuras execu¸cões vão ter resultado esperado ou não vão agregar nenhum valor. O objetivo deste estudo é exatamente criar esses padrões para que possam ser identificados conjuntos de parâmetros que geram resultado indesejado. Para isto utiliza-se os dados de proveniência do Sistema de Gerência de Workflows Cient´ıficos SciCumulus [1] e o WEKA [2] como ferramenta de minera¸cão de dados.

Palavras-chave: Workflow Cient´ıfico, SciCumulus, SciPhy, Árvores Filogenéticas, Mine-ra¸cão de Dados, Ensemble

(8)

vii

Abstract

Phylogenetic trees present the evolutionary relationship between organisms accor-ding to Darwin’s theory of evolution and support the development and choice of drugs to treat a particular disease today. Unfortunately, the process that leads to the generation of such workflows is computationally intensive, and, depending on the parameters chosen, there is a high failure rate in such processes. Considering the prevention of error cases in the execution of scientific workflows in the field of phylogeny, some techniques of data mining were used, based on data from previous executions, in order to create a predictive model for such cases. Creating standards with these executions extrat important infor-mation that can be used to predict whether future executions will have expected result or will not agregate any value. The purpose of this study is to create these patterns so that they can be identified the sets of parameters that generate undesired results. For this, was use the provenance data from the SciCumulus Scientific Workflows Management System [1] and the WEKA [2] as data mining tool.

Keywords: Scientific Workflow, SciCumulus, ScyPhy, Phylogenetic Trees, Data Mining, Ensemble

(9)

Sum´

ario

Resumo vi

Abstract vii

Lista de Figuras x

1 Introdu¸c˜ao 1

2 Referencial Te´orico 3

2.1 Experimento Cient´ıfico . . . 3 2.2 Workflow Cient´ıfico . . . 5 2.2.1 SciCumulus . . . 6 2.3 Proveniência . . . 6 2.4 Minera¸cão de dados . . . 7 2.4.1 Boosting . . . 9 2.4.2 Bagging . . . 10 2.4.3 Random Forest . . . 10 2.5 Filogenia . . . 11 2.6 SciPhy . . . 12 3 Metodologia Proposta 14 3.1 Extra¸cão de Dados . . . 14

3.2 Divis˜ao dos dados . . . 17

3.3 Convers˜ao dos Arquivos . . . 18

3.4 Minera¸c˜ao com o WEKA . . . 19

4 Avalia¸c˜ao Experimental 20

(10)

ix

(11)

Lista de Figuras

2.1 Ciclo do experimento cient´ıfico adaptado de Mattoso at al. [3] . . . 4

2.2 Arvore Filogen´´ etica . . . 11

2.3 Estrutura do Sciphy . . . 13

3.1 Consulta 1 ao banco de dados . . . 15

3.2 Consulta 2 ao Banco de Dados . . . 16

3.3 Regra de erro adicionada . . . 17

3.4 Consulta final ao banco de dados . . . 17

3.5 Arquivo ARFF gerado a partir da Extra¸c˜ao . . . 18

4.1 Tabela de Resultados . . . 21

4.2 M´edia Matriz de Confus˜ao AdaBoostM1 . . . 22

(12)

Cap´ıtulo 1

Introdu¸

c˜

ao

Com o aumento crescente do volume de dados processados em experimentos cient´ı-ficos, tais experimentos estão sendo executados por meio de simula¸cões antes que passem para a fase prática (laboratório ou pesquisa de campo). Este tipo de experimentos é cha-mado de in silico e só pode ser realizado gra¸cas a grande evolu¸cão da computa¸cão nas ´

ultimas d´ecadas.

Um experimento cient´ıfico necessita seguir regras para o seu desenvolvimento, de forma que possa ser reproduzido por terceiros. Muitos desses experimentos são compostos por diversas atividades, onde a entrada de uma atividade é a sa´ıda da atividade anterior, i.e. os experimentos podem ser representados como uma sequência de atividades encadea-das. Para ajudar nessa organiza¸cão e estrutura¸cão são utilizados os Workflows Cient´ıficos [4, 5]. Os workflows são executados por Sistemas de Gerência de Workflows Cient´ıfi-cos (SGWfC) que são complexos sistemas que permitem modelar, executar e analisar os workflows [6].

Na última década, em especial, houve um aumento na utiliza¸cão de workflows cient´ıficos, pela sua eficiência na gerência do experimento. Porém, um grande problema é o longo tempo utilizado para que os programas desse workflow sejam executados.

Muitos workflows podem ser executados por dias e até meses em computadores pa-ralelos e de alta capacidade. Como as execu¸cões são muito demoradas, erros são comuns e acabam desperdi¸cando recursos preciosos (tempo de máquina). Dessa forma, é imperativo que execu¸cões que tendem a falhar ou produzir resultados sem qualidade sejam evitadas. Nesta monografia será abordada uma forma de tentar evitar a execu¸cão desneces-sária de certos workflows que por experiências anteriores nos indicam que há chance de

(13)

erro em sua execu¸cão. Este estudo conta com execu¸cões reais de workflows na área de bioinformática, mais especificamente na gera¸cão de árvores filogenéticas.

Para que possa ser poss´ıvel identificar padrões de erros, será utilizado a base de dados de proveniência do SciCumulus 2.0 um SGWfC. Além disso, utilizaremos algorit-mos de minera¸cão de dados, uma área muito promissora, que vem crescendo nas últimas décadas, pois gera informa¸cão a partir de dados já existentes. Os algoritmos de minera¸cão utilizados serão os de classifica¸cão, estes podem ser: classificadores tradicionais, que são otimizados, porém reduzem o espa¸co de busca; ou a combina¸cão de classificadores (en-sembles), que tem o objetivo de agregar as vantagens individuais destes classificadores. O programa utilizado para a minera¸cão é o WEKA. O WEKA tem os classificadores Ada-BoostM1, Bagging e RandomForest nativo em sua plataforma e estes serão os utilizados nesta pesquisa. O SGWfC utilizado neste projeto é o SciCumulus, ele foi projetado para ser utilizado na nuvem de computadores e para obter dados de proveniência em tempo de execu¸cão, além de incluir dados de dom´ınio do experimento.

A estrutura do texto segue com o Cap´ıtulo 2 onde é descrito o referencial teórico necessário para o entendimento desta monografia, fazendo parte dele: Workflow cient´ıfico; Proveniência de Dados; e Minera¸cão de Dados. Em seguida é apresentado o Cap´ıtulo 3 onde é demonstrada a abordagem proposta, divida pelos passos executados na análise: extra¸cão dos dados e minera¸cão. O Cap´ıtulo 4 demostra a avalia¸cão experimental. E por ´

(14)

Cap´ıtulo 2

Referencial Te´

orico

Neste cap´ıtulo será explicitado alguns dos conceitos necessários para o entendi-mento desta monografia. Dentre eles estão: o conceito de experimento cient´ıfico; de workflow cient´ıfico; da proveniência de dados; da minera¸cão de dados e alguns métodos de aprendizado de máquina; e Sciphy.

2.1 Experimento Cient´ıfico

O experimento cient´ıfico surgiu devido a necessidade de se provar na prática hip´ ote-ses e teorias. Este pode ser definido como “um teste executado sob condi¸cões controladas, que é realizado para demonstrar uma verdade conhecida, examinar a validade de uma hipótese, ou determinar a eficácia de algo previamente não explorado” [7].

Para que seja considerado cient´ıfico tal experimento tem que poder ser reproduzido e comprovado e para isso é necessário que seja evidenciado todo seu processo. A Figura 2.1 mostra um dos modelos existentes para se representar o ciclo de vida de um experimento cient´ıfico [3]. Nela podemos ver as principais fases do experimento: composi¸cão, execu¸cão e análise.

A fase de composi¸cão é responsável pela estrutura¸cão e cria¸cão do experimento. Como pode ser visto na Figura 2.1, esta pode ser decomposta em duas outras fases: concep¸cão e reuso. Na concep¸cão é criado o experimento, e no reuso são feitas adapta¸cões de experimentos já existentes.

Já a fase de execu¸cão é responsável por executar o experimento, que também é dividida em duas outras: monitoramento e distribui¸cão. No monitoramento é feito a

(15)

Figura 2.1: Ciclo do experimento cient´ıfico adaptado de Mattoso at al. [3]

rifica¸cão do estado do experimento e na distribui¸cão é feita a divisão do experimento em atividades que serão executadas em ambiente de PAD (Programa¸cão de Alto Desempe-nho). Por ultimo, temos a fase de análise, responsável pela verifica¸cão dos dados gerados pelas fases anteriores, confirmando ou refutando a hipótese do experimento.

Com a evolu¸cão da ciência foram desenvolvidos alguns tipos de experimentos cien-t´ıficos: in vivo, in vitro, in virtuo e in silico [8]. O experimento que será abordado nesta monografia é o in silico que se caracteriza pela simula¸cão do ambiente e de seus compo-nentes baseados em modelos computacionais complexos. Esses modelos são caracterizados por encadeamento de programas.

A evolu¸cão da ciência da computa¸cão e o aumento do poder computacional possi-bilitou a utiliza¸cão de experimentos cient´ıficos baseados em simula¸cão em diversas outras ´

areas de estudo [4]. Análises filogenéticas [9], processamento de sequências biológicas [10], estudos na área de saúde [11, 12, 13, 14], prospeçcão de petróleo em águas profundas [15, 16, 17, 18], mapeamento dos corpos celestes [19], estudos fisiológicos [17], previsão de precipita¸cão [20], são alguns dos dom´ınios cient´ıficos que utilizam simula¸cão em suas pesquisas.

(16)

5

2.2 Workflow Cient´

ıfico

O termo workflow foi inicialmente criado em 1970 para a área de negócios com o intuito de organizar e gerenciar melhor documentos e processos de uma empresa e reduzir os custos de impressão e manipula¸cão de documentos [21, 4, 22].

A defini¸cão de workflow segundo Workflow Management Coalition (WfMC) é: “A automa¸cão de um processo de negócio, completo ou apenas parte dele, através do qual documentos, informa¸cões ou tarefas são transmitidos de um participante a outro por a¸cões, de acordo com regras procedimentais.” [23].

Em outras palavras, é um processo que contém diversas atividades que devem ser executadas em uma determinada ordem. Cada atividade recebe uma informa¸cão de entrada e gera uma informa¸cão de sa´ıda. Essas informa¸cões geradas são passadas adiante, para a próxima atividade até o final do processo [24].

Porém, com o tempo, cientistas passaram a utilizar essa metodologia para experi-mentos cient´ıficos, mas ao contrário dos workflows de negócio, os workflows cient´ıficos são centrados no fluxo de transforma¸cão dos dados [25].

Uma defini¸cão dada a workflow cient´ıfico é: “Arcabou¸co funcional que permite a composi¸cão de programas em uma sequência de execu¸cão com o objetivo de gerar um resultado final.” [6].

Essa metodologia é usada para experimentos cient´ıficos in silico, que são expe-rimentos feitos por simula¸cão de computadores e tem tido sucesso nas áreas Genômica Comparativa [26] e Astronomia [27].

Os cientistas passaram a utilizar tal ferramenta por causa do grande volume, he-terogeneidade e alta demanda computacional dos dados a serem analisados [5].

Os dados utilizados e gerados em execu¸c˜oes de workflows cient´ıficos podem ser classificados dos seguintes tipos [28]:

1. dados do dom´ınio;

2. fluxo de dados gerados na execu¸c˜ao do workflow; 3. fluxo das atividades executadas;

(17)

Uma informa¸cão importante é que a base de dados de proveniência segue o modelo PROV-Wf [29], baseado na recomenda¸cão PROV W3C [30].

Como consta na se¸cão anterior, é necessário que o experimento seja reproduzido e para isto é necessário que se tenha o histórico de execu¸cões. Desta forma, os dados gerados pela execu¸cão do workflow são guardados mesmo sem ter um resultado positivo, pois esses dados podem ser analisados posteriormente e utilizados para evitar novas ocorrências. A este registro de resultados e execu¸cões chamamos de proveniência [31].

Os sistemas que modelam, executam e monitoram os workflows cient´ıficos são chamados de Sistemas de Gerência de Workflows Cient´ıficos (SGWfC). O SGWfC não conhece previamente os programas que farão parte de suas atividades. Este somente gerencia os dados de entrada, de sa´ıda, o fluxo de trabalho e as altera¸cões feitas ao longo dele que são os dados de proveniência.

Existem muitos SGWfC, cada um com suas caracter´ısticas, vantagens e desvanta-gens, como: o SciCumulus [1], o Kepler [32], o Taverna [33], o VisTrails [34], o Pegasus [35], o Askalon [36], entre outros.

2.2.1 SciCumulus

SciCumulus [1] foi desenvolvido para suportar execu¸cão paralela em clusters e na nuvem. Ele é capaz de coletar e consultar dados de proveniência em tempo de execu¸cão [6].

Esta monografia é baseada nos dados de proveniência gerados por este SGWfC. Isso se deve pelo SciCumulus ser o único SGWfC a se preocupar não somente com a proveniência, mas com dados espec´ıficos do dom´ınio [28].

Um diferencial do SciCumulus é que a sua proveniência é armazenada em um banco de dados relacional e em tempo de execu¸cão permitindo seu monitoramento e avalia¸cão do experimento em tempo real.

2.3 Proveniˆ

encia

Segundo o dicionário Michaelis [37], proveniência é: 1. Ato ou efeito de provir.

(18)

7 2. Lugar de onde algo prov´em; origem, procedˆencia.

Proveniência é muito importante para o workflow Cient´ıfico, pois é ela que nos dá a origem e toda a evolu¸cão dos dados durante a execu¸cão do mesmo. E através dela o experimento pode ser reproduzido e validado gerando assim, de fato, o conhecimento cient´ıfico.

Segundo Goble et al. [38] existem algumas diversas funcionalidades para os dados de proveniˆencia:

1. Garantia de qualidade dos dados: verificar a qualidade e a confiabilidade dos dados atrav´es de sua origem e transforma¸c˜ao;

2. Auditoria dos caminhos: verificar as transforma¸c˜oes ocorridas e se houve algum erro no processo;

3. Verifica¸cão de atribui¸cão: verifica informa¸cões do dono dos dados e de agentes mo-dificadores, se houver;

4. Informacional: possibilita a consulta e disponibiliza informa¸c˜oes dos dados. Existem 2 tipos de proveniˆencia: prospectiva e retrospectiva. [39, 31]

A proveniência prospectiva é captura e armazena dados da estrutura do processo que levou a gera¸cão de um determinado produto. No panorama do workflow cient´ıfico, ela é a responsável pela aquisi¸cão dos dados relativos a estrutura e configura¸cões de ambiente do workflow.

Já a proveniência retrospectiva é caracterizada pela captura dos dados e seus des-critores através da execu¸cão de um determinado workflow. Alguns exemplos desses dados são os tempos e poss´ıveis erros de execu¸cão e arquivos produzidos. Neste trabalho foram usados ambos tipos de proveniência.

2.4 Minera¸

c˜

ao de dados

No século XXI a informa¸cão passou a ser o bem mais valioso que se pode adquirir, isto é válido para qualquer área de conhecimento. Em consequência disto é adquirida informa¸cão a todo momento sobre quase tudo nos dias atuais. Ao analisar um conjunto

(19)

de informa¸cões sobre um determinado tema, podemos encontrar grupos de semelhan¸cas, esses grupos geram padrões que ao serem analisados geram informa¸cões importantes.

A quantidade de informa¸cões não nos permite visualizar esses padrões sem a ajuda computacional e sem esta ajuda perdemos dados importantes. A minera¸cão de dados nasceu desta necessidade de se ter cada vez mais informa¸cão, tendo como objetivo auto-matizar a explora¸cão de padrões a partir de grandes quantidades de dados para aquisi¸cão de novos conhecimentos, facilitando a visualiza¸cão desses padrões e consequentemente a extra¸cão dessa informa¸cão.

O processo de minera¸c˜ao pode ser dividido em sete passos principais [40]: 1. Limpeza dos Dados (para remover dados inconsistentes e ru´ıdos);

2. Integra¸cão dos Dados (onde múltiplas fontes de dados podem ser combinadas) 3. Sele¸cão dos Dados (onde dados relevantes para a tarefa de análise são recuperados

do banco de dados);

4. Transforma¸cão dos Dados (onde os dados são transformados ou consolidados em for-mas apropriadas para a minera¸cão, por exemplo, fazendo um sumário ou agregando opera¸cões);

5. Minera¸cão de Dados (processo essencial onde métodos inteligentes são aplicados com o objetivo de extrair padrões de dados);

6. Avalia¸c˜ao dos Dados (para identificar os verdadeiros padr˜oes de interesse que repre-sentam o conhecimento baseado em alguma medida de interesse);

7. Apresenta¸cão do Conhecimento (onde visualiza¸cão e técnicas de representa¸cão de conhecimentos são utilizadas para representar o conhecimento minerado para o usu´ a-rio).

A minera¸cão de dados moderna teve in´ıcio na década de 1990 quando o custo com processamento e armazenamento de dados foi reduzido, gerando poder computacional e possibilitando assim a utiliza¸cão desta técnica para adquirir informa¸cões que ajudam nas decisões da empresa. [41]

A Minera¸cão de Dados utiliza algoritmos desenvolvidos na área de Aprendizado de Máquina, na qual desenvolve algoritmos de predi¸cão. Estes algoritmos são capazes de

(20)

9 extrair informa¸cão a partir de amostras de dados [42]. Esta área de pesquisa tem evolu´ıdo muito nas últimas décadas e tem produzido cada vez mais algoritmos eficientes e precisos. As técnicas de aprendizado de máquina podem ser divididas em dois tipos: supervi-sionada e não-supervisionada. Na supervisionada utiliza-se informa¸cões pré-classificadas, ou seja amostras rotuladas com uma classe, como base de treinamento para a máquina, com o intuito de induzir esta classe para novos dados. Ainda na supervisionada, se tem uma subdivisão, sendo categorizada como de classifica¸cão quando esta classe possui valores discretos e como de regressão quando os valores são cont´ınuos.

Já na não-supervisionada, diferente da supervisionada, os dados não tem rótulos, o objetivo é criar grupos de semelhan¸ca de dados existentes e procurar tirar alguma informa¸cão dos grupos criados, um exemplo é a clusteriza¸cão.

Em aprendizado de máquina a combina¸cão de classificadores mais simples, co-mumente tem um desempenho melhor que um único classificador. Ensembles [43] são exatamente isso, métodos que geram conjunto de classificadores e combinam seus resulta-dos. Essa combina¸cão pode ser feita de várias formas, sendo a mais comum por vota¸cão, que pode ser por maioria simples, onde todos os classificadores têm o mesmo grau de importância, ou ponderado, onde há clarificadores mais importantes que têm peso maior na vota¸cão.

Alguns classificadores base, mais comuns e aqui utilizados s˜ao [44]:

• Árvore de Decisão: este modelo é estruturado em forma de árvore onde cada nó avalia um atributo e cada percurso na árvore é uma regra de classifica¸cão. Ele divide um problema complexo em problemas menores recursivamente até chegar a problemas simples de se resolver.

• Decision Stump: este modelo é uma árvore de decisão porém com apenas duas folhas, único n´ıvel.

Alguns métodos Ensembles muito conhecidos são Boosting [45], Bagging [46] e RandomForest [47], que serão aqui utilizados.

2.4.1 Boosting

Boosting ´e um m´etodo que utiliza um conjunto de classificadores simples como ´

(21)

[48]. S˜ao utilizados algoritmos mais simples pelo seu desempenho levemente superior que ´e impulsionado para criar um classificador forte [49].

O algoritmo Boosting adaptativo (AdaBoost) [50], foi desenvolvido para melhorar alguns pontos, tais como na an´alise de grande volume de dados e a redu¸c˜ao do custo computacional [51].

2.4.2 Bagging

Bagging, Agrega¸cão de Bootstrap [46], gera conjuntos independentes, chamados Bootstraps, de mesmo tamanho do conjunto de treinamento, composto de amostras ale-atórias, permitindo repeti¸cão. Para cada Bootstrap é criado um grupo de classificadores. O resultado de cada classificador é avaliado por meio de voto por maioria simples. O Bagging tem varia¸cões e uma delas é o Random Forest.

2.4.3 Random Forest

O algoritmo Random Forest [47], foi criado a partir da jun¸cão de Random Decision Forests [52] e Bagging [46]. Este algoritmo é composto de classificadores do tipo árvore de decisão de forma a construir árvores aleatoriamente com amostragem do tipo Bootstrap. Para induzir qual a classe de uma instância, ele combina várias árvores de decisão, sendo que o resultado final é decidido em forma de vota¸cão, porém usando um sistema de peso para os votos: quanto menor a similaridade entre as árvores, maior o peso de seu voto [53].

Esta técnica é diferenciada das técnicas normais de árvore de decisão, pois enquanto ´

arvores de decisões normais tem o objetivo de criar uma estrutura a partir dos dados, o Random Forest é o conjunto de várias dessas árvores com subconjuntos de atributos de forma aleatória.

Algumas das caracteristicas desta t´ecnica que se destacam s˜ao [54]:

• Algoritmo mais poderoso do que comparado somente a uma árvore de decisão; • Possui boa taxa de acerto quando testado em diferentes conjuntos de dados; • Técnica exata;

(22)

11 • Menos sens´ıveis a ru´ıdos;

• Classifica¸cão aleatória das árvores sem interven¸cão humana.

2.5 Filogenia

A Filogenia é o estudo de hipóteses de rela¸cão evolutiva de um grupo de organismos, ou seja, tem como objetivo descobrir a ancestralidade entre espécies conhecidas.

Os conjuntos de dados genômicos são grandes e complexos, estando longe de serem triviais para interpretar e entender [55]. Porém, devido a novas descobertas na área biológica evolutiva, esta área cresceu muito rapidamente, possibilitando o uso de árvores filogenéticas para mapear a transi¸cão de caracter´ısticas na história evolutiva.

Uma Árvore Filogenética, também conhecida como árvore da vida [56], é uma representa¸cão gráfica de ancestralidade representada na forma de árvore, sendo que cada nó com descendentes representa o mais recente antepassado comum, e os comprimentos dos ramos podem representar estimativas do tempo evolutivo. É demonstrado um exemplo de Árvore Filogenética na Figura 2.2.

Figura 2.2: ´Arvore Filogen´etica [57]

(23)

ma-nipula¸cão de grandes volumes de dados necessitando uma computa¸cão intensiva e uma gerência complexa desses dados. É necessário também seguir alguns passos que são parte do experimento de análise filogenética. Estes passos serão melhor explicados na próxima se¸cão.

2.6 SciPhy

O SciPhy [9] é um workflow cient´ıfico que foi projetado para gerar árvores filoge-néticas com máxima verossimilhan¸ca [58]. Ele inicialmente foi modelado com o intuito de executar as cadeias de aminoácidos, contudo seu uso pode ser utilizado para outros tipos de sequências biológicas.

Esse workflow ´e constitu´ıdo por oito atividades [28], sua estrutura pode ser vista na Figura 2.3:

1. Sele¸cão e formata¸cão de dados (dataselection); 2. Constru¸cão do alinhamento (MSA) (mafft); 3. Conversão de formato MSA (readseq);

4. Pesquisa de Modelos Evolutivos (modelgenerator); 5. Estimativa de uma ´unica ´Arvore (raxml 1);

6. Estimativa de um conjunto de árvores não-paramétricas Bootstrap (raxml 2); 7. Mesclar os resultados de raxml 1 e raxml 2 (mergeresults);

8. Constru¸c˜ao da ´arvore, projetando valores de confian¸ca Bootstrap (raxml 3).

Essas atividades são executadas cada uma com um programa computacional dife-rente, sendo: programas de alinhamento genético (podendo ser o MAFFT [59], o Kalign [60], o ClustalW [61], o Muscle [62], ou o ProbCons [63]) para a constru¸cão do alinha-mento genético (2), o ReadSeq [64] para conversão do alinhamento genético para o formato PHYLIP (3), o ModelGenerator [65] para pesquisa e escolha do melhor modelo evolutivo (4) e o RAxML [66] para constru¸cão da árvore filogenética (5, 6 e 8) [9, 10, 12].

O SciPhy se inicia com a sele¸cão dos dados através de um script. O segundo passo é a constru¸cão de alinhamento múltiplo de sequências (Multiple Sequence Alignment,

(24)

13

Figura 2.3: Estrutura do Sciphy [28]

ou simplesmente MSA) que ´e fundamental em muitos experimentos de Bioinform´atica. Existe uma grande variedade de programas que fazem este alinhamento, sendo a escolha reservada ao cientista.

Esses programas recebem um arquivo multi-fasta, que pode conter informa¸cões de aminoácidos ou não, como entrada e produz um alinhamento genético (MSA).

Na fase seguinte, o alinhamento produzido anteriormente é convertido para o for-mato PHYLIP [67]. Esta conversão é feita pelo programa ReadSeq.

Este arquivo convertido ´e utilizado como entrada do programa ModelGenerator para se descobrir qual o melhor modelo evolutivo a ser utilizado.

Na quinta atividade é utilizado o alinhamento produzido e o melhor modelo evo-lutivo para a produ¸cão de uma única estimativa de árvore filogenética com o programa RAxML. Já na sexta etapa é produzido um conjunto de árvores não parametrizadas, com parâmetro de Bootstrap configurável.

A sétima etapa é responsável pela concatena¸cão do resultado das duas etapas anteriores.

O último passo é a cria¸cão da árvore filogenética projetando os valores de Boots-trap.

(25)

Cap´ıtulo 3

Metodologia Proposta

Neste cap´ıtulo é explicado todo o processo executado para chegar ao objetivo desta monografia que é realizar a predi¸cão de falhas em workflows cient´ıficos. Além disso, apresenta os problemas obtidos e como foram solucionados.

Este cap´ıtulo é dividido em partes para uma melhor organiza¸cão. Cada se¸cão aborda uma etapa do projeto.

3.1 Extra¸

c˜

ao de Dados

O objetivo deste trabalho é prever casos de falha em um workflow cient´ıfico para análises filogenéticas. A extra¸cão dos dados é parte essencial deste projeto de pesquisa.

Neste projeto, foi usado o workflow SciPhy 2.0 com o intuito de gerar árvores filoge-néticas com máxima verossimilhan¸ca. Serão utilizados os dados gerados pela proveniência de dados criada pelo SciCumulus, que é um sistema de gerência de workflows cient´ıficos. Esses dados foram obtidos com execu¸cões reais de workflows cient´ıficos, no entanto nem toda informa¸cão obtida com a execu¸cão do SciCumulus será útil para esta pesquisa. Pensando nisso foi feita uma sele¸cão somente dos dados necessários através da consulta ao banco de dados apresentada na Figura 3.1:

Na consulta, DataSelection, Mafft, ReadSeq, ModelGenerator e Raxml são os pro-gramas do SciPhy 2.0, mais informa¸cões sobre eles na se¸cão 2.6. A letra ‘i’ antes desses nomes na consulta nos indica que esses são as rela¸cões de entrada desses programas no workflow, e sua composi¸cão nos indica o nome da tabela no banco de proveniência. No SciCumulus, cada rela¸cão é uma tabela no banco de dados que contém os valores do

(26)

15

Figura 3.1: Consulta 1 ao banco de dados parˆametros utilizados.

“Sciphy” é o nome de um ‘esquema’, um conjunto de tabelas do banco de dados onde estão localizadas algumas das tabelas que serão utilizadas, outras estão no ‘esquema’ público que é adicionado a consulta mais a frente.

Os dados selecionados são: sir.num aligns, sir.length, sir.model1, sir.prob1, sir.model2, sir.prob2. Cada letra da sigla ‘sir’ a frente dos dados indica qual é a origem do dado. A letra ‘s’ é do ‘esquema’ a qual o dado pertence, no caso sciphy, ‘i’ é a indica¸cão de que o dado é de entrada e ‘r’ de qual programa do workflow ele se refere, no caso Raxml.

• num aligns é o número de alinhamentos criado pelo programa Mafft; • length é o tamanho do alinhamento, gerado pelo programa Mafft;

• model1 é o melhor modelo evolutivo, indicado pelo programa ModelGeneretor; • prob1 é a probabilidade de model1 ocorrer, gerado pelo programa ModelGeneretor; • model2 é o segundo melhor modelo evolutivo, indicado pelo programa

ModelGene-retor;

• prob2 é a probabilidade de model2 ocorrer, gerado pelo programa ModelGeneretor; Porém, nos dados extra´ıdos anteriormente não temos o estado final dessas execu¸cões (com erro ou sem erro). Para isso, é necessária a adi¸cão de mais uma coluna a essa tabela que é a tabela de ‘erro’. ‘erro’ é o nome dado a tabela com o resultado das execu¸cões dos programas do workflow. Essas informa¸cões sobre a execu¸cão estão em uma tabela no ‘esquema’ público chamada eactivation que contém informa¸cões sobre as invoca¸cões das atividades, com dados de desempenho, tempo de inicio e final da atividade e, o qual utilizaremos, registro de erro e de reexecu¸cão causadas por falha [28].

(27)

Segundo Ocanã et al. [28] “Uma execu¸cão de atividade é dita ser “falha” se o campo exitstatus (um código na tabela eactivation retornado pelo programa invocado pela atividade) é diferente de 0 e o status da atividade é ‘FINISHED WITH ERRORS’.” Para facilitar a consulta foram utilizados os campos exitstatus e failure tries, que informa a quantidade de vezes que o programa teve que repetir sua execu¸cão por motivo de falha. Isto é feito pelo sistema de recupera¸cão do SciCumulus, caso este identifique uma falha em alguma execu¸cão ele automaticamente reexecuta a atividade. Com essas informa¸cões adicionais foi feita uma nova consulta, demonstrada na Figura 3.2.

Figura 3.2: Consulta 2 ao Banco de Dados

Esta consulta teve como retorno 400 instancias porém, a quantidade de erros ocor-ridos foram ´ınfimos. Uma boa informa¸cão tendo como base dados reais, no entanto é ruim para a utiliza¸cão de uma abordagem de aprendizado de máquina. Este resultado foi obtido com a precau¸cão dos cientistas envolvidos em reduzir os erros e o custo.

Para podermos avaliar a abordagem proposta, foram realizadas modifica¸cões nos dados extra´ıdos. A ideia principal foi criar um “gabarito” onde soubéssemos quais são os dados com falha e verificar se a abordagem de aprendizado seria capaz de identificar tais falhas. Para tanto, foi criada uma regra para altera¸cão dos dados, esta regra modifica o resultado das execu¸cões. Execu¸cões com valor de model1 igual a ‘WAG+G’ e tamanho do

(28)

17 alinhamento maior que 250, ou, model2 igual a ‘JTT+G’ e prob2 maior que 1000 ser˜ao consideradas com erro. A regra ´e demonstrada na Figura 3.3.

Figura 3.3: Regra de erro adicionada

Essa regra nos dá uma porcentagem de 5,75% de exemplos que tiveram algum problema em sua execu¸cão. Com a adi¸cão de tal regra necessitamos fazer uma atualiza¸cão na consulta ao banco, a tabela resultante desta consulta é salva em um arquivo ‘.csv’. A Figura 3.4 ilustra a consulta final ao Banco de proveniência.

Figura 3.4: Consulta final ao banco de dados

3.2 Divis˜

ao dos dados

Após a extra¸cão foi feita uma separa¸cão dos dados em 5 conjuntos de arquivos sendo um com 1/5 dos exemplos que serão utilizados para teste e outro com 4/5 para a base de aprendizado do WEKA. Essa divisão foi feita 5 vezes com separa¸cão dos casos de teste

(29)

com arquivos diferentes e com a preocupa¸c˜ao de manter uma quantidade proporcional de erros tanto na base quanto nos testes.

Este passo foi realizado para saber quais os dados exatos em cada arquivo e manter a proporcionalidade de casos de erro tanto na base quanto no arquivo teste. Esses dados ser˜ao utilizados para o aprendizado de maquina, arquivos base, e valida¸c˜ao do conheci-mento adquirido, arquivos teste.

O método de valida¸cão cruzada (Cross Validation) [40] é um método largamente utilizado para valida¸cão do conhecimento adquirido na minera¸cão de dados. Este método está dispon´ıvel no WEKA e também será utilizado para fins comparativos.

3.3 Convers˜

ao dos Arquivos

Um problema encontrado foi a utiliza¸cão dos dados através do arquivo ‘.csv’. Isso ocorreu porque o WEKA precisa saber quais os poss´ıveis valores de cada atributo. Para resolvê-lo o arquivo ‘.csv’ foi convertido para o arquivo ‘.arff’ [68, 69] que é a extensão nativa do WEKA.

Figura 3.5: Arquivo ARFF gerado a partir da Extra¸c˜ao

O arquivo ‘.arff’ contém duas partes distintas. A primeira é o cabe¸calho e a segunda os dados. O cabe¸calho é composto pelo nome da rela¸cão e a lista de atributos, assim como

(30)

19 seu tipo ou valores. Já os dados são formatados como um arquivo ‘.csv’, atributos de uma mesma instância separados por v´ırgula respeitando a ordem em que os atributos foram declaradas e cada instância em uma linha. Na Figura 3.5 temos parte de um dos arquivos utilizados já convertidos.

Um fato importante a ser ressaltado é que foi necessário fazer a conversão do arquivo completo antes da divisão e copiar a lista de atributos deste para os arquivos divididos. Caso seja feita a conversão de cada divisão do arquivo, nem todos os valores dos atributos serão definidos na base, fazendo com que a inferência no conjunto de teste tenha um erro de compatibilidade.

3.4 Minera¸

c˜

ao com o WEKA

Após a extra¸cão, divisão e conversão dos dados se inicia o fase do aprendizado de máquina. A ferramenta escolhida para fazer o aprendizado foi o WEKA. Tal ferramenta foi escolhida por sua facilidade de uso, por ser desenvolvido em Java e por já ter em sua API vários classificadores famosos e largamente usados.

O WEKA utiliza classificadores para a cria¸cão de padrões. O aprendizado de máquina supervisionado é o que melhor representa o problema que tentamos solucionar. Este tipo de aprendizado se caracteriza pela obten¸cão e identifica¸cão de padrões em dados existentes com o intuito de buscar estes mesmos padrões em novos dados e induzir valores de atributo da classe. “Classe” é o nome do atributo que desejamos que seja premeditado. Para realizar esta pesquisa foi utilizada a interface gráfica do WEKA, mais especi-ficamente o ambiente WEKA Explorer [2]. Após essa escolha os dados foram adicionados. Antes de realizar o aprendizado foi utilizado um filtro não supervisionado presente no WEKA para embaralhar as instâncias chamado Randomize. Este passo é necessário para diminuir a dependência da ordem dos exemplos.

Após a adi¸cão dos dados são selecionados os classificadores. Os algoritmos testados foram todos do tipo Ensemble, ou seja, algoritmos que são compostos por um conjunto de classificadores. Os utilizados nesta monografia foram: Random Forest, Bagging e AdaBoostM1.

(31)

Cap´ıtulo 4

Avalia¸

c˜

ao Experimental

Neste cap´ıtulo é apresentado os resultados obtidos com a execu¸cão do WEKA com os dados extra´ıdos da base de dados de proveniência do SciCumulus de execu¸cões do SciPhy.

A demonstra¸c˜ao dos resultados foi dividida em duas partes para cada algoritmo: 1. Valida¸c˜ao cruzada do WEKA;

2. Bases de 1 a 5 com seus respectivos testes.

As bases são utilizadas para garantir os mesmos conjuntos de testes, para ambos algoritmos, permitindo assim a compara¸cão destes. A proporcionalidade das classes em cada conjunto de arquivo de base e teste também foi garantida.

A Figura 4.1 mostra os resultados das execu¸cões. A primeira coluna desta tabela indica qual arquivo foi utilizado como base, sendo “base completa” a base extra´ıda do Banco de Dados demonstrado na se¸cão 3.1 e as 5 bases seguintes são o resultado da divisão da base completa feita na se¸cão 3.2. A segunda coluna mostra qual o algoritmo de classifica¸cão foi utilizado e a terceira sobre qual tipo de teste foi executado, sendo “Cross Validation 5 folds” a valida¸cão cruzada do próprio WEKA e nos 5 testes seguintes foi utilizado os arquivos correspondentes as bases também gerados na se¸cão 3.2.

A quarta coluna indica a porcentagem de acerto entre as instancias classificadas como positiva e dentre estas as que são realmente positivas. A quinta a porcentagem de acerto das instancias classificadas como positivas sobre todas as instancias realmente positivas. F-measure faz a média harmônica de Precision e Recall [70]. Root Mean Squared Erro (RMSE) é a medida do desvio das previsões em rela¸cão ao valor efetivo

(32)

21 (calculada como a raiz quadrada do desvio quadrático médio) [71]. Ao final temos a acurácia de cada execu¸cão e a media de acurácia das bases e testes aqui criados.

Figura 4.1: Tabela de Resultados

Com esses resultados observamos uma pequena melhora nos arquivos divididos e nas suas médias de resultado. Esta média simples foi feita para comparar com o resultado pelo teste de valida¸cão cruzada com 5 arquivos do WEKA.

Pode-se observar pela tabela que o valor de precisão não varia muito comparando os classificadores Bagging e RandomForest, porém há uma divergência maior na compa-ra¸cão de ambos com o AdaBoostM1 principalmente quando utilizado o Cross Validation internamente implementado do WEKA. E essa varia¸cão pode ser vista na Acurácia.

Foram usadas as configura¸cões padrão do WEKA para cada classificador. Espe-cialmente no Random Forest foram modificadas algumas dessas configura¸cões, como o numero de intera¸cões, a profundidade máxima das árvores, número de slots de execu¸cão e porcentagem do tamanho do conjunto de treinamento, i.e, porém sem nenhuma melhora significativa.

Nas Figuras 4.2 e 4.3 temos a média da Matriz de Confusão das 5 bases criadas para os algoritmos AdaBoostM1, Bagging e Random Forest. Ela é composta por 2 colunas na primeira temos os casos classificados como falso (‘f’,sem erro) e na segunda os casos classificados como verdadeiro (‘t’, com erro), sendo que na primeira linha temos os casos realmente falsos e na segunda os casos realmente verdadeiros. Na diagonal principal temos as instancias que foram classificadas de forma correta.

Em nenhum dos casos houve casos de falso positivo. Isto foi observado em cada matriz de confusão. O resultado das médias das matrizes do Bagging e Random Forest geraram a mesma matriz de confusão. Os algoritmos não obtiveram nenhuma instˆ

(33)

an-Figura 4.2: M´edia Matriz de Confus˜ao AdaBoostM1

Figura 4.3: M´edia Matriz de Confus˜ao Bagging e Random Forest

cia classificada como ‘t’(verdadeiro) incorretamente. Isto ´e uma boa informa¸c˜ao pois se houvesse falso positivo eles nos induziria ao erro.

(34)

Cap´ıtulo 5

Conclus˜

ao

Com a evolu¸cão da computa¸cão e do poder computacional nas últimas décadas, inclusive com o advento de modelos de computa¸cão mais acess´ıveis como a nuvem, nos per-mitiram executar experimentos cient´ıficos completamente baseados em simula¸cão. Como tais experimentos são computacionalmente intensivos e podem executar durante dias ou semanas e produzem um grande volume de dados, podemos utilizar a minera¸cão desses dados para gerar informa¸cões importantes para o processo de forma a otimizá-lo.

Este estudo teve como objetivo a utiliza¸cão da minera¸cão de dados de proveniência gerados pelo gerenciador de workflow cient´ıfico SciCumulus voltado para análises filogen´ e-ticas com o intuito de reduzir a ocorrência de erros. Alguns problemas foram encontrados ao caminhar do projeto, porém todos foram solucionados para atingirmos o objetivo deste. Observando os resultados obtidos, temos que a divisão do banco de dados em 5 arquivos de forma a manter a proporcionalidade dos exemplos com erro e com acerto demonstrou uma melhora da acurácia.

O classificador que tem a melhor acurácia no exemplo utilizado foi o Random Forest, tanto nos arquivos divididos quanto na base de dados completa obteve mesma acurácia de 99,5%. Em segundo lugar temos o Bagging que apesar de obter a mesma acurácia que o Random Forest com os arquivos divididos teve uma acurácia um pouco menor sobre a base completa. E em por ultimo o AdaBoost.

Com esses resultados sendo utilizados para próximas execu¸cões de workflows cien-tificos na área de Filogenia podemos esperar uma grande redu¸cão do numero de falhas ocorridas, reduzindo assim o custo financeiro e otimizando seu processo.

Uma proposta futura para dar seguimento a este projeto ´e a integra¸c˜ao da

(35)

¸cão de dados ao SciCumulus. A escolha do WEKA foi pensando nisso, pois é um software de código aberto e ambos são desenvolvidos em Java facilitando a integra¸cão.

Uma outra proposta é a extensão desse projeto para avaliar qual configura¸cão de computadores para a execu¸cão do workflow tende a ser mais eficiente e mais rápida, tendo em vista o melhor custo beneficio.

(36)

Referˆ

encias Bibliogr´

aficas

[1] V. Silva, D. Oliveira, and M. Mattoso, “Scicumulus 2.0: Um sistema de gerência de workflows cient´ıficos para nuvens orientado a fluxo de dados,” Sessão de Demos do XXIX Simpósio Brasileiro de Banco de Dados, 2014.

[2] I. H. Witten, E. Frank, M. A. Hall, and C. J. Pal, Data Mining: Practical machine learning tools and techniques. Morgan Kaufmann, 2016.

[3] M. Mattoso, C. Werner, G. H. Travassos, V. Braganholo, E. Ogasawara, D. Oliveira, S. Cruz, W. Martinho, and L. Murta, “Towards supporting the life cycle of large scale scientific experiments,” International Journal of Business Process Integration and Management, vol. 5, no. 1, pp. 79–92, 2010.

[4] E. Deelman, D. Gannon, M. Shields, and I. Taylor, “Workflows and e-science: An overview of workflow system features and capabilities,” Future Generation Computer Systems, vol. 25, no. 5, pp. 528–540, 2009.

[5] I. J. Taylor, E. Deelman, D. B. Gannon, and M. Shields, “Workflows for e-science: Scientific workflows for grids,” 2006.

[6] D. C. M. de Oliveira, “Uma abordagem de apoio `a execu¸c˜ao paralela de workflows cient´ıficos em nuvens de computadores,” Ph.D. dissertation, Universidade Federal do Rio de Janeiro, 2012.

[7] A. Stevenson, Oxford dictionary of English. Oxford University Press, USA, 2010. [8] G. H. Travassos and M. O. Barros, “Contributions of in virtuo and in silico

experi-ments for the future of empirical studies in software engineering,” in 2nd Workshop on Empirical Software Engineering the Future of Empirical Studies in Software En-gineering, 2003, pp. 117–130.

(37)

[9] K. A. Oca˜na, D. de Oliveira, E. Ogasawara, A. M. D´avila, A. A. Lima, and M. Mat-toso, “Sciphy: a cloud-based workflow for phylogenetic analysis of drug targets in protozoan genomes,” in Brazilian Symposium on Bioinformatics. Springer, 2011, pp. 66–70.

[10] M. Lemos, M. A. Casanova, L. F. B. Seibel, J. A. F. de Macedo, and A. B. de Mi-randa, “Ontology-driven workflow management for biosequence processing systems,” in International Conference on Database and Expert Systems Applications. Springer, 2004, pp. 781–790.

[11] C. de Almeida-Neto, J. Liu, D. J. Wright, A. Mendrone-Junior, P. L. Takecian, Y. Sun, J. E. Ferreira, D. de Alencar Fischer Chamone, M. P. Busch, and E. C. Sa-bino, “Demographic characteristics and prevalence of serologic markers among blood donors who use confidential unit exclusion (cue) in s˜ao paulo, brazil: implications for modification of cue polices in brazil,” Transfusion, vol. 51, no. 1, pp. 191–197, 2011. [12] T. T. Goncalez, E. C. Sabino, L. Capuani, J. Liu, D. J. Wright, J. H. Walsh, J. E. Ferreira, D. A. Chamone, M. P. Busch, and B. Custer, “Blood transfusion utiliza-tion and recipient survival at hospital das clinicas in sao paulo, brazil,” Transfusion, vol. 52, no. 4, pp. 729–738, 2012.

[13] G. M. Patavino, C. de Almeida-Neto, J. Liu, D. J. Wright, A. Mendrone-Junior, M. I. L. Ferreira, A. B. de Freitas Carneiro, B. Custer, J. E. Ferreira, M. P. Busch et al., “Number of recent sexual partners among blood donors in brazil: associations with donor demographics, donation characteristics, and infectious disease markers,” Transfusion, vol. 52, no. 1, pp. 151–159, 2012.

[14] E. C. Sabino, T. T. Gon¸calez, A. B. Carneiro-Proietti, M. Sarr, J. E. Ferreira, D. A. Sampaio, N. A. Salles, D. J. Wright, B. Custer, and M. Busch, “Human immunodefi-ciency virus prevalence, incidence, and residual risk of transmission by transfusions at retrovirus epidemiology donor study-ii blood centers in brazil,” Transfusion, vol. 52, no. 4, pp. 870–879, 2012.

[15] L. Carvalho, “Application of scientific workflows in the design of offshore systems for oil production (in portuguese). coppe-federal university of rio de janeiro,” Civil Engineering Department, 2009.

(38)

27 [16] W. Martinho, E. Ogasawara, D. Oliveira, F. Chirigati, I. Santos, G. Travassos, and M. Mattoso, “A conception process for abstract workflows: an example on deep water oil exploitation domain,” in 5th IEEE International Conference on e-Science, 2009. [17] E. Ogasawara, J. Dias, D. Oliveira, F. Porto, P. Valduriez, and M. Mattoso, “An

algebraic approach for data-centric scientific workflows,” Proc. of VLDB Endowment, vol. 4, no. 12, pp. 1328–1339, 2011.

[18] E. Ogasawara, D. de Oliveira, F. Chirigati, C. E. Barbosa, R. Elias, V. Braganholo, A. Coutinho, and M. Mattoso, “Exploring many task computing in scientific work-flows,” in Proceedings of the 2nd Workshop on Many-Task Computing on Grids and Supercomputers. ACM, 2009, p. 2.

[19] T. Hey, S. Tansley, K. M. Tolle et al., The fourth paradigm: data-intensive scientific discovery. Microsoft research Redmond, WA, 2009, vol. 1.

[20] A. G. Evsukoff, B. S. de Lima, and N. F. Ebecken, “Long-term runoff modeling using rainfall forecasts with application to the igua¸cu river basin,” Water resources management, vol. 25, no. 3, pp. 963–985, 2011.

[21] W. Aalst and K. v. Hee, “Workflow management: models, methods, and systems,” Cooperative information systems Show all parts in this series, 2002.

[22] A. Mattos, F. Silva, N. Ruberg, and M. Cruz, “Gerência de workflows cient´ıficos: uma análise cr´ıtica no contexto da bioinformática,” COPPE/UFRJ, 2008.

[23] I. WfMC, “Binding, wfmc standards,” WFMC-TC-1023, http://www. wfmc. org, Tech. Rep., 2000.

[24] M. C. Cavalcanti, R. Targino, F. Bai˜ao, S. C. R¨ossle, P. M. Bisch, P. F. Pires, M. L. M. Campos, and M. Mattoso, “Managing structural genomic workflows using web services,” Data & Knowledge Engineering, vol. 53, no. 1, pp. 45–74, 2005. [25] S. B. Davidson and J. Freire, “Provenance and scientific workflows: challenges and

opportunities,” in Proceedings of the 2008 ACM SIGMOD international conference on Management of data. ACM, 2008, pp. 1345–1350.

(39)

[26] K. A. Oca˜na, D. De Oliveira, J. Dias, E. Ogasawara, and M. Mattoso, “Designing a parallel cloud based comparative genomics workflow to improve phylogenetic analy-ses,” Future Generation Computer Systems, vol. 29, no. 8, pp. 2205–2219, 2013. [27] E. Deelman, G. Singh, M. Livny, B. Berriman, and J. Good, “The cost of doing

science on the cloud: the montage example,” in Proceedings of the 2008 ACM/IEEE conference on Supercomputing. IEEE Press, 2008, p. 50.

[28] K. A. Oca˜na, V. Silva, D. de Oliveira, and M. Mattoso, “Data analytics in bioin-formatics: Data science in practice for genomics analysis workflows,” in e-Science (e-Science), 2015 IEEE 11th International Conference on. IEEE, 2015, pp. 322– 331.

[29] F. Costa, V. Silva, D. De Oliveira, K. Oca˜na, E. Ogasawara, J. Dias, and M. Mat-toso, “Capturing and querying workflow runtime provenance with prov: a practical approach,” in Proceedings of the Joint EDBT/ICDT 2013 Workshops. ACM, 2013, pp. 282–289.

[30] P. Groth and L. Moreau, “W3c prov-an overview of the prov family of documents,” 2013.

[31] J. Freire, D. Koop, E. Santos, and C. T. Silva, “Provenance for computational tasks: A survey,” Computing in Science & Engineering, vol. 10, no. 3, pp. 11–21, 2008. [32] I. Altintas, C. Berkley, E. Jaeger, M. Jones, B. Ludascher, and S. Mock, “Kepler: an

extensible system for design and execution of scientific workflows,” in Scientific and Statistical Database Management, 2004. Proceedings. 16th International Conference on. IEEE, 2004, pp. 423–424.

[33] D. Hull, K. Wolstencroft, R. Stevens, C. Goble, M. R. Pocock, P. Li, and T. Oinn, “Taverna: a tool for building and running workflows of services,” Nucleic acids

rese-arch, vol. 34, no. suppl 2, pp. W729–W732, 2006.

[34] S. P. Callahan, J. Freire, E. Santos, C. E. Scheidegger, C. T. Silva, and H. T. Vo, “Vistrails: visualization meets data management,” in Proceedings of the 2006 ACM SIGMOD international conference on Management of data. ACM, 2006, pp. 745– 747.

(40)

29 [35] E. Deelman, G. Mehta, G. Singh, M.-H. Su, and K. Vahi, “Pegasus: mapping large-scale workflows to distributed resources,” in Workflows for e-Science. Springer, 2007, pp. 376–394.

[36] T. Fahringer, R. Prodan, R. Duan, F. Nerieri, S. Podlipnig, J. Qin, M. Siddiqui, H.-L. Truong, A. Villazon, and M. Wieczorek, “Askalon: A grid application development and computing environment,” in Proceedings of the 6th IEEE/ACM International Workshop on Grid Computing. IEEE Computer Society, 2005, pp. 122–131.

[37] 2017. [Online]. Available: http://michaelis.uol.com.br/busca?id=5Bo7k

[38] C. Goble, C. Wroe, and R. Stevens, “The mygrid project: services, architecture and demonstrator,” in Proc. of the UK e-Science All Hands Meeting, 2003, pp. 595–602. [39] S. M. S. da Cruz, M. L. M. Campos, and M. Mattoso, “Towards a taxonomy of pro-venance in scientific workflow management systems,” in 2009 Congress on Services-I. IEEE, 2009, pp. 259–266.

[40] J. Han, J. Pei, and M. Kamber, Data mining: concepts and techniques. Elsevier, 2011.

[41] M. Abernethy, “Minera¸cão de dados com weka, parte 1: Introdu¸cão e regressão,” IBM, Tech. Rep., 2010. [Online]. Available: http://www.ibm.com/developerworks/ br/opensource/library/os-weka1/

[42] T. M. Mitchell, “Machine learning,” Mc G raw ill.(forthcoming), 1997.

[43] T. G. Dietterich, “Ensemble methods in machine learning,” in International workshop on multiple classifier systems. Springer, 2000, pp. 1–15.

[44] D. A. F. Merjildo et al., “Algoritmo adaboost robusto ao ru´ıdo: aplica¸cão à deteçcão de faces em imagens de baixa resolu¸cão,” 2013.

[45] R. E. Schapire and Y. Singer, “Improved boosting algorithms using confidence-rated predictions,” Machine learning, vol. 37, no. 3, pp. 297–336, 1999.

[46] L. Breiman, “Bagging predictors,” Machine learning, vol. 24, no. 2, pp. 123–140, 1996. [47] ——, “Random forests,” Machine Learning, vol. 45, pp. 5–32, 2001.

(41)

[48] R. E. Schapire, “The strength of weak learnability,” Machine learning, vol. 5, no. 2, pp. 197–227, 1990.

[49] C. M. Bishop, “Pattern recognition,” Machine Learning, vol. 128, 2006.

[50] Y. Freund and R. E. Schapire, “A desicion-theoretic generalization of on-line learning and an application to boosting,” in European conference on computational learning theory. Springer, 1995, pp. 23–37.

[51] ——, “Large margin classification using the perceptron algorithm,” Machine Lear-ning, vol. 37, pp. 277–296, 1999.

[52] T. K. Ho, “The random subspace method for constructing decision forests,” IEEE transactions on pattern analysis and machine intelligence, vol. 20, no. 8, pp. 832– 844, 1998.

[53] F. A. Diniz, F. M. M. Neto, F. d. C. L. Júnior, and L. M. O. Fontes, “Redface: um sistema de reconhecimento facial baseado em técnicas de análise de componentes principais e autofaces,” Revista Brasileira de Computa¸cão Aplicada, vol. 5, no. 1, pp. 42–54, 2013.

[54] C. D. C. Lorenzett and A. V. Telöcken, “Estudo comparativo entre os algoritmos de minera¸cão de dados random forest e j48 na tomada de decisão.”

[55] J. A. Eisen and C. M. Fraser, “Phylogenomics: intersection of evolution and geno-mics,” Science, vol. 300, no. 5626, p. 1706, 2003.

[56] M. Zvelebil and J. Baum, Understanding bioinformatics. Garland Science, 2007. [57] 2017. [Online]. Available: https://commons.wikimedia.org/wiki/File:Phylogenetic

tree.svg

[58] Z. Yang, “Maximum likelihood phylogenetic estimation from dna sequences with vari-able rates over sites: approximate methods,” Journal of Molecular evolution, vol. 39, no. 3, pp. 306–314, 1994.

[59] K. Katoh and H. Toh, “Recent developments in the mafft multiple sequence alignment program,” Briefings in bioinformatics, vol. 9, no. 4, pp. 286–298, 2008.

(42)

31 [60] T. Lassmann and E. L. Sonnhammer, “Kalign–an accurate and fast multiple sequence

alignment algorithm,” BMC bioinformatics, vol. 6, no. 1, p. 1, 2005.

[61] J. D. Thompson, D. G. Higgins, and T. J. Gibson, “Clustal w: improving the sensiti-vity of progressive multiple sequence alignment through sequence weighting, position-specific gap penalties and weight matrix choice,” Nucleic acids research, vol. 22, no. 22, pp. 4673–4680, 1994.

[62] R. C. Edgar, “Muscle: multiple sequence alignment with high accuracy and high throughput,” Nucleic acids research, vol. 32, no. 5, pp. 1792–1797, 2004.

[63] C. B. Do, M. S. Mahabhashyam, M. Brudno, and S. Batzoglou, “Probcons: Proba-bilistic consistency-based multiple sequence alignment,” Genome research, vol. 15, no. 2, pp. 330–340, 2005.

[64] D. Gilbert, “Sequence file format conversion with command-line readseq,” Current Protocols in Bioinformatics, pp. A–1E, 2003.

[65] T. M. Keane, C. J. Creevey, M. M. Pentony, T. J. Naughton, and J. O. Mclnerney, “Assessment of methods for amino acid matrix selection and their use on empirical data shows that ad hoc assumptions for choice of matrix are not justified,” BMC evolutionary biology, vol. 6, no. 1, p. 1, 2006.

[66] A. Stamatakis, “Raxml-vi-hpc: maximum likelihood-based phylogenetic analyses with thousands of taxa and mixed models,” Bioinformatics, vol. 22, no. 21, pp. 2688– 2690, 2006.

[67] J. Felsenstein, “Phylip-phylogeny inference package (version 3.2),” Cladistics, vol. 5, pp. 164–166, 1989.

[68] 2002. [Online]. Available: http://www.cs.waikato.ac.nz/ml/weka/arff.html [69] 2016. [Online]. Available: http://ikuz.eu/csv2arff/

[70] 2017. [Online]. Available: https://en.m.wikipedia.org/wiki/Precision and recall [71] 2017. [Online]. Available: http://www.linguee.com/english-portuguese/translation/