Recomenda¸c˜ ao de Parˆ ametros com Aprendizado Generativo Probabil´ıstico

Generativo Probabil´ıstico

A Recomenda¸cão de parâmetros é uma das principais funcionalidades do sistema proposto. Com ela, o usuário pode especificar valores para alguns parâmetros e receber recomenda¸cões sobre quais valores as features não observadas devem ter, de modo a ma- ximizar a probabilidade de uma determinada classe. Ressalta-se aqui que até mesmo qual valor da classe que se deseja obter com as features é um parâmetro, sendo este obrigató- rio para o algoritmo de recomenda¸cão. Essa parametriza¸cão aumenta a flexibilidade do sistema.

Este módulo é o único escrito em Java e utilizando a biblioteca Weka. Essa escolha é devido a capacidade de recuperarmos as Probabilidades Condicionais calculadas pelo modelo para serem utilizadas no algoritmo de recomenda¸cão.

Como a maior parte das funcionalidades do sistema está escrito em Python, foi necessário uma integra¸cão desta componente escrita em Java. Para isso foi utilizada a

40 biblioteca JPype [7]. Esta ferramenta permite instanciar classes Java como objetos do Python, facilitando a programa¸cão. O Código 3.4 detalha como o processo de integra¸cão é realizado. 1 2 def fit(self): 3 if not (isJVMStarted()): 4 classpath = "lib/bayesNetRecomendation.jar:lib/weka-stable-3.8.0.jar:lib/bounce-0.18.jar"

5 startJVM(getDefaultJVMPath(), "-Djava.class.path=%s" % classpath) 6

7 try:

8 self.notify("Loading data path...", ’SUP’)

9 path = Configuration.load_query_result("RECOMENDER") 10 data = pd.read_csv(path)

11 self.notify("Loading libraries...", ’SUP’) 12 lib = JPackage("com").dlp.bayesnetrecomendation 13 self.notify("Fitting recomender...", ’SUP’) 14 self.recomender = lib.BayesianRecomendator(path) 15 self.fields = data.columns.values

16 self.notify("OK", ’SUP’)

17 except Exception as e:

18 self.notify("ERROR - " + str(e), ’SUP’)

Código Fonte 3.4: Código do sistema responsável pela integra¸cão com a componente escrita em Java

Nas linhas 2 a 4, usam-se métodos da biblioteca JPype para inicializa¸cão da Java Virtual Machine (JVM) [6]. Nas linhas 8 e 9 os dados extra´ıdos pela consulta SQL e salvos em um arquivo csv são carregados para que o sistema reconhe¸ca quais os campos podem ser recomendados. A linhas 11 mostra o carregamento do pacote Java que possui a classe que irá realizar a recomenda¸cão. Já na linha 13 é mostrada instancia¸cão do Recomendador, que também é responsável pela chamada do método de treinamento. Note que tal método recebe como parâmetro o caminho do arquivo csv onde os dados extra´ıdos estão salvos.

Bayes, ou seja assume a indepˆendencia das vari´aveis dado o valor da classe.

Uma vez que o modelo Naive Bayes foi constru´ıdo, somos capazes de recuperar Probabilidades Condicionais do tipo P (X1 | C). A ideia básica por trás da recomenda¸cão realizada pelo sistema é a seguinte: assumindo a indepêndencia entre as váriáveis dado a classe, temos que a probabilidade de uma classe dado um conjunto de váriáveis é igual a probabilidade da classe vezes o produtório entre as probabilidades de cada variável dado a classe. A partir disso, uma vez que o sistema recebe um conjunto contendo parte dos parâmetros com valores associados, é obter os valores para os demais parâmetros de forma que o valor do produtório das probabilidades utilizando as parâmetros observa- dos acrescentado desse novo parâmetro com um respectivo valor associado seja o maior poss´ıvel.

O primeiro passo é calcular a probabilidade a priori que obtemos por meio das variáveis observadas. Isso é poss´ıvel devido o armazenamento esses dados. Para uma maior facilidade de implementa¸cão, esses probabilidades foram armazenadas em uma estrutura de dados que facilite o acesso.

De posse da probabilidade a priori dado as variáveis observadas e o valor da classe, iteramos por todas as probabilidades armazenadas para a variável não observada a pro- cura daquela que maximize a probabilidade posteriori. Com isso obtemos a resposta e retornamos ao usuário.

No trecho de Código 3.5 é apresentado o método responsável pela recomenda¸cão. O método recebe uma lista de variáveis observadas, ou seja, são as variáveis que o usuário definiu os valores. O segundo parâmetro é a variável classe, que define com rela¸cão a que valor da classe devemos procurar as Probabilidades Condicionais. Já o último parâmetro é o nome da variável que queremos a recomenda¸cão, ou seja a variável não observada. Note que a recomenda¸cão ocorre para uma variável por vez, isso quer dizer que se o usuário na interface do sistema deixar mais que uma variável não observada, o sistema se encarregará de chamar este método para cada uma delas.

1 public String recomender(List<Variable> aPrioriVariables, Variable B,

String posterioriVariableName) throws Exception {

2 double maxProbability = 0, prioriProbability = 1;

3 String variableValueRecomedation = null; 4 for (Variable temp : aPrioriVariables) {

42 5 double cp = network.getConditionalProbability(temp, B); 6 prioriProbability *= cp; 7 } 8 List<ConditionalProbability> cps = network.getCpts().get(posterioriVariableName); 9 for (ConditionalProbability cp : cps) { 10 if (cp.getB().getName().equals(B.getName()) && cp.getB().getValue().equals(B.getValue())) {

11 double tempProbability = prioriProbability;

12 tempProbability *= cp.getProbability(); 13 if (tempProbability > maxProbability) { 14 maxProbability = tempProbability; 15 variableValueRecomedation = cp.getA().getValue(); 16 } 17 } 18 } 19 return variableValueRecomedation; 20 }

Código Fonte 3.5: Algoritmo para recomenda¸cão de parâmetros

No Código 3.5, o loop das linhas 4 a 7 recupera as probabilidades de cada uma das var´ıaveis observadas dado a variável de classe. Já na linha 8 recuperamos todas as probabilidades condicionais armazenadas. Das linhas 9 a 18, é realizada a itera¸cão sobre todas as Probabilidades Condicionais relativas a variável não observada, procurando por aquelas onde a váriavel de classe possui o mesmo valor da informada como parâmetro do método.

Cap´ıtulo 4

Estudo de Caso com o Sistema de

Gerenciamento de Workflows

Cient´ıficos SciCumulus

A fim de obter resultados experimentais com a solu¸cão criada, foram utilizados os dados de proveniência criados pelo SGWfC SciCumulus durante execu¸cões do worflow cient´ıfico SciPhy [29] no ambiente de Computa¸cão em Nuvem. O SciPhy é um workflow cient´ıfico da área da Biologia desenvolvido para construir árvores filogenéticas. Como os dados salvos pelo SciCumulus estão numa base de dados relacional, a extra¸cão de dados se dá por meio de consultas SQL. Para os testes foi utilizada uma base de dados reais, mas que devido à ausência de execu¸cões com falha, sofreu algumas modifica¸cões.

Estamos interessados em analisar os quatro modelos que desempenham as tarefas executadas pelo sistema: Deteçcão de Falhas e Recomend¸cão de Parâmetros. A tarefa de Deteçcão de Falhas pode ser executada sob 3 perspectivas distintas: com o classificador determin´ıstico SVM, como o classificador probabil´ıstico Naive Bayes e com o detector de anomalias SVM OneClass.

Para realizar a tarefa de Deteçcão de Falhas usando o modelo de Aprendizado de Máquina SVM temos a necessidade de dados que sejam tanto de execu¸cões de sucesso quanto de falha para treinamento do modelo.

1 select sir.num_aligns, sir.length, sir.model1, sir.prob1, sir.model2,

sir.prob2, 2

3 case

4 when pea_sids.failure_tries <> 0 or pea_sids.exitstatus <> 0 then true 5 when pea_sim.failure_tries <> 0 or pea_sim.exitstatus <> 0 then true 6 when pea_sirs.failure_tries <> 0 or pea_sirs.exitstatus <> 0 then true 7 when pea_simg.failure_tries <> 0 or pea_simg.exitstatus <> 0 then true 8 when pea_sir.failure_tries <> 0 or pea_sir.exitstatus <> 0 then true

9 when ((sir.model1 = ’WAG+G’ AND sir.length > 250) OR (sir.model2 = ’JTT+G’ and sir.prob2 > 1000)) then true

10 else false

11 end as erro

13 from sciphy.idataselection sids, sciphy.imafft sim, sciphy.ireadseq sirs, sciphy.imodelgenerator simg, sciphy.iraxml sir,

14 public.eactivation pea_sids, public.eactivation pea_sim, public.eactivation pea_sirs, public.eactivation pea_simg, public.eactivation pea_sir

16 where sids.name = sim.name and

17 sids.name = sirs.name and 18 sids.name = simg.name and 19 sids.name = sir.name and

20 sids.taskid = pea_sids.taskid and 21 sim.taskid = pea_sim.taskid and 22 sirs.taskid = pea_sirs.taskid and 23 simg.taskid = pea_simg.taskid and 24 sir.taskid = pea_sir.taskid;

Código Fonte 4.1: Consulta de extra¸cão de dados para treinamento do modelo SVM Em 4.1 é poss´ıvel visualizar a consulta utilizada para os testes do SVM, Naive Bayes e removendo a última coluna e acrescentando a restri¸cão para retornar registro de falhas apenas, temos também a consulta para o modelo One-Class. Observe que a consulta possui um trecho que é responsável por modificar os dados para que haja dados de execu¸cões com falha. OS dados extra´ıdos são os parâmetros de entrada da atividade desempenhada pelo programa RAxML, sendo eles num aligns, length, model1, prob1, model2, prob2 e o estado da execu¸cão para esses parâmetros referenciada pela coluna

erro. Esta consulta retornou 400 tuplas da base de dados de proveniência. Para o caso dos modelos supervisionados, a dividão dos dados se deu com 376 exemplos de sucesso de execu¸cão e 24 exemplos de falha.

A base de dados de proveniˆencia foi dividida para as fases de treinamento e teste dos modelos. A divis˜ao foi feita tirando 80% dos dados iniciais para treinamento, enquanto os 20% finais ficaram para teste.

Todas as execu¸cões foram executadas numa máquina com as seguintes configura- ¸cões: processador Celeron(R) Dual-Core CPU T3300 @ 2.00GHz × 2, Memória RAM 4GB DDR2, Disco R´ıgido de 132GB e taxa de transferência de 300 MBps. O Sistema Operacional é o Ubuntu, uma distribui¸cão do Linux, na versão 14.04 LTS 64 bits.

4.1 Resultados do Classificador SVM

O modelo SVM possui alguns paramêtros a serem calibrados. Dependendo do tipo de kernel utilizado, diferentes parâmetros são necessários. Contudo, fixaremos alguns parâmetros para todos os experimentos com o SVM. O primeiro é o parâmetro C, que é responsável por escalar a penalidade do modelo durante o treinamento, será fixado com o valor 1. Esta penalidade é calculada com base na taxa de erro do modelo a cada itera¸cão do algoritmo do SVM, com o intuito de analisar se o modelo está sendo aprimorado a cada itera¸cão. Um valor muito alto do C pode causar um overfitting do modelo, enquanto um valor muito baixo pode causar um underfitting.

A fun¸cão de kernel Radial Basis Function (RBF), que é o que assume uma distribui¸cão Gaussiana dos exemplos, admite o parâmetro gamma. Este parâmetro define o quanto um único exemplo afeta o modelo, ou seja, quanto maior o valor, maior a influên- cia de um único exemplo na constru¸cão do modelo. Já o kernel Polinomial, tem como parâmetro o degree, que nada mais é que o grau do polinômio usado para a fronteira de decisão do modelo. Ainda foram testado os kernels Sigmoid e Linear. Esses kernels foram usados para teste tanto por serem os já dispon´ıveis pelo sklearn, quanto por serem os mais comuns para este tipo de tarefa.

A Tabela 4.1 traz dados sobre métricas coletadas a partir de execu¸cões do sistema utilizando o classificador SVM. Apesar de serem apresentadas três métricas, será levada em conta para a análise a Precisão. Essa escolha se dá pelo fato desta métrica demonstrar

46 Kernel gamma degree Precision Recall F1-Score Treinamento (s)

RBF 0.1 - 0.90 0.95 0.93 0.20510s RBF 0.5 - 0.90 0.95 0.93 0.20024s RBF 1.0 - 0.90 0.95 0.93 0.20392s Polynomial - 3 0.92 0.91 0.92 0.33175s Polynomial - 4 0.90 0.93 0.91 0.35512s Polynomial - 5 0.92 0.76 0.83 0.33089s Sigmoid - - 0.90 0.95 0.93 0.16226s Linear - - 0.93 0.84 0.88 0.32627s

Tabela 4.1: Execu¸c˜oes do SVM

a porcentagem de acerto do modelo com rela¸c˜ao as suas predi¸c˜oes de uma classe.

Foi poss´ıvel perceber que o modelo com kernel RBF não teve modifica¸cões ao variar o parâmetro gamma. Sua Precisão se manteve em 90% para o conjunto de teste.

O kernel Polinomial para o degree igual a 3 ou 5 obteve melhor resultado relativo à Precisão que o kernel RBF, alcan¸cando o valor de 92%. Contudo o tempo de treinamento também foi superior.

Com resultados semalhantes ao kernel RBF, ficou o kernel Sigmoid. Sua diferen¸ca fica por conta do menor tempo de treinamento entre todos os kernel utilizados nestes experimentos.

O melhor resultado para a Precis˜ao ficou com o kernel Linear. Sua precis˜ao foi de 93%, e um tempo de treinamento entre os de maior e menor valores.

Devido ao desbalanceamento dos dados, a Precis˜ao superior do kernel Linear, de- monstra que para este caso, ele teve a melhor capacidade de generaliza¸c˜ao.

No documento Uma ferramenta de apoio à detecção de falhas e recomendação de parâmetros em workflows científicos com mineração de dados (páginas 52-59)