Ambiente Local - Resultado da execução dos Workflows

Análise dos Resultados

4.1 Resultado da execução dos Workflows

4.1.1 Ambiente Local

A seguir são apresentados os resultados obtidos com a execução do workflow 1 no ambiente local. Apenas o workflow 1 foi executado nesse ambiente pois, primeiramente, um dos objetivos visados por essa etapa tornou-se o aprimoramento do ProvTriplé. Ademais, a baixa quantidade de RAM disponível no ambiente local se tornou um grande dificultador que, geralmente, era capaz de inviabilizar o prosseguimento das análises. Dessa forma, o ambiente de nuvem surgiu como opção posteriormente para melhor obtenção e observação dos dados.

Workflow 1

Os resultados obtidos de cada execução do workflow 1 em um ambiente local podem ser vistos a seguir na seguinte ordem: proveniência referencial, proveniência embutida e proveniência híbrida. Para cada caso são inseridas também tabelas e imagens com os dados obtidos relativos a inserção e busca. A quantidade de tempo que cada busca

Tabela 4.1: Tempos de Inserção da Proveniência Referencial para workflow 1.

Parâmetro Tempo Inicial Tempo Final Duração (segundos)

Execução 1 16 : 25 : 01 16 : 56 : 07 1866 Execução 2 17 : 45 : 15 18 : 10 : 54 1539 Execução 3 19 : 07 : 50 19 : 33 : 09 1519 Execução 4 20 : 27 : 08 21 : 01 : 25 2057 Duração Média 1 − − 1745,25 Duração Média 2 − − 1702,5

levou para ser realizada não foi calculado para nenhum caso uma vez que esta se mostrou demasiadamente pequena para ser comparada.

Armazenagem de Proveniência Referencial

A armazenagem de proveniência referencial aqui explorada foi construída segundo a exi-bida na Figura 3.2. Os tempos de execução para inserção de dados da proveniência referencial podem ser vistos em Tabela 4.1 enquanto as buscas realizadas e os resultados destas podem ser vistas na Figura 4.1.

A Tabela 4.1 é composta por quatro colunas. A primeira coluna contém os parâmetros para identificação dos dados contidos em cada linha sendo eles divididos em: Execução

1, Execução 2, Execução 3, Execução 4, Duração Média 1 e Duração Média 2. Enquanto

as Execuções 1 a 4 enumeram e representam cada vez que o ProvTriplé foi processado, considerou-se que, Duração Média 1 simboliza a média considerando todos os resultados e que Duração Média 2 constitui a média desconsiderando-se o maior e o menor resultado. A segunda coluna representa o horário do relógio do computador no momento que teve início a inserção de dados no MongoDB. De forma análoga, a terceira coluna expõe o horário, segundo o relógio do computador, em que se teve fim a introdução dos dados do modelo de proveniência referencial. Ambos os horários são representados no formato hh:mm:ss onde ’h’ representa hora, ’m’ simboliza minutos e ’s’ os segundos. A última coluna salienta o tempo de duração total em segundos de cada execução considerando-se a diferença entre o tempo inicial (coluna dois) e o tempo final (coluna três). Esses dados também são os usados no cálculo de média para obtenção dos parâmetros Duração Média

1 e Duração Média 2 da primeira coluna.

Na Figura 4.1 é possível observar os questionamentos feitos, o comando inserido no MongoDB para obter a resposta e os resultados obtidos com cada comando. Ao se realizar a primeira indagação "Quais são os nomes e as versões dos programas usados no Workflow

1?", a busca realizada retornou as respostas esperadas exibindo as versões dos programas

usados: HTseq, samtools, hisat2 e sickle. O mesmo ocorreu ao questionar o modelo no MongoDB sobre "Quantas atividades foram executadas pelo primeiro experimento?".

Nesse caso, assim como esperado, a conclusão obtida mostra as seis etapas existentes no

Workflow 1. Deve-se salientar que a terceira indagação proposta nessa pesquisa, "Qual o custo de executar o workflow na nuvem?" não foi realizada uma vez que o modelo proposto

para a fase de análises em ambiente local não contém dados referentes a nuvem e, por isso, não seria possível realizar tal questionamento neste dado momento.

Figura 4.1: Buscas executadas no workflow 1 para Proveniência Referencial.

Armazenagem de Proveniência Embutida

A armazenagem de proveniência embutida analisada foi construída segundo a exibida na Figura 3.3. Os tempos de execução para inserção de dados de proveniência no modelo embutido podem ser visualizados em Tabela 4.2. Semelhantemente, as buscas realizadas e os resultados destas podem ser vistas na Figura 4.2.

A Tabela 4.2 é formada por quatro colunas onde a primeira, denominada

parâme-tros, é responsável pela identificação dos dados contidos em cada linha. Tais dados são

distribuídos entre: Execução 1, Execução 2, Execução 3, Execução 4, Duração Média 1 e

Duração Média 2. Ao passo que as Execuções 1 a 4 enumeram e representam cada vez que

o ProvTriplé foi processado para o ambiente considerado, declarou-se que, Duração Média

1 equivale à média entre todos os resultados obtidos e que Duração Média 2 simboliza a

média desconsiderando-se o maior e o menor resultado dentre os valores obtidos na última coluna. A segunda coluna contém o horário do relógio do computador no momento que se teve início a etapa de inserção dos dados de proveniência no MongoDB. Semelhantemente, a terceira coluna expõe o horário, segundo o relógio do computador, em que se teve fim a introdução dos dados. Ambos os horários são representados no formato hh:mm:ss. A última coluna salienta o tempo de duração total em segundos de cada execução por meio

Tabela 4.2: Tempos de Inserção da Proveniência Embutida para workflow 1.

Parâmetros Tempo Inicial Tempo Final Duração (segundos)

Execução 1 15 : 52 : 46 16 : 25 : 01 1935 Execução 2 17 : 22 : 15 17 : 45 : 15 1380 Execução 3 18 : 42 : 34 19 : 07 : 50 1516 Execução 4 20 : 00 : 05 20 : 27 : 08 1623 Duração Média 1 − − 1613,5 Duração Média 2 − − 1569,5

do cálculo da diferença entre o tempo inicial, marcado na coluna dois, e o tempo final, representado na coluna três. Esses dados, assim como explicado anteriormente, são os usados no cálculo de média padrão para obtenção dos parâmetros Duração Média 1 e

Duração Média 2 da primeira coluna.

A Figura 4.2 demonstra os questionamentos feitos para esta etapa atual, os comandos inseridos no MongoDB para responder à cada questão e os respectivos resultados. Ao se realizar a primeira indagação "Quais são os nomes e as versões dos programas usados

no Workflow 1?", a busca realizada retornou as respostas esperadas exibindo as versões

dos programas usados: HTseq, samtools, hisat2 e sickle. Embora as buscas tenham sido construídas visando responder às mesmas perguntas em todos os modelos, é possível ob-servar que existem algumas pequenas diferenças na construção do comando proposto para responder a mesma pergunta ao se comparar os comandos presentes na Figura 4.2 e na Figura 4.1. Isso se deve às dessemelhanças presentes ao se comparar cada modelo entre si. De forma análoga, ao questionar o MongoDB sobre "Quantas atividades foram

execu-tadas pelo primeiro experimento?", obteve-se o resultado desejado que representa as seis

etapas existentes no Workflow 1 mesmo considerando-se que a concepção da instrução de busca foi diferente da observada na Figura 4.1. Deve-se salientar que a terceira indagação proposta, "Qual o custo de executar o workflow na nuvem?" não foi realizada uma vez que, no momento, trata-se da fase de execução em ambiente local, não existem campos de nuvens no modelo o que impossibilita o questionamento por tal informação.

Armazenagem de Proveniência Híbrida

A armazenagem de proveniência híbrida aqui explorada foi construída segundo a exibida na Figura 3.4. Os tempos de execução para inserção de dados de proveniência de forma híbrida podem ser vistos em Tabela 4.3. Além disso, também é possível observar as buscas realizadas e seus respectivos resultados na Figura 4.3.

A tabela Tabela 4.3 é constituída por quatro colunas: Parâmetros, Tempo Inicial,

Tempo Final e Duração. A coluna Parâmetros identifica os dados contidos em cada linha.

Figura 4.2: Buscas executadas no workflow 1 para Proveniência Embutida.

2, Execução 3, Execução 4, Duração Média 1 e Duração Média 2. Cada uma das quatro

execuções do ProvTriplé consideradas possuem seus dados representados pelos parâmetros

Execução 1, Execução 2, Execução 3 e Execução 4. Os parâmetros Duração Média 1 e Duração Média 2 representam as médias padrões calculadas usando os dados obtidos

na coluna Duração como base. Ao passo que Duração Média 1 equivale à média entre todos os resultados obtidos, a Duração Média 2 simboliza a média desconsiderando-se o maior e o menor resultado dentre os valores obtidos na última coluna. A segunda coluna,

Tempo Inicial, contém o horário que, pelo relógio do computador, teve-se início a etapa

de inserção dos dados de proveniência no MongoDB. Semelhantemente, a terceira, Tempo

Final, expõe o horário que, segundo o relógio do computador, teve-se fim a introdução

dos dados. Ambos os horários são representados no formato hh:mm:ss. A última coluna contém o tempo de duração total em segundos de cada execução por meio do cálculo da diferença entre o tempo inicial, marcado na coluna dois, e o tempo final, representado na coluna três. Esses dados, assim como explicado anteriormente, são os usados no cálculo de média padrão para obtenção dos parâmetros Duração Média 1 e Duração Média 2 da primeira coluna.

A Figura 4.3 apresenta questionamentos feitos para esta etapa atual e os resultados obtidos para cada um. Primeiramente é exibido a pergunta feita, em seguida, o comando inserido no MongoDB para obter a resposta à indagação e, logo após, os resultados obtidos. As interrogações "Quais são os nomes e as versões dos programas usados no Workflow 1?" e "Quantas atividades foram executadas pelo primeiro experimento?" obtiveram os mesmos

Tabela 4.3: Tempos de Inserção da Proveniência Híbrida para workflow 1.

Parâmetros Tempo Inicial Tempo Final Duração (segundos)

Execução 1 15 : 32 : 19 15 : 52 : 46 1227 Execução 2 16 : 59 : 06 17 : 22 : 15 1389 Execução 3 18 : 15 : 04 18 : 42 : 34 1650 Execução 4 19 : 35 : 57 20 : 00 : 05 1448 Duração Média 1 − − 1428,5 Duração Média 2 − − 1418,5

resultados dos exibidos de forma equivalente na Figura 4.1 e Figura 4.2. Deve-se salientar que a terceira indagação proposta, "Qual o custo de executar o workflow na nuvem?" não foi realizada por se tratar da fase de execução em ambiente local, não existem campos de nuvens no modelo o que impossibilita o questionamento por tal informação. Embora as buscas tenham sido construídas visando responder às mesmas perguntas em todos os modelos, é possível observar que existem algumas pequenas diferenças na construção de cada um dos comandos proposto para responder às perguntas ao se comparar a Figura 4.1, a Figura 4.2 e a Figura 4.3. Isso se deve às dessemelhanças presentes ao se comparar cada modelo entre si.

Figura 4.3: Buscas executadas workflow 1 para Proveniência Híbrida.

No documento Universidade de Brasília Instituto de Ciências Exatas Departamento de Ciência da Computação (páginas 47-52)