Redução do Tempo de Execução de Consultas

4.4. Avaliação dos Algoritmos

4.4.3. Redução do Tempo de Execução de Consultas

Nesta avaliação, as visões selecionadas pelos algoritmos foram materializadas e foi comparado o tempo gasto para responder ao histórico de consultas do usuário, utilizando a solução (visões selecionadas) de cada respectivo algoritmo. Desta forma, para comparação, foram selecionadas a melhor solução produzida pelos algoritmos reativos (SReactiveGRASP) e a melhor solução produzida pelo algoritmo ACO (SACO). Os algoritmos selecionaram as visões usando o valor percentual de 5% do espaço total de materialização. Este cenário de 5% foi usado porque ele foi considerado o de maior complexidade, como visto na seção 4.4.1 .

Então, para cada solução, foram realizadas 20 execuções para cada consulta c das 1200 consultas MDX distintas (ou consultas chaves) presente no histórico de consultas do usuário. Em seguida, foram realizados os cálculos do tempo médio de execução das 20 execuções para cada uma das 1200 consultas. Por meio do tempo médio de execução, foi obtido o tempo de execução da consulta c no histórico de consultas, o qual foi multiplicado pela respectiva freqüência da consulta c no histórico. Por fim, foi realizada a soma do tempo de execução de cada consulta c no histórico de consultas, e foi obtido o tempo de execução para responder ao histórico de consultas do usuário utilizando a solução em questão.

Para investigar a existência de similaridade entre os tempos médios de execução nas duas soluções, foi realizado o Teste T Pareado (NANCY L. LEECH, 2007), uma técnica utilizada para comparar as médias de duas amostras, a fim de que as observações de uma amostra sejam pareadas com observações de outra amostra. Por

meio de duas amostras X e Y é criado um conjunto D com a diferença entre as medições de cada amostra . Uma vez construído este conjunto D, é possível construir um intervalo de confiança para a diferença das médias. A partir deste intervalo, é possível concluir se estatisticamente as duas amostras são equivalentes. É importante destacar que para ser válida a aplicação do teste T pareado, as diferenças entre as médias devem ter uma distribuição aproximadamente normal. Então, para as consultas chaves foi realizado o Teste de Normalidade Jarque-Bera (JARQUE, BERA,

et al., 1987) para averiguar se as amostras obtidas seguem uma distribuição normal.

Tendo sido atendida a restrição sobre a distribuição normal, foi realizado para cada par de amostras das duas soluções o Teste T Pareado com intervalo de confiança de 99%. Com isto pode-se afirmar estaticamente se o tempo médio de execução de uma consulta

c é o mesmo para ambas as soluções. Se isto for comprovado, pode-se considerar o

mesmo valor de tempo médio de execução da consulta c em ambas as soluções.

Neste estudo de similaridade dos tempos médios de execução de consultas, foi obtido que em 26% (310 de 1200) das consultas o tempo médio de execução é o mesmo em ambas as soluções. Além disso, foi obtido que para a solução SReactiveGRASP, em 57% (683 de 1200) das consultas, o tempo médio de execução foi o maior e nos 17% restantes (207 de 1200) das consultas, o tempo médio de execução foi menor. Em seguida, para cada solução (SReactiveGRASP e SACO) foi obtida a soma do tempo de execução de cada consulta chave para se obter o tempo de execução necessário para responder ao histórico de consultas do usuário. Ao se comparar estes dois tempos, foi observado que a solução SReactiveGRASP proporcionou uma redução de tempo de 10,25% em relação à solução SACO.

Apesar de que em 57% das consultas, a solução SReactiveGRASP tenha obtido um valor maior para o tempo médio de execução, a qualidade das visões que compõe a solução SReactiveGRASP, para o histórico do usuário, proporcionou uma redução de 10,25%. Isto aconteceu porque a qualidade está atrelada à razão entre o benefício e o tamanho das visões selecionadas, ou seja, visões de boa qualidade são aquelas que possuem em média, um alto benefício para usuário e um baixo valor de tamanho. Assim, se computarmos a densidade (soma do beneficio divido pela soma do tamanho) das visões materializadas para os aos dois conjuntos de consultas: 57% e 17%, verifica- se que a densidade das visões associadas ao 17% é 2,24 vezes maior que as associadas ao 57%, ou seja, ter visões materializadas que atendam às consultas do conjunto de 17%

é muito mais importante para a execução de consultas do usuário do que atender às consultas dos 57% e isto se refletiu na redução de 10,25% proporcionada pelo

SReactiveGRASP.

4.5. Conclusão

Por meio dos testes experimentais realizados, foram feitas 3 avaliações sobre os algoritmos: Espacial (AE), Temporal (AT) e Tempo de Execução de Consultas (ATEC). Antes da realização dos experimentos, os algoritmos não reativos (ACO e G) passram por uma fase de calibração de parâmetros, de modo que os algoritmos executassem apropriadamente nos experimentos.

Na avaliação espacial (AE), foi estudado o comportamento do espaço de soluções devido a variações de valores para o espaço disponível de materialização (EDM). Neste estudo, foi identificado que o EDM de maior complexidade foi o de 5% e que para valores muito superiores ou inferiores a ele, a complexidade era reduzida. Este cenário de EDM igual a 5%, por apresentar maior complexidade, foi utilizado nas demais avaliações (AT e ATEC). Em seguida, o GBL (Ganho da Busca Local), que representa o ganho promovido pela técnica de busca local dos algoritmos durante a execução dos mesmos, foi estudado. Neste estudo, foi observado que em todos os algoritmos reativos, que utilizam a nova busca local proposta, foi obtido um acréscimo do GBL quando comparado ao GBL do algoritmo G. O menor aumento percentual obtido foi de 69%. Além disso, foi investigada a utilização da heurística Path-Reliking (PR). As variantes truncadas do PR apresentaram na maioria dos casos, melhores soluções que as variantes correspondentes não truncadas. Além disso, a adição da meta- heurística Path Relinking (PR) ao algoritmo RG promoveu na maioria dos casos, aumento na qualidade das soluções geradas. Por fim, foi também realizada uma comparação entre G e os algoritmos reativos. Os algoritmos reativos foram, em média de valores de soluções geradas, ligeiramente inferiores ao algoritmo G. A maior diferença percentual foi de apenas 0,01152%.

Na avaliação temporal (AT), foi investigado como no decorrer do tempo, um dado algoritmo se aproxima da solução ótima (ou valor alvo). Para isto, foi utilizado primeiramente a técnica TTTP. Ela reportou que apenas 5 algoritmos (RGFT, RGB, RGBT, RGM e RGMT) conseguiram atingir o valor alvo em um dado instante. Destes 5

algoritmos, o RGFT, RGM e RGMT mais se aproximam do eixo da abscissa, e assim, possuem a característica de estatisticamente se aproximarem mais rapidamente do valor alvo. Além disso, destes 3 algoritmos, o RGM e o RGMT conseguiram atingir em um número maior de vezes, o valor alvo. Para esta avaliação, uma outra técnica de análise temporal foi proposta: o DTTTP (Distance and Time To Target Plot). DTTP consiste em um gráfico que mostra ao longo do tempo (Eixo X), o quão distante do ótimo, em média, as soluções geradas pelos algoritmos se encontram (Eixo Y). Por meio do DTTTP, foi observado que os algoritmos que apresentaram melhor comportamento temporal foram o RGM, RGBT e RGMT, ordenadamente. Ao cruzarmos os resultados do TTTP com o DTTTP, foi percebido que a maioria dos algoritmos associados ao Path-Relinking conseguem atravessar os máximos locais do espaço de soluções de modo eficiente e atingir o ótimo rapidamente.

Na última avaliação, chamada de ATEC, foram materializadas as visões selecionadas pelos algoritmos e foi comparado o tempo gasto para responder ao histórico de consultas do usuário, utilizando a solução (conjunto de visões selecionadas) de cada respectivo algoritmo. Para isto, a melhor solução produzida pelos algoritmos reativos (SReactiveGRASP) foi comparada com a melhor solução produzida pelo algoritmo ACO (SACO). Nesta avaliação, foi feita uma análise de similaridade do tempo médio de execução de cada consulta chave que compõe o histórico de consulta do usuário. Esta análise indicou que em 26% das consultas o tempo médio de execução é o mesmo em ambas as soluções. Além disso, para a solução SReactiveGRASP, em 57% das consultas o tempo médio de execução foi maior e nos 17% restantes das consultas, o tempo médio de execução foi menor. Assim, ao fim desta avaliação, foi observado que mesmo que em 57% das consultas, a solução SReactiveGRASP tenha obtido um valor maior para o tempo médio de execução, a qualidade das visões que compõe a solução SReactiveGRASP, para o histórico do usuário, proporcionou uma redução de 10,25%, pois ela possui visões de maior valor para o histórico de consultas do usuário.

Por fim, ao término dos três grupos de avaliações realizadas foi observado que em todas elas, o algoritmo ACO apresentou resultados inferiores aos algoritmos baseados na meta-heurística GRASP. Assim, foi observado que para cenários de pequeno porte, o ACO apresentou bons resultados como visto em (FIRMINO,

MATEUS, et al., 2011). Entretanto, para cenários de grande porte, o ACO apresentou baixo desempenho, como visto nos resultados experimentais aqui descritos.

Capítulo 5

Considerações Finais

Este capítulo tem como objetivo apresentar as considerações finais sobre os principais tópicos abordados nesta dissertação, incluindo as contribuições alcançadas e indicações para trabalhos futuros.

5.1. Resumo do Trabalho

As principais definições necessárias ao entendimento do trabalho proposto foram listadas no Capítulo 2. Já os detalhes do método proposto para seleção e materialização de visões a partir de assinaturas OLAP foram abordados no Capítulo 3. A fim de analisar o comportamento do algoritmo de seleção de visões proposto, foram realizados experimentos sobre os parâmetros de configuração dos algoritmos e testes comparativos com outros algoritmos de seleção de visões. Os resultados coletados nestes experimentos foram analisados e estão descritos no Capítulo 4.

O objetivo deste capítulo é mostrar um resumo acerca do trabalho realizado considerando os principais assuntos abordados neste documento. As principais contribuições do trabalho são listadas na Seção 5.2, enquanto na Seção 5.3, é feito um direcionamento para trabalhos futuros com o objetivo de aperfeiçoar o estudo realizado.

5.2. Principais Contribuições

O desenvolvimento desta pesquisa ofereceu contribuições para as áreas de otimização e sistemas de processamento analítico. Estas contribuições são listadas como segue.

(i) Especificação do esquema conceitual para representação de Assinaturas OLAP

Foi proposto um esquema conceitual de dados para representação de assinaturas OLAP, que consistem em informações sobre o histórico de consulta do usuário e sobre o cubo de dados nos quais são realizadas as consultas. As informações concernentes às assinaturas OLAP caracterizam, ao longo do tempo e para um dado usuário, os tipos de consultas submetidas pelo usuário para um cubo de dados em particular. Esta caracterização possibilita identificar quais elementos do cubo são mais significativos para o usuário. O conhecimento sobre estes elementos auxilia o processo da seleção de visões, permitindo escolher as visões mais benéficas ao escopo de consultas efetuadas pelo usuário. Outro objetivo é, logo após o processo de seleção, fornecer, em tempo hábil, os dados necessários para a materialização das visões escolhidas. Este esquema é importante para a execução do nosso método de seleção e materialização de visões, pois ele é utilizado em todas em todas as fases do método proposto.

(ii) Especificação do método de seleção e materialização de visões

Foi proposto um método de seleção e materialização de visões por meio de um perfil de consultas (Assinatura OLAP) e algoritmos de otimização baseados nas meta- heurísticas GRASP, Reactive GRASP (RGRASP) e Path-Relinking (PR), visando maximizar o desempenho das consultas OLAP. Diferente das outras abordagens, este método:

(1) Mantém informações sobre as consultas OLAP que foram previamente executadas, e também armazena informações sobre o esquema do cubo de dados utilizado para processar as consultas;

(2) Define como o histórico de consultas e informações sobre o esquema do cubo de dados são armazenados e subsequentemente, usados para selecionar e materializar visões.

(3) Desacopla a estrutura de dados usada da lógica de seleção (Algoritmo de Seleção). Isto modulariza o método a fim de que ele possa receber qualquer algoritmo de otimização como entrada para resolver o PSV, tendo o algoritmo como entrada um conjunto de visões e o espaço disponível para materialização. (4) Utiliza como algoritmo de otimização para a seleção das visões, algoritmos

baseados na meta-heurísticas GRASP, Reactive GRASP e Reactive GRASP com Path Relinking que até então, não se tem conhecimento sobre a utilização delas no PSV.

Este método abrange todo o ciclo de execução de uma análise multidimensional, por meio das suas quatro fases: extração de dados multidimensionais, construção de assinaturas OLAP, seleção de visões e materialização de visões. Este ciclo vai deste a submissão de consultas de um dado usuário até a materialização das visões mais benéficas para o perfil de consultas do usuário. O método utiliza o esquema conceitual de dados na geração de conhecimento sobre quais visões são mais benéficas por estarem associadas ao escopo de consultas do usuário. Por isso, estas visões são selecionadas, e o esquema conceitual também fornece informações para a materialização das visões selecionadas.

(iii) Especificação de Algoritmos de Otimização baseados nas Meta-heurísticas GRASP, Reactive GRASP e Path-Relinking para o PSV.

Foram propostos algoritmos de otimização para seleção de visões baseados nas meta-heurísticas GRASP, Reactive GRASP e Path-Relinking (PR). Os algoritmos são provenientes do algoritmo discutido em (FIRMINO, MATEUS, et al., 2011), que é chamado aqui de (G). Inicialmente, foi especificado um novo algoritmo (RG) resultante de melhorias na técnica de busca local e na adição da característica reativa ao algoritmo G original. Além disso, o novo algoritmo RG foi incorporado com as variantes do PR. Dentre as meta-heurísticas existentes, GRASP foi escolhido por ter se destacado como uma das mais competitivas em termos da qualidade das soluções alcançadas e, até então, por não se ter conhecimento sobre a utilização da meta-heurística GRASP, na construção de algoritmos de otimização para a seleção de visões. GRASP é uma heurística hibrida que combina as características da heurística gulosa e da heurística de busca aleatória.

Foi implementado uma versão do nosso método com características reativas, pois, no contexto do PSV, a utilização da versão reativa de GRASP melhora o dinamismo do nosso método. Isto foi realizado para permitir a escolha automática dos melhores valores para os parâmetros de configuração do algoritmo de seleção. A atribuição destes valores pelo usuário OLAP pode não ser satisfatório, pois necessitaria do seu entendimento sobre os parâmetros e a realização de testes experimentais para calibração destes valores. Por fim, para refinar as soluções produzidas pela meta-heurística GRASP, a técnica de Path-Relinking (PR) foi incorporada ao nosso método.

(iv) Formalização do Cenário de Experimentação

Foi especificado um cenário de experimentação. Este cenário considerou para o ambiente analítico de dados, o Star Schema Benchmark (SSB). A adaptação do SSB fez-se necessária para aumentar o número de dimensões e níveis do esquema, no intuito de se ter um cenário com um amplo número de visões materializadas a serem consideradas e conseqüentemente, um número maior de consultas analíticas. Na construção da carga de trabalho, foram escolhidas aleatoriamente 1200 consultas distintas. Cada consulta, foi elaborada de modo a ter uma combinação única de níveis, e portanto, cada consulta está diretamente associada a apenas uma visão de todas as visões possíveis do cenário de experimentação. Assim, o nosso cenário consiste em um usuário que possui um dado espaço físico para materialização de visões e deseja otimizar o tempo de resposta de suas consultas. Entretanto, ele não possui espaço suficiente para materialização de todas visões que contemplam seu histórico de

consultas, pois seu histórico é formado por 1.200.006 submissões de consultas no qual cada consulta foi submetida e escolhida aleatoriamente do conjunto de 1200 consultas distintas. Neste cenário, foi possível testar o método proposto, pois é necessário mapear o ambiente analítico das consultas, registrar as consultas realizadas, identificar por meios de algoritmos de otimização quais são as melhores visões a serem materializadas e materializar estas visões.

(v) Experimentos de Avaliação e Validação dos Algoritmos.

Foram realizadas três avaliações sobres os algoritmos de otimização para seleção de visões materializadas: Espacial , Temporal e Tempo de Execução de Consultas. Na avaliação espacial, foi estudado: (1) o comportamento do espaço de soluções devido a variações de valores para o espaço disponível de materialização; (2) o GBL (Ganho da Busca Local), que indica o ganho promovido pela técnica de busca local dos algoritmos durante a execução; (3) a utilização da heurística Path-Reliking (PR); (4) comparação entre os algoritmos não-reativos e reativos. Já na avaliação temporal, foi investigado o comportamento dos algoritmos, ao decorrer do tempo, com relação a sua aproximação da solução ótima. Por fim, na última avaliação, foi avaliado o tempo total de execução das consultas do histórico do usuário, utilizando as visões de duas soluções geradas por dois algoritmos, a fim de averiguar a redução do tempo de resposta destas consultas.

5.3. Trabalhos Futuros

As principais indicações de trabalhos futuros são discutidas a seguir. (i) Extensão do método proposto para abordagem dinâmica.

A abordagem deste trabalho é baseada na concepção de uma configuração estática, uma vez que, um dos objetivos deste trabalho é construir um escopo de consulta do usuário, aqui denominado por assinatura, e utilizá-lo para seleção das visões a serem materializadas. Entretanto, há cenários nos quais as consultas efetuadas mudam constantemente, ou que por algum motivo não seja factível especificar um escopo de consultas, então pode haver a necessidade de uma abordagem dinâmica do método proposto.

Sugere-se que o método proposto seja estendido de modo que outros critérios, além dos utilizados nesse trabalho, sejam adotados, tais como: plano de processamento de consulta, utilização de índices nas tabelas de materialização e manutenção de técnica incremental. Como também, este critérios sejam adotados de maneira multi-objetiva pelos algoritmos de otimização.

(iii) Extensão do trabalho para DW Geográficos.

SOLAP (Spatial OLAP) é um ambiente integrado para soluções OLAP e SIG (Sistema de Informação Geográfica), que beneficia o processo de tomada de decisões estratégicas por ampliar o tipo de processamento de consultas sobre o negócio de uma organização utilizando um DWG (Data Warehouse Geográfico). DWG são DW com suporte a atributos espaciais que são usados para armazenar vetores de geometrias e definir tabelas de dimensões, medidas, hierarquias e membros espaciais. Nesse contexto, é sugerida uma extensão do método para adoção de visões materializadas de dados espaciais.

(iv) Extensão do trabalho para DW de Trajetórias.

Muitos sistemas de suporte à decisão necessitam analisar dados de trajetórias de objetos móveis que são armazenados em Data Warehouse (DW). Exemplos de tais aplicações incluem o estudo de dados de migração de povos e animais; comportamento de consumidores fazendo compras; tráfego de carros em vias urbanas; e movimentação de barcos de pesca marítima (DA SILVA, 2012). Como trabalho futuro, sugere-se um estudo do PSV no contexto de DW de trajetória de modo a permitir que consultas sobre um DW de trajetória possam ser realizadas e otimizadas pela seleção e materialização de visões OLAP sobre trajetórias.

Referências

AFONIN, S. The View Selection Problem for Regular Path Queries. In: LABER, E., et al. LATIN 2008: Theoretical Informatics. [S.l.]: Springer Berlin Heidelberg, v. 4957, 2008. p. 121-132. ISBN ISBN: 978-3-540-78772-3.

AFRATI, F. et al. View selection for real conjunctive queries. Acta Informatica, v. 44, p. 289-321, 2007.

AFRATI, F.; DAMIGOS, M.; GERGATSOULIS, M. On Solving Efficiently the View Selection Problem under Bag-Semantics. In: CASTELLANOS, M.; DAYAL, U.; SELLIS, T. Business Intelligence for the Real-Time Enterprise. [S.l.]: Springer Berlin Heidelberg, v. 27, 2009. p. 12-28. ISBN ISBN: 978-3-642-03421-3.

AIEX, R. M. et al. TTTPLOTS: A perl program to create time-to-target plots. Optimization Letters, v. 1, p. 10-1007, 2006.

ALFONSECA, E.; RODRÍGUEZ, P. Modelling users' interests and needs for an adaptive online information system. Proceedings of the 9th international conference on User modeling. Berlin, Heidelberg: Springer-Verlag. 2003. p. 76-80.

AOUICHE, K.; EMMANUEL JOUVE, P.; DARMONT, J. Clustering-Based Materialized View Selection in Data Warehouses. ADBIS. [S.l.]: [s.n.]. 2006. p. 81-95.

ASHADEVI, B.; BALASUBRAMANIAN, R. Optimized Cost Effective Approach for Selection of Materialized Views in Data Warehousing. Journal of Computer Science \& Technology, v. 9, n. 1, p. 21-26, 2009.

No documento Um Método para Seleção e Materialização de Visões com Assinaturas OLAP e Reactive GRASP-PR (páginas 83-107)