Tempo do Processo de RE com Garantia de Tuplas Duplicadas

Algoritmo 5 Detalhamento da etapa de Atualização dos Clusters Globais

3 ABORDAGENS PARA RESOLUÇÃO DE ENTIDADES

5.4 Metodologia dos Experimentos

5.4.3 Tempo do Processo de RE com Garantia de Tuplas Duplicadas

A partir dos experimentos anteriores, foi observado que o volume de tuplas indexadas como duplicadas tem relação com a eficiência do processo proposto. O objetivo deste experimento foi estimar qual o ganho (eficiência) no processamento do resultado de uma

0 1000 2000 3000 4000 5000 6000 1 9 ₁₇ ₂₅ ₃₃ ₄₁ ₄₉ ₅₇ ₆₅ ₇₃ ₈₁ ₈₉ ₉₇ Tempo (ms )

Nº de resultados de consultas processadas

Average-Link Cora Incremental Tradicional Linear (Incremental) Linear (Tradicional) 0 10000 20000 30000 40000 50000 60000 70000 80000 90000 100000 0 3 2 8 11171718161713111517171414 Tempo (ms )

Nº de resultados de consultas processadas

Average-Link Febrl

Incremental Tradicional

Linear (Incremental) Linear (Tradicional)

consulta, considerando que parte (uma porcentagem) das informações necessárias para o processo de RE estejam indexadas nos índices dinâmicos. Para este fim, o experimento da Seção 5.4.1 foi ampliado.

Os parâmetros foram variados e, em um primeiro momento, considerou-se que 90% das tuplas não haviam sido comparadas em iterações anteriores do QUIPER e 10% sim e, destes 10%, cada tupla tinha pelo menos uma tupla duplicada. Posteriormente, considerou-se que 80% das tuplas não haviam sido comparadas em iterações anteriores e 20% sim, e assim sucessivamente até considerar que 0% das tuplas não haviam sido comparadas em iterações anteriores e 100% sim.

É importante destacar que tanto as tuplas selecionadas para estarem no grupo das tuplas comparadas em iterações anteriores, quanto as tuplas no grupo das tuplas não previamente comparadas (tuplas novas), foram selecionadas randomicamente, a fim de evitar enviesamento dos experimentos. Desta forma, foi possível avaliar configurações distintas dos índices e dos resultados de consultas a serem processados.

Considerando as distintas características de cada um dos resultados de consultas gerados, e objetivando mensurar o caso médio, cada caso foi repetido 100 vezes e o tempo de execução foi calculado como sendo a média dos tempos em todas as execuções. Para cada amostra, foi medido o tempo de execução do processo tradicional de RE e do QUIPER. A seguir, são apresentados os resultados obtidos usando o algoritmo Single-Link.

Algoritmo Single-Link

As Figuras 37-39 apresentam os gráficos resultantes dos experimentos com o algoritmo Single-Link executado sobre as fontes de dados CD, Cora e Febrl, respectivamente. Em todos os casos o QUIPER teve desempenho melhor que o processo tradicional de RE.

Figura 37 - Tempos de execução do algoritmo Single-Link para a base de dados CD

Fonte: Próprio autor, 2017.

Na fonte de dados CD (Figura 37) o menor ganho do QUIPER sobre o processo tradicional de RE foi de aproximadamente 60%, enquanto que o maior ganho foi de aproximadamente 80%. Esta fonte de dados é caracterizada por ter poucas tuplas duplicadas, por este motivo o tempo de processamento do algoritmo incremental não foi significativamente decrescente à medida que o volume de tuplas previamente comparadas aumentou. Contudo, o ganho é significativo em relação ao algoritmo Single-Link no processo tradicional de RE.

Figura 38 - Tempos de execução do algoritmo Single-Link para a base de dados Cora

Fonte: Próprio autor, 2017.

Na fonte de dados Cora (Figura 38) o menor ganho do QUIPER foi de aproximadamente 2%, enquanto que o maior ganho foi de aproximadamente 78%. Esta fonte de dados é caracterizada por ter muitas tuplas duplicadas, por este motivo o tempo de processamento do algoritmo incremental foi significativamente decrescente à medida que o volume de

0 5000 10000 15000 20000 90% 80% 70% 60% 50% 40% 30% 20% 10% 0% Tempo (ms )

Porcentagem de tuplas não pré-comparadas

Single-Link Cora Incremental Tradicional 0 10 20 30 40 90% 80% 70% 60% 50% 40% 30% 20% 10% 0% Tem p o (ms )

Porcentagem de tuplas não pré-comparadas

Single-Link CD

Incremental Tradicional

tuplas previamente comparadas aumentou. Adicionalmente, o ganho é significativo em relação ao processo tradicional de RE.

Figura 39 - Tempos de execução do algoritmo Single-Link para a base de dados Febrl

Fonte: Próprio autor, 2017.

Na fonte de dados Febrl (Figura 39) o menor ganho do QUIPER foi de aproximadamente 5%, enquanto que o maior ganho foi de aproximadamente 43%. Esta fonte de dados é caracterizada por ter muitas tuplas, a maior fonte de dados avaliada, e o fato de terem sido extraídos resultados aleatórios de consultas pode ter ocasionado a geração de resultados de consultas sem (ou com poucas) tuplas duplicadas. Esta fonte de dados foi avaliada como tendo um número médio de tuplas. Por este motivo, o tempo de processamento do algoritmo incremental teve tendência decrescente à medida que o volume de tuplas previamente comparadas aumentou.

A seguir, são apresentados os resultados obtidos usando o algoritmo Average-Link no QUIPER, comparado ao Average-Link no processo tradicional de RE.

Algoritmo Average-Link

Os experimentos realizados com o Single-Link foram replicados e realizados com os algoritmo Average-Link. Naturalmente, o algoritmo Average-Link é mais custoso que o algoritmo Single-Link. Por este motivo, os tempos alcançados nesta segunda bateria de experimentos foram maiores que os medidos na primeira bateria de experimentos. Adicionalmente, à medida que menos comparações são necessárias, as diferenças se tornam mais evidentes entre o QUIPER e o processo tradicional de RE.

0 500 1000 1500 2000 90% 80% 70% 60% 50% 40% 30% 20% 10% 0% Tempo (ms )

Porcentagem de tuplas não pré-comparadas

Single-Link Febrl

Incremental Tradicional

As Figuras 40-42 apresentam os gráficos resultantes dos experimentos com o algoritmo Average-Link executado sobre as fontes de dados CD, Cora e Febrl, respectivamente. Em todos os casos o QUIPER teve desempenho melhor que o processo tradicional de RE.

Figura 40 - Tempos de execução do algoritmo Average-Link para a base de dados CD

Fonte: Próprio autor, 2017.

Na fonte de dados CD (Figura 40) o menor ganho do QUIPER foi de aproximadamente 56%, enquanto que o maior ganho foi de aproximadamente 96%. Por esta fonte de dados ter poucas tuplas duplicadas, ao serem fixados resultados de consultas com um número de tuplas duplicadas crescente a cada caso considerado, observou-se que o processo tradicional de RE necessitou de um tempo maior à medida que o número de tuplas duplicadas aumentou. Esta característica da fonte de dados justifica o comportamento crescente do processo tradicional. O QUIPER não se comportou da mesma forma, pois observou-se que a maior parte das tuplas duplicadas dos resultados de consultas considerados estavam indexados, o que reduziu drasticamente o tempo de processamento. Desta forma, considerando um conjunto fixo de tuplas duplicadas e indexadas, observou- se que o QUIPER tem um ganho significativo à medida que o volume de tuplas duplicadas são indexadas.

Na fonte de dados Cora (Figura 41) o menor ganho do QUIPER foi de aproximadamente 14%, enquanto que o maior ganho foi de aproximadamente 99%. A fonte de dados Cora é considerada como tendo muitas tuplas duplicadas. Esta característica implica em tempo médio de processamento do processo tradicional de RE constante (considerando resultados de consultas de mesmo tamanho e, em média, com mesmo número de tuplas duplicadas). 0 20 40 60 80 100 120 90% 80% 70% 60% 50% 40% 30% 20% 10% 0% Tempo (s )

Porcentagem de tuplas não pré-comparadas

Average-Link CD

Incremental Tradicional

O experimento mostrou que, similar ao que ocorreu com a fone de dados CD, à medida que mais informações são recuperadas dos índices, o ganho de eficiência do QUIPER sobre o processo tradicional de RE é significativo, tal como o tempo de processamento é decrescente.

Figura 41 - Tempos de execução do algoritmo Average-Link para a base de dados Cora

Fonte: Próprio autor, 2017.

Na fonte de dados Febrl (Figura 42) o menor ganho do QUIPER foi de aproximadamente 39%, enquanto que o maior ganho foi de aproximadamente 96%. A extração aleatória de resultados de consultas em uma fonte de dados como a Febrl, que tem muitas tuplas não duplicadas, implica em uma maior probabilidade de serem extraídos resultados de consultas sem tuplas duplicadas. Desta forma, observou-se que os resultados de consultas extraídos tinham como tuplas duplicadas basicamente a porcentagem fixada. Por este motivo, o tempo de processamento do processo tradicional de RE teve tendência crescente à medida que o volume de tuplas previamente comparadas aumentou.

Com estes experimentos com tuplas duplicadas fixas observou-se que quanto maior o número de tuplas duplicadas nos resultados de consultas e quanto maior o número de tuplas duplicadas indexadas, melhor o desempenho do QUIPER. Em todos os experimentos conclui-se que consultas com pelo menos 10% de tuplas indexadas são beneficiadas com o reúso de informações dos índices.

Adicionalmente, observou-se que o algoritmo Single-Link é menos sensível a grandes volumes de dados duplicados e tem uma convergência de clusters mais eficiente.

0 1000 2000 3000 4000 5000 90% 80% 70% 60% 50% 40% 30% 20% 10% 0% Tempo (s )

Porcentagem de tuplas não pré-comparadas

Average-Link Cora

Incremental Tradicional

Figura 42 - Tempos de execução do algoritmo Average-Link para a base de dados Febrl

Fonte: Próprio autor, 2017.

No documento Um processo incremental e orientado à consulta para resolução de entidades em sistemas de integração de dados (páginas 106-112)