Acurácia - Refinamento das estimativas de cardinalidade no processamento de consultas

3.10 Discussão

5.4.2 Acurácia

Para avaliar a qualidade das estimativas geradas pelo modelo obtido por meio do LightGBM, utilizamos a métrica conhecida como Q-error, a qual representa o fator da diferença entre o valor real c e o valor predito ˆc. Formalmente, a Equação dessa métrica é apresentada abaixo. É necessário comentar que quanto mais próximo de 1 é o valor dessa métrica, melhores são as estimativas, pois no cenário ideal em que c= ˆc o valor da métrica seria 1.

Q − error(c, ˆc)= max(c, ˆc)

min(c, ˆc) (5.1)

Visando demonstrar se o modelo treinado M está realmente aprendendo a tarefa de regressão submetida a ele, apresentamos o primeiro resultado na Figura 36. Neste gráfico, o eixo das abscissas representa os valores normalizados da cardinalidade das consultas, enquanto que o outro eixo representa os valores preditos pelo modelo. Desta forma, a reta vermelha apresentada mostra como seria se o resultado fosse perfeito, isto é, os valores preditos iguais aos reais. O primeiro fato interessante observável por meio desse gráfico é que o modelo produz predições que seguem a tendência do valor esperado. Mais especificamente, o modelo M prediz com uma melhor exatidão para os maiores valores de cardinalidade, pois observe que entre 0.0 e 0.4 há uma maior variação das consultas em relação à reta do valor esperado. Conclui-se, então, que o modelo M é capaz de aprender as características da base de dados e, com essa informação, predizer os valores de cardinalidade normalizados.

Para finalizar a análise desse gráfico, é importante explicar o porquê de haver várias consultas no ponto 0.0 do eixo horizontal, ou seja, a cardinalidade normalizada de algumas consultas estão sendo mapeadas para o valor 0.0. Isto quer dizer que a cardinalidade dessas

Figura 36 – Predições realizadas pelo modelo M treinado. O gráfico também mostra a tendência do valor esperado.

consultas em escala é a menor, portanto seu valor será mapeado para zero quando for realizado a normalização min-max.

Agora partimos para uma análise da qualidade das estimativas de cardinalidade considerando que o modelo prevê bons valores para a cardinalidade normalizada. Para isso, vamos comparar o resultado do método proposto com duas outras técnicas: PostgreSQL e MSCN sem a variante que leva em consideração o processo de amostragem das relações. O primeiro devido ao fato de representar bem a classe das técnicas baseadas em histogramas e esse segundo em virtude dele representar o estado da arte na comunidade científica como sendo uma das propostas mais recentes do uso de técnicas de aprendizagem de máquina para o problema das estimativas de cardinalidade nos SGBDs. A Figura 37 apresenta um gráfico boxplot da métrica Q-Errorpara cada uma das referidas técnicas.

No gráfico, os eixos das abscissas e das coordenadas representam, respectivamente, cada uma das técnicas e a métrica Q-Error em escala logarítmica. Ademais, vale esclarecer que para gerar essa Figura, dividimos os valores dessa métrica em dois cenários: subestimação e sobre-estimação. No primeiro caso, as estimativas do modelo M são valores menores que os reais, ao passo que as estimativas que ocorrem no segundo caso são maiores que os valores reais. Para diferenciar cada cenário, multiplicamos por −1 os valores quando ocorre o caso de subestimação.

Figura 37 – Boxplot da métrica Q-error de cada uma das técnicas.

Desta forma, os valores negativos representam esse caso. Já os positivos representam o caso de sobre-estimação. A tendência de subestimar ou sobre-estimar as estimativas de cada um dos trabalhos é mostrada por meio da reta verde que divide o intervalo inter-quartil, o qual está representado pela caixa azul.

Como pode ser visto no gráfico mostrado, as estimativas de cardinalidade geradas pelas técnicas baseadas em aprendizagem de máquina, MSCN e o método proposto, são melhores que as geradas pelo PostgreSQL, pois os pontos fora da curva estão mais compactas em um intervalo menor. Por um outro ponto de vista, é possível ver também que o intervalo inter-quartil do método proposto é menor que o das duas técnicas, o que implica que os valores da métrica Q- Errorestão mais concentradas entre 1 e −1. Portanto, já concluímos que as técnicas baseadas em aprendizagem de máquina produziram estimativas com uma maior acurácia, diminuindo o erro de predição. Agora comparando as duas técnicas de aprendizagem entre si, iniciamos observando que o MSCN apresentou pontos fora da curva em um menor intervalo de valores, considerando o caso de sobre-estimação, a parte superior do gráfico. Isto significa que o método proposto produz maiores valores de Q-Error, o que implica que algumas estimativas podem apresentar

uma maior imprecisão no nosso método. Nesse cenário, a nossa proposta está sobre-estimando as estimativas com um fator maior do que os do MSCN. Em contrapartida, o MSCN teve um ponto fora da curva com um erro de subestimação maior. Além disso, o intervalo inter-quantil do método proposto está mais concentrado que o do MSCN. Consequentemente, concluímos que os valores entre os quartis Q1 e Q3 da nossa técnica possuem uma melhor qualidade que o do MSCN. Por fim, os estimadores do método proposto e do PostgreSQL apresentaram uma tendência de subestimação, visto que a barra verde dentro do intervalo inter-quartil está mais próxima do valor −1, o qual significa que as estimativas de cardinalidade são menores que as reais. Já o MSCN apresentou uma tendência próxima do valor 1, o que significa que sua tendência é sobre-estimar os valores de cardinalidade.

Para chegar a uma conclusão final, observe os valores apresentados na Tabela 6 que apresenta várias medidas estatísticas sobre a métrica de Q-Error das três técnicas. Os valores destacados são os menores e, portanto, representam o melhor valor alcançado para cada uma das estatísticas. Os valores apresentados pelo método proposto são melhores, exceto a média e o valor máximo da métrica Q-Error no qual o MSCN apresenta resultados melhores. É importante ressaltar a grande diferença existente entre os valores máximos obtidos pelas técnicas de aprendizagem e pelo PostgreSQL. Em conclusão, o método proposto por esta dissertação gera estimativas de cardinalidade que possuem uma maior acurácia que as técnicas tradicionais baseadas em histogramas, assim como também apresenta resultados melhores ou semelhantes com os das técnicas do estado da arte.

Tabela 6 – Resultados do Q-error das estimativas de cardinalidade geradas por cada uma das técnicas.

Técnica Média Mediana Percentil Máximo

90 95 99

MSCN 7,659 2, 000 9, 829 20, 618 77, 337 6.586,000 Método Proposto 21, 920 1,243 5,000 12,245 50,690 32.803, 500

PostgreSQL 171, 120 1, 775 20, 352 80, 000 964, 000 314.187, 000

No documento Refinamento das estimativas de cardinalidade no processamento de consultas (páginas 94-97)