Conclusões - Mineração multi-relacional: o algoritmo GFP-growth.

5.1. Considerações Iniciais

Este trabalho apresentou um novo algoritmo para mineração multi-relacional de regras de associação que pode ser aplicado em análises envolvendo múltiplas tabelas relacionadas de um banco de dados.

Foram apresentados os conceitos básicos sobre mineração de dados e a tarefa de associação foi detalhada. Além disso, foram explorados alguns algoritmos de mineração de regras de associação tradicionais e multi-relacionais, que foram importantes para direcionar a realização deste trabalho.

5.2. Contribuições

A principal contribuição deste trabalho foi a definição e implementação do algoritmo GFP-Growth que tornou possível a mineração multi-relacional de tabelas relacionadas, a partir da tabela resultante da junção das mesmas. Ao contrário das técnicas tradicionais de mineração, o GFP-Growth trata a redundância nos dados e as possíveis inconsistências nas medidas de interesse introduzidas pela operação de junção.

Considerando os agrupamentos presentes nos dados, o algoritmo possibilita descobrir regras envolvendo uma determinada entidade, ao invés de analisar todas as tuplas disponíveis como se as mesmas fossem independentes, como é feito pela maioria das técnicas de mineração encontradas.

As medidas de interesse utilizadas pelo algoritmo GFP-Growth foram ajustadas para reconhecer as entidades que são relevantes em várias tabelas, e dessa forma puderam retratar corretamente o comportamento dos itens da base de dados analisada.

5.3. Trabalhos Futuros

5.3.1. Melhorar o desempenho

A partir dos testes realizados constatou-se que o desempenho do GFP-Growth é inferior ao algoritmo FP-Growth pelas razões já explicitadas no capítulo 4, o que pode ser considerado uma conseqüência da semântica embutida nos dados utilizados pelo GFP-Growth. Apesar da análise realizada pelos dois algoritmos envolver conjuntos de entrada e de saída diferentes e servirem para diferentes propósitos, seria interessante melhorar o desempenho do GFP-

Growth. Alguns pontos que poderiam ser levados em conta são a minimização de estruturas temporárias e a substituição de algumas estruturas de dados.

A tabela minerada pelo GFP-Growth pode ter um tamanho elevado devido à operação de junção, por isso pode-se analisar uma outra forma de diminuir seu tamanho para reduzir o espaço de busca do algoritmo. Uma alternativa seria adotar um formato dos dados semelhante ao mostrado na tabela 5.1, que equivale à tabela 4.2 sem as duplicações de dados.

Tabela 5.1 Dados agrupados por contas

IdConta Cartão Empréstimo

Ct1 {(classic, 0-1)} {(0-80, A)} Ct2 {(classic, 1-3)} { }

Ct3 {(júnior, 0-1)} {(80-180, B) (0-80, A) (80-180, A)} Ct4 {(júnior, 1-3) (gold, 1-3)} {(0-80, A)}

Ct5 {(gold, 3-5)} { }

Ct6 { } {(180-600, C) (0-80, A)} Ct7 {(júnior, 0-1)} {(80-180, D) (180-600, C)}

Ct8 {(gold, 1-3)} { }

5.3.2. Desenvolver uma Ferramenta para Mineração de Dados

Considerando o algoritmo desenvolvido neste trabalho e os algoritmos analisados no levantamento bibliográfico, nota-se uma grande influência do algoritmo FP-Growth. Assim, é possível classificar esses algoritmos derivados do FP-Growth em uma “família de

algoritmos”, levando em conta que cada algoritmo comporta-se melhor em determinada

situação.

Para que o usuário possa se beneficiar das vantagens desses algoritmos, seria interessante desenvolver uma ferramenta de testes que disponibilize uma “família de

algoritmos” ao usuário e o mesmo possa escolher com facilidade qual algoritmo deseja

utilizar.

O usuário poderia visualizar o resultado obtido pela aplicação de vários algoritmos sobre a base e escolher qual deles satisfaz seu problema. Outra opção seria usar os vários resultados para uma análise mais abrangente da base de dados em questão.

5.3.3. Estender a Análise

A estratégia desenvolvida neste trabalho é direcionada para a tarefa de associação e considera apenas dados discretos. Seria interessante estender essa análise para outras tarefas de mineração, como classificação e padrões seqüenciais. Isso permitiria que fossem aplicados

sobre um único conjunto de entrada, algoritmos que produzissem diferentes saídas, permitindo ao usuário escolher qual tarefa permitiria uma análise mais apurada de seu problema.

O algoritmo em questão necessita de uma etapa preliminar de discretização dos dados numéricos, o que é feito pelo usuário. A escolha dos intervalos de valores é subjetiva, podendo evitar a descoberta de alguns padrões interessantes caso o usuário não conheça o domínio do problema. Estender o algoritmo para o tratamento de dados quantitativos permitiria uma análise mais consistente dos dados.

5.3.4. Propor Novas Medidas de Interesse

Neste trabalho foram usadas medidas de interesse anteriormente propostas para tratar o problema de mineração multi-relacional de regras de associação. A medida peso permite dimensionar a quantidade de dados que é descartada quando se relaciona várias tabelas, no entanto seria interessante a adoção de novas medidas que possibilitassem analisar outros parâmetros importantes envolvendo múltiplas tabelas.

5.3.5. Realizar Baterias de Testes

Os testes realizados neste trabalho tiveram como objetivo validar o uso do algoritmo e comparar se o mesmo mantinha um padrão de comportamento semelhante ao FP-Growth e ao Connection. Para isso foram considerados o tempo de execução e o número de regras obtidas.

No entanto, seria interessante realizar análises considerando outros parâmetros ou ainda outros algoritmos multi-relacionais. Essas análises poderiam indicar os pontos falhos do algoritmo e direcionar o desenvolvimento de melhorias ou até mesmo de uma nova estratégia.

5.3.6. Propor uma Nova Estratégia de Mineração

Em um banco de dados podem existir tabelas que não estão diretamente relacionadas pela modelagem, mas apresentam uma relação semântica entre si. Oferecer recursos para a extração de padrões em tabelas semanticamente relacionadas pode trazer vários benefícios, e para isso é necessário o desenvolvimento de novas abordagens para a mineração dos dados e para a visualização dos padrões encontrados.

Cliente Conta Serviço movimenta contrata IdCliente nroConta IdConta nome IdServiço M M N N data valor data valor nome CPF endereço Vantagem adquire modalidade IdVantagem M N data desconto

Figura 5.1 Informações bancárias

Na figura 5.1 uma análise interessante seria descobrir se existe alguma relação entre as vantagens oferecidas aos clientes e os serviços contratados por esses clientes. As tabelas

Vantagem e Serviço não compartilham uma chave (primária ou estrangeira), portanto não

podem ser mineradas com o GFP-Growth. No entanto, existe uma relação semântica entre essas tabelas.

Desse modo, uma melhoria no processo de mineração multi-relacional seria o desenvolvimento de técnicas para minerar regras em tabelas cuja semântica envolvida favoreça a sua análise em conjunto.

No documento Mineração multi-relacional: o algoritmo GFP-growth. (páginas 82-86)