Como mencionado na Se¸c˜ao 3.3 do Cap´ıtulo 3 (p´agina 38), existem diversos traba- lhos na literatura que utilizam taxonomias em regras de associa¸c˜ao, os quais variam de acordo com a etapa de aplica¸c˜ao das mesmas no processo de minera¸c˜ao de dados. Entre- tanto, como este trabalho se situa na etapa de p´os-processamento, apresenta-se, a seguir, uma compara¸c˜ao da abordagem proposta com os dois trabalhos citados na Se¸c˜ao 3.3.3 (p´agina 40): o de Domingues & Rezende (2005); Domingues (2004), no qual a abordagem aqui proposta se baseia, e o de Adomavicius & Tuzhilin (2001).
Em Domingues & Rezende (2005); Domingues (2004) ´e proposta uma abordagem que, assim como a APRA, tamb´em generaliza um conjunto de regras de associa¸c˜ao espec´ıficas, obtidas, a priori, por um algoritmo de minera¸c˜ao tradicional, em regras mais gerais a partir de um conjunto de taxonomias fornecidas pelo especialista do dom´ınio. Ressalta- se, entretanto, que a abordagem aqui proposta possui cinco grandes diferenciais:
1. Na abordagem aqui proposta ´e poss´ıvel se generalizar apenas um dos lados (lhs ou rhs) ou ambos os lados da regra. Em Domingues & Rezende (2005); Domingues (2004), apenas um dos lados pode ser generalizado.
2. Na abordagem aqui proposta a generaliza¸c˜ao ´e realizada entre as regras e entre os itens da regra. Em Domingues & Rezende (2005); Domingues (2004), apenas as ge- neraliza¸c˜oes entre as regras s˜ao realizadas. Considere a taxonomia da Figura 4.11. Se as regras “IF leite batavo & leite molico THEN margarina” e “IF leite nilza THEN margarina” estivessem contidas no conjunto de regras, a regra “IF leite THEN mar- garina” seria gerada pela abordagem aqui proposta, uma vez que os itens leite batavo e leite molico s˜ao substitu´ıdos pelo item leite (generaliza¸c˜ao entre os itens da regra), assim como o item leite nilza. Sendo assim, ap´os as substitui¸c˜oes, a regra “IF leite THEN margarina” ´e gerada (generaliza¸c˜ao entre as regras).
3. Na abordagem aqui proposta regras generalizadas s˜ao obtidas considerando-se to- dos ou alguns dos itens contidos na taxonomia. Em Domingues & Rezende (2005); Domingues (2004), todos os itens contidos na taxonomia devem ser considerados no processo de generaliza¸c˜ao, ou seja, ´e necess´ario que exista uma regra espec´ı- fica para cada um dos itens terminais contidos na taxonomia. Considere a taxo- nomia da Figura 4.11. Se apenas as regras “IF leite batavo THEN margarina” e “IF leite parmalat THEN margarina” estivessem contidas no conjunto de regras, a regra ”IF leite THEN margarina” n˜ao seria gerada pela abordagem proposta em Domingues & Rezende (2005); Domingues (2004), pois as regras ”IF leite nilza THEN margarina”, ”IF leite salute THEN margarina” e ”IF leite molico THEN margarina”, que contˆem os outros itens de especializa¸c˜ao do item leite, n˜ao foram
geradas. Observe que essa ´e uma restri¸c˜ao muito forte, uma vez que o especialista que fornece as taxonomias n˜ao sabe precisamente quais s˜ao todos os tipos de leite que foram comprados e que est˜ao contidos no conjunto de regras obtidas em fun¸c˜ao de um determinado valor de suporte e confian¸ca. Sendo assim, a abordagem aqui proposta ´e bem mais flex´ıvel, al´em de possuir a vantagem de se poder utilizar ta- xonomias gerais de dom´ınio em subdom´ınios, j´a que a listagem de contribui¸c˜ao de itens facilita a compreens˜ao das regras generalizadas obtidas.
4. Em Domingues & Rezende (2005); Domingues (2004) uma generaliza¸c˜ao n˜ao ocorre se uma regra possuir mais de um item com o mesmo pai. Considere a taxonomia da Figura 4.11. Se a regra “IF leite batavo & leite molico THEN margarina” es- tivesse contida no conjunto de regras, a regra “IF leite THEN margarina” n˜ao seria gerada pela abordagem por eles proposta, uma vez que ambos os itens espec´ıficos (leite batavo; leite molico) possuem o mesmo item pai (leite).
5. Na abordagem aqui proposta uma regra s´o ser´a generalizada se o valor de suporte/- confian¸ca da mesma for t% maior do que o maior valor da mesma medida em suas regras espec´ıficas. Sendo assim, essa condi¸c˜ao faz com que ocorra uma varia¸c˜ao im- pl´ıcita do valor da medida de suporte/confian¸ca nas regras generalizadas, tornando o processo mais flex´ıvel.
Em Adomavicius & Tuzhilin (2001) ´e proposta uma abordagem que realiza o agrupa- mento de um conjunto de regras (n˜ao apenas regras de associa¸c˜ao) em fun¸c˜ao da simila- ridade existente entre as mesmas, a qual ´e medida por uma transforma¸c˜ao sint´atica que se faz nas regras via a utiliza¸c˜ao de uma taxonomia de dom´ınio. A abordagem aqui pro- posta difere da apresentada por Adomavicius & Tuzhilin (2001), uma vez que o objetivo da abordagem dos autores ´e criar classes de regras que representem a estrutura sint´atica de um subconjunto de regras. Sendo assim, no trabalho de Adomavicius & Tuzhilin (2001): 1. A regra geral n˜ao tem como objetivo substituir as regras espec´ıficas, j´a que a mesma
´e apenas uma representa¸c˜ao geral da estrutura sint´atica das regras espec´ıficas. 2. O objetivo ´e auxiliar a interpreta¸c˜ao do conjunto de regras via a explora¸c˜ao das
classes de regras geradas.
3. Regras de associa¸c˜ao generalizadas n˜ao s˜ao obtidas, j´a que LHS∩ RHS 6= ∅ (essa restri¸c˜ao pode ser observada na Figura 3.2 da Se¸c˜ao 3.3.3, p´agina 40). Isso porque a abordagem ´e gen´erica, isto ´e, serve para qualquer tipo de regra conjuntiva (asso- cia¸c˜ao, classifica¸c˜ao, etc.), uma vez que o objetivo ´e realmente gerar classes de regras. Sendo assim, as medidas de suporte e confian¸ca n˜ao s˜ao calculadas para as classes de regras.
4. O agrupamento ´e realizado considerando-se toda a estrutura sint´atica da regra, ou seja, o agrupamento ´e realizado apenas em ambos os lados da regra.
5. O mapeamento sint´atico das regras n˜ao ´e realizado n´ıvel a n´ıvel, j´a que ´e o usu´ario que define o n´ıvel de abstra¸c˜ao de cada ramo da taxonomia.
Ambas as abordagens mencionadas, assim como a abordagem aqui proposta, visam reduzir o conjunto de regras de entrada, de forma a fornecer uma vis˜ao mais geral do conhecimento extra´ıdo, a fim de facilitar a interpreta¸c˜ao e an´alise do mesmo pelos usu´arios finais. Entretanto, uma diferen¸ca identificada em rela¸c˜ao aos trabalhos de Domingues & Rezende (2005); Domingues (2004) e Adomavicius & Tuzhilin (2001) se refere `a listagem de contribui¸c˜ao de itens. Na abordagem aqui proposta, para cada uma das regras gene- ralizadas ´e poss´ıvel se identificar, por meio da listagem gerada, qual a contribui¸c˜ao de cada um dos itens espec´ıficos na composi¸c˜ao dos itens gerais que comp˜oem a regra. Com essa informa¸c˜ao, o especialista do dom´ınio pode explorar com mais detalhes cada uma das regras geradas. Esse fato viabiliza a utiliza¸c˜ao de taxonomias gerais de dom´ınio em subdom´ınios. Al´em disso, a lista de contribui¸c˜ao de itens tamb´em favorece a identifi- ca¸c˜ao de regras de exce¸c˜ao, j´a que ´e poss´ıvel se obter uma descri¸c˜ao mais elaborada do dom´ınio, a partir da qual se pode observar quais itens espec´ıficos n˜ao contribuem para uma categoria/classe de itens em uma determinada associa¸c˜ao.
A fim de fornecer ao usu´ario um ambiente para explorar conjuntos de regras de associa¸c˜ao generalizadas gerados pelo AP RAalg, um m´odulo computacional, denominado
RulEE-RAG, foi criado, o qual ´e descrito a seguir. O objetivo desse m´odulo ´e auxiliar o usu´ario na visualiza¸c˜ao da contribui¸c˜ao de cada um dos itens espec´ıficos na composi¸c˜ao dos itens gerais que comp˜oem cada uma das regras generalizadas, al´em de auxiliar a identifica¸c˜ao de regras de exce¸c˜ao.