Resultados e Discuss˜ ao - Descritivo/Representativo

3.2 Descritivo/Representativo

3.2.4 Resultados e Discuss˜ ao

O desempenho dos m´etodos de rotula¸c˜ao, avaliados via P e RF, encontram-se apre-sentados nas Tabelas 14 a 21 agrupados por algoritmo para cada conjunto de dados. As Tabelas 14 e 18 apresentam os resultados para o conjunto Adult, as Tabelas 15 e 19 para o Income, as Tabelas 16 e 20 para o Groceries e as Tabelas 17 e 21 para o Sup. Cada tabela possui 8 colunas principais, cada 4 relacionadas a uma medida de similaridade.

Cada uma dessas 4 colunas corresponde a um método de rotula¸cão. Para cada método os valores de P e RF são apresentados. Cada linha apresenta o desempenho dos métodos para um dado valor de k. De modo a facilitar a interpreta¸cão das tabelas, considere a Tabela 14. Pode-se observar que, para k = 5, em J-RI o método LM-M tem uma P de 0.999, o que significa que quase todas as regras (99.90%) são cobertas pelos descritores obtidos, e RF de 0.273, o que significa que apenas 27.30% dos rótulos distintos não se repetem.

Tabela14:ResultadosdoPAM,nosLM’s,noconjuntodedadosAdult. J-RIJ-RT kLM-MLM-TLM-SLM-PULM-MLM-TLM-SLM-PU PRFPRFPRFPRFPRFPRFPRFPRF 50.9990.2730.9060.2000.8940.5000.9990.2500.9850.4000.8560.6670.8900.6250.9870.600 100.9990.0910.9650.3750.9610.2501.0000.1430.9920.5290.8620.7500.9560.7330.9970.500 151.0000.0000.9630.2220.9670.1001.0000.2630.9950.4500.9450.7650.9740.4740.9990.542 201.0000.0770.9800.3000.9730.1821.0000.2000.9950.3500.9640.5260.9750.4500.9990.480 251.0000.1430.9840.2730.9790.2501.0000.1820.9950.3330.9730.5790.9800.4290.9990.400 301.0000.0770.9880.1670.9840.1671.0000.1360.9980.2860.9810.3160.9840.2860.9990.360 351.0000.0670.9890.1670.9900.0001.0000.1250.9990.2730.9780.3330.9900.2731.0000.333 401.0000.1880.9880.0770.9870.1541.0000.1250.9990.3040.9820.3180.9930.3041.0000.414 451.0000.1760.9910.0000.9880.0711.0000.1920.9990.2610.9840.2730.9930.2611.0000.400 501.0000.0590.9940.0000.9890.1331.0000.1200.9990.2500.9870.2610.9950.2501.0000.400 Tabela15:ResultadosdoPAM,nosLM’s,noconjuntodedadosIncome. J-RIJ-RT kLM-MLM-TLM-SLM-PULM-MLM-TLM-SLM-PU PRFPRFPRFPRFPRFPRFPRFPRF 50.9910.4170.8440.4000.8890.7500.9940.5330.9780.7860.7850.8330.8300.7140.9870.706 100.9980.3130.8920.6000.9090.5830.9990.3810.9890.3750.8410.3750.9110.6430.9980.429 150.9980.2500.9270.4550.9420.4170.9990.2610.9950.2940.8580.3640.9490.4380.9980.391 200.9980.0630.9390.2500.9540.2311.0000.2080.9960.3000.8920.4670.9480.4211.0000.375 250.9990.0590.9540.3570.9710.3750.9990.0800.9970.2860.9070.4120.9680.4000.9990.346 300.9990.0590.9800.0830.9840.2351.0000.0380.9980.3480.9600.4090.9860.4350.9990.346 350.9990.2000.9790.2860.9800.2501.0000.0770.9990.3040.9690.3480.9870.3481.0000.308 400.9990.2000.9830.3330.9830.3891.0000.0380.9990.3330.9790.4170.9930.3751.0000.269 450.9990.2000.9870.3130.9830.2940.9990.0381.0000.3200.9850.3600.9950.3601.0000.231 500.9990.1500.9850.3330.9930.1111.0000.0001.0000.3200.9880.3330.9960.3201.0000.231

Tabela16:ResultadosdoPAM,nosLM’s,noconjuntodedadosGroceries. J-RIJ-RT kLM-MLM-TLM-SLM-PULM-MLM-TLM-S PRFPRFPRFPRFPRFPRFPRF 50.9220.8000.6660.8570.7780.7500.9530.5880.7670.6250.5990.4000.6380.5000.851 100.9670.6670.7760.4440.8580.6670.9850.6470.8960.7330.6970.6000.7710.6670.937 150.9810.6320.8090.5000.8660.5000.9930.6000.9510.7220.8020.6430.8570.6880.970 200.9890.5000.8410.4290.9510.6060.9950.6040.9690.7830.8410.7370.9160.7830.986 250.9940.4760.8840.2860.9730.1840.9970.5260.9860.7040.8700.7390.9460.7780.993 300.9960.4090.8930.3531.0000.2200.9990.4640.9900.6330.8950.7040.9610.7000.994 350.9990.4000.9010.4740.9780.1950.9990.3820.9950.6970.9050.7670.9710.6970.991 400.9990.3600.9200.3500.9910.2751.0000.3790.9960.7030.9220.8330.9670.7030.996 451.0000.4070.9300.4350.9960.2201.0000.3570.9970.6320.9150.6760.9690.6320.995 501.0000.3670.9390.4810.9960.1461.0000.3270.9960.6410.9190.6670.9680.6360.995 Tabela17:ResultadosdoPAM,nosLM’s,noconjuntodedadosSup. J-RIJ-RT kLM-MLM-TLM-SLM-PULM-MLM-TLM-S PRFPRFPRFPRFPRFPRFPRF 50.8950.6670.7150.6670.7760.7140.9240.6250.7710.7690.5410.6670.5900.714 100.9520.6000.7630.5560.8110.3330.9620.4170.7970.5560.5280.6000.6450.667 150.9760.6000.7800.4550.8130.4550.9830.4860.8210.5240.5830.7500.6790.722 200.9800.5000.8260.4290.8650.3570.9850.6150.8450.4230.6140.6670.6690.444 250.9830.4550.8860.4710.9270.3530.9880.6030.8760.4290.6590.5710.7420.565 300.9860.4400.8960.5000.9300.4000.9900.5710.8930.4690.6840.4290.7700.643 350.9900.4440.8970.5000.9460.4350.9920.5630.9000.5280.6950.4580.7920.636 400.9880.4670.9080.5560.9400.4400.9920.5680.9150.5260.7000.5560.8150.556 450.9910.5000.9040.4170.9320.3480.9930.5710.9270.5710.7200.6250.8340.650 500.9930.5290.9130.4810.9350.3700.9940.5740.9310.5580.7710.5710.8530.548

Tabela18:ResultadosdoWard,nosLM’s,noconjuntodedadosAdult. J-RIJ-RT kLM-MLM-TLM-SLM-PULM-MLM-TLM-SLM-PU PRFPRFPRFPRFPRFPRFPRFPRF 50.9920.5000.7510.4000.8630.5000.9820.5000.9660.5000.8010.8330.8740.5560.9760.667 100.9970.4120.8400.6000.9220.5830.9940.4500.9860.5290.9040.8180.9580.3330.9950.524 150.9980.4210.8570.6430.9660.5880.9950.5000.9950.4500.9560.7330.9860.3680.9960.500 200.9980.4000.9020.5000.9780.5260.9860.5000.9950.3000.9700.5880.9860.3500.9980.417 250.9990.3500.9210.4710.9820.4740.9890.4230.9950.2860.9710.5790.9900.3810.9940.360 300.9990.3810.9380.4740.9890.4290.9880.4070.9980.2380.9770.5260.9920.3330.9950.320 350.9990.3330.9460.4210.9900.4290.9890.4070.9980.2730.9810.4760.9960.2730.9970.346 400.9990.2860.9560.2630.9910.3330.9910.4290.9990.2610.9880.3810.9960.2610.9980.333 450.9990.1900.9630.2000.9910.1900.9920.3210.9990.2170.9850.3330.9960.2170.9980.357 500.9990.1900.9690.2000.9920.1900.9930.3210.9990.2500.9900.3640.9970.2500.9980.357 Tabela19:ResultadosdoWard,nosLM’s,noconjuntodedadosIncome. J-RIJ-RT kLM-MLM-TLM-SLM-PULM-MLM-TLM-SLM-PU PRFPRFPRFPRFPRFPRFPRFPRF 50.9800.6150.8400.8330.8860.8570.9850.5630.9410.7690.6930.8330.8220.7140.9680.667 100.9900.2940.8970.7270.9230.8460.9940.3330.9680.5000.8070.7270.8960.6670.9880.435 150.9930.3330.9070.5380.9410.4000.9970.3750.9780.2780.8690.7330.9350.5291.0000.462 200.9930.3680.9230.4670.9640.4120.9990.3200.9870.2500.9070.4710.9510.5001.0000.385 250.9940.2630.9340.3130.9710.2940.9990.3200.9930.3480.9470.5710.9720.5220.9990.385 300.9950.3000.9400.3130.9760.3330.9990.2800.9920.3480.9540.4780.9770.3911.0000.385 350.9960.3330.9440.3530.9790.4000.9990.2400.9930.3480.9610.3910.9810.3911.0000.385 400.9970.2380.9500.3330.9840.2000.9990.2310.9940.3480.9670.3480.9840.3911.0000.385 450.9970.2730.9540.3680.9850.2380.9990.2310.9950.2610.9710.2610.9860.3041.0000.308 500.9970.2730.9580.3160.9860.2380.9990.2310.9970.2500.9790.2500.9900.2921.0000.269

Tabela20:ResultadosdoWard,nosLM’s,noconjuntodedadosGroceries. J-RIJ-RT kLM-MLM-TLM-SLM-PULM-MLM-TLM-S PRFPRFPRFPRFPRFPRFPRF 50.8270.7780.7340.8330.7940.6670.8710.5710.7760.6670.6580.8330.7210.6000.869 100.9120.8570.8490.8180.8670.8180.9310.6520.9090.6430.8680.9090.9070.8180.939 150.9410.9090.8630.8750.8670.8750.9540.6450.9000.7500.8410.9380.9000.8500.958 200.9540.9200.9040.9050.9170.8640.9650.6840.9310.7920.8800.9050.8870.9130.964 250.9650.8620.9330.8850.9390.8150.9740.5950.9630.8280.9460.8460.9680.7860.972 300.9750.8060.9530.8670.9680.8330.9780.5650.9650.7810.9520.7930.9670.8060.974 350.9790.8060.9590.8530.9740.7360.9800.5290.9590.6670.9480.6880.9580.6670.977 400.9720.7500.9470.8420.9790.6320.9850.5090.9640.5880.9550.6470.9660.6180.979 450.9780.6980.9540.8050.9830.6560.9890.5090.9730.6320.9620.6760.9750.6580.982 500.9730.6440.9600.7950.9980.6250.9900.5330.9610.6250.9590.6670.9920.5830.985 Tabela21:ResultadosdoWard,nosLM’s,noconjuntodedadosSup. J-RIJ-RT kLM-MLM-TLM-SLM-PULM-MLM-TLM-S PRFPRFPRFPRFPRFPRFPRF 50.8900.5560.7060.6670.7640.8330.9000.6000.7710.7690.5410.6670.5900.714 100.9470.7330.8550.8180.8920.8330.9610.5500.7970.5560.5280.6000.6450.667 150.9540.7500.8790.8750.9180.7500.9680.5710.8210.5240.5830.7500.6790.722 200.9660.6360.9260.8500.9510.7500.9750.5830.8450.4230.6140.6670.6690.444 250.9750.7040.9380.8800.9700.8080.9800.5610.8760.4290.6590.5710.7420.565 300.9790.7500.9470.9000.9640.8000.9830.5870.8930.4690.6840.4290.7700.643 350.9680.7840.9350.9140.9600.8330.9810.6000.9000.5280.6950.4580.7920.636 400.9760.8180.9370.9000.9570.8540.9840.5520.9150.5260.7000.5560.8150.556 450.9820.8130.9550.9110.9750.8700.9860.5250.9270.5710.7200.6250.8340.650 500.9860.8270.9690.9000.9810.8800.9870.5160.9310.5580.7710.5710.8530.548

Com base nesses dados, de modo a identificar os métodos mais adequados para agru-pamentos de regras de associa¸cão e as organiza¸cões que fornecem os melhores resultados, uma análise baseada na média de cada medida (P,RF), considerando os diferentes tipos de dado, independente do conjunto, foi realizada. A Tabela 22 apresenta os resultados.

Cada média foi obtida a partir dos resultados dos experimentos relacionados a confi-gura¸cão apresentada. O valor P de 0.999 de LM-M da configura¸cão CD-P:PAM:J-RI, por exemplo, foi obtido por meio da média dos valores deP de LM-M das configura¸cões PAM:Adult:J-RI e PAM:Income:J-RI das Tabelas 14 e 15. Para facilitar o entendimento, esses valores encontram-se sublinhados nas respectivas tabelas. As médias mais altas, referentes a cada uma das medidas (P, RF), encontram-se marcadas com “*” em cada algoritmo. Para a configura¸cão CD-P:PAM, por exemplo, a média mais representativa para P é a relacionada aos métodos LM-M e LM-PU na medida J-RI (0.999); já em rela¸cão a RF ao método LM-T na medida J-RT (0.455). A cada “*” destaca-se na ta-bela o par P/RF referente a marca¸cão – no caso do exemplo anterior,P/RF de LM-M, LM-PU e LM-T. A medida com “*” no método sublinhado indica o valor que fez com que o método fosse selecionado – no caso do exemplo anterior, em LM-M P (0.999), em LM-PU P (0.999) e em LM-T RF (0.455). Desse modo, é poss´ıvel visualizar, para cada configura¸cão tipo-de-dado+algoritmo, o método que apresenta o melhor desempenho e em qual medida a condi¸cão acontece. Por fim, é importante mencionar que os resultados são determin´ısticos e, portanto, nenhum teste estat´ıstico precisa ser realizado para checar se existe diferen¸ca significativa entre as médias. Pode-se observar que:

• em rela¸cão ao algoritmo PAM nos CD-P, os métodos que apresentam os melhores resultados em P são o LM-M e o LM-PU e em RF o LM-T. Entretanto, nota-se que em todos os métodos selecionadosP apresenta altos valores eRF, em LM-M e LM-PU, valores muito baixos. Portanto, LM-T se torna o mais indicado quando se busca um equil´ıbrio entreP eRF, uma vez que ele melhoraRF enquanto mantém um bom valor para P. Observa-se também que essa condi¸cão ocorre com o uso da medida J-RT.

• em rela¸cão ao algoritmo Ward nos CD-P, o método que apresenta o melhor resultado em P é o LM-M e em RF o LM-T. Entretanto, nota-se que em ambos os métodos selecionados P apresenta altos valores e RF valores não tão altos. Portanto, LM-T se torna o mais indicado quando se busca um equil´ıbrio entre P eRF, uma vez que ele melhora RF enquanto mantém um bom valor para P. Observa-se também que essa condi¸cão ocorre com o uso da medida J-RT.

• em rela¸c˜ao ao algoritmo PAM nos CD-NP, o m´etodo que apresenta o melhor

re-apresenta RF pr´oxima de 0.7.

• em rela¸cão ao algoritmo Ward nos CD-NP, o método que apresenta o melhor re-sultado em P é o LM-PU e em RF o LM-T. Entretanto, nota-se que em ambos os métodos selecionadosP apresenta altos valores eRF, em LM-PU, um valor não tão alto. Portanto, LM-T se torna o mais indicado quando se busca um equil´ıbrio entre P e RF, uma vez que ele melhora RF enquanto mantém um bom valor para P. Observa-se também que essa condi¸cão ocorre com o uso da medida J-RI.

Diante do exposto, pode-se notar que:

• em rela¸cão aos métodos de rotula¸cão tem-se que:

– nos CD-P o m´etodo que se mostra mais adequado ´e o LM-T;

– nos CD-NP os m´etodos que se mostram mais adequados s˜ao o T e o LM-PU.

• em todos os casos acima destacados P apresenta bons valores tendo, portanto, a medida RF influenciado na escolha dos m´etodos (LM-T; LM-PU).

• com exce¸cão da configura¸cão CD-NP:Ward, os métodos selecionados (T; LM-PU) são mais indicados quando utilizados com a medida J-RT.

• em rela¸c˜ao aos algoritmos tem-se que:

– comparando-se os pares P/RF da Tabela 22 do PAM com o Ward nos CD-P, observa-se que o Ward apresenta um melhor desempenho;

– comparando-se os paresP/RF da Tabela 22 do PAM com o Ward nos CD-NP, observa-se que o Ward apresenta um desempenho um pouco melhor.

Tabela 22: M´edia de P e RF nos diferentes tipos de dado nas diversas configura¸c˜oes consideradas (algoritmo+medida) em cada LM.

Tipo de Dado Algoritmo Medida LM-M LM-T LM-S LM-PU

P RF P RF P RF P RF

CD-P

PAM J-RI 0.999* 0.153 0.961 0.260 0.965 0.272 0.999* 0.170

J-RT 0.995 0.355 0.934 0.455* 0.965 0.427 0.998 0.403

Ward J-RI 0.996* 0.338 0.915 0.437 0.963 0.423 0.993 0.369

J-RT 0.988 0.350 0.929 0.535* 0.963 0.401 0.995 0.412

CD-NP

PAM J-RI 0.979 0.511 0.852 0.482 0.913 0.398 0.986* 0.523

J-RT 0.911 0.611 0.743 0.633 0.818 0.646 0.935 0.671*

Ward J-RI 0.955 0.770 0.905 0.855* 0.931 0.787 0.966* 0.572

J-RT 0.899 0.616 0.773 0.690 0.832 0.672 0.929 0.645

Por fim, analisando somente as organiza¸cões que se destacaram na Se¸cão 3.1.2 refe-rentes a utiliza¸cão da PAR-COM, apresenta-se novamente na Tabela 23 alguns dados da Tabela 22. As médias mais altas, referentes a cada uma das medidas (P,RF), encontram-se marcadas com “*” em cada organiza¸cão. Para a organiza¸cão PAM:J-RT nos CD-P, por exemplo, a média mais representativa paraP é a relacionada ao método LM-PU (0.998);

já em rela¸cão aRF ao método LM-T (0.455). Como anteriormente, a cada “*” destaca-se na tabela o par P/RF referente a marca¸cão, tendo a medida com “*” contribu´ıdo para que o método fosse selecionado. Pode-se observar que:

• em rela¸cão a organiza¸cão PAM:J-RT nos CD-P, o método que apresenta o melhor resultado em P é o LM-PU e em RF o LM-T. Uma vez que em ambos os métodos selecionadosP apresenta um valor acima de 0.9, considerou-se que LM-T apresenta um desempenho um pouco melhor baseando-se em RF.

• em rela¸cão a organiza¸cão Ward:J-RT nos CD-P, o método que apresenta o melhor resultado em P é o LM-PU e em RF o LM-T. Uma vez que em ambos os métodos selecionadosP apresenta um valor acima de 0.9, considerou-se que LM-T apresenta um melhor desempenho baseando-se em RF.

• em rela¸cão a organiza¸cão PAM:J-RI nos CD-NP, o método que apresenta o melhor resultado tanto em P quanto emRF é o LM-PU.

• em rela¸cão a organiza¸cão Ward:J-RT nos CD-NP, o método que apresenta o melhor resultado em P é o LM-PU e em RF o LM-T. Uma vez que em ambos os métodos selecionados RF apresenta valores próximos a 0.7, considerou-se que LM-PU apre-senta um melhor desempenho baseando-se em P.

• nos CD-P a organiza¸cão Ward:J-RT é a que apresenta o melhor desempenho por meio do método LM-T considerando a medida RF (0.934/0.455 x 0.998/0.403 x 0.929/0.535 x 0.995/0.412), uma vez que P se mantém estável. Porém, nota-se que tanto o LM-T quanto o LM-PU se destacam nos CD-P, apresentando desempenhos similares.

• nos CD-NP a organiza¸cão Ward:J-RT é a que apresenta o melhor desempenho por meio do método LM-PU (0.986/0.523 x 0.773/0.690 x 0.929/0.645); no caso da organiza¸cão Ward:J-RT opta-se pelo LM-PU devido a grande diferen¸ca emP (0.773 x 0.929) e a pequena diferen¸ca em RF (0.690 x 0.645).

Considerando as discuss˜oes acima apresentadas, tem-se que: (i) nos CD-P o m´etodo

P RF P RF P RF P RF

CD-P PAM J-RT 0.995 0.355 0.934 0.455* 0.965 0.427 0.998* 0.403

Ward J-RT 0.988 0.350 0.929 0.535* 0.963 0.401 0.995* 0.412

CD-NP PAM J-RI 0.979 0.511 0.852 0.482 0.913 0.398 0.986* 0.523*

Ward J-RT 0.899 0.616 0.773 0.690* 0.832 0.672 0.929* 0.645

embora o método LM-PU também tenha apresentado um bom desempenho; (ii) nos CD-NP o método que se mostra mais adequado para agrupamentos de regras de associa¸cão é o LM-PU; (iii) os métodos apresentam melhores resultados quando obtém-se o agrupamento por meio do Ward; (iv) J-RT se mostra uma boa medida de similaridade a ser utilizada com o Ward; (v) como consequência de (iii) e (iv), nota-se que a configura¸cão Ward:J-RT representa a organiza¸cão que melhor separa o conhecimento do dom´ınio – pode-se inferir que o dom´ınio encontra-se bem separado se a organiza¸cão, juntamente com um método de rotula¸cão adequado, fornece bons descritores. Essas conclusões abrangem os três objetivos mencionados na Se¸cão 3.2 (letras (a) a (c)). As Figuras 7 e 8 apresentam o comportamento dos métodos LM-T e LM-PU, na organiza¸cão Ward:J-RT, tanto nos CD-P quanto nos CD-NP. É importante notar que embora P se mantenha estável e apresente altos valores em todos os valores de k o mesmo não ocorre com RF, cuja tendência é diminuir conforme o número de clusters aumenta. Entretanto, nota-se que os descritores obtidos pelos métodos LM-T e LM-PU fornecem ao usuário uma visão dos tópicos a serem explorados com uma boa precisão (P) e uma razoável distin¸cão (RF) em ambos os tipos de dado. Portanto, por meio desses dois métodos (LM-T, LM-PU), é poss´ıvel afirmar que o agrupamento no p´ os-processamento é útil ao usuário.

Por fim, observa-se que a maioria dos trabalhos da literatura relacionados a agrupa-mentos de regras de associa¸cão, descritos na Se¸cão 2.3.1, basicamente exploram o método LM-M, o qual não se destaca em nenhuma das organiza¸cões. Além disso, o LM-M apre-senta um alto custo computacional, sendo o LM-T e o LM-PU os dois menos custosos.

Desse modo, acredita-se, com base no que foi exposto, que outros m´etodos de M T e RI poderiam ser adaptados para agrupamentos de regras de associa¸c˜ao, uma vez que o LM-T e o LM-PU apresentaram um bom desempenho.

No documento Instituto de Ciências Matemáticas e de Computa¸cão ISSN - 0103-2569 Agrupamento de regras de associa¸cão no pré-processamento e no pós-processamento: o que vale mais a pena? (páginas 41-49)