• Nenhum resultado encontrado

6.2 O Conjunto de Dados EPH

6.2.2 Resultados Obtidos

6.2.2.4 Fixando o N´ umero de Clusters em 10

Os resultados obtidos com o n´umero de clusters fixado em 10 s˜ao mostrados nas Tabelas 6.33, 6.34 e 6.35. O erro verdadeiro obtido do classificador induzido por See5, apesar de ter aumentado, ainda pode ser considerado baixo, como pode ser observado na Tabela 6.33. Por´em, o n´umero de regras aumentou significativamente.

Se¸c˜ao 6.2: O Conjunto de Dados EPH 119

Tabela 6.32: EPH: atributos no conjunto de regras para C5(2) e C5(3) agrupados - 5

clusters Atributos 01 02 03 04 05 06 07 08 09 10 11 12 13 14 15 16 17 18 19 20 21 C5(0) • • • • • • • • • • • C5(1) • • • • • • • C5(2-3) • • • • • • • • • • • • C5(4) • • •

Tabela 6.33: EPH: resultados - 10 clusters

Cluster P # ExCl % ExCl ErrCM % ErrA % Err10cv % # R # MR

C10(0) 22,4 C10(1) 12,8 C10(2) 9,9 C10(3) 9,9 C10(4) 9,3 C10(5) 0 4648 8,4 77, 7 3, 6 7, 1 ± 0, 5 96 90, 5 ± 2, 5 C10(6) 8,1 C10(7) 7,0 C10(8) 6,3 C10(9) 5,8 C10(0) 18,6 C10(1) 15,3 C10(2) 9,6 C10(3) 8,5 C10(4) 11,0 C10(5) 1 2712 7,6 81, 4 1, 1 2, 7 ± 0, 5 43 41, 2 ± 0, 8 C10(6) 13,2 C10(7) 6,9 C10(8) 1,1 C10(9) 8,2

Nota-se, tamb´em, que a sobreposi¸c˜ao dos clusters tamb´em aumentou — Tabela6.34— bem como o n´umero de atributos utilizados por See5 na descri¸c˜ao das regras, Tabela6.35.

Tabela 6.34: EPH: Clusters sobrepostos - 10 clusters

Clusters Sobrepostos # Ex Comuns Clusters Sobrepostos # Ex Comuns

C10(0, 2) 202 C10(3, 9) 5 C10(0, 7) 121 C10(4, 6) 3 C10(0, 7, 8) 23 C10(4, 6, 9) 1 C10(0, 8) 99 C10(4, 9) 9 C10(1, 2) 122 C10(5, 7) 105 C10(1, 7) 12 C10(5, 7, 8) 3 C10(0, 2, 8) 11 C10(5, 8) 66 C10(1, 2, 7) 1 C10(5, 9) 11 C10(2, 9) 19 C10(6, 9) 10 C10(3, 4) 114 C10(7, 8) 24 C10(3, 4, 9) 4 C10(7, 8, 9) 1

Tabela 6.35: EPH: atributos no conjunto de regras - 10 Clusters Atributos 01 02 03 04 05 06 07 08 09 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 • • • • • • • • • • • • • C10(0) ◦ ◦ ◦ ◦ ◦ • • • • • • • • • • • • • • • C10(1) ◦ ◦ ◦ ◦ ◦ ◦ ◦ • • • • • • • • • • • • • • • • • C10(2) ◦ ◦ ◦ ◦ ◦ ◦ ◦ ◦ • • • • • • • • C10(3) ◦ ◦ ◦ ◦ ◦ • • • • • • • • • • • C10(4) ◦ ◦ ◦ ◦ ◦ • • • • • • • • • • • • • • C10(5) ◦ ◦ ◦ ◦ ◦ ◦ • • • • C1010(6) ◦ ◦ ◦ • • • • • • • • • • • • • • • C10(7) ◦ ◦ ◦ ◦ ◦ ◦ ◦ ◦ ◦ ◦ • • • • • • • • • • • • C10(8) ◦ ◦ ◦ ◦ ◦ ◦ • • • • • • • • • • • • • • • • • C10(9) ◦ ◦ ◦ ◦ ◦ ◦ ◦ ◦

De forma an´aloga ao experimento realizado com 5 clusters, foi considerada para 10 clusters a maior propor¸c˜ao aproximada dos exemplos sobrepostos (14,6% para C10(5, 7),

13,5% para C10(0, 2) e 12,7% para C10(3, 4)) e foi realizado novo experimento cujos resul-

tados s˜ao mostrados nas Tabelas 6.36 e 6.37. Esses clusters com a maior propor¸c˜ao de exemplos sobrepostos foram agrupado como C10(0-2), C10(3-4), C10(5-7), e considerados

como classes. Com esses novos agrupamentos usados como classes, foram realizados as seguintes rotula¸c˜oes no conjunto de dados, os quais foram posteriormente submetidos a See5:

1. a base de dados foi rotulada considerando somente os clusters 0 e 2 como um ´unico cluster (classe) denotado por C10(0-2) — total 9 clusters;

2. idem ao anterior mas considerando somente os clusters 3 e 4 como um ´unico cluster denotado por C10(3-4) — total 9 clusters;

3. idem ao anterior mas considerando somente os clusters 5 e 7 como um ´unico cluster denotado por C10(5-7) — total 9 clusters;

4. idem aos anteriores mas agora considerando os trˆes clusters, C10(0-2), C10(3 − 4) e

C10(5-7) — total 7 clusters;

Na Tabela6.36 encontram-se os resultados dos quatro experimentos realizados: um experimento para cada novo agrupamento de classe e outro considerando todos os agru- pamentos de classes em uma ´unica classe — C10(0-2),C10(3-4),C10(5-7).

Se¸c˜ao 6.2: O Conjunto de Dados EPH 121

Tabela 6.36: EPH: resultado do agrupando em 4 conjuntos de clusters - 10 clusters

Cluster P # ExCl % ExCl ErrCM % ErrA % Err10cv % # R # MR

C10(0-2) 33,2 3, 2 6, 0 ± 0, 3 91 78, 5 ± 3, 2

C10(3-4) 0 4648 19,2 49, 8% 3, 2 6, 4 ± 0, 3 77 69, 8 ± 1, 6

C10(5-7) 15,5 3, 3 6, 1 ± 0, 1 94 82, 6 ± 2, 5

C10(0-2),(3-4),(5-7) 50,2 2, 6 4, 9 ± 0, 4 59 55, 0 ± 1, 8

Os resultados obtidos mostram que no ´ultimo experimento realizado, o erro ver- dadeiro e o n´umero de regras diminu´ıram consideravelmente. Na Tabela6.37s˜ao mostra- dos os atributos que est˜ao presentes nas regras induzidas nesse quarto experimento. Percebe-se que as novas regras induzidas utilizam trˆes novos atributos 31, 32 e 33 que n˜ao foram usados anteriormente por See5 — Tabela6.35 na p´agina anterior — enquanto que oito atributos utilizados anteriormente, especificamente os atributos 04, 05, 09, 23, 24, 25, 28 e 30, n˜ao foram necess´arios para descrever as regras do novo modelo.

Tabela 6.37: EPH: atributos com C10(0) e C10(2), C10(3) e C10(4), C10(5) e C10(7) agru-

pados - 10 clusters Atributos 01 02 03 04 05 06 07 08 09 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 C10(0-2) • • • • • • • • • • • • • • C10(1) • • • • • • • • • • • • • C10(3-4) • C10(5-7) • • • • • • • • • • • • • • • C10(6) • • • C10(8) • • • • • • • • • • C10(9) • • • • • • • • • • • • • • •

Como para 5 e 10 clusters a quantidade de clusters sobrepostos aumentou significa- tivamente e, atendendo a solicita¸c˜ao do especialista, novos experimentos foram realizados agrupando os clusters sobrepostos com a maior propor¸c˜ao de exemplos em comum, em um ´unico cluster (classe). O conjunto de dados foi novamente rotulado com o nome dos clusters agrupados, e o processo foi repetido. Os resultados obtidos foram considerados melhores do que os anteriores, pois diminuiu o n´umero de regras, o n´umero de atributos utilizados nas regras, e o valor do erro dos classificadores. Maiores detalhes dos resultados obtidos com esse conjunto de dados, podem ser encontrados em (Martins, Monard, Haedo, & Matsudo, 2001).

Com esses resultados foi poss´ıvel para o especialista do dom´ınio realizar uma an´alise semˆantica, para dar uma “explica¸c˜ao” aos clusters encontrados. ´E importante ressaltar que podem ser obtidas v´arias informa¸c˜oes em cada etapa do processo, usando as informa¸c˜oes geradas, tais como apresentadas nas tabelas descritas anteriormente. Na realidade, os diversos experimentos realizados com um conjunto de dados, tem como objetivo fornecer ao especialista vis˜oes parciais diferentes desses dados, com o intuito de auxilia-lo na re-

aliza¸c˜ao de uma interpreta¸c˜ao mais apurada desses dados. Entretanto, a an´alise manual dos resultados contidos nesses relat´orios, a qual deve ser realizada pelo especialista com o objetivo de “descobrir” o significado dos clusters, nem sempre ´e uma tarefa f´acil. Assim, ´e importante o desenvolvimento de ferramentas computacionais para auxiliar o especialista nessa tarefa (Baranauskas & Monard, 2000a).

A metodologia proposta para realiza¸c˜ao de experimentos, usando tanto algoritmos de aprendizado supervisionado quanto n˜ao supervisionado, em um conjunto de dados n˜ao rotulados mostrou-se bastante interessante, pois oferece ao especialista uma vasta gama de informa¸c˜oes relacionadas aos dados. Apesar dos clusters encontrados no conjunto de dados Breast-cancer n˜ao corresponderem `as classes verdadeiras, isso significa que os bias dos algoritmos utilizados, AutoClass e See5, podem n˜ao ser os mais adequados quando combinados para esse conjunto de dados. Mesmo que o resultado obtido seja diferente do resultado que correspondem `as classes, nem sempre pode ser considerado um resultado ruim. Por exemplo, para o caso do AutoClass que conseguiu separar bem os dados em clusters, todos com probabilidade 1, significa que existe um outro tipo de relacionamento entre os dados. Assim, os dados podem ser agrupados utilizando um outro crit´erio, o qual pode ser ´util para encontrar padr˜oes diferentes dos esperados. Portanto, cabe ao especialista analisar e decidir se os algoritmos s˜ao adequados `aquele conjunto de dados e se os padr˜oes encontrados s˜ao v´alidos, mesmo que diferentes dos esperados.

No caso dos experimentos com o conjunto de dados EPH, al´em da classe n˜ao ser conhecida, os atributos n˜ao eram informativos, devido `a codifica¸c˜ao dos mesmos. As- sim, como em qualquer processo de agrupamento, a an´alise dos resultados ´e uma tarefa extremamente complexa, visto que sem a ajuda do especialista do dom´ınio n˜ao se tem um feedback “conceitual” para os clusters encontrados. No entanto, para o conjunto de dados EPH, os resultados obtidos nos experimentos foram considerados bons, pois os es- pecialistas conseguiram observar, analisando os resultados dos diversos agrupamentos dos dados, informa¸c˜oes ´uteis e ter uma melhor compreens˜ao dos dados, observando as prin- cipais caracter´ısticas relacionadas aos atributos utilizados, `a sobreposi¸c˜ao dos clusters, `as regras induzidas, entre outros. Dessa forma, consideramos que a metodologia atingiu o objetivo proposto e pode ser uma grande aliada quando o interesse em um processo de agrupamento est´a relacionado `a interpreta¸c˜ao semˆantica de clusters de um conjunto de dados n˜ao rotulados.

Se¸c˜ao 6.3: Considera¸c˜oes Finais 123

6.3

Considera¸c˜oes Finais

Em um processo de minera¸c˜ao de dados, a intera¸c˜ao com o especialista ´e fundamen- tal, visto que este det´em o conhecimento do dom´ınio. No entanto, ´e poss´ıvel automatizar alguns processos que possam auxiliar o especialista, ou usu´ario final, no pr´oprio processo de minera¸c˜ao ou mesmo na interpreta¸c˜ao dos resultados obtidos pelos algoritmos de apren- dizado. Um dos objetivos deste trabalho consiste na proposta e implementa¸c˜ao de uma metodologia para auxiliar o especialista no processo de descobrir conhecimento em um conjunto de dados n˜ao rotulados, usando algoritmos de aprendizado supervisionado e n˜ao supervisionado.

A metodologia proposta consiste em auxiliar o especialista a ir al´em de simples- mente encontrar os clusters presentes no conjunto de dados n˜ao rotulados, mas, tamb´em, em analisar sobreposi¸c˜ao de clusters, atributos presentes nas regras induzidas, n´umero de regras, erro associado ao classificador induzido, entre outros. Essas informa¸c˜oes s˜ao ´

uteis pois, conceitualmente, descrever clusters n˜ao significa necessariamente, descrever conceitos representados pelos exemplos que pertencem a esses clusters, como mostrado na Figura 4.2 na p´agina 56e descrito na Se¸c˜ao4.1.1.

´

E evidente que o especialista sabe que um cluster, que cont´em um dado subconjunto de exemplos do conjunto original, n˜ao auxilia necessariamente na tarefa de descobrir o poss´ıvel conceito embutido nesses clusters. Entretanto, o uso de algoritmos de AM que induzem regras as quais s˜ao facilmente interpret´aveis por humanos utilizando o conjunto de clusters encontrado por algum algoritmo de AM n˜ao supervisionado, clusters esses que podem ser reagrupados por iniciativa do especialista utilizando a metodologia proposta, permite analisar melhor as caracter´ısticas dos exemplos que pertencem a cada cluster, fa- cilitando assim ao especialista encontrar uma explica¸c˜ao semˆantica, ou conceito embutido, desses clusters.

Cap´ıtulo

7

Experimentos em Minera¸c˜ao de Textos Usando

PreTexT

A abordagem bag-of-words ´e uma t´ecnica bastante utilizada na representa¸c˜ao de docu- mentos em um processo de MT. No entanto, essa t´ecnica ´e caracterizada pela alta dimen- sionalidade no conjunto dos poss´ıveis atributos, como visto no Cap´ıtulo 3. Neste cap´ıtulo ´

e apresentado uma s´erie de experimentos usando quatro conjuntos distintos de textos, ro- tulados e n˜ao rotulados, cujo objetivo ´e induzir o melhor classificador, ou agrupamento, diminuindo a dimensionalidade dos atributos. Em outras palavras, a id´eia ´e induzir o clas- sificador que possui o menor erro de predi¸c˜ao futura utilizando um subconjunto de cardinal- idade bem menor que a cardinalidade do conjunto dos poss´ıveis atributos que representam os documentos. Os textos utilizados s˜ao de diversas fontes, tais como p´aginas web e jornais. Os experimentos foram realizados usando os algoritmos See5, C4.5rules, CN2, Rainbow, SVMTorch II e AutoClass, para o aprendizado supervisionado e n˜ao supervisionado. Para cada conjunto de textos s˜ao descritos os experimentos realizados e os resultados obtidos.

7.1

O Conjunto de Textos NILC

O conjunto de textos, ou documentos, usados nesse experimento foi fornecido pelo N´ucleo Interinstitutional de Ling¨u´ıstica Computacional — NILC1. Esse conjunto de textos

cont´em mais de 4000 documentos escritos em portuguˆes, divididos nos seguintes t´opicos: did´aticos, jornal´ısticos, jur´ıdicos, liter´arios e t´ecnicos/cient´ıficos. Desses 4000 documentos, foram selecionados 248 documentos do t´opico jornal´ıstico, os quais est˜ao classificados em

1

http://www.nilc.icmc.usp.br/nilc/.

quatro classes: Inform´atica, Economia, Esporte e Pol´ıtica. Cada documento ´e um arquivo texto (extens˜ao txt) com tamanho m´edio e desvio padr˜ao de 24,84 KB±13,76 KB. Na Tabela 7.1´e mostrada a distribui¸c˜ao dos documentos por classe.

Tabela 7.1: NILC: distribui¸c˜ao de documentos por classe

Economia Esporte Inform´atica Pol´ıtica Total

63 59 66 60 248

25,4% 23,8% 26,6% 24,2% 100%