Fixando o N´ umero de Clusters em 10

6.2 O Conjunto de Dados EPH

6.2.2 Resultados Obtidos

6.2.2.4 Fixando o N´ umero de Clusters em 10

Os resultados obtidos com o número de clusters fixado em 10 são mostrados nas Tabelas 6.33, 6.34 e 6.35. O erro verdadeiro obtido do classificador induzido por See5, apesar de ter aumentado, ainda pode ser considerado baixo, como pode ser observado na Tabela 6.33. Porém, o número de regras aumentou significativamente.

Se¸c˜ao 6.2: O Conjunto de Dados EPH 119

Tabela 6.32: EPH: atributos no conjunto de regras para C5(2) e C5(3) agrupados - 5

clusters Atributos 01 02 03 04 05 06 07 08 09 10 11 12 13 14 15 16 17 18 19 20 21 C5(0) • • • • • • • • • • • C5(1) • • • • • • • C5(2-3) • • • • • • • • • • • • C5(4) • • •

Tabela 6.33: EPH: resultados - 10 clusters

Cluster P # ExCl % ExCl ErrCM % ErrA % Err10cv % # R # MR

C10(0) 22,4 C10(1) 12,8 C10(2) 9,9 C10(3) 9,9 C10(4) 9,3 C10(5) 0 4648 8,4 77, 7 3, 6 7, 1 ± 0, 5 96 90, 5 ± 2, 5 C10(6) 8,1 C10(7) 7,0 C10(8) 6,3 C10(9) 5,8 C10(0) 18,6 C10(1) 15,3 C10(2) 9,6 C10(3) 8,5 C10(4) 11,0 C10(5) 1 2712 7,6 81, 4 1, 1 2, 7 ± 0, 5 43 41, 2 ± 0, 8 C10(6) 13,2 C10(7) 6,9 C10(8) 1,1 C10(9) 8,2

Nota-se, também, que a sobreposi¸cão dos clusters também aumentou — Tabela6.34— bem como o número de atributos utilizados por See5 na descri¸cão das regras, Tabela6.35.

Tabela 6.34: EPH: Clusters sobrepostos - 10 clusters

Clusters Sobrepostos # Ex Comuns Clusters Sobrepostos # Ex Comuns

C10(0, 2) 202 C10(3, 9) 5 C10(0, 7) 121 C10(4, 6) 3 C10(0, 7, 8) 23 C10(4, 6, 9) 1 C10(0, 8) 99 C10(4, 9) 9 C10(1, 2) 122 C10(5, 7) 105 C10(1, 7) 12 C10(5, 7, 8) 3 C10(0, 2, 8) 11 C10(5, 8) 66 C10(1, 2, 7) 1 C10(5, 9) 11 C10(2, 9) 19 C10(6, 9) 10 C10(3, 4) 114 C10(7, 8) 24 C10(3, 4, 9) 4 C10(7, 8, 9) 1

Tabela 6.35: EPH: atributos no conjunto de regras - 10 Clusters Atributos 01 02 03 04 05 06 07 08 09 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 • • • • • • • • • • • • • C10(0) ◦ ◦ ◦ ◦ ◦ • • • • • • • • • • • • • • • C10(1) ◦ ◦ ◦ ◦ ◦ ◦ ◦ • • • • • • • • • • • • • • • • • C10(2) ◦ ◦ ◦ ◦ ◦ ◦ ◦ ◦ • • • • • • • • C10(3) ◦ ◦ ◦ ◦ ◦ • • • • • • • • • • • C10(4) ◦ ◦ ◦ ◦ ◦ • • • • • • • • • • • • • • C10(5) ◦ ◦ ◦ ◦ ◦ ◦ • • • • C1010(6) ◦ ◦ ◦ • • • • • • • • • • • • • • • C10(7) ◦ ◦ ◦ ◦ ◦ ◦ ◦ ◦ ◦ ◦ • • • • • • • • • • • • C10(8) ◦ ◦ ◦ ◦ ◦ ◦ • • • • • • • • • • • • • • • • • C10(9) ◦ ◦ ◦ ◦ ◦ ◦ ◦ ◦

De forma an´aloga ao experimento realizado com 5 clusters, foi considerada para 10 clusters a maior propor¸c˜ao aproximada dos exemplos sobrepostos (14,6% para C10(5, 7),

13,5% para C10(0, 2) e 12,7% para C10(3, 4)) e foi realizado novo experimento cujos resul-

tados s˜ao mostrados nas Tabelas 6.36 e 6.37. Esses clusters com a maior propor¸c˜ao de exemplos sobrepostos foram agrupado como C10(0-2), C10(3-4), C10(5-7), e considerados

como classes. Com esses novos agrupamentos usados como classes, foram realizados as seguintes rotula¸c˜oes no conjunto de dados, os quais foram posteriormente submetidos a See5:

1. a base de dados foi rotulada considerando somente os clusters 0 e 2 como um ´unico cluster (classe) denotado por C10(0-2) — total 9 clusters;

2. idem ao anterior mas considerando somente os clusters 3 e 4 como um ´unico cluster denotado por C10(3-4) — total 9 clusters;

3. idem ao anterior mas considerando somente os clusters 5 e 7 como um ´unico cluster denotado por C10(5-7) — total 9 clusters;

4. idem aos anteriores mas agora considerando os trˆes clusters, C10(0-2), C10(3 − 4) e

C10(5-7) — total 7 clusters;

Na Tabela6.36 encontram-se os resultados dos quatro experimentos realizados: um experimento para cada novo agrupamento de classe e outro considerando todos os agrupamentos de classes em uma ´unica classe — C10(0-2),C10(3-4),C10(5-7).

Se¸c˜ao 6.2: O Conjunto de Dados EPH 121

Tabela 6.36: EPH: resultado do agrupando em 4 conjuntos de clusters - 10 clusters

Cluster P # ExCl % ExCl ErrCM % ErrA % Err10cv % # R # MR

C10(0-2) 33,2 3, 2 6, 0 ± 0, 3 91 78, 5 ± 3, 2

C10(3-4) 0 4648 19,2 49, 8% 3, 2 6, 4 ± 0, 3 77 69, 8 ± 1, 6

C10(5-7) 15,5 3, 3 6, 1 ± 0, 1 94 82, 6 ± 2, 5

C10(0-2),(3-4),(5-7) 50,2 2, 6 4, 9 ± 0, 4 59 55, 0 ± 1, 8

Os resultados obtidos mostram que no último experimento realizado, o erro verdadeiro e o número de regras diminu´ıram consideravelmente. Na Tabela6.37são mostrados os atributos que estão presentes nas regras induzidas nesse quarto experimento. Percebe-se que as novas regras induzidas utilizam três novos atributos 31, 32 e 33 que não foram usados anteriormente por See5 — Tabela6.35 na página anterior — enquanto que oito atributos utilizados anteriormente, especificamente os atributos 04, 05, 09, 23, 24, 25, 28 e 30, não foram necessários para descrever as regras do novo modelo.

Tabela 6.37: EPH: atributos com C10(0) e C10(2), C10(3) e C10(4), C10(5) e C10(7) agru-

pados - 10 clusters Atributos 01 02 03 04 05 06 07 08 09 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 C10(0-2) • • • • • • • • • • • • • • C10(1) • • • • • • • • • • • • • C10(3-4) • C10(5-7) • • • • • • • • • • • • • • • C10(6) • • • C10(8) • • • • • • • • • • C10(9) • • • • • • • • • • • • • • •

Como para 5 e 10 clusters a quantidade de clusters sobrepostos aumentou significativamente e, atendendo a solicita¸cão do especialista, novos experimentos foram realizados agrupando os clusters sobrepostos com a maior propor¸cão de exemplos em comum, em um único cluster (classe). O conjunto de dados foi novamente rotulado com o nome dos clusters agrupados, e o processo foi repetido. Os resultados obtidos foram considerados melhores do que os anteriores, pois diminuiu o número de regras, o número de atributos utilizados nas regras, e o valor do erro dos classificadores. Maiores detalhes dos resultados obtidos com esse conjunto de dados, podem ser encontrados em (Martins, Monard, Haedo, & Matsudo, 2001).

Com esses resultados foi poss´ıvel para o especialista do dom´ınio realizar uma análise semântica, para dar uma “explica¸cão” aos clusters encontrados. É importante ressaltar que podem ser obtidas várias informa¸cões em cada etapa do processo, usando as informa¸cões geradas, tais como apresentadas nas tabelas descritas anteriormente. Na realidade, os diversos experimentos realizados com um conjunto de dados, tem como objetivo fornecer ao especialista visões parciais diferentes desses dados, com o intuito de auxilia-lo na re-

aliza¸cão de uma interpreta¸cão mais apurada desses dados. Entretanto, a análise manual dos resultados contidos nesses relatórios, a qual deve ser realizada pelo especialista com o objetivo de “descobrir” o significado dos clusters, nem sempre é uma tarefa fácil. Assim, é importante o desenvolvimento de ferramentas computacionais para auxiliar o especialista nessa tarefa (Baranauskas & Monard, 2000a).

A metodologia proposta para realiza¸cão de experimentos, usando tanto algoritmos de aprendizado supervisionado quanto não supervisionado, em um conjunto de dados não rotulados mostrou-se bastante interessante, pois oferece ao especialista uma vasta gama de informa¸cões relacionadas aos dados. Apesar dos clusters encontrados no conjunto de dados Breast-cancer não corresponderem às classes verdadeiras, isso significa que os bias dos algoritmos utilizados, AutoClass e See5, podem não ser os mais adequados quando combinados para esse conjunto de dados. Mesmo que o resultado obtido seja diferente do resultado que correspondem às classes, nem sempre pode ser considerado um resultado ruim. Por exemplo, para o caso do AutoClass que conseguiu separar bem os dados em clusters, todos com probabilidade 1, significa que existe um outro tipo de relacionamento entre os dados. Assim, os dados podem ser agrupados utilizando um outro critério, o qual pode ser útil para encontrar padrões diferentes dos esperados. Portanto, cabe ao especialista analisar e decidir se os algoritmos são adequados àquele conjunto de dados e se os padrões encontrados são válidos, mesmo que diferentes dos esperados.

No caso dos experimentos com o conjunto de dados EPH, além da classe não ser conhecida, os atributos não eram informativos, devido à codifica¸cão dos mesmos. As- sim, como em qualquer processo de agrupamento, a análise dos resultados é uma tarefa extremamente complexa, visto que sem a ajuda do especialista do dom´ınio não se tem um feedback “conceitual” para os clusters encontrados. No entanto, para o conjunto de dados EPH, os resultados obtidos nos experimentos foram considerados bons, pois os es- pecialistas conseguiram observar, analisando os resultados dos diversos agrupamentos dos dados, informa¸cões úteis e ter uma melhor compreensão dos dados, observando as prin- cipais caracter´ısticas relacionadas aos atributos utilizados, à sobreposi¸cão dos clusters, às regras induzidas, entre outros. Dessa forma, consideramos que a metodologia atingiu o objetivo proposto e pode ser uma grande aliada quando o interesse em um processo de agrupamento está relacionado à interpreta¸cão semântica de clusters de um conjunto de dados não rotulados.

Se¸c˜ao 6.3: Considera¸c˜oes Finais 123

6.3 Considera¸c˜oes Finais

Em um processo de minera¸cão de dados, a intera¸cão com o especialista é fundamen- tal, visto que este detém o conhecimento do dom´ınio. No entanto, é poss´ıvel automatizar alguns processos que possam auxiliar o especialista, ou usuário final, no próprio processo de minera¸cão ou mesmo na interpreta¸cão dos resultados obtidos pelos algoritmos de aprendizado. Um dos objetivos deste trabalho consiste na proposta e implementa¸cão de uma metodologia para auxiliar o especialista no processo de descobrir conhecimento em um conjunto de dados não rotulados, usando algoritmos de aprendizado supervisionado e não supervisionado.

A metodologia proposta consiste em auxiliar o especialista a ir além de simples- mente encontrar os clusters presentes no conjunto de dados não rotulados, mas, também, em analisar sobreposi¸cão de clusters, atributos presentes nas regras induzidas, número de regras, erro associado ao classificador induzido, entre outros. Essas informa¸cões são ´

uteis pois, conceitualmente, descrever clusters não significa necessariamente, descrever conceitos representados pelos exemplos que pertencem a esses clusters, como mostrado na Figura 4.2 na página 56e descrito na Se¸cão4.1.1.

E evidente que o especialista sabe que um cluster, que contém um dado subconjunto de exemplos do conjunto original, não auxilia necessariamente na tarefa de descobrir o poss´ıvel conceito embutido nesses clusters. Entretanto, o uso de algoritmos de AM que induzem regras as quais são facilmente interpretáveis por humanos utilizando o conjunto de clusters encontrado por algum algoritmo de AM não supervisionado, clusters esses que podem ser reagrupados por iniciativa do especialista utilizando a metodologia proposta, permite analisar melhor as caracter´ısticas dos exemplos que pertencem a cada cluster, fa- cilitando assim ao especialista encontrar uma explica¸cão semântica, ou conceito embutido, desses clusters.

Cap´ıtulo

7

Experimentos em Minera¸c˜ao de Textos Usando

PreTexT

A abordagem bag-of-words é uma técnica bastante utilizada na representa¸cão de documentos em um processo de MT. No entanto, essa técnica é caracterizada pela alta dimensionalidade no conjunto dos poss´ıveis atributos, como visto no Cap´ıtulo 3. Neste cap´ıtulo ´

e apresentado uma série de experimentos usando quatro conjuntos distintos de textos, rotulados e não rotulados, cujo objetivo é induzir o melhor classificador, ou agrupamento, diminuindo a dimensionalidade dos atributos. Em outras palavras, a idéia é induzir o classificador que possui o menor erro de predi¸cão futura utilizando um subconjunto de cardinalidade bem menor que a cardinalidade do conjunto dos poss´ıveis atributos que representam os documentos. Os textos utilizados são de diversas fontes, tais como páginas web e jornais. Os experimentos foram realizados usando os algoritmos See5, C4.5rules, CN2, Rainbow, SVMTorch II e AutoClass, para o aprendizado supervisionado e não supervisionado. Para cada conjunto de textos são descritos os experimentos realizados e os resultados obtidos.

7.1 O Conjunto de Textos NILC

O conjunto de textos, ou documentos, usados nesse experimento foi fornecido pelo N´ucleo Interinstitutional de Ling¨u´ıstica Computacional — NILC1_{. Esse conjunto de textos}

contém mais de 4000 documentos escritos em português, divididos nos seguintes tópicos: didáticos, jornal´ısticos, jur´ıdicos, literários e técnicos/cient´ıficos. Desses 4000 documentos, foram selecionados 248 documentos do tópico jornal´ıstico, os quais estão classificados em

http://www.nilc.icmc.usp.br/nilc/.

quatro classes: Informática, Economia, Esporte e Pol´ıtica. Cada documento é um arquivo texto (extensão txt) com tamanho médio e desvio padrão de 24,84 KB±13,76 KB. Na Tabela 7.1é mostrada a distribui¸cão dos documentos por classe.

Tabela 7.1: NILC: distribui¸c˜ao de documentos por classe

Economia Esporte Inform´atica Pol´ıtica Total

63 59 66 60 248

25,4% 23,8% 26,6% 24,2% 100%

No documento Uma abordagem para pré-processamento de dados textuais em algoritmos de aprendizado. Claudia Aparecida Martins (páginas 142-150)