3.4 Softwares de Minera¸c˜ ao de Textos
4.1.2 Implementa¸c˜ ao da Metodologia Proposta
Nesta se¸c˜ao ´e apresentada uma implementa¸c˜ao particular da abordagem proposta, usando AutoClass e See5 como algoritmos de AM supervisionado e n˜ao supervisionado, respectivamente — Figura 4.3.
Os exemplos n˜ao rotulados s˜ao dados de entrada para AutoClass, que procura a melhor classifica¸c˜ao que possa encontrar e que seja altamente prov´avel com os dados e modelos especificados pelo usu´ario. Uma classifica¸c˜ao para AutoClass consiste em descobrir
Se¸c˜ao 4.1: Metodologia de Interpreta¸c˜ao de Clusters 57
Figura 4.3: Processo proposto para explica¸c˜ao de clusters
um conjunto de clusters, descrevendo qual a porcentagem prov´avel dos exemplos estarem em cada cluster e uma denomina¸c˜ao probabil´ıstica dos exemplos para esses clusters, ou seja, a probabilidade relativa do exemplo pertencer a cada cluster. A sa´ıda de AutoClass consiste de v´arios relat´orios contidos em arquivos distintos — Se¸c˜ao 4.1.2.1 na pr´oxima p´agina.
Ap´os descobertos os clusters, os exemplos s˜ao automaticamente rotulados, usando a ferramenta computacional InClass (Se¸c˜ao 4.2.1), com o cluster ao qual pertencem com maior probabilidade. InClass est´a programado para processar strings por meio de ex- press˜oes regulares, que ´e a caracter´ıstica principal da linguagem Perl (Wall, Christiansen, & Schwartz, 1996). A entrada de dados para InClass ´e o conjunto de dados original e
um dos relat´orios gerados por AutoClass. A sa´ıda consiste de um novo conjunto de dados que cont´em os exemplos originais rotulados com o cluster ao qual pertencem.
O novo conjunto de dados, no qual cada exemplo tem uma “classe” associada, ´e ent˜ao utilizado pelo See5 a fim de encontrar uma descri¸c˜ao, expressa como regras if-then, para os exemplos pertencentes a um mesmo cluster. Finalmente, o conhecimento induzido por See5 pode ser interpretado pelo usu´ario que pode tomar algumas decis˜oes antes de repetir o processo em qualquer das quatro etapas, como explicado anteriormente — Figura4.1na p´agina 54.
Deve ser salientado que quaisquer outros algoritmos de aprendizado podem ser uti- lizados. Neste trabalho, ´e explorado o algoritmo AutoClass comoAMn˜ao supervisionado e See5 comoAM supervisionado, por serem algoritmos robustos e aceitos pela comunidade cient´ıfica. Ambos algoritmos, AutoClass e See5, utilizam um formato similar atributo-valor
para representar os exemplos. No entanto, ´e importante ressaltar que os bias utilizados pelos dois algoritmos s˜ao muito diferentes. Enquanto o AutoClass ´e um algoritmo de aprendizado estat´ıstico, o algoritmo de aprendizado utilizado por See5 induz regras que separam o espa¸co de representa¸c˜ao dos exemplos por meio de hiperplanos. Dessa forma, algoritmos que tˆem bias muito diferentes, quando utilizados de forma complementares, podem ou n˜ao obter o resultado esperado. Na realidade, espera-se que algoritmos com bias semelhantes tenham um melhor desempenho. Esse ´e um tema a ser investigado posteriormente ao trabalho realizado nesta tese.
A seguir s˜ao apresentados resumidamente as caracter´ısticas dos algoritmos AutoClass e See5. Algumas ferramentas desenvolvidas para auxiliar o usu´ario na interpreta¸c˜ao dos clusters s˜ao apresentadas nas pr´oximas se¸c˜oes.
4.1.2.1 AutoClass
AutoClass1 ´e um algoritmo de aprendizado n˜ao supervisionado baseado na teoria Bayesiana, desenvolvido pelo grupo de Bayes no Ames Research Center. AutoClass ´e um software robusto, de dom´ınio p´ublico, bastante usado e citado na literatura. A teoria probabil´ıstica que suporta a implementa¸c˜ao de AutoClass encontra-se bem documentada em (Hanson, Stutz, & Cheeseman, 1991; Cheeseman, Stutz, Self, Kelly, Taylor, & Free- man, 1988; Cheeseman & Stutz,1990).
Basicamente, AutoClass descreve clusters a partir da distribui¸c˜ao probabil´ıstica sobre os atributos dos exemplos, considerando que existe independˆencia condicional nos dados. A abordagem Bayesiana busca em um espa¸co do modelo a “melhor” descri¸c˜ao dos clusters, e n˜ao apenas particiona os exemplos como a maioria das t´ecnicas de agrupamento fazem. Uma boa classifica¸c˜ao busca o ponto entre precis˜ao preditiva versus complexidade dos clusters sem se ajustar2demais aos dados. Os clusters descobertos s˜ao tamb´em nebulosos3,
no sentido que cada exemplo tem uma probabilidade de pertencer a cada um dos diferentes clusters — t´ecnica probabil´ıstica.
AutoClass tem v´arias caracter´ısticas tais como: determinar o n´umero de clusters automaticamente; usar dados com valores discretos e reais em um mesmo conjunto de dados; manipular valores ausentes; utilizar tempo de processamento, aproximadamente, linear `a quantidade de exemplos. Ele possui trˆes modos de execu¸c˜ao, ilustrados nas Figuras 4.4 e 4.5, e descritos a seguir:
1
http://ic.arc.nasa.gov/ic/projects/bayes-group/autoclass-c-program.html
2Overfitting. 3Fuzzy.
Se¸c˜ao 4.1: Metodologia de Interpreta¸c˜ao de Clusters 59
Figura 4.4: Esquema para busca search e relat´orio report
Figura 4.5: Esquema de predi¸c˜ao predict
Busca (search) consiste em agrupar os exemplos colocando os resultados em trˆes ar- quivos distintos com extens˜oes .search, .results[-bin] e .log, como ilustrado na parte central na Figura 4.4. O arquivo .search cont´em registros das tentativas da busca, enquanto que o arquivo .results[-bin] cont´em as “melhores” classifi- ca¸c˜oes encontradas por AutoClass. J´a o arquivo .log cont´em a informa¸c˜ao do que foi impresso na tela durante a execu¸c˜ao.
bin] s˜ao necess´arios para a execu¸c˜ao de AutoClass no modo de relat´orios. Nesse modo, por sua vez, s˜ao criados mais quatro arquivos .class-text-n, .case-text- n, .influ-o-text-n e .rlog, como ilustrado a direita da Figura 4.4. Os arquivos .class-text-n e .case-text-n s˜ao relat´orios descrevendo os exemplos nos clusters descobertos. O arquivo .influ-o-text-n mostra a influˆencia relativa que cada atributo teve na descoberta dos clusters e o arquivo .rlog ´e o arquivo de log de execu¸c˜ao do reports.
Predi¸c˜ao (predict) este modo consiste na predi¸c˜ao de poss´ıveis clusters para um novo conjunto de dados. S˜ao utilizados os arquivos .search e .results[-bin], criados no modo de busca (search), os quais possuem informa¸c˜oes de como os exemplos foram agrupados — Figura 4.5. A sa´ıda desse modo s˜ao os exemplos agrupados nos arquivos .class-text-n e .case-text-n.
Os detalhes dos arquivos e parˆametros de execu¸c˜ao de AutoClass est˜ao descritos
emhttp://www-2.cs.cmu.edu/~TextLearning/eriks-code/autoclass-info/. Entre-
tanto, essa descri¸c˜ao n˜ao est´a bem estruturada. Assim, foi desenvolvido um relat´orio (Mat- subara, Martins, & Monard,2002) no qual s˜ao melhor explicados esses arquivos e parˆamet- ros.
4.1.2.2 See5
See54 ´e um sistema comercial para plataforma WindowsTM que inclui melhorias
dos algoritmos C4.5 e C4.5rules (Quinlan, 1988), os quais tˆem sido usados, freq¨uente- mente, para comparar seu bom desempenho com outros algoritmos de AM. O sistema See5 foi projetado para trabalhar com conjunto de dados relativamente grandes. Como seus precursores, manipula atributos com valores discretos ou cont´ınuos, induzindo con- ceitos expressos como ´arvores de decis˜ao ou conjuntos de regras if-then n˜ao ordenadas (Baranauskas & Monard, 2000c).
Um algoritmo de aprendizado de ´arvore de decis˜ao depende do crit´erio usado para se- lecionar o atributo de decis˜ao em cada ramifica¸c˜ao da ´arvore. A maioria dos algoritmos de aprendizado de ´arvore de decis˜ao usam alguma medida para estimar e selecionar o melhor atributo. Especificamente, See5 utiliza a medida de entropia da teoria da informa¸c˜ao.
Os arquivos de entrada para See5 s˜ao dois, um contendo os dados no formato atributo-valor e o outro a descri¸c˜ao do tipo dos atributos, ambos com o mesmo nome, por´em com extens˜oes .data e .names, respectivamente. A sa´ıda do algoritmo pode ser
4