Implementa¸c˜ ao da Metodologia Proposta - Softwares de Minera¸c˜ ao de Textos

3.4 Softwares de Minera¸c˜ ao de Textos

4.1.2 Implementa¸c˜ ao da Metodologia Proposta

Nesta se¸cão é apresentada uma implementa¸cão particular da abordagem proposta, usando AutoClass e See5 como algoritmos de AM supervisionado e não supervisionado, respectivamente — Figura 4.3.

Os exemplos não rotulados são dados de entrada para AutoClass, que procura a melhor classifica¸cão que possa encontrar e que seja altamente provável com os dados e modelos especificados pelo usuário. Uma classifica¸cão para AutoClass consiste em descobrir

Se¸c˜ao 4.1: Metodologia de Interpreta¸c˜ao de Clusters 57

Figura 4.3: Processo proposto para explica¸c˜ao de clusters

um conjunto de clusters, descrevendo qual a porcentagem provável dos exemplos estarem em cada cluster e uma denomina¸cão probabil´ıstica dos exemplos para esses clusters, ou seja, a probabilidade relativa do exemplo pertencer a cada cluster. A sa´ıda de AutoClass consiste de vários relatórios contidos em arquivos distintos — Se¸cão 4.1.2.1 na próxima página.

Após descobertos os clusters, os exemplos são automaticamente rotulados, usando a ferramenta computacional InClass (Se¸cão 4.2.1), com o cluster ao qual pertencem com maior probabilidade. InClass está programado para processar strings por meio de ex- pressões regulares, que é a caracter´ıstica principal da linguagem Perl (Wall, Christiansen, & Schwartz, 1996_{). A entrada de dados para InClass é o conjunto de dados original e}

um dos relat´orios gerados por AutoClass. A sa´ıda consiste de um novo conjunto de dados que cont´em os exemplos originais rotulados com o cluster ao qual pertencem.

O novo conjunto de dados, no qual cada exemplo tem uma “classe” associada, é então utilizado pelo See5 a fim de encontrar uma descri¸cão, expressa como regras if-then, para os exemplos pertencentes a um mesmo cluster. Finalmente, o conhecimento induzido por See5 pode ser interpretado pelo usuário que pode tomar algumas decisões antes de repetir o processo em qualquer das quatro etapas, como explicado anteriormente — Figura4.1na página 54.

Deve ser salientado que quaisquer outros algoritmos de aprendizado podem ser utilizados. Neste trabalho, ´e explorado o algoritmo AutoClass comoAMn˜ao supervisionado e See5 comoAM supervisionado, por serem algoritmos robustos e aceitos pela comunidade cient´ıfica. Ambos algoritmos, AutoClass e See5, utilizam um formato similar atributo-valor

para representar os exemplos. No entanto, é importante ressaltar que os bias utilizados pelos dois algoritmos são muito diferentes. Enquanto o AutoClass é um algoritmo de aprendizado estat´ıstico, o algoritmo de aprendizado utilizado por See5 induz regras que separam o espa¸co de representa¸cão dos exemplos por meio de hiperplanos. Dessa forma, algoritmos que têm bias muito diferentes, quando utilizados de forma complementares, podem ou não obter o resultado esperado. Na realidade, espera-se que algoritmos com bias semelhantes tenham um melhor desempenho. Esse é um tema a ser investigado posteriormente ao trabalho realizado nesta tese.

A seguir são apresentados resumidamente as caracter´ısticas dos algoritmos AutoClass e See5. Algumas ferramentas desenvolvidas para auxiliar o usuário na interpreta¸cão dos clusters são apresentadas nas próximas se¸cões.

4.1.2.1 AutoClass

AutoClass1 é um algoritmo de aprendizado não supervisionado baseado na teoria Bayesiana, desenvolvido pelo grupo de Bayes no Ames Research Center. AutoClass é um software robusto, de dom´ınio público, bastante usado e citado na literatura. A teoria probabil´ıstica que suporta a implementa¸cão de AutoClass encontra-se bem documentada em (Hanson, Stutz, & Cheeseman, 1991; Cheeseman, Stutz, Self, Kelly, Taylor, & Free- man, 1988; Cheeseman & Stutz,1990).

Basicamente, AutoClass descreve clusters a partir da distribui¸cão probabil´ıstica sobre os atributos dos exemplos, considerando que existe independência condicional nos dados. A abordagem Bayesiana busca em um espa¸co do modelo a “melhor” descri¸cão dos clusters, e não apenas particiona os exemplos como a maioria das técnicas de agrupamento fazem. Uma boa classifica¸cão busca o ponto entre precisão preditiva versus complexidade dos clusters sem se ajustar2_{demais aos dados. Os clusters descobertos s˜}_{ao tamb´}_{em nebulosos}3_,

no sentido que cada exemplo tem uma probabilidade de pertencer a cada um dos diferentes clusters — t´ecnica probabil´ıstica.

AutoClass tem várias caracter´ısticas tais como: determinar o número de clusters automaticamente; usar dados com valores discretos e reais em um mesmo conjunto de dados; manipular valores ausentes; utilizar tempo de processamento, aproximadamente, linear à quantidade de exemplos. Ele possui três modos de execu¸cão, ilustrados nas Figuras 4.4 e 4.5, e descritos a seguir:

http://ic.arc.nasa.gov/ic/projects/bayes-group/autoclass-c-program.html

2_Overfitting. 3_Fuzzy.

Se¸c˜ao 4.1: Metodologia de Interpreta¸c˜ao de Clusters 59

Figura 4.4: Esquema para busca search e relat´orio report

Figura 4.5: Esquema de predi¸c˜ao predict

Busca (search) consiste em agrupar os exemplos colocando os resultados em três arquivos distintos com extensões .search, .results[-bin] e .log, como ilustrado na parte central na Figura 4.4. O arquivo .search contém registros das tentativas da busca, enquanto que o arquivo .results[-bin] contém as “melhores” classifica¸cões encontradas por AutoClass. Já o arquivo .log contém a informa¸cão do que foi impresso na tela durante a execu¸cão.

bin] são necessários para a execu¸cão de AutoClass no modo de relatórios. Nesse modo, por sua vez, são criados mais quatro arquivos .class-text-n, .case-text- n, .influ-o-text-n e .rlog, como ilustrado a direita da Figura 4.4. Os arquivos .class-text-n e .case-text-n são relatórios descrevendo os exemplos nos clusters descobertos. O arquivo .influ-o-text-n mostra a influência relativa que cada atributo teve na descoberta dos clusters e o arquivo .rlog é o arquivo de log de execu¸cão do reports.

Predi¸cão (predict) este modo consiste na predi¸cão de poss´ıveis clusters para um novo conjunto de dados. São utilizados os arquivos .search e .results[-bin], criados no modo de busca (search), os quais possuem informa¸cões de como os exemplos foram agrupados — Figura 4.5. A sa´ıda desse modo são os exemplos agrupados nos arquivos .class-text-n e .case-text-n.

Os detalhes dos arquivos e parâmetros de execu¸cão de AutoClass estão descritos

emhttp://www-2.cs.cmu.edu/~TextLearning/eriks-code/autoclass-info/. Entre-

tanto, essa descri¸cão não está bem estruturada. Assim, foi desenvolvido um relatório (Mat- subara, Martins, & Monard,2002) no qual são melhor explicados esses arquivos e parâmet- ros.

4.1.2.2 See5

See54 _´_{e um sistema comercial para plataforma Windows}TM _{que inclui melhorias}

dos algoritmos C4.5 e C4.5rules (Quinlan, 1988), os quais têm sido usados, freqüente- mente, para comparar seu bom desempenho com outros algoritmos de AM. O sistema See5 foi projetado para trabalhar com conjunto de dados relativamente grandes. Como seus precursores, manipula atributos com valores discretos ou cont´ınuos, induzindo con- ceitos expressos como árvores de decisão ou conjuntos de regras if-then não ordenadas (Baranauskas & Monard, 2000c).

Um algoritmo de aprendizado de árvore de decisão depende do critério usado para selecionar o atributo de decisão em cada ramifica¸cão da árvore. A maioria dos algoritmos de aprendizado de árvore de decisão usam alguma medida para estimar e selecionar o melhor atributo. Especificamente, See5 utiliza a medida de entropia da teoria da informa¸cão.

Os arquivos de entrada para See5 são dois, um contendo os dados no formato atributo-valor e o outro a descri¸cão do tipo dos atributos, ambos com o mesmo nome, porém com extensões .data e .names, respectivamente. A sa´ıda do algoritmo pode ser

No documento Uma abordagem para pré-processamento de dados textuais em algoritmos de aprendizado. Claudia Aparecida Martins (páginas 80-85)