• Nenhum resultado encontrado

Este ´e o ´ultimo m´odulo principal doPreTexT II, que ´e chamado pelo m´oduloStart.pl.

Devido a sua complexidade, este m´odulo utiliza v´arias classes de suporte. Na Figura 22

´

e mostrada a rela¸c˜ao deste m´odulo com as classes de suporte.

Figura 22: Diagrama de classes do m´odulo Report.pm

DiscoverTable.pm

Esta classe gerencia a tabela atributo-valor para cadan-grama separadamente. Ao

final do processo, todas as tabelas s˜ao unidas em uma s´o tabela atributo-valor.

Ela carrega na mem´oria os tokens a partir dos arquivos de n-grama .all e.txt e

realiza os cortes por freq¨uˆencia de token e de documentos.

Esta classe instancia in´umeros objetos da classe Data.pm para armazenar todos

os arquivos textos que est˜ao sendo utilizados no pr´e-processamento. Ela ´e

instan-ciada pela classe Report.pm para ser utilizada por todas as instˆancias da classe

DiscoverTable.pm, pois os documentos processados s˜ao os mesmos para todos os

n-grama e n˜ao h´a necessidade de duplica¸c˜ao desta classe.

Data.pm

Esta classe guarda o nome de um documento texto.

DiscoverName.pm

Nesta classe ficam armazenados os atributos da tabela atributo-valor. Esta classe

instancia objetos da classe Name.pm.

Name.pm

Esta classe representa um token, i.e. um atributo da tabela atributo-valor. Esta

classe armazena v´arias informa¸c˜oes a respeito dotoken, tais como n´umero de

arqui-vos nos quais o token apareceu, as palavras que foram transformadas neste token,

e, caso necess´ario, o fator de pondera¸c˜ao do token.

Taxonomy.pm

Esta classe ´e respons´avel por carregar na mem´oria as taxonomias contidas no

ar-quivo de taxonomias, a qual ´e carregado pelo m´oduloReport.pm. Por´em, o objeto

gerado por esta classe ´e utilizado somente na classe DiscoverTable.pm, onde, por

meio do m´etodo check(), ostokens contidos no arquivo de taxonomias s˜ao

trans-formados em suas generaliza¸c˜oes.

GraphicsTxt.pm

Classe respons´avel pela cria¸c˜ao dos gr´aficos de rank dos tokens. ´E executada uma

vez para cada n-grama diferente habilitado no Report.pm.

Cuts.pm

Classe que realiza o corte por desvio padr˜ao, explicado na Se¸c˜ao 3.1.

Measure.pm

Esta classe ´e respons´avel por aplicar as medidas, suaviza¸c˜ao e normaliza¸c˜oes a partir

da freq¨uˆencia absoluta de cada token no conjunto de documentos, para a gera¸c˜ao

da tabela atributo-valor.

MeasureTf.pm

Esta classe abstrata implementa a medida tf, usada como padr˜ao caso n˜ao seja

especificado nenhuma medida para on-grama correspondente. Havendo o interesse

de cria¸c˜ao de uma nova medida e/ou um novo m´etodo de suaviza¸c˜ao das medidas

para quando a medida resultar no valor 0 (zero), o usu´ario pode fazˆe-lo sem a

necessidade de altera¸c˜ao de nenhum outro m´odulo.

MeasureBoolean.pm, MeasureTfidf.pm e MeasureTflinear.pm

Estas classes implementam as medidas boleana, tf-idf e tf-linear, respectivamente.

Elas herdam a classe abstrataMeasureTf.pme implementam as fun¸c˜oes de medida,

e, caso necess´ario, as fun¸c˜oes de suaviza¸c˜ao.

Normalize.pm

Esta classe abstrata ´e utilizada para a cria¸c˜ao da normaliza¸c˜ao dos dados. Essa

normaliza¸c˜ao pode ser realizada por coluna ou por linha.

NormalizeLin.pm e NormalizeQua.pm

Estas classes realizam respectivamente, as normaliza¸c˜oes linear e quadr´atica,

her-dando a classe abstrata Normalize.pme implementam as fun¸c˜oes de normaliza¸c˜ao.

5 Considera¸c˜oes Finais

Neste trabalho descrevemos a nova vers˜ao da ferramenta de pr´e-processamento de

tex-tosPreTexT a qual denominamos PreTexT II. Na reestrutura¸c˜ao e remodelagem da

ferramenta PreTexT II, v´arias novas funcionalidades foram implementadas para uma

melhor limpeza dos dados e a gera¸c˜ao de tabelas atributo-valor em menor tempo

compu-tacional. Al´em disso, na nova vers˜ao ´e poss´ıvel utilizar conjuntos de documentos maiores

do que a ferramenta anterior podia processar.

A nova vers˜ao da ferramenta conta com as novas funcionalidades de remo¸c˜ao de tags

HTML, remo¸c˜ao de n´umeros, escolha de s´ımbolos relevantes, gera¸c˜ao de n-grama com

qualquer valor den(na vers˜ao anterior, somente podia ser utilizadon= 1,2 e/ou 3), corte

detokens por freq¨uˆencia de documentos, tabela atributo valor transposta, normaliza¸c˜ao

da tabela por linha e por coluna, entre outros. Al´em disso todas as funcionalidades da

ferramenta antiga foram revisadas e, quando poss´ıvel, otimizadas para uma execu¸c˜ao

mais r´apida.

Diversas experiˆencias foram realizadas utilizando ambas vers˜oes da ferramenta com o

ob-jetivo de qualificar, entre outros, a diminui¸c˜ao no tempo de execu¸c˜ao do PreTexT II.

Em Soares et al. (2007a,b,c) mostramos a melhoria no custo computacional assim como

as melhorias na detec¸c˜ao detokens e gera¸c˜ao destems. EmSoares et al.(2008)

compara-mos osstems gerados a partir do classificador induzido a partir da tabela atributo-valor,

mostrando que oPreTexT II realiza o pr´e-processamento em menos tempo e gera

clas-sificadores com poder de predi¸c˜ao similar ao gerado por outras ferramentas semelhantes.

OPreTexT II pode ser encontrado para download no site http://www.icmc.usp.br/

~caneca/pretext.htm assim como algumas informa¸c˜oes essenciais para a sua execu¸c˜ao.

Referˆencias

Crawford, D. (1998). GnuPlot: An interactive plotting program. http://www.ucc.ie/

gnuplot/gnuplot.html. Citado na p´agina 32.

dos Santos, M. A. M. R. (2002). Extraindo regras de associa¸c˜ao a partir de textos.

Disserta¸c˜ao de Mestrado, PUC-PR, Curitiba. http://www.ppgia.pucpr.br/teses/

DissertacaoPPGIa-MariaRoveredo-062002.pdf. Citado na p´agina3.

Jones, K. S. (1972). A statistical interpretation of term specificity and its application in

retrieval. Journal of Documentation 28, 11–21. Citado na p´agina 10.

Kopka, H. & P. W. Daly (2004). Guide to L

A

TEX (4 ed.). Addison-Wesley. Citado na

p´agina 32.

Lamport, L. (1986). L

A

TEX: A document preparation system. Addison-Wesley. Citado

na p´agina 32.

Luhn, H. P. (1958). The automatic creation of literature abstracts. IBM Journal of

Research and Development 2(2), 159–165. Citado na p´agina6.

Manning, C. D. & H. Sch¨utze (Eds.) (1999). Foundations of Statistical Natural Language

Processing. Cambridge, Massachusetts: MIT Press. Citado na p´agina 3.

Matsubara, E. T., C. A. Martins, & M. C. Monard (2003). Pretext: Uma ferramenta

para pr´e-processamento de textos utilizando a abordagem bag-of-words. Technical

Re-port 209, ICMC-USP. ftp://ftp.icmc.sc.usp.br/pub/BIBLIOTECA/rel_tec/RT_

209.pdf. Citado nas p´aginas 1, 9, e 13.

Mitchell, T. M. (1997). Machine Learning. McGraw-Hill. Citado na p´agina 1.

Monard, M. C. & J. A. Baranauskas (2003). Conceitos sobre aprendizado de m´aquina.

In S. O. Rezende (Ed.),Sistemas Inteligentes - Fundamentos e Aplica¸c˜oes, Chapter 4,

pp. 89–114. Manole. Citado na p´agina1.

Porter, M. F. (1980). An algorithm for suffix stripping. Program 14(3), 130–137. http:

//tartarus.org/~martin/PorterStemmer/def.txt. Citado nas p´aginas4 e 5.

Porter, M. F. (2001). Snowball: A language for stemming algorithms.http://snowball.

tartarus.org/texts/introduction.html. Citado na p´agina 4.

Porter, M. F. (2006). An algorithm for suffix stripping. Program: electronic library and

information systems 40(3), 211–218. Citado na p´agina 4.

Prati, R. C. (2003). O framework de integra¸c˜ao do sistema discover. Disserta¸c˜ao de

Mestrado, ICMC-USP. http://www.teses.usp.br/teses/disponiveis/55/55134/

tde-20082003-152116/. Citado na p´agina 15.

Robertson, S. (2004). Understanding inverse document frequency: On theoretical

argu-ments for idf. Journal of Documentation 60(5), 503–520. Citado na p´agina 10.

Salton, G. & C. Buckley (1988). Term-weighting approaches in automatic text retrieval.

Information Processing and Management 24(5), 513–523. Citado na p´agina 8.

Sebastiani, F. (2002, March). Machine learning in automated text categorisation.

ACM Computing Surveys 34(1), 1–47. http://faure.iei.pi.cnr.it/~fabrizio/

Publications/ACMCS02.pdf. Citado na p´agina 8.

Soares, M. V. B., R. C. Prati, & M. C. Monard (2007a). Amplia¸c˜ao e remodelagem da

ferramenta de pr´e-processamento de textos PreTexT. In I Workshop de Inicia¸c˜ao

Cient´ıfica e Tecnol´ogica da Computa¸c˜ao da 10a. Semana da Computa¸c˜ao, S˜ao Carlos.

Citado na p´agina 42.

Soares, M. V. B., R. C. Prati, & M. C. Monard (2007b). Melhorando o desempenho

computacional e a gera¸c˜ao de atributos na ferramenta de pr´e-processamento de textos

PreTexT. InRevista de Inicia¸c˜ao Cientifica do XXI Congresso de Inicia¸c˜ao Cient´ıfica

e Tecnol´ogica em Engenharia, S˜ao Carlos. Citado na p´agina42.

Soares, M. V. B., R. C. Prati, & M. C. Monard (2007c). Readapta¸c˜ao e extens˜ao do

ambiente de pr´e-processamento de textos PreTexT. In XV Simp´osio Internacional

de Inicia¸c˜ao Cient´ıfica da Universidade de S˜ao Paulo, S˜ao Carlos. Citado na p´agina42.

Soares, M. V. B., R. C. Prati, & M. C. Monard (2008). Melhorias do algoritmo de

Stemming do Porter para o portuguˆes. InII Workshop on Computational Intelligence,

Salvador. International Joint Conference SBIA, SBRN, JRI. In Print. Citado na

p´agina 42.

Van Rijsbergen, C. J. (1979). Information Retrieval, 2nd edition. Dept. of Computer

Science, University of Glasgow. Citado na p´agina 7.

Weiss, S. M., N. Indurkhya, T. Zhang, & F. J. Damerau (2004). Text Mining. Springer.

Citado na p´agina 1.

Zipf, G. (1949). Human Behaviour and the Principle of Least Effort. Addison-Wesley.

Citado na p´agina 6.

Documentos relacionados