• Nenhum resultado encontrado

Equação 10: Honore

5. DISCUSSÕES E CONCLUSÃO

5.3. TRABALHOS FUTUROS

Uma proposta de utilização do PPM, que segue uma linha de raciocínio semelhante ao de atribuição de autoria, é atuar na recuperação de textos baseado em conteúdo. Isso quer dizer que, dado um documento, não será necessário saber a sua autoria, mas apenas descobrir outros textos que tenham o conteúdo parecido.

Recuperação baseada em conteúdo é especialmente útil quando se deseja propor uma leitura específica a um determinado leitor baseado no conteúdo de leituras passadas, realizadas por ele. Assim, fazendo com que o

cliente informe se um determinado livro foi de seu gosto, podem-se encontrar livros cujo conteúdo seja semelhante.

Outra proposta de trabalho é investigar se um determinado texto é de algum dos escritores da base de dados. Neste trabalho, não há um procedimento para identificar se uma obra informada é ou não de algum dos autores. Com isso, o sistema realizará uma atribuição de autoria incorreta.

Outra aplicação interessante que pode ser desenvolvida com o PPM é na identificação de plágio. Esta identificação pode ser necessária no documento integralmente ou quando se quer localizar os fragmentos específicos que foram plagiados. Verificar se determinado documento, ou seções dele, foi copiado na íntegra de alguma outra fonte é importante para poder distinguir a contribuição dada pelo autor do trabalho com contribuições dadas por outros autores, além de poder dar os créditos ao autor correto.

REFERÊNCIAS

[Ari07] Compression via Arithmetic Coding in Java. Disponível em

http://www.colloquial.com/ArithmeticCoding/. Acesso em 20 de novembro de 2007.

[BG04] Bengio, Yoshua; and Grandvalet, Yves. No Unbiased

Estimator of the Variance of K-Fold Cross-Validation. Journal of Machine Learning Research, p. 1089–1105, 2004. [Bib07] A Biblioteca Virtual do Estudante de Língua Portuguesa.

Disponível em http://www.bibvirt.futuro.usp.br/. Acesso em 18 de novembro de 2007.

[BS97] Burges, C. J. C.; and Sch¨olkopf, B. Improving the accuracy

and speed of support vector learning machines. In M.

Mozer, M. Jordan, and T. Petsche, editors, Advances in Neural Information Processing Systems 9, p. 375–381, Cambridge, MA, 1997. MIT Press.

[BSBPB09] Barufaldi, B. ; Santana, Eduardo F.; Barbosa Filho, J. R. B. ; Poel, JanKees van der ; Batista, Leonardo V. Classificação

Automática de Textos por Período Literário Utilizando Compressão de Dados Através do PPM-C. In: 7th Brazilian Symposium in Information and Human Language Technology,

2009, São Carlos. Anais do 7th Brazilian Symposium in Information and Human Language Technology, 2009. v. 1.

[Bur98] Burges, C. J. C. A Tutorial on Support Vector Machines for

Pattern Recognition. Data Mining and Knowledge Discovery 2,

p. 121-167, 1998.

[Cha05] CHASKI, Carole E. Who’s At The Keyboard? Authorship

Attribution in Digital Evidence Investigations. In International

Journal of Digital Evidence. Spring, p. 1 – 13, 2005.

[CL01] Chang, Chih-Chung; and Lin, Chih-Jen. LIBSVM: a library for

support vector machines, 2001. Disponível em http://www.csie.ntu.edu.tw/~cjlin/libsvm. Acesso em 2 de dezembro de 2009.

[CLRS01] Cormen, Thomas. H.; Leiserson, Charles E.; Rivest, Ronald L.; and Stein, Clifford. Introduction to Algorithms. The MIT Press, 2nd Ed., 2001.

[CMRB05] Coutinho, Bruno; Macedo, Jalmaratan; Rique, Aroldo; Batista, L. V. . Atribuição de Autoria usando PPM. In: III Workshop em Tecnologia da Informação e da Linguagem Humana, 2005, São Leopoldo. Anais do XXV Congresso da Sociedade Brasileira de Computação, v. 1. p. 2208-2217, 2005.

[Cor03] Corney, Malcolm. Analysing E-mail Text Authorship for

Forensic Purposes. Dissertação de Mestrado, 2003.

[CV95] Cortes, C.; and Vapnik, V. Support vector networks. Machine Learning, 20, p. 273–297, 1995.

[DA03] Diri, B.; and Amasyali, M. F. (2003). Automatic Author

Detection for Turkish Texts. ICANN/ICONIP. Disponível em

www.ce.yildiz.edu.tr/mygetfile.php?id=265. Acesso em 28 de novembro de 2009.

[DVAC01] deVel, O.; A. Anderson, M.; and Corney, G. Moha. Multi-topic

E-Mail Authorship Attribution Forensics. In ACM Conference

on Computer Security-Workshop on Data Mining for Security Applications. Philadelphia, PA, 2001.

[Fau94] Fausett, Laurene. Fundamentals of Neural Networks. Prentice Hall, 1994

[Hay99] Haykin, S. Neural Networks. New York, Prentice Hall, 1999.

[HC03] Horstmann, Cay S.; and Cornell, Gary. Core JAVA 2 Volume I

– Fundamentos. Tradução 1ª ed. Pearson Makron Books,

2003.

[HCL09] Hsu, C. -W.; Chang, C. -C.; and Lin, C.-J. A practical guide to

support vector classification. 2009.

[HFHPRW09] Hall, Mark; Frank, Eibe; Holmes, Geoffrey; Pfahringer,

Bernhard; Reutemann, Peter; and Witten, Ian H. The WEKA

Data Mining Software: An Update. SIGKDD Explorations,

Volume 11, Issue 1, 2009.

[HNADBB07] Honorio, T. C. S.; Nobre Neto, F. D.; Almeida, T. P. ; Duarte, R.

C. M.; Barbosa, Y. A. M.; Rocha, V. M.; Batista, L. V. Atribuição

de Autoria com WEKA. In: IX Encontro de Extensão e X

Encontro de Iniciação, 2007, Joao Pessoa. Anais do IX Encontro de Extensão e X Encontro de Iniciação. Joao Pessoa : Editora Universitária/UFPB, v. 1, p. 42-42, 2007.

[Joa97] Joachims, T. Text categorization with support vector

machines. Technical report, LS VIII Number 23, University of

Dortmund, 1997. ftp://ftp-ai.informatik.uni-

dortmund.de/pub/Reports/report23.ps.Z.

[Mal05] Malyutov, M. B. Authorship Attribution of Texts: A Review. Kluwer Academic Publishers, 2005.

[Men01] Mendenhall, T. A. A mechanical solution to a literary

problem. Popular Science Monthly, 60, p. 97-105, 1901.

[Men87] Mendenhall, T. A. The characteristic curves of composition.

Science, 11, p. 237-249, 1887.

[Mof90] Moffat, Alistair. Implementing the PPM Data Compression

Scheme. IEEE Transactions on Communications, 38(11), p.

1917-1921, 1990.

[MS99] Manning, Christopher D.; and Schütz, Hinrich. Foundations of

Statistical Natural Language Processing. Massachusetts

Institute of Technology, 1999.

[NLP07] Natural Language Processing. Disponível em http://research.microsoft.com/nlp/. Acesso em 04 de dezembro de 2007.

[OFG97] Osuna, Edgar; Freund, Robert; and Girosi, Federico. An

improved training algorithm for support vector machines.

In Proceedings of the 1997 IEEE Workshop on Neural Networks for Signal Processing, Eds. J. Principe, L. Giles, N. Morgan, E. Wilson, p. 276 – 285, Amelia Island, FL, 1997.

[PASW09] PASW Statistics. Disponível em http://www.spss.com/

statistics/. Acesso em 30 de novembro de 2009.

[Pav07] Pavelec, Daniel F. Identificação da autoria de documentos:

análise estilométrica da língua portuguesa usando SVM.

Dissertação de Mestrado, 2007.

[PDL09] Portal de Democratização da Leitura. Disponível em

http://www.portaldetonando.com.br/. Acesso em 25 de setembro de 2009.

[Pla99] Platt, Jonh C. Fast training of support vector machines

using sequential minimal optimization. MIT Press, p. 185 –

[PLN07] Processamento de Linguagem Natural. Disponível em

http://linguistica.insite.com.br/nlp.phtml. Acesso em 04 de dezembro de 2007.

[POJND09] Pavelec, D.; Oliveira, L. S.; Justino, E.; Nobre Neto, F. D.; Batista, L. V. Compression and Stylometry for Author

Identification. In International Joint Conference on Neural

Networks, Atlanta, Georgia, USA, 2009

[RWS09] Relatório de Comércio Eletrônico WebShoopers. E-bit. 20ª

Edição, 2009.

[Sa01] Marques de Sá, Joaquim P. Pattern Recognition: Concepts,

Methods and Applications. Springer, 2001

[Sal04] Salomon, D. Data Compression – The Complete Reference. 3ª ed. Springer, 2004.

[SBV95] Sch¨olkopf, B.; Burges, C.; and Vapnik, V. Extracting support

data for a given task. In U. M. Fayyad and R. Uthurusamy,

editors, Proceedings, First International Conference on Knowledge Discovery & Data Mining. AAAI Press, Menlo Park, CA, 1995.

[SBV96] Sch¨olkopf, B.; Burges, C.; and Vapnik, V. Incorporating

invariances in support vector learning machines. In C. von

der Malsburg, W. von Seelen, J. C. Vorbr¨uggen, and B. Sendhoff, editors, Artificial Neural Networks — ICANN’96, Berlin. Springer Lecture Notes in Computer Science, Vol. 1112, p. 47 – 52, 1996.

[Sha48] Shannon, Claude E. A Mathematical Theory of Communication. 1948.

[SPSSW01] Schölkopf, B.; Platt, J.; Shawe-Taylor, J.; Smola, A. J.; and Williamson, R. C. Estimating the support of a high-

dimensional distribution. Neural Computation, 13, p. 1443-

1471, 2001.

[SSWB00] Schölkopf, B.; Smola, A.; Williamson, R.; and Bartlett, P. L. New

support vector algorithms. Neural Computation, 12, p. 1207-

1245, 2000.

[Vap98] Vapnik, V. Statistical learning theory. Wiley, N. Y., page pp. 768, 1998.

[VBS09] Virtual Book Store. Disponível em http://vbookstore.uol.com.br/. Acesso em 18 de setembro de 2009.

[Wan05] Wang, Lipo. Support Vector Machines: Theory and

Applications. Springer, 2005.

[WF04] Watt, David A.; and Findlay, William. Programming Language

Design Concepts. John Wiley & Sons Inc, 2004.

[WF05] Witten, I. H.; and Frank, Eibe. Data mining: practical machine

learning tools and techniques. Elsevier, 2ª Edição, 2005. [WSA09] The Shakespeare Authorship Page. Disponível em

http://shakespeareauthorship.com/. Acesso em 22 de outubro de 2009.

Documentos relacionados