Considerações para Trabalhos Futuros - Recuperação de informação e classificação de entidades o

5. Conclusões

5.3 Considerações para Trabalhos Futuros

São sugeridos como trabalhos futuros, os seguintes apontamentos:

 Incluir novos tipos de características como palavras iniciadas em maiúscula (formatação) e características morfossintáticas (adjetivos, substantivos, etc.).

 Pesquisar novas técnicas de seleção automática de atributos, de forma a minimizar o esforço por parte de especialistas, como por exemplo, o uso de TF/IDF, onde IDF seria computado na categoria oposta;

 Fazer uma análise de termos para a Stoplist utilizada para a remoção de

StopWords;

 Ampliar o dicionário de nomes;

 Capturar palavras compostas na recuperação automática das palavras mais frequentes, para utilização dos termos de inclusão e termos de exclusão, como exemplos podemos citar: Chunker (requer etiquetador, expressões regulares), Expressão multipalavras (ngrams), Sintagmas nominais (requer etiquetador ou parser, regras de extração dos Sintagmas nominais)

 Trabalhar com outras bases, ampliando assim as entidades analisadas com o objetivo de ter um conjunto de treinamento maior e mais diversificado, para que a função de classificação não se ajuste muito às amostras de treinamento;

Referências

ALPAYDIN E. Introduction to Machine Learning, Second Edition, Cambridge. MIT Press, 2010.

AMANCIO, M. A. Elaboração Textual via Definição de Entidades Mencionadas e

de Perguntas aos Verbos em Textos Simplificados do Português. 2009.

Dissertação (Mestrado em Ciências Matemáticas e de Computação) – Instituto de Ciências Matemáticas e de Computação, Universidade de São Paulo, São Carlos. AMANCIO, M. A.; ALUISIO, S. M. Explicitação de entidades Mencionadas

visando o aumento da Inteligibilidade de textos em Português: Relatório

Técnico. São Paulo. 2008. (Série de Relatórios do Núcleo Interinstitucional de Linguística Computacional).

ARANHA, C. N. Uma Abordagem de Pré-Processamento Automático para

Mineração de Textos em Português: Sob o Enfoque da Inteligência

Computacional. 2007a. Tese (Doutorado em Engenharia Elétrica) - Departamento de Engenharia Elétrica, Universidade Católica do Rio de Janeiro, Rio de Janeiro.

ARANHA, C. N. O Cortex e a sua participação no HAREM. In: SANTOS, D.; CARDOSO, N. (editores) Reconhecimento de entidades mencionadas em

português: Documentação e atas do HAREM, a primeira avaliação conjunta na

área. Linguateca, 2007b. Capítulo 9, p. 113–122. Disponível em: <http://www.linguateca.pt/LivroHAREM/>. Acesso em: 29 de jan de 2014.

BAEZA-YATES, R.; RIBEIRO-NETO, B. Modern Information Retrieval: The Concepts and Technology behind Search. Second edition. Addison-Wesley, 2011. BICK, E. The Parsing System Palavras, Automatic Grammatical Analysis of

Portuguese in a Constraint Grammar Framework. 2000. Tese (Doutorado) –

Department of Linguistics, University of Århus, DK.

BICK, E. Functional Aspects on Portuguese NER. In: SANTOS, D.; CARDOSO,

N. (editores) Reconhecimento de entidades mencionadas em português: Documentação e atas do HAREM, a primeira avaliação conjunta na área. Linguateca, 2007. Capítulo 12, p. 145–155. Disponível em: <http://www.linguateca.pt/LivroHAREM/>. Acesso em: 29 de jan de 2014.

CARDOSO N. Avaliação de Sistemas de Reconhecimento de Entidades

Mencionadas. 2006. Dissertação (Mestrado em Inteligência Artificial e Sistemas

Inteligentes) - Faculdade de Engenharia da Universidade do Porto, Universidade de Lisboa, Lisboa.

CARDOSO, N. Apêndice H: SAHARA - Serviço de Avaliação HAREM Automático. In: MOTA, C., SANTOS, D. (editores). Desafios na avaliação conjunta do

reconhecimento de entidades mencionadas: O Segundo HAREM. Linguateca,

2008, p. 347–354. Disponível em: <http://www.linguateca.pt/LivroSegundoHAREM>. Acesso em: 27 de jan de 2014.

CARVALHO, W.S. Reconhecimento de entidades mencionadas em português

utilizando aprendizado de máquina. 2012. Dissertação (Mestrado em Matemática

e Estatística) - Instituto de Matemática e Estatística, Universidade de São Paulo, São Paulo.

CARRILHO JUNIOR, R. J. Desenvolvimento de uma Metodologia para

Mineração de Textos. 2007. 96 f. Dissertação (Mestrado em Engenharia Elétrica) –

Pontifícia Universidade Católica do Rio de Janeiro, Rio de Janeiro.

DUDA, R. O.; HART, P. E.; STORK, D. G. Pattern Classification. Second edition. Sl, Wiley-Blackwell, 2000.

FELDMAN, R.; SANGER, J. 2007. The Text Mining Handbook: Advanced Approaches to Analyzing Unstructured Data. New York. Cambridge University Press, 2007.

LEE, H.D. Seleção e construção de features relevantes para o aprendizado de

máquina. 2000. Dissertação (Mestrado em Ciências de Computação e Matemática

Computacional) - Instituto de Ciências Matemáticas e de Computação, Universidade de São Paulo, São Carlos.

MARTINS, A. C.; COSTA, P. D.; MARQUES, M. J. Estudo Comparativo de Três

Algoritmos de Machine Learning na Classificação de Dados Electrocardiográficos. 2009. Dissertação (Mestrado em Informática Médica) -

Faculdade de Medicina, Universidade do Porto, Porto.

MERCHANT, R.; OKUROWSKI, M. E.; CHINCHOR, N. The Multilingual Entity

Task (MET) Overview. In: Proceedings of TIPSTER Text Program (Phase II).

Vienna, EUA, 1996. p. 445-447.

MITCHEL, T. Machine learning. New York. McGraw-Hill, 1997.

MOTA, C., SANTOS, D. (editores). Desafios na avaliação conjunta do

reconhecimento de entidades mencionadas: O Segundo HAREM. Linguateca,

2008. Disponível em: <http://www.linguateca.pt/LivroSegundoHAREM>. Acesso em: 27 de jan de 2014.

NADEAU, D.; SEKINE S. A survey of named entity recognition and

OGURI, P.; MILIDIÚ, R.L.; RENTERÍA, R. Aprendizado de máquina para o

problema de sentiment classification. 2006. Dissertação (Mestrado em

Informática) - Departamento de Informática, Universidade Católica do Rio de Janeiro, Rio de Janeiro.

SANTOS, D.; CARDOSO, N. A golden resource for named entity recognition in

Portuguese. In: VIEIRA, R.; QUARESMA, P.; NUNES, M. G. V.; MAMEDE, N. J.;

OLIVEIRA, C.; DIAS, M. C. (Eds.). Computational Processing of the Portuguese

Language: 7 th International Workshop, PROPOR'2006. Séries: Lecture Notes in

Computer Science, v. 3960. Itatiaia. Springer, 2006. p. 69-79.

SANTOS, D.; CARDOSO, N. Reconhecimento de entidades mencionadas em

português: Documentação e actas do HAREM, a primeira avaliação conjunta na

área. Linguateca, 2007. Disponível em: <http://www.linguateca.pt/LivroHAREM/>. Acesso em: 04 de fev de 2014.

SANTOS, D.; CARDOSO, N. REMando para o futuro: reconhecimento de entidades mencionadas e não só. Escola de Verão Belinda Maia. FLUP, Porto, 2009.

Disponível em:

<http://www.linguateca.pt/documentos/REMEDV2009SantosCardoso.pdf>. Acesso em: 30 de jan de 2014.

SARDINHA, T. B. Linguística de Corpus. São Paulo. Manole, 2004.

SARMENTO L. "SIEMÊS - A Named Entity Recognizer for Portuguese Relying on Similarity Rules". In: VIEIRA, R.; QUARESMA, P.; NUNES, M. G. V.; MAMEDE, N. J.; OLIVEIRA, C.; DIAS, M. C. (Eds.). Computational Processing of the

Portuguese Language: 7 th International Workshop, PROPOR 2006. Séries:

Lecture Notes in Computer Science, v. 3960. Itatiaia. Springer, 2006. p. 90-99.

SARMENTO L.; PINTO, A. S.; CABRAL, L.; REPENTINO - A Wide-Scope Gazetteer for Entity Recognition in Portuguese. In: VIEIRA, R.; QUARESMA, P.; NUNES, M. G. V.; MAMEDE, N. J.; OLIVEIRA, C.; DIAS, M. C. (Eds.). Computational Processing

of the Portuguese Language: 7 th International Workshop, PROPOR 2006. Séries:

Lecture Notes in Computer Science, v. 3960. Itatiaia. Springer, 2006. p. 31-40.

SEBASTIANI, F. 1999. A Tutorial on Automated Text Categorisation. In: AMANDI, A.; ZUNINO, A. (Eds.). Proceedings of ASAI-99, 1st Argentinian Symposium on Artificial Intelligence. Buenos Aires, 1999. p. 7-35.

SEBASTIANI, F. Machine learning in automated text categorization. Pisa, 2002. 47f. ACM Computing Surveys v.34, n.1.

SILVA, T. Reconhecimento de Entidades Nomeadas em Notícias de Governo. 2012. Dissertação (Mestrado em Engenharia de Sistemas e Computação) - Universidade Federal do Rio de Janeiro - Rio de Janeiro.

SOCIALNOMICS. Social Media Video 2013. 2013. Disponível em: <http://www.socialnomics.net/2013/01/01/social-media-video-2013>. Acesso em: 22 de mar de 2014.

YANG, Y.; LIU, X. A re-examination of text categorization methods. In: SIGIR'99 Proceedings of the 22nd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. Berkeley. ACM Press, 1999. p. 42-49.

No documento Recuperação de informação e classificação de entidades organizacionais em textos não estruturados (páginas 83-87)