Trabalho Futuro 96 - Conclusões e Trabalho Futuro 95

6. Conclusões e Trabalho Futuro 95

6.2 Trabalho Futuro 96

Esta secção apresenta as actividades futuras para o trabalho descrito nesta tese. Serão sugeridos alguns pontos no sentido de melhorar a abordagem e implementação.

Integração na plataforma XEO.ECC

A integração do módulo de classificação no produto XEO.ECC está prevista após a entrega desta tese, prolongando-se até Dezembro de 2010; no essencial, a integração irá consistir na interacção da plataforma XEO com o classificador, mais especificamente na recepção e classificação das comunicações recebidas.

Esta fase de interacção no produto XEO.ECC irá também envolver formação específica para os programadores XEO na iTds, fazendo uma descrição do funcionamento e arquitectura dos módulos incluídos no classificador, bem como as tecnologias utilizadas.

Detecção de erros ortográficos

Tal como descrito na secção 3.1.3, assumimos neste trabalho que a questão de erros ortográficos já estaria resolvida, sendo tratada num processo fora do âmbito deste trabalho. Portanto, num trabalho futuro será necessária a integração de um mecanismo optimizado para a correcção de erros ortográficos. Uma solução poderia passar pela integração de uma técnica de processamento de texto, em que cada termo seria filtrado por um dicionário, e caso o termo possuísse um potencial erro, este seria detectado e efectuado o respectivo mapeamento para o termo correcto na ontologia.

Aprendizagem do Classificador

Para introduzir uma componente de aprendizagem na técnica de classificação são propostas duas soluções: (i) interface gráfica para melhorar processo de detecção e classificação; (ii) mecanismo de background para calcular os melhores pesos para os tópicos das dimensões utilizadas no processo de classificação.

A utilização de uma interface gráfica consiste na visualização de cada comunicação e respectivas anotações, no sentido de permitir a correcção de expressões ou entidades nela detectadas e classificadas, conferindo ao utilizador o poder de correcção de alguns erros do classificador. Quanto aos propósitos, estes também poderiam ser corrigidos, melhorando dessa forma a amostra de comunicações classificadas.

O mecanismo de background baseia-se na introdução de um procedimento paralelo ao do classificador, utilizando como amostra as comunicações já classificadas, fazendo variar os pesos atribuídos aos tópicos de cada dimensão, para que estes sejam optimizados em função dos valores de Abrangência e Precisão (tal como foi apresentado na sub-secção 5.2.3).

Componente de Experimentação por Propósito

Dado que os resultados globais do classificador poderiam ter sido melhores, seria importante efectuar uma fase de experimentação mais detalhada, em que para cada propósito obtido nas 1000 comunicações utilizadas no caso de estudo, seriam recolhidas as medidas de Abrangência e Precisão; podendo dessa forma obter as classes/propósitos cujos resultados sejam piores, fornecendo dessa forma um conjunto de propósitos que poderão estar a induzir em erro a classificação.

Esta fase de experimentação pode ser vista como um mecanismo que fornece informações relevantes para a modelação dos diversos mapas de tópicos do domínio, pois devido à existência de 92 propósitos distintos, existirão alguns que apenas variam numa das dimensões, tornando os seus vectores muito próximos. Portanto, seria importante efectuar esta fase de experimentação mais detalhada, que apresentaria resultados com um nível de granularidade suficiente, que permita chegar a algumas conclusões acerca dos propósitos que podem ou não induzir o classificador em erro.

Bibliografia

[1] Cardoso, N. (2008). REMBRANDT - Reconhecimento de Entidades Mencionadas Baseado em Relações e ANálise Detalhada do Texto. In

Encontro do Segundo HAREM, PROPOR 2008.

[2] Mcdonald, D. D. (1996). Internal and External Evidence in the Identification and Semantic Categorization of Proper Names. In Corpus

Processing for Lexical Acquisition, MIT Press. pp. 21-39.

[3] Bloehdorn, S.; Cimiano, P.; Hotho, A. & Staab, S. (2005). An Ontology- based Framework for Text Mining. In LDV Forum - GLDV Journal for

Computational Linguistics and Language Technology, 2005, Vol.20, No.1.

pp. 87-112.

[4] Zerbinatti, L. (2010). Extração de conhecimento de laudos de radiologia

torácica utilizando técnicas de processamento estatístico de linguagem natural. Dc.S thesis. São Paulo: Escola Politécnica da Universidade de São

Paulo do Departamento de Engenharia de Telecomunicações e Controle. [5] Yildiz, B. & Miksch, S. (2007). ontoX - a method for ontology-driven

information extraction. In Proceedings of the 2007 international

conference on Computational science and its applications. Springer-

Verlag. pp. 660-673.

[6] R. Baeza-Yates & B. Ribeiro-Neto (1999). Modern Information Retrieval. Addison Wesley.

[7] Orengo, V. M. & Huyck, C. (2001). A Stemming Algorithm for Portuguese Language. In Proceedings of Eigth Symposium on String Processing and

Information Retrieval (SPIRE 2001). Chile. pp. 186-193.

[8] M. F. Porter (1997). An algorithm for suffix stripping. In Readings in

information retrieval. Morgan Kaufmann Publishers Inc.. pp 313-316. [9] Gu, H. & Zhou, K. (2006). Text Classification Based on Domain Ontology.

Journal of Communication and Computer. May. Volume 3. No.5 (Serial

No.18).

[10] Yang, X.-q.; Sun, N.; Zhang, Y. & Kong, D.-r. (2008). General Framework for Text Classification Based on Domain Ontology. In SMAP 08:

100

Adaptation and Personalization. IEEE Computer Society. Washington,

DC, USA. pp. 147-152.

[11] V. V. Raghavan & S. K. M. Wong (1999). A critical analysis of vector space model for information retrieval. Journal of the American Society for

Information Science, 37(5) pp. 279-287.

[12] Salton, G. & Buckley, C. (1988). Term-weighting approaches in automatic text retrieval. In Information Processing and Management. pp. 513-523. [13] Lan, M.; Tan, C.-L.; Low, H.-B. & Sung, S.-Y. (2005). A comprehensive

comparative study on term weighting schemes for text categorization with support vector machines. In WWW 05: Special interest tracks and posters

of the 14th international conference on World Wide Web. ACM. New

York, NY, USA. pp. 1032-1033.

[14] Fang, J.; Guo, L.; Wang, X. & Yang, N. (2007). Ontology-Based Automatic Classification and Ranking for Web Documents. In FSKD '07:

Proceedings of the Fourth International Conference on Fuzzy Systems and Knowledge Discovery. IEEE Computer Society. Washington, DC, USA.

pp. 627-631.

[15] Witten, I. H.; Paynter, G. W.; Frank, E.; Gutwin, C.; manning, C. G. N. & Inc, G. (1998). Kea: Practical automatic keyphrase extraction. In

Proceedings of the 4th ACM conference on Digital Libraries. pp. 254-255.

[16] D. Lin (1998). An Information-Theoretic Definition of Similarity. In

Proceedings of the Fifteenth International Conference on Machine Learning. pp. 296-304.

[17] Khelif, K.; kuntz, R. D. & Barbry, P. (2007). An Ontology-based Approach to Support Text Mining and Information Retrieval in the Biological Domain. Journal of Universal Computer Science. Vol. 13. pp. 1881-1907. [18] H. Cunningham, et al. (2002). GATE: A framework and graphical

development environment for robust NLP tools and applications. In Proceedings of the 40th Annual Meeting of the ACL.

[19] Tiun, S.; Abdullah, R. & Kong, T. E. (2001). Automatic Topic Identification Using Ontology Hierarchy. In Proceedings of the Second

International Conference on Computational Linguistics and Intelligent Text Processing. Springer-Verlag. London, UK. pp. 444-453.

[20] A. D. Gordon (1987). A Review of Hierarchical Classification. Journal of

the Royal Statistical Society. Series A (General). 150(2) pp. 119-137.

[21] C. Fellbaum (ed.) (1998). WordNet: An Electronic Lexical Database

(Language, Speech, and Communication). The MIT Press. Illustrated

101 [22] Hunter, E. J. (2002). Classification Made Simple. Ashgate Publishing

Limited. Third Edition.

[23] Shapiro, S. C. (1992). Encyclopedia of Artificial Intelligence. John Wiley & Sons, Inc.. Second Edition. New York, NY, USA.

[24] Y. Yang & J. O. Pedersen (1997). A Comparative Study on Feature Selection in Text Categorization. In Proceedings of the Fourteenth

International Conference on Machine Learning. Morgan Kaufmann

Publishers Inc.. San Francisco, CA, USA. pp. 412-420. [25] Sarmento, L. (2005). Descrição técnica do REPENTINO.

[26] Mota, C. & Santos, D. (2008). Desafios na avaliação conjunta do

reconhecimento de entidades mencionadas: O Segundo HAREM.

Linguateca. Disponível em http://www.linguateca.pt/LivroSegundoHAREM/ [Último acesso: 18/07/2010]

[27] Debole, F. & Sebastiani, F. (2003). Supervised term weighting for automated text categorization. In Proceedings of the 2003 ACM symposium

on Applied computing. ACM. New York, NY, USA. pp. 784-788.

[28] C. D. Manning, et al. (2008). Introduction to Information Retrieval. Cambridge University Press.

[29] Buckley, C.; Salton, G. & Allan, J. (1992). Automatic Retrieval With Locality Information Using SMART. In Proceedings of First Text

REtrieval Conference. pp. 59-72.

[30] A. Polyvyanyy & D. Kuropka (2007). A quantitative evaluation of the

enhanced topic-based vector space model. Universitätsverlag Potsdam.

[31] Salton, G. (1989). Automatic text processing: the transformation, analysis,

and retrieval of information by computer. Addison-Wesley Longman

Publishing Co., Inc.. Boston, MA, USA.

[32] Becker, J. & Kuropka, D. (2003). Topic-based Vector Space Model, In

Proceedings of the 6th International Conference on Business Information Systems. pp. 7-12.

[33] Chowdhury, A. & Mccabe, M. C. (1993). Improving Information Retrieval Systems using Part of Speech Tagging.

[34] Palmeira, E. & Freitas, F. (2007). Ontologias detalhadas e classificação de texto: uma união promissora. In ENIA 2007: VI Encontro Nacional de

Inteligência Artificial. Rio de Janeiro, 03-06 de Julho de 2007. Rio de

Janeiro: Instituto Militar de Engenharia.

[35] Viera, A.F.G. and Virgil, J. (2007). Uma revisão dos algoritmos de radicalização em língua portuguesa. Information Research [Online] 12(3)

102

paper 315. Disponível em: http://informationr.net/ir/12-3/paper315.html [Último acesso: 18/07/2010]

[36] Aranha, C. N. (2007). Uma Abordagem de Pré-Processamento Automático

para Mineração de Textos em Português: Sob o Enfoque da Inteligência Computacional. D.Sc thesis. Rio de Janeiro: Departamento de Engenharia

Elétrica, Pontifícia Universidade Católica.

[37] Studer, R., Benjamins, V.R. & Fensel, D. (1998). Knowledge Engineering: Principles and Methods.

103

Anexos

A secção de anexos inclui algum do trabalho resultante da interacção com o especialista de domínio da organização, de modo a construir os mapas de tópicos, o conjunto de propósitos para o caso de estudo, bem como o conjunto das entidades específicas de domínio. Serão apresentados subconjuntos representativos dos propósitos obtidos, bem como de cada um dos mapas de tópicos; por último serão apresentadas as regras de detecção de entidades específicas de domínio.

A. Subconjunto de Propósitos

Nesta secção é apresentado um subconjunto representativo de propósitos obtidos com base no caso de estudo. Tal como foi descrito na sub-secção 5.1.3, cada propósito será composto por 3 dimensões:

 Natureza;

 Organizacional;

 Objecto.

Propósitos

Fornecimento de Informação AdicionaldeSinistro– Auto de Ocorrência

Fornecimento de Autorização de Pagamentorelativo aSinistro– Indemnização

Fornecimento de Informação AdicionaldeSinistro– Certidão de Óbito

104

Fornecimento de Informação AdicionaldeSinistro– Tribunal

Fornecimento de Informação Adicionalde Sinistro– Declaração Rendimentos

Fornecimento de Informação AdicionaldeSinistro– Depoimento Testemunhal

Pedido de Pagamento de Despesasde Assistência Médica relativo aSinistro

Pedido de Pagamento de Despesas Judiciais relativo aSinistro

Fornecimento de Informação AdicionaldeSinistro– Documento Identificação

Pedido de Pagamentode Honorários Médicos relativo aSinistros

Fornecimento de Informação AdicionaldeSinistro– Fotografia

Fornecimento de Informação AdicionaldeSinistro– Despesas

Fornecimento de Informação AdicionaldeSinistro– Reembolso

Fornecimento de Informação AdicionaldeSinistro– Peritagem

Pedido de Cotaçãode Seguro Acidentes e Doença (Produção)

Pedido de Cotaçãode SeguroTransportes (Produção)

Fornecimento de Informação Adicional– Veículo (Produção)

Pedido de Anulaçãode Contrato (Produção)

Fornecimento de Informação Adicional Reclamação –(Gestão de Clientes)

B. S N tópic utiliz B.1 B.2 Subconjunt Nesta secção cos construí zados para c Dimensão F Dimensão Figu to de Mapa o são aprese ídos, de mo cada mapa d o Natureza Figura B.1.1 - o Organizac ura B.2.1 - Sub as de Tópic entados sub odo a ilustra de tópicos. Subconjunto r cional bconjunto repr cos bconjuntos r ar como foi representativo resentativo do representati i feita a hie do Mapa de T Mapa de Tópi ivos de cada rarquização Tópicos "Natur icos "Organiza da um dos m o entre os c reza" acional" 105 mapas de conceitos

106 B.3 Di C. Reg Nest específi especifi de domí C.1 M Regra 1 Ordem 1 Regra 2 Ordem 1 imensão Ob Figu gras de Det ta secção icas de dom icado o conj ínio da orga Matrícula [A-Za-z] [0-9]{2, bjecto ura B.3.1 - Sub tecção de E é apresenta mínio para njunto de reg anização. Expre {2,2}[\-][ Expre 2}[\-][A-Z bconjunto repr Entidades E ado o conj o caso de gras, resulta essão/Padrã 0-9]{2,2}[ essão/Padrã a-z]{2,2}[ resentativo do Específicas njunto de r e estudo d ante do pro ão [\-][0-9]{2 ão [\-][0-9]{2 Mapa de Tópi de Domíni regras para deste trabal ocesso de in Ca 2,2} Ca 2,2} icos "Objecto" o a a detecçã ho. Para c nteracção co ardinalidad 1 ardinalidad 1 " ão de entid cada catego om o especi de Inclu tru de Inclu tru dades oria é ialista usão ue usão ue

107

Regra 3