6. Conclusões e Trabalho Futuro 95
6.2 Trabalho Futuro 96
Esta secção apresenta as actividades futuras para o trabalho descrito nesta tese. Serão sugeridos alguns pontos no sentido de melhorar a abordagem e implementação.
Integração na plataforma XEO.ECC
A integração do módulo de classificação no produto XEO.ECC está prevista após a entrega desta tese, prolongando-se até Dezembro de 2010; no essencial, a integração irá consistir na interacção da plataforma XEO com o classificador, mais especificamente na recepção e classificação das comunicações recebidas.
Esta fase de interacção no produto XEO.ECC irá também envolver formação específica para os programadores XEO na iTds, fazendo uma descrição do funcionamento e arquitectura dos módulos incluídos no classificador, bem como as tecnologias utilizadas.
97
Detecção de erros ortográficos
Tal como descrito na secção 3.1.3, assumimos neste trabalho que a questão de erros ortográficos já estaria resolvida, sendo tratada num processo fora do âmbito deste trabalho. Portanto, num trabalho futuro será necessária a integração de um mecanismo optimizado para a correcção de erros ortográficos. Uma solução poderia passar pela integração de uma técnica de processamento de texto, em que cada termo seria filtrado por um dicionário, e caso o termo possuísse um potencial erro, este seria detectado e efectuado o respectivo mapeamento para o termo correcto na ontologia.
Aprendizagem do Classificador
Para introduzir uma componente de aprendizagem na técnica de classificação são propostas duas soluções: (i) interface gráfica para melhorar processo de detecção e classificação; (ii) mecanismo de background para calcular os melhores pesos para os tópicos das dimensões utilizadas no processo de classificação.
A utilização de uma interface gráfica consiste na visualização de cada comunicação e respectivas anotações, no sentido de permitir a correcção de expressões ou entidades nela detectadas e classificadas, conferindo ao utilizador o poder de correcção de alguns erros do classificador. Quanto aos propósitos, estes também poderiam ser corrigidos, melhorando dessa forma a amostra de comunicações classificadas.
O mecanismo de background baseia-se na introdução de um procedimento paralelo ao do classificador, utilizando como amostra as comunicações já classificadas, fazendo variar os pesos atribuídos aos tópicos de cada dimensão, para que estes sejam optimizados em função dos valores de Abrangência e Precisão (tal como foi apresentado na sub-secção 5.2.3).
Componente de Experimentação por Propósito
Dado que os resultados globais do classificador poderiam ter sido melhores, seria importante efectuar uma fase de experimentação mais detalhada, em que para cada propósito obtido nas 1000 comunicações utilizadas no caso de estudo, seriam recolhidas as medidas de Abrangência e Precisão; podendo dessa forma obter as classes/propósitos cujos resultados sejam piores, fornecendo dessa forma um conjunto de propósitos que poderão estar a induzir em erro a classificação.
98
Esta fase de experimentação pode ser vista como um mecanismo que fornece informações relevantes para a modelação dos diversos mapas de tópicos do domínio, pois devido à existência de 92 propósitos distintos, existirão alguns que apenas variam numa das dimensões, tornando os seus vectores muito próximos. Portanto, seria importante efectuar esta fase de experimentação mais detalhada, que apresentaria resultados com um nível de granularidade suficiente, que permita chegar a algumas conclusões acerca dos propósitos que podem ou não induzir o classificador em erro.
99
Bibliografia
[1] Cardoso, N. (2008). REMBRANDT - Reconhecimento de Entidades Mencionadas Baseado em Relações e ANálise Detalhada do Texto. In
Encontro do Segundo HAREM, PROPOR 2008.
[2] Mcdonald, D. D. (1996). Internal and External Evidence in the Identification and Semantic Categorization of Proper Names. In Corpus
Processing for Lexical Acquisition, MIT Press. pp. 21-39.
[3] Bloehdorn, S.; Cimiano, P.; Hotho, A. & Staab, S. (2005). An Ontology- based Framework for Text Mining. In LDV Forum - GLDV Journal for
Computational Linguistics and Language Technology, 2005, Vol.20, No.1.
pp. 87-112.
[4] Zerbinatti, L. (2010). Extração de conhecimento de laudos de radiologia
torácica utilizando técnicas de processamento estatístico de linguagem natural. Dc.S thesis. São Paulo: Escola Politécnica da Universidade de São
Paulo do Departamento de Engenharia de Telecomunicações e Controle. [5] Yildiz, B. & Miksch, S. (2007). ontoX - a method for ontology-driven
information extraction. In Proceedings of the 2007 international
conference on Computational science and its applications. Springer-
Verlag. pp. 660-673.
[6] R. Baeza-Yates & B. Ribeiro-Neto (1999). Modern Information Retrieval. Addison Wesley.
[7] Orengo, V. M. & Huyck, C. (2001). A Stemming Algorithm for Portuguese Language. In Proceedings of Eigth Symposium on String Processing and
Information Retrieval (SPIRE 2001). Chile. pp. 186-193.
[8] M. F. Porter (1997). An algorithm for suffix stripping. In Readings in
information retrieval. Morgan Kaufmann Publishers Inc.. pp 313-316. [9] Gu, H. & Zhou, K. (2006). Text Classification Based on Domain Ontology.
Journal of Communication and Computer. May. Volume 3. No.5 (Serial
No.18).
[10] Yang, X.-q.; Sun, N.; Zhang, Y. & Kong, D.-r. (2008). General Framework for Text Classification Based on Domain Ontology. In SMAP 08:
100
Adaptation and Personalization. IEEE Computer Society. Washington,
DC, USA. pp. 147-152.
[11] V. V. Raghavan & S. K. M. Wong (1999). A critical analysis of vector space model for information retrieval. Journal of the American Society for
Information Science, 37(5) pp. 279-287.
[12] Salton, G. & Buckley, C. (1988). Term-weighting approaches in automatic text retrieval. In Information Processing and Management. pp. 513-523. [13] Lan, M.; Tan, C.-L.; Low, H.-B. & Sung, S.-Y. (2005). A comprehensive
comparative study on term weighting schemes for text categorization with support vector machines. In WWW 05: Special interest tracks and posters
of the 14th international conference on World Wide Web. ACM. New
York, NY, USA. pp. 1032-1033.
[14] Fang, J.; Guo, L.; Wang, X. & Yang, N. (2007). Ontology-Based Automatic Classification and Ranking for Web Documents. In FSKD '07:
Proceedings of the Fourth International Conference on Fuzzy Systems and Knowledge Discovery. IEEE Computer Society. Washington, DC, USA.
pp. 627-631.
[15] Witten, I. H.; Paynter, G. W.; Frank, E.; Gutwin, C.; manning, C. G. N. & Inc, G. (1998). Kea: Practical automatic keyphrase extraction. In
Proceedings of the 4th ACM conference on Digital Libraries. pp. 254-255.
[16] D. Lin (1998). An Information-Theoretic Definition of Similarity. In
Proceedings of the Fifteenth International Conference on Machine Learning. pp. 296-304.
[17] Khelif, K.; kuntz, R. D. & Barbry, P. (2007). An Ontology-based Approach to Support Text Mining and Information Retrieval in the Biological Domain. Journal of Universal Computer Science. Vol. 13. pp. 1881-1907. [18] H. Cunningham, et al. (2002). GATE: A framework and graphical
development environment for robust NLP tools and applications. In Proceedings of the 40th Annual Meeting of the ACL.
[19] Tiun, S.; Abdullah, R. & Kong, T. E. (2001). Automatic Topic Identification Using Ontology Hierarchy. In Proceedings of the Second
International Conference on Computational Linguistics and Intelligent Text Processing. Springer-Verlag. London, UK. pp. 444-453.
[20] A. D. Gordon (1987). A Review of Hierarchical Classification. Journal of
the Royal Statistical Society. Series A (General). 150(2) pp. 119-137.
[21] C. Fellbaum (ed.) (1998). WordNet: An Electronic Lexical Database
(Language, Speech, and Communication). The MIT Press. Illustrated
101 [22] Hunter, E. J. (2002). Classification Made Simple. Ashgate Publishing
Limited. Third Edition.
[23] Shapiro, S. C. (1992). Encyclopedia of Artificial Intelligence. John Wiley & Sons, Inc.. Second Edition. New York, NY, USA.
[24] Y. Yang & J. O. Pedersen (1997). A Comparative Study on Feature Selection in Text Categorization. In Proceedings of the Fourteenth
International Conference on Machine Learning. Morgan Kaufmann
Publishers Inc.. San Francisco, CA, USA. pp. 412-420. [25] Sarmento, L. (2005). Descrição técnica do REPENTINO.
[26] Mota, C. & Santos, D. (2008). Desafios na avaliação conjunta do
reconhecimento de entidades mencionadas: O Segundo HAREM.
Linguateca. Disponível em http://www.linguateca.pt/LivroSegundoHAREM/ [Último acesso: 18/07/2010]
[27] Debole, F. & Sebastiani, F. (2003). Supervised term weighting for automated text categorization. In Proceedings of the 2003 ACM symposium
on Applied computing. ACM. New York, NY, USA. pp. 784-788.
[28] C. D. Manning, et al. (2008). Introduction to Information Retrieval. Cambridge University Press.
[29] Buckley, C.; Salton, G. & Allan, J. (1992). Automatic Retrieval With Locality Information Using SMART. In Proceedings of First Text
REtrieval Conference. pp. 59-72.
[30] A. Polyvyanyy & D. Kuropka (2007). A quantitative evaluation of the
enhanced topic-based vector space model. Universitätsverlag Potsdam.
[31] Salton, G. (1989). Automatic text processing: the transformation, analysis,
and retrieval of information by computer. Addison-Wesley Longman
Publishing Co., Inc.. Boston, MA, USA.
[32] Becker, J. & Kuropka, D. (2003). Topic-based Vector Space Model, In
Proceedings of the 6th International Conference on Business Information Systems. pp. 7-12.
[33] Chowdhury, A. & Mccabe, M. C. (1993). Improving Information Retrieval Systems using Part of Speech Tagging.
[34] Palmeira, E. & Freitas, F. (2007). Ontologias detalhadas e classificação de texto: uma união promissora. In ENIA 2007: VI Encontro Nacional de
Inteligência Artificial. Rio de Janeiro, 03-06 de Julho de 2007. Rio de
Janeiro: Instituto Militar de Engenharia.
[35] Viera, A.F.G. and Virgil, J. (2007). Uma revisão dos algoritmos de radicalização em língua portuguesa. Information Research [Online] 12(3)
102
paper 315. Disponível em: http://informationr.net/ir/12-3/paper315.html [Último acesso: 18/07/2010]
[36] Aranha, C. N. (2007). Uma Abordagem de Pré-Processamento Automático
para Mineração de Textos em Português: Sob o Enfoque da Inteligência Computacional. D.Sc thesis. Rio de Janeiro: Departamento de Engenharia
Elétrica, Pontifícia Universidade Católica.
[37] Studer, R., Benjamins, V.R. & Fensel, D. (1998). Knowledge Engineering: Principles and Methods.
103
Anexos
A secção de anexos inclui algum do trabalho resultante da interacção com o especialista de domínio da organização, de modo a construir os mapas de tópicos, o conjunto de propósitos para o caso de estudo, bem como o conjunto das entidades específicas de domínio. Serão apresentados subconjuntos representativos dos propósitos obtidos, bem como de cada um dos mapas de tópicos; por último serão apresentadas as regras de detecção de entidades específicas de domínio.
A. Subconjunto de Propósitos
Nesta secção é apresentado um subconjunto representativo de propósitos obtidos com base no caso de estudo. Tal como foi descrito na sub-secção 5.1.3, cada propósito será composto por 3 dimensões:
Natureza;
Organizacional;
Objecto.
Propósitos
Fornecimento de Informação AdicionaldeSinistro– Auto de Ocorrência
Fornecimento de Autorização de Pagamentorelativo aSinistro– Indemnização
Fornecimento de Informação AdicionaldeSinistro– Certidão de Óbito
104
Fornecimento de Informação AdicionaldeSinistro– Tribunal
Fornecimento de Informação Adicionalde Sinistro– Declaração Rendimentos
Fornecimento de Informação AdicionaldeSinistro– Depoimento Testemunhal
Pedido de Pagamento de Despesasde Assistência Médica relativo aSinistro
Pedido de Pagamento de Despesas Judiciais relativo aSinistro
Fornecimento de Informação AdicionaldeSinistro– Documento Identificação
Pedido de Pagamentode Honorários Médicos relativo aSinistros
Fornecimento de Informação AdicionaldeSinistro– Fotografia
Fornecimento de Informação AdicionaldeSinistro– Despesas
Fornecimento de Informação AdicionaldeSinistro– Reembolso
Fornecimento de Informação AdicionaldeSinistro– Peritagem
Pedido de Cotaçãode Seguro Acidentes e Doença (Produção)
Pedido de Cotaçãode SeguroTransportes (Produção)
Fornecimento de Informação Adicional– Veículo (Produção)
Pedido de Anulaçãode Contrato (Produção)
Fornecimento de Informação Adicional Reclamação –(Gestão de Clientes)
B. S N tópic utiliz B.1 B.2 Subconjunt Nesta secção cos construí zados para c Dimensão F Dimensão Figu to de Mapa o são aprese ídos, de mo cada mapa d o Natureza Figura B.1.1 - o Organizac ura B.2.1 - Sub as de Tópic entados sub odo a ilustra de tópicos. Subconjunto r cional bconjunto repr cos bconjuntos r ar como foi representativo resentativo do representati i feita a hie do Mapa de T Mapa de Tópi ivos de cada rarquização Tópicos "Natur icos "Organiza da um dos m o entre os c reza" acional" 105 mapas de conceitos
106 B.3 Di C. Reg Nest específi especifi de domí C.1 M Regra 1 Ordem 1 Regra 2 Ordem 1 imensão Ob Figu gras de Det ta secção icas de dom icado o conj ínio da orga Matrícula [A-Za-z] [0-9]{2, bjecto ura B.3.1 - Sub tecção de E é apresenta mínio para njunto de reg anização. Expre {2,2}[\-][ Expre 2}[\-][A-Z bconjunto repr Entidades E ado o conj o caso de gras, resulta essão/Padrã 0-9]{2,2}[ essão/Padrã a-z]{2,2}[ resentativo do Específicas njunto de r e estudo d ante do pro ão [\-][0-9]{2 ão [\-][0-9]{2 Mapa de Tópi de Domíni regras para deste trabal ocesso de in Ca 2,2} Ca 2,2} icos "Objecto" o a a detecçã ho. Para c nteracção co ardinalidad 1 ardinalidad 1 " ão de entid cada catego om o especi de Inclu tru de Inclu tru dades oria é ialista usão ue usão ue
107
Regra 3
Ordem Expressão/Padrão Cardinalidade Inclusão
1 [0-9]{2,2}[\-][0-9]{2,2}[\-][A-Za-z]{2,2} 1 true
Regra 4
Ordem Expressão/Padrão Cardinalidade Inclusão
1 ([mM][aA][tT][rR]([iI]|[íÍ])?[cC]?[uU]?[lL]?[aA]?|[vV][eE]([iI]|[íÍ])[cC][uU]?[lL]?[oO
]?) [\.\:]? 1
false
2 [A-Za-z]{2,2}[\-][0-9]{2,2}[\-][0-9]{2,2} 1 true
Regra 5
Ordem Expressão/Padrão Cardinalidade Inclusão
1 ([mM][aA][tT][rR]([iI]|[íÍ])?[cC]?[uU]?[lL]?[aA]?|[vV][eE]([iI]|[íÍ])[cC][uU]?[lL]?[oO
]?)[ \.\:]? 1 false
2 [0-9]{2,2}[\-][A-Za-z]{2,2}[\-][0-9]{2,2} 1 true
Regra 6
Ordem Expressão/Padrão Cardinalidade Inclusão
1 ([mM][aA][tT][rR]([iI]|[íÍ])?[cC]?[uU]?[lL]?[aA]?|[vV][eE]([iI]|[íÍ])[cC][uU]?[lL]?[oO ]?)[\.\:]? 1 false 2 [0-9]{2,2}[\-][0-9]{2,2}[\-][A-Za-z]{2,2} 1 true C.2 Número de Sinistro Regra 1
Ordem Expressão/Padrão Cardinalidade Inclusão
108
Regra 2
Ordem Expressão/Padrão Cardinalidade Inclusão
1 [pP][rR][oO][cC][eE]?[sS]?[sS]?[oO]?[\.\:]? 1 false 2 [dD][eE] 0 ou 1 false 3 [sS][iI][nN][iI]?[sS]?[tT]?[rR]?[oO]?[\.\-\:]? 0 ou 1 false 4 [nN][uUúÚ]?[mM]?[eE]?[rR]?[oO]?[\º\.\-\:]? 0 ou 1 false 5 [\.\-\:] 0 ou 1 false 6 [0-9]{1,2}[\-\/\.][0-9]{4,4} 1 true Regra 3
Ordem Expressão/Padrão Cardinalidade Inclusão
1 [sS][iI][nN][iI]?[sS]?[tT]?[rR]?[oO]?[\.\-\:]? 1 false
2 [pP][rR][oO][cC][eE]?[sS]?[sS]?[oO]?[\.\:]? 0 ou 1 false
3 [\.\-\:] 0 ou 1 false
4 [0-9]{1,2}[\-\/\.][0-9]{4,4} 1 true
Regra 4
Ordem Expressão/Padrão Cardinalidade Inclusão
1 [0-9]{3,5}[\-\/\.][0-9]{4,4} 1 true
Regra 5
Ordem Expressão/Padrão Cardinalidade Inclusão
1 [pP][rR][oO][cC][eE]?[sS]?[sS]?[oO]?[\.\\:]? 1 false 2 [dD][eE] 0 ou 1 false 3 [sS][iI][nN][iI]?[sS]?[tT]?[rR]?[oO]?[\.\-\:]? 0 ou 1 false 4 [nN][uUúÚ]?[mM]?[eE]?[rR]?[oO]?[\º\.\-\:]? 0 ou 1 false 5 [\.\-\:] 0 ou 1 false 6 [0-9]{2,2}[\-\/\.][0-9]{1,2}[\-\/\.][0-9]{4,4} 1 true
109
Regra 6
Ordem Expressão/Padrão Cardinalidade Inclusão
1 [sS][iI][nN][iI]?[sS]?[tT]?[rR]?[oO]?[\.\-\:]? 1 false
2 [pP][rR][oO][cC][eE]?[sS]?[sS]?[oO]?[\.\:]? 0 ou 1 false
3 [\.\-\:]? 0 ou 1 false
4 [0-9]{2,2}[\-\/\.][0-9]{1,2}[\-\/\.][0-9]{4,4} 1 true
Regra 7
Ordem Expressão/Padrão Cardinalidade Inclusão
1 [0-9]{2,2}[\-\/\.][0-9]{3,5}[\-\/\.][0-9]{4,4} 1 true
C.3 Número de Apólice Regra 1
Ordem Expressão/Padrão Cardinalidade Inclusão
1 [0-9]{2,2}[\-\/\.]([0-9]{1}|[0-9]{3}|[0-9]{5,7}) 1 true
Regra 2
Ordem Expressão/Padrão Cardinalidade Inclusão
1 [aA][pP][oOóÓ]?[lL]?[iI]?[cC]?[eE]?[\.\-\:]? 1 false
2 [nN][uUúÚ]?[mM]?[eE]?[rR]?[oO]?[\º\.\-\:]? 0 ou 1 false
3 [\.\-\:] 0 ou 1 false
4 [0-9]{2,2}[\-\/\.]([0-9]{2}|[0-9]{4}) 1 true
Regra 3
Ordem Expressão/Padrão Cardinalidade Inclusão
1 [aA][pP][oOóÓ]?[lL]?[iI]?[cC]?[eE]?[\.\-\:]? 1 false
110
3 [\.\-\:] 0 ou 1 false
4 [0-9]{1,7} 1 true
Regra 4
Ordem Expressão/Padrão Cardinalidade Inclusão