• Nenhum resultado encontrado

Monitoração da Criação e Manutenção em Tesauro na Saúde Utilizando Log

N/A
N/A
Protected

Academic year: 2021

Share "Monitoração da Criação e Manutenção em Tesauro na Saúde Utilizando Log"

Copied!
5
0
0

Texto

(1)

Monitoração da Criação e Manutenção em Tesauro na Saúde

Utilizando Log

Jeferson Luiz Bitencourt

1

, Roosewelt Leite de Andrade

1

,

Percy Nohama

1

, Stefan Paul Schulz

2

1

Programa de Pós-Gradução em Tecnologia em Saúde (PPGTS),

Pontifícia Universidade Católica do Paraná (PUCPR), Brasil

2

Departamento de Informática Médica,

University of Freiburg, Germany

Resumo - Este artigo apresenta uma abordagem de auxílio para os lexicógrafos na

identificação de classes orientadas a conceitos da terminologia médica com possíveis

problemas de delimitação semântica ou conceitual, contemplados num tesauro monolíngüe

ou multilingüe. A técnica realiza registros das ocorrências de modificações e, através deste

mapeamento, alerta o lexicógrafo de possíveis problemas ou inconsistências na classe ou no

lexema com base em critérios de freqüência de modificações e o histórico.

Palavras-chave: Recuperação de Informação, Tesauro, Delimitação Semântica, Registro de

Procedimento.

Abstract - This paper presents a helping approach for lexicographers on identifying classes

oriented to concepts of medical terminology with possible problems of semantic or conceptual

delimitation, treated in a monolingual or multilingual thesaurus. The tool saves data of

changing occurrences and, through their mapping, alerts the lexicographer of probable

problem or inconsistency in the class or lexema, based on frequency alterations and its

historic events.

Key-words: Information Retrieval, Thesaurus, Semantic Delimitation, Recording of Procedure.

Introdução

Diante da explosão do crescimento de informações, em alguns casos de forma desorganizada e banalizada, emergiu a necessidade tanto de aperfeiçoar técnicas existentes como também criar outras técnicas mais sofisticadas no sentido de melhorar a recuperação de documentos com ênfase na busca de documentos que satisfaçam com mais precisão a necessidade do usuário, ou seja, a busca de documentos relevantes. [1, 2, 3, 4].

A Internet é vista como uma grande fonte de informação e cresce de forma continua [5]. Para procurar informações relevantes dentro dessa fonte, é necessário o emprego de técnicas as quais são desenvolvidas na área de Sistemas de Recuperação de Informação (SRI) [6].

Existem basicamente dois processos envolvidos na Recuperação de Informações: A indexação e a recuperação, que por sua vez podem ou não estar suportadas por um tesauro. A idéia principal de se utilizar um tesauro é prover um vocabulário controlado de referência a um SRI [7].

O tesauro é um conjunto de termos relacionados entre si, com sinônimos e relações semânticas, utilizado para representar conteúdos de documentos com a finalidade de classificação ou busca de informação [8]. Através desses tesauros, pode-se indexar e recuperar documentos de um determinado domínio.

Na área de saúde, a terminologia empregada é caracterizada por formas complexas de composição, derivação e inflexão, assim como pela geração contínua de novos acrônimos, abreviações e nomes próprios. Além disso, existe o

(2)

fato de que nem sempre documentos relevantes estão na língua nativa do usuário [9].

Construir um tesauro na área de medicina com a idéia de reunir classes de sinônimos e contemplar acepções, não é uma tarefa trivial devido à complexidade inerente da própria terminologia, em função de:

• variação ortográfica: diabetes mellitus, diabete melito;

• derivação: diabetes, diabéticos, diabéticas, antidiabéticas;

• composição: hiperprebetalipoproteinemia; • sinônimos: nepho..., renal, estômago, gastr...; • acrônimos: AVC, ECG, DPOC, SIDA,...;

• nomes próprios: Diclofenaco, Viagra, Parkinson,... Somam-se, ainda, aspectos de ordem semântica e conceitual, relevância lexical e semântica, etc. A decisão a ser tomada com relação a unir dois conceitos como sinônimos ou relacionar a uma possível acepção, na maioria das vezes, também não é uma tarefa fácil. Em alguns casos, depende de um consenso entre os lexicógrafos devido a fatores inerentes ao próprio processamento da linguagem natural.

Esses problemas geram uma demanda muito grande na manutenção e evolução, haja vista que normalmente é utilizada uma equipe multidisciplinar com idéias, por vezes diferentes, sobre como tratar determinada classe ou conjunto de classes de conceitos. Diante desse fato, surge a necessidade de mapear os procedimentos realizados de forma a gerar parâmetros que possam servir de apoio no direcionamento dos procedimentos a serem realizados.

A forma mais utilizada para registro de modificações em um banco de dados é o registro de procedimentos ou log [10]. O log tem a propriedade de, antes que qualquer mudança de estado feita por uma operação P seja gravada no banco de dados, o registro de log de P e todos os registros precedentes sejam também gravados [10].

Na delimitação semântica, é possível que não exista um consenso sobre a forma com que ela deva ser realizada. Essa formulação pode parecer provocadora, porém, traduz nada menos que as dificuldades reais que os pesquisadores encontram [11].

Contudo, a dimensão semântica fornece a chave decisiva para identificar a unidade léxica no discurso, pois é ela que define o mistério que tange à palavra [12].

Um exemplo que caracteriza um problema semântico pode ser visualizado na figura 1, no qual câncer é uma classe que possui seus termos equivalentes (sinônimos) da mesma língua ou outra, constituindo um conceito. Fato idêntico

ocorre com os termos Carcinoma e Sarcoma. Em princípio, parece que esses termos são sinônimos, mas, neste exemplo, mostra-se a importância que câncer seja colocado como se tivesse dois sentidos, pelo fato de que se uma pessoa for realizar a busca dentro do sistema, ele pode distinguir a diferença entre um carcinoma, sempre maligno e o sarcoma, nem sempre maligno. Desta forma, é preciso ter uma visão da delimitação semântica para recuperar documentos somente pertinentes à pesquisa.

Figura 1 - Exemplo de delimitação semântica. A delimitação do termo é feita através da definição, mas não a definição lexicográfica, tal como ocorre num dicionário de língua, mas a definição dentro de um campo conceitual, ou seja, tomada no interior do subconjunto lingüístico correspondente ao discurso da especialidade.

Neste trabalho, abordam-se alguns problemas existentes na criação manual de um tesauro e descreve-se uma técnica de apoio ao lexicógrafo na inclusão e manutenção de novos termos.

Metodologia

Esta pesquisa experimental busca validar a criação de um registro de procedimento (log) com um sistema de mensagens como técnica capaz de auxiliar a criação e manutenção de um léxico/tesauro.

Como workbench, utilizou-se o sistema Morphosaurus1. Esse sistema vem sendo desenvolvido como um projeto de parceria entre a PUCPR e a Universidade de Freiburg, Alemanha, desde 2002. O sistema Morphosaurus pode ser visto como um componente em um sistema de recuperação de informação cuja engrenagem principal é o mapeamento de textos na linguagem natural da terminologia médica, com base num tesauro de subwords [13], de documentos escritos em vários idiomas com o objetivo de mapear para uma linguagem independente, a partir de termos

(3)

denominados MID’s, representativos do conceito em questão, de tal forma que os documentos das línguas contempladas no sistema sejam transparentes para o processamento nele.

Como fontes de dados, utilizaram-se procedimentos realizados e salvos entre períodos de 02/08/2005 a 08/10/2005, dos quais foram escolhidas situações em intervalos de aproximadamente 1 semana, compondo, desta forma 11 bancos de dados restaurados no MySQL5, no formato MEDB_YYYYAAMM, para um não se sobrepor ao outro; desta forma tendo 11 bancos de dados independentes e distintos por data. As alterações foram realizadas com base numa lista, na qual foram registradas no mesmo período considerado através de uma lista de discussão, contendo o histórico da situação anterior e posterior à modificação.

Para a geração dos dados de testes, criou-se um programa para verificar as alterações ocorridas entre uma base de dados, ou seja, no léxico/tesauro, com relação ao seu anterior e registrá-las em outra base distinta, nomeadamente

log_thes.

Nessa tabela, foram registradas todas as operações relacionadas à manutenção do tesauro, ou seja, todos os procedimentos envolvendo a criação, mudança ou eliminação de relacionamentos do tipo paradigmático quanto sintagmático que, no tesauro do sistema

Morphosaurus são expressos através dos

relacionamentos do tipo “has_sense” e ”has_word_part”, respectivamente.

A partir dessa tabela, enviam-se mensagens para o usuário somente para as classes que tiveram um relacionamento novamente com a classe que já havia previamente sido quebrada. Todas as mensagens são baseadas em freqüência.

Foram cruzados os tipos de problemas encontrados dentro do tesauro, realizadas e validadas as mensagens pelos lexicógrafos do projeto.

Resultados

As listas de discussões foram desenvolvidas nas línguas inglesa, portuguesa e alemã. Os dados foram retirados da tabela do banco dados registrada pelo log que foi enviado através de mensagem para o lexicógrafo sobre possível existência de problema.

As relações das três línguas registradas pela lista de discussão apresentou 284 problemas e foram enviadas 35 mensagens representando 12,32% dos problemas encontrados.

Essas 35 mensagens mostradas na tabela 2 estão divididas em:

• mensagens incorretas – não representando a um problema.

• mensagens corretas – correspondendo a um problema.

• mensagem correta repetida – cuja mensagem foi apresentadas mais de uma vez, representando as classes alteradas várias vezes, tendo o mesmo tipo de alteração todas às vezes.

Tabela 2 – Categorias de mensagens. Tipo Mensagem Ocorrência (%) Mensagem Correta 18/35 51,43 Mensagem Incorreta 7/35 20

Mensagem correta repetida

10/35 28,57

Pela lista de discussão, foram observados os problemas e qualificados um a um conforme seu tipo. Entraram como dados nesse trabalho, os tipos que apareceram com “Aparentemente classe sem problema”, registrada na lista de discussão pelos lexicógrafos não foram incluídos, pelo fato que também não representaram nenhuma mensagem. As mensagens geradas pelo log foram computadas, registradas e verificadas a correlação com esta lista, conforme descrito na Tabela 3.

Tabela 3 – Tipos de problemas qualificados e sua correspondência com as mensagens do log.

Lista de Discussão Ing/Port/Alemão Mensagens Problemas Ocorr (%) Ocorr (%) Sem relacionamento 72/284 25,35 22/35 62,86 Falta de lexema ou classe 74/284 26,05 2/35 5,71 Mesmo conceito em duas classes (diferentes) 61/284 21,48 3/35 8,57 Dois conceitos (diferentes) na mesma classe 8/284 2,82 3/35 8,57 Termo específico do idioma 9/284 3,17 4/35 11,43 Problemas ortográficos 13/284 4,58 0/35 0 Indexação desnecessária/ necessária 31/284 10,91 1/35 2,86 Delimitação Sintática 16/284 5,64 0/35 0

(4)

Em função dos problemas encontrados, a porcentagem de acerto representada pelo sistema de mensagem foi a seguinte:

• sem relacionamento 30,55%, • falta de lexema ou classe 2,70%,

• mesmo conceito em duas classes (diferentes) 4,92 %,

• dois conceitos (diferentes) na mesma classe 37,50%,

• termo específico do idioma 44,44%, • problemas ortográficos 0%,

• indexação desnecessária / necessária 3,23%,

• delimitação sintática 0%. Discussão e Conclusões

As mensagens geradas ajudam a ter um melhor refinamento, pois apontam o problema dando apoiando aos lexicógrafos, agilizando, ainda, a manutenção do tesauro, pois desde modo o lexicógrafo pode discutir sobre o que há de errado no momento em que a mensagem aparece, auxiliando para que não haja retrabalho, como verificado na tabela 2, em que 10 classes denotaram mais de uma alteração desnecessária e onde poderia ser verificada a mensagem na primeira vez que foi emitida.

Os resultados indica que houve três problemas com alto índice de relevância: (1) termo especifico do idioma, (2) dois conceitos (diferentes) na mesma classe e (3) sem relacionamento. Todos correspondem a um valor acima de 30%, sendo que o “Sem relacionamento” corresponde a 25,35% de todos os problemas neste período, e a maior quantidade de mensagens dentro da pesquisa.

O sistema de mensagem ligado ao log teria uma melhor qualidade se fossem registrados, passo a passo, todas as alterações dos lexicógrafos, pois são perdidos alguns dados entre uma data do banco de dados e outra, além de perder as transações do dia, dados esses que podem ser feitos e refeitos todos os dias várias vezes pelo lexicógrafos.

Devido aos fenômenos lingüísticos e aos aspectos semânticos e lexicográficos inerentes ao processo de representação do conhecimento no tesauro, espera-se que haja um certo dinamismo na manutenção do tesauro envolvendo correções, muito freqüente no início da construção do tesauro, ou redefinição de alguns relacionamentos, quando o tesauro possui uma quantidade suficiente de classes que seja representativa da linguagem do domínio em questão.

Neste caso, constatou-se que o registro de procedimentos auxilia no refinamento do léxico, pois o Sistema Morphosaurus já possui uma

quantidade suficientemente representativa de classes. E nessa situação freqüentemente sinaliza indício de ocorrência de delimitação semântica. Agradecimentos

Este trabalho recebe o apoio financeiro e bolsas do CNPq (Brasil) e do DLR (Alemanha), aos quais os autores agradecem.

Referências

1. RIJSBERGEN C. J. (1979) Information

Retrieval. London: Butterworth.

www.dcs.gla.ac.uk/Keith/Preface.html.

2. KOWALSKI, G. Information Retrieval Systems: Theory and Implementation. Kluwer Academic Publishers, 1997. 282p.

3. CROFT, W. B. (Editor) Advances in Information Retrieval. London: Kluwer Academic Publishers, 2000.

4. MEADOW, C. T.; Boyce, B. R.; Kraft, d. H. Text Information Retrieval Systems. San Diego: Academic Press, 2000. 364 p.

5. CHANKRAVARTHY, Anil S.; Haase, Kenneth B. NetSerf: using semantic knowledge to find Internet information archives. Proceedings. SIGIR, 1995.

6. YATES, Ricardo Baeza. Na extended model for full text databases. Journal of the Brasilian Computer Society, v.2, n.3, Abr 1996.

7. FOSKETT, D. J. (1997). Thesaurus. Reading in Information Retrieval, Morgan Kaufmann: p. 111-134.

8. CINTRA, Anna Maria Marques et al. Para entender as linguagens documentárias. 2ª Ed. São Paulo: Polis, 2002.

9. SCHULZ S., Hahn U. (2000) Morpheme-based, cross-lingual indexing for medical document retrieval. International Journal of Medical

Informatics,; 58-59: 87-99

http://www.elsevier.com/gej-ng/10/22/36/48/25/34/article.pdf.

10. BERNSTEIN, P. HADZILACOS, V., GOODMAN, N. Conscurrency Control and Recovery in Database Systems. Reading, Massachusetts : Addison-Wesley, , 1987.

(5)

11. VERSTRAETE, T. Entrepreneuriat: modélisation du phénomène. Revue del´Entrepreneuriat, v.1, n.1, 2001.

12. BIDERMAN, M.T. (1999). “Conceito Lingüístico de Palavra”. In Basílio, M. (org.) Palavra n° 5. Rio de Janeiro, Departamento de Letras da PUC: 81-97.

13. Daumke P, Schulz S, Markó K, 50. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie (gmds), 2005.

Contato

Jeferson Luiz Bitencourt

Pontifícia Universidade Católica do Paraná (PUCPR)

Laboratório de Engenharia de Reabilitação

Rua Imaculada Conceição, 1155 – Prado Velho. CEP: 80.215-901

Curitiba – Paraná – Brasil Telefone: (41) 3271-2446

Referências

Documentos relacionados

A predominância da história política vem dessa valorização, eu diria excessiva, dos acontecimentos, dos fatos, dos heróis, das pessoas que fizeram isso ou

A aplicação do fotoprotetor foliar à base de carbonato cálcio favoreceu o crescimento, status hídrico e trocas gasosas das plantas de dois materiais genéticos do híbrido

de lôbo-guará (Chrysocyon brachyurus), a partir do cérebro e da glândula submaxilar em face das ino- culações em camundongos, cobaios e coelho e, também, pela presença

the operational approach to generalized Laguerre polynomials as well as to Laguerre-type exponentials based on our results from [ 3 ] and [ 4 ] about a special Appell sequence

5 “A Teoria Pura do Direito é uma teoria do Direito positivo – do Direito positivo em geral, não de uma ordem jurídica especial” (KELSEN, Teoria pura do direito, p..

Foi evidenciado que o posto mantém uma sistemática preventiva para não contaminar o solo e as águas subterrâneas, por meio da avaliação trimestral do solo e do

O objetivo deste trabalho foi criar um modelo que permita a estimativa da biomassa da espécie de macrófita Egeria densa, com base em dados de reflectância

Entre as atividades, parte dos alunos é também conduzida a concertos entoados pela Orquestra Sinfônica de Santo André e OSESP (Orquestra Sinfônica do Estado de São