Identificação de coocorrência de termos em textos científicos

(1)

Universidade de Aveiro Departamento deElectrónica, Telecomunica¸cões e Informática, 2012

Ineias Silva Fernandes

Identifica¸

c˜

ao de Coocorrˆ

encia de termos em textos

cient´ıficos

Disserta¸cão apresentada à Universidade de Aveiro para cumprimento dos requisitos necessários à obten¸cão do grau de Mestre em Engenharia de Computadores e Telemática, realizada sob a orienta¸cão cient´ıfica do Doutor José Lu´ıs Oliveira, Professor Associado do Departamento de Eletrónica, Telecomunica¸cões e Informática da Universidade de Aveiro e do Doutor Sérgio Guilherme Aleixo de Matos, Investigador Auxiliar do Departamento de Eletrónica, Telecomunica¸cões e Informática da Universidade de Aveiro.

(2)

(3)

o j´uri

presidente Doutor Joaquim Manuel Henriques de Sousa Pinto

Professor Auxiliar, Universidade de Aveiro

vogais Doutor Jos´e Lu´ıs Guimar˜aes Oliveira

Professor Associado do Departamento de Eletrónica, Telecomunica¸cões e Informática da Universidade de Aveiro (Orientador)

Doutor S´ergio Guilherme Aleixo de Matos

Investigador Auxiliar da Universidade de Aveiro (co-orientador)

Doutor P´avel Pereira Calado

Professor Auxiliar do Departamento de Engenharia Inform´atica do Instituto Superior de T´ecnico da Universidade de Lisboa

(4)

(5)

agradecimentos Ao meu orientador, Professor Doutor José Lu´ıs Oliveira, o meu sincero agradecimento por toda a disponibilidade, apoio, amizade, conselhos e orienta¸cão ao longo deste árduo ano de trabalho. Também ao Professor Sérgio Matos, meu co-orientador, que sempre esteve presente nas horas mais complicadas de todo este processo. Ambos, pela sua forma de estar, tornaram este projeto num trabalho de equipa com um excelente ambiente. Um agradecimento especial a toda a minha fam´ılia. Mãe (Elisa), obrigado não só por todo o apoio que me deste, apesar de distante, durante este per´ıodo, mas também por toda a educa¸cão proporcionada ao longo da vida. Irmã (Nikolaiva), também o meu obrigado por toda a ajuda e paciência que deste-me, não só nesta fase, mas ao longo de toda a vida. A todas as minhas irmãs um muito obrigado. Sem vocês, tudo isto não passaria de uma miragem.

Myla, obrigado por toda a for¸ca, carinho, amizade e paciˆencia ilimitada. Obrigado pela pessoa que ´es.

Por fim, a todos os meus colegas da Universidade de Aveiro que de alguma forma contribu´ıram para a minha forma¸c˜ao.

(6)

(7)

Palavras-chave Minera¸c˜ao de Texto, Coocorrˆencia, Nomes de Entidades, Bases de Dados de Dom´ınio

Resumo Nos últimos anos tem-se verificado um aumento acelerado de conteúdos em formato digital, seja na Internet (blogs, wikis, redes sociais, etc.) seja a n´ıvel institucional ou empresarial. Contudo, grande parte destes dados está apenas dispon´ıvel de forma não-estruturada, limitando o acesso a informa¸cão útil. Apesar da evolu¸cão verificada nos motores de busca de informa¸cão (e.g., Google e BING) e da utiliza¸cão de metodologias avan¸cadas para a extra¸cão e recolha de conteúdo orientados ao utilizador, a sua aplica¸cão em áreas especificas está ainda longe de ser plenamente concretizada. A biomedicina é uma destas áreas, exigindo a aplica¸cão de algoritmos próprios para o reconhecimento de entidades nomeadas e das rela¸cões entre si.

Neste contexto, pretende-se desenvolver um sistema capaz de reconhecer nomes de entidades biomédicas (e.g., doen¸cas, drogas) e pares de co-ocorrência em texto cient´ıficos. Este objetivo será atingido através da utiliza¸cão de um conjunto de bases de dados (e.g., UMLS e LexEBI) do dom´ınio, requerendo-se a aplica¸cão de técnicas para estabelecer uma cor-respondência entre conceitos contidos nas bases de dados e os encontrados nos textos. No entanto, dada a complexidade do dom´ınio biomédico, esta correspondência nem sempre é direta. Consequentemente, também será ne-cessário desenvolver uma solu¸cão para resolver casos amb´ıguos, escolhendo apenas uma entidade para um trecho de texto. No final, o sistema será avaliado contra texto devidamente anotados por humanos, visando a sua análise de desempenho.

(8)

(9)

Keywords Text Mining, Co-occurrence, Named Entities, Domain Databases

Abstract In recent years there has been an accelerated growth of content in digital format, whether on the Internet (blogs, wikis, social networks, etc.), either institutionally or business. However, largely of this data is only available in a non-structured format, limiting access to useful information. Despite the developments in information search engines (eg, Google and BING) and use of advanced methodologies for extraction and collect of user-oriented content, their application in specific areas is still far from being fully reali-zed. Biomedicine is one of these areas, requiring the appliance of suitable algorithms for the recognition of named entities and relations between them. In this context, we intend to develop a system able to recognizing biomedi-cal entity names (eg, diseases, drugs) and pairs of co-occurrence in scientific text. This will be achieved by using a set of domain databases (eg, UMLS and LexEBI), requiring the appliance of techniques to establish the mat-ching between concepts contained in the databases and found in the texts. However, given the complexity of the biomedical domain, this matching is not always straightforward. Consequently, we also need to develop a solu-tion to solve ambiguous cases, choosing only an entity to a piece of text. In the end, the system will be evaluated against text duly annotated by humans, aiming at its performance analysis.

(10)

(11)

Conte´

udo

Conte´udo i

Lista de Figuras iii

Lista de Tabelas v

Lista de Acr´onimos vii

1 Introdu¸cão 1 1.1 Enquadramento . . . 1 1.2 Objetivos . . . 2 1.3 Estrutura da Tese . . . 3 2 Estado da Arte 5 2.1 Minera¸cão de Texto . . . 5 2.1.1 Técnicas de minera¸cão . . . 7

2.1.2 M´etodos de identifica¸c˜ao de terminologias em textos cient´ıficos . . . . 9

2.1.3 Terminologias . . . 10

2.1.4 Aprendizagem M´aquina . . . 11

2.2 Desambigua¸c˜ao de sentido de palavras . . . 13

2.2.1 Metodologia B´asica . . . 14

2.2.2 Desambigua¸c˜ao de abreviaturas . . . 16

2.3 Ferramentas e sistemas de identifica¸c˜ao de coocorrˆencia . . . 17

2.4 Sum´ario . . . 19

3 An´alise de Requisitos 21 3.1 Vis˜ao Geral do Sistema . . . 21

3.2 Fundamentos . . . 23

3.2.1 Corpus . . . 23

3.2.2 Coocorrˆencia e Medidas de associa¸c˜ao . . . 24

3.2.3 Webservices de coocorrˆencia . . . 26

3.3 Limita¸c˜oes . . . 27

3.4 Requisitos Tecnol´ogicos . . . 28

3.4.1 Apache Lucene . . . 28

3.4.2 Persistˆencia de Dados . . . 29

3.4.3 An´alise Comparativa . . . 36

(12)

4 Sistema de Identifica¸c˜ao de Coocorrˆencia entre Termos 39

4.1 Indexa¸c˜ao . . . 39

4.1.1 O Analisador de Termos . . . 42

4.1.2 Hashmaps de n´ıveis de coocorrˆencia . . . 45

4.2 Classifica¸c˜ao dos termos . . . 47

4.3 Base de Dados . . . 50

4.4 WebServices . . . 52

4.5 Sum´ario . . . 55

5 An´alise e Discuss˜ao de Resultados 57 5.1 Metodologia Utilizada . . . 57

5.2 Resultados . . . 58

5.2.1 Dicion´ario de Conceitos . . . 58

5.2.2 ´Indice Lucene . . . 59

5.2.3 Tempo de cálculo de pontua¸cões e inser¸cão na base de dados . . . 61

5.2.4 Utiliza¸c˜ao de webservices . . . 62

5.3 Sum´ario . . . 65

6 Conclus˜ao 67 6.1 Sugest˜oes para trabalho futuro . . . 68

(13)

Lista de Figuras

2.1 Etapas de um processo de minera¸c˜ao de texto . . . 6

3.1 Vis˜ao geral do sistema . . . 23

3.2 Estrutura de ficheiros dos corpus . . . 24

3.3 Dados de entrada e sa´ıda do webservice TopN . . . 26

3.4 Dados de entrada e sa´ıda do webservice de coocorrˆencia entre dois termos . . 27

3.5 Indexa¸c˜ao e Pesquisa utilizando Lucene (adaptado de [1]) . . . 28

3.6 Abstra¸c˜ao fornecido pelo SGBD . . . 30

3.7 Avalia¸c˜ao de bases de dados NoSQL (adaptado de [2]) . . . 36

4.1 Estrutura de classes de indexa¸c˜ao . . . 41

4.2 Estrutura de cada linha do ficheiro de dicion´ario UMLS . . . 42

4.3 Ciclo de execu¸c˜ao do filtro sobre uma frase . . . 43

4.4 Implementa¸c˜ao do filtro do DictionaryFilter . . . 44

4.5 Tokeniza¸c˜ao, manual, dos termos . . . 45

4.6 Pseudo c´odigo de preenchimento de hashmaps de coocorrˆencia. . . 46

4.7 Representa¸c˜ao da rela¸c˜ao entre termos segundo uma estrutura relacional . . . 51

4.8 Servidor de WebService . . . 52

4.9 Representa¸c˜ao esquem´atica do webservice Top N . . . 53

4.10 Resource do webservice TopN . . . 54

4.11 Representa¸cão esquemática do webservice de Coocorrência entre termos . . . 54

4.12 Resource do webservice que calcula coocorrˆencia entre dois termos . . . 55

5.1 Resultado da chamada ao webservices TopN com N = 5 . . . 62

5.2 Resultado da chamada ao webservices de coocorrˆencia entre termos sem ambi-guidade . . . 63

5.3 Resultado da chamada ao webservices de coocorrˆencia entre termos com am-biguidade . . . 64

5.4 Resultado da chamada ao webservices de coocorrˆencia entre termos com o segundo termo com ambiguidade maior que trˆes . . . 64

(14)

(15)

Lista de Tabelas

4.1 Exemplo de estrutura de ´ındice criado no Lucene . . . 40 4.2 Exemplo de adi¸cão de um par de coocorrência na hashmap, pela primeira . . 46 4.3 Tabela de Contingência de frequência observada . . . 47 5.1 Lista de Grupos Semânticos com os correspondentes Tipos Semânticos e o

número de termos com que cada um contribui para o dicionário de conceitos . 59 5.2 Resultados da indexa¸cão com diferentes tamanhos de corpus . . . 60 5.3 Dados relativo ao ´ındice Lucene . . . 60 5.4 Compara¸cão do resultados obtidos na indexa¸cão dos dois tipos de corpus . . . 61 5.5 Tempo, em minutos, do cálculo das pontua¸cões e a inser¸cão dos resultados na

(16)

(17)

Lista de Acr´

onimos

AM Aprendizagem M´aquina

API Application Programming Interface

AOF Append-Only File

BMC Biomedical Center CUI Concept Unique Identifier EI Extra¸c˜ao de Informa¸c˜ao

FACTA Finding Associated Concepts with Text Analysis

GO Gene Ontology

HTTP Hypertext Transfer Protocol IA Inteligˆencia Artificial

KDD Knowledge Discovery in Databases

LAITOR Literature Assistant for Identification of Terms co-Occurrences and Rela-tionships

MEDLINE Medical Literature Analysis and Retrieval System Online MESH Medical Subject Headings

NCBI National Center for Biotechnology Information NCI National Cancer Institute

NLM National Library of Medicine

NoSQL Not Only SQL

OMIM Online Mendelian Inheritance in Man PLN Processamento de Linguagem Natural PMID PubMed Identifier

(18)

RI Recupera¸c˜ao de Informa¸c˜ao

RNE Reconhecimento de Nomes de Entidades SGBD Sistema de Gest˜ao de Base de Dados SQL Structured Query Language

UMLS Unified Medical Languages System WSD Word Sense Disambuiguation XML Extensible Markup Language

(19)

Cap´ıtulo 1

Introdu¸

c˜

ao

1.1 Enquadramento

Nos últimos anos tem-se verificado um aumento acelerado de conteúdos em formato digi-tal, seja na Internet (blogs, wikis, redes sociais, etc.), seja a n´ıvel institucional ou empresarial. Este aumento deve-se, em parte, aos progressos obtidos nas tecnologias de recolha e arma-zenamento dessa informa¸cão. Estima-se que o volume global de dados cresce 59% por ano e grande parte destes dados (mais de 90%) está apenas dispon´ıvel de forma não-estruturada [3], limitando o acesso a informa¸cão útil. Muitas vezes, a existência de excesso de informa¸cão pode tornar-se prejudicial na medida em que pode levar o utilizador a ignorar conteúdos relevantes. Apesar da evolu¸cão verificada nos motores de busca de informa¸cão (e.g., Google e BING) e da utiliza¸cão de metodologias avan¸cadas para a extra¸cão e recolha de conteúdos orienta-dos ao utilizador, a sua aplica¸cão em áreas espec´ıficas está ainda longe de ser plenamente concretizada. A biomedicina é uma destas áreas, exigindo a aplica¸cão de algoritmos próprios para o reconhecimento de nomes de entidades e das rela¸cões entre si. Se consideramos que a MEDLINE, a maior base de dados de cita¸cões de artigos biomédicos, contém aproxima-damente 22 milhões de cita¸cões [4], com milhares de novos documentos a serem adicionados constantemente, torna-se complicada a gestão desse excesso de informa¸cão, ainda mais se tomarmos em considera¸cão que desses documentos, novos termos1 (genes, prote´ına, drogas, componentes qu´ımicos) são constantemente criados. Por isso, a extra¸cão e descoberta de conhecimento escondido em textos é uma área de estudo cada vez maior.

O número de artigos (cient´ıficos, técnicos e revistas médicas) publicados anualmente atingem números superiores a 1 milhão, sendo que 40% desses artigos são de natureza biomédica [6]. Isto faz com que os cientistas tenham que despender a maior parte do seu tempo de trabalho diário a ler artigos e revistas cientificas, situa¸cão que tem consequência direta na obten¸cão de resultados e que, por vezes, podiam ser melhores se a informa¸cão útil estivesse dispon´ıvel de uma forma simples e de fácil acesso. Para combater esse problema de excesso de informa¸cão, tem surgido, constantemente, novas áreas de investiga¸cão com objetivo de apoiar o Homem a tirar maior proveito do elevado fluxo de informa¸cão, por ele mesmo criado. Estas áreas têm a particularidade de tratarem dados “não estruturados”, que, devido a sua natureza não previs´ıvel e heterogénea, dificultam a tarefa de gestão da informa¸cão.

(20)

Base de dados biológicas, vocabulários controlados e bio-ontologias codificam apenas pe-quenas quantidades de informa¸cão [5], sendo incapazes de dar resposta a esse “dilúvio” de informa¸cão. Nesse sentido, torna-se necessário o uso de técnicas de descoberta automática de fatos e acontecimentos extremamente importantes para a obten¸cão de conhecimentos em ciências biomédicas. Uma dessas técnicas é precisamente a minera¸cão de texto.

O foco de minera¸cão de texto é a análise de grandes quantidades de informa¸cão não estruturada de forma a descobrir padrões para posteriormente poder-se extrair informa¸cão ´

util. Os investigadores têm focado na automa¸cão desse processo tirando proveito dos diferentes processos anal´ıticos, como por exemplo o Processamento da Linguagem Natural (PLN) ou Reconhecimento de Nomes de Entidades (RNE). No contexto biomédico, a descoberta de rela¸cões entre conceitos pode ser muito útil, uma vez que, poderá ajudar os cientistas a responder, de forma relativamente rápida, a questões do tipo Que genes/prote´ınas estão

envolvidos numa determinada doen¸ca?.

1.2 Objetivos

No dom´ınio biomédico, a integra¸cão e transferência de informa¸cão de fontes textuais para fontes de conhecimento tem sido um trabalho cont´ınuo e requer muito esfor¸co. O reconheci-mento de tipos semânticos tem sido, até então, mais focado em entidades como prote´ınas e genes, negligenciando, de certa forma, outros tipos semânticos como doen¸cas, drogas, e outros, embora tenham, também, um papel importante nessa área de estudo [7]. Diversas solu¸cões têm sido propostas para identificar nomes de entidades na literatura cient´ıfica, e ao passo que a correspondência de terminologias com padrões de linguagem sofre de baixo desempenho, outras solu¸cões fazem uso de recursos morfo-sintáticos de forma a conseguir abranger todo o ˆ

ambito de variabilidade terminol´ogica da melhor maneira poss´ıvel.

O reconhecimento de doen¸cas na literatura é um assunto de extrema importância na identifica¸cão de causas conhecidas e hipotéticas de doen¸cas. E é com esse propósito que pretendemos desenvolver um sistema capaz de reconhecer nomes de entidades biomédicas e coocorrência de termos em textos biomédicos. Este objetivo será atingido através da uti-liza¸cão de um conjunto de base de dados (e.g., UMLS e LexEBI) do dom´ınio, requerendo-se a aplica¸cão de técnicas para estabelecer uma correspondência entre conceitos contidos nas bases de dados e os encontrados nos textos, tendo sempre em aten¸cão para os casos de termos dúbios. No final, queremos um sistema capaz de lidar com consultas abrangentes ou asso-ciativas, tendo em aten¸cão que será necessário desenvolver uma solu¸cão para resolver casos amb´ıguos, escolhendo apenas uma entidade para um trecho de texto. O sistema deverá ser capaz de, a partir de um determinado termo, indicar os termos que mais coocorrem com o termo indicado, a fim de sermos capazes de chegar aos diferentes tipos de resultados como por exemplo:

• Que doen¸cas est˜ao relacionadas com um determinado componente qu´ımico?

(21)

No entanto, dada a complexidade do dom´ınio biomédico, esta correspondência nem sempre é direta, e por isso, o desenvolvimento do sistema passará por diversas fases, que passamos a mencionar:

• Tratamento e indexa¸cão de resumos de artigos da MedLine e BioMed Central (BMC), editora, de acesso aberto, de artigos cient´ıficos nas áreas de biologia e medicina. A indexa¸cão será baseada em dicionários de conceitos de forma a filtrar informa¸cão rele-vante;

• Cálculo de coocorrência dos termos e a sua pontua¸cão tendo por base diversas medidas de associa¸cão entre palavras;

• Web Service que disponibiliza informa¸c˜oes de coocorrˆencia entre termos e os termos mais associados a um determinado termo;

• Aplica¸cão de técnicas de desambigua¸cão para resolver problemas de termos amb´ıguos.

1.3 Estrutura da Tese

O conteúdo desta disserta¸cão está organizado da seguinte maneira:

• No cap´ıtulo 2 é apresentado um estudo sobre algumas técnicas de minera¸cão de texto, onde se faz uma análise comparativa e cr´ıtica dos métodos para o que se propõe fazer, bem como projetos, ferramentas e software que fornecem funcionalidades similares nesta ´

area.

• No cap´ıtulo 3 fazemos uma análise de requisitos, estabelecendo um conjunto de obje-tivos gerais que o sistema deve cumprir, identificando as funcionalidades necessárias a desenvolver, de uma forma detalhada. Identificamos também as tecnologias e estratégias utilizadas justificando a escolha das mesmas.

• O quarto cap´ıtulo centra-se no processo de desenvolvimento da aplica¸cão. São descritos todos os passos da implementa¸cão do sistema, procedimentos e a estratégia adotada para a implementa¸cão do mesmo.

• No quinto cap´ıtulo s˜ao apresentados alguns resultados obtidos, podendo-se da´ı fazer um balan¸co de todo o trabalho desenvolvido.

• Por fim, o sexto cap´ıtulo é dedicado às conclusões, bem como propostas futuras que poderão ser efetuadas neste sistema apresentado.

(22)

(23)

Cap´ıtulo 2

Estado da Arte

A descoberta de associa¸cões entre conceitos biomédicos tem sido um dos principais obje-tivos de minera¸cão de textos biomédicos e conseguir identificar conceitos nesses textos é de total relevância no processo de investiga¸cão. A possibilidade de poder-se obter informa¸cão ´

util de forma rápida tem despertado interesse entre os pesquisadores e analistas que têm que confrontar com problema de excesso de material para lidar. Neste cap´ıtulo apresentamos uma análise de alguns sistemas e ferramentas que permitem descobrir associa¸cões entre conceitos, fazendo referência a alguns métodos de minera¸cão de texto.

2.1 Minera¸

c˜

ao de Texto

Este processo refere-se a descoberta, por computador, de informa¸cão de qualidade ao ex-trair automaticamente as informa¸cões a partir de texto em linguagens naturais (dados não estruturados). Minera¸cão de texto é uma forma de descobrir informa¸cões ainda desconhecidas colocando de parte as informa¸cões não relevantes. O elemento chave é encontrar rela¸cões entre as informa¸cões extra´ıdas para formar novos fatos ou novas hipóteses a serem exploradas [8]. Trata-se de um processo diferente daquilo que estamos familiarizados com a pesquisa na web, uma vez que na pesquisa, o utilizador, geralmente, procura por algo que já é conhecido e foi escrito por outra pessoa. Para os menos entendidos na matéria, pode parecer que o Google e outros os motores de pesquisa Web fazem algo semelhante, pois também trabalham sobre resmas de documentos em fra¸cão de segundo. Mas, na verdade, os motores de pesquisa são apenas “recuperadores de informa¸cão”, que apresentam listas de documentos que contenham certas palavras-chave. Sistemas de minera¸cão de texto vão mais longe ainda. Categorizam as informa¸cões, estabelecem rela¸cões entre documentos e fornecem mapas visuais que transpor-tam os utilizadores para um n´ıvel de conhecimento que ainda não tinham experimentado.

A minera¸cão de texto comporta uma série de passos (Figura. 2.1) em nada triviais. Os diversos estágios desse processo come¸ca com a prepara¸cão de dados a serem tratados, usando para esse propósito técnicas de processamento de linguagem natural. A Recupera¸cão da In-forma¸cão (RI), uma sub-tarefa do processo de indexa¸cão, visa recuperar e filtrar informa¸cão, meta-dados e documentos úteis, a partir de grandes volumes de dados. A indexa¸cão é res-ponsável pela cria¸cão de estruturas de ´ındices que permitem a recupera¸cão, rápida, dos docu-mentos e de seus padrões. Antes dessa etapa não existe nenhuma maneira de realizar buscas dentro da cole¸cão de documentos.

(24)

O passo seguinte é a Extra¸cão de Informa¸cão (EI) (fatos e eventos interessantes ao utili-zador), localizando conceitos relevantes, normalmente, devolvendo apenas o que procuramos. Todas essas fases envolvem muitos componentes (conversores, analisadores etc.), recursos (ontologias, dicionários, terminologias) e combina¸cões de componentes e recursos para dife-rentes aplica¸cões. Após a indexa¸cão inicia-se a etapa de processamento com aplica¸cão de algoritmos de minera¸cão com a busca efetiva de conhecimentos novos. O algoritmo escolhido para minera¸cão vai depender do objetivo da aplica¸cão e pode está ligado às várias áreas do conhecimento como, por exemplo, Aprendizagem Máquina (AM), Redes Neurais, Estat´ıstica e tecnologias de Bases de Dados. O uso de processamento de linguagem natural para a rea-liza¸cão de pequenas sub-tarefas em análise de texto tem ajudado nesse processo de extra¸cão de informa¸cão em textos, no entanto é sempre dif´ıcil reconhecer, de entre muitas rela¸cões, quais são as que verdadeiramente interessam. A solu¸cão passa por olhar para a coocorrência de palavras em artigos a fim de prever intera¸cões entre conceitos. Ou seja, a estratégia passa por procurar artigos que mencionam nomes individuais, e depois olhar para outros artigos que contêm os mesmos conjuntos de palavras, em vez de procurar pares diretamente.

Pré

Processamento Indexação Mineração Análise

Text Mining Pesso as

Preparação do s dado s

Proce ssam ento de Linguage m Natural (PLN) Objetivo : acesso rápido na busca Recuperação de Informação (RI) Cálculo s Inferências Extração de Co nhecimento Mineração de Dados (MD) Análise humana Navegação

Leit ura e Interpretação de dados

Figura 2.1: Etapas de um processo de minera¸c˜ao de texto

Durante o processo de minera¸cão de texto, o utilizador interage com um conjunto de do-cumentos textuais, através de ferramentas anal´ıticas, que implica o pré-processamento dos conjuntos de documentos, o armazenamento das representa¸cões intermédias, as técnicas para analisar essas representa¸cões intermédias, e a visualiza¸cão dos resultados. Devido a natureza dos dados, é fundamental uma fase de pré-processamento lingu´ıstico na aplica¸cão de uma me-todologia de minera¸cão de texto e obriga a que as aplica¸cões lidem com uma maior diversidade de formatos, tendo em conta a natureza não estruturada ou semi-estruturada do objeto de investiga¸cão. Note que é importante diferenciar minera¸cão de texto e RI, isto porque muitas vezes a minera¸cão de texto é referenciada como uma forma de tornar mais fácil a pesquisa de informa¸cões na web, mas na verdade esse processo pertence a RI que consiste no processo de encontrar informa¸cão que já é conhecida e está inserida num documento [9]. O objetivo de RI é ajudar os utilizadores a encontrar os documentos que satisfa¸cam as suas necessidades de informa¸cão. O problema não é que a informa¸cão desejada não seja conhecida, mas sim que a informa¸cão desejada coexista com muitas outras pe¸cas de informa¸cões válidas.

(25)

A etapa que se segue é a minera¸cão de dados [10] que tenta encontrar padrões inter-essantes e consistentes de grandes base de dados, incluindo tecnologias de base de dados, Inteligência Artificial (IA), Aprendizagem Máquina, Redes Neurais, estat´ıstica, entre outros. Minera¸cão de texto e minera¸cão de dados diferenciam-se num elemento essencial: o tipo de dados analisado. Os processos e metodologias de minera¸cão de dados aplicam-se a dados estruturados, isto é, dados de natureza numérica, quantificável, repetitiva e previs´ıvel. A abordagem principal é comparar as distribui¸cões de categoria atribu´ıdas a sub-grupos da cole¸cão de documentos. Esse processo é muitas vezes confundidos com o termo Knowledge Discovery in Databases (KDD), que na verdade é um processo bastante mais amplo [11].

2.1.1 T´ecnicas de minera¸c˜ao

Já vimos que a minera¸cão de texto é o processo de obter informa¸cão de alta qualidade a partir de documentos textuais. Estas informa¸cões são normalmente obtidas através de técnicas de mapeamento entre termos e fontes de dados, tais como a aprendizagem de padrões estat´ısticos. Minera¸cão de dados geralmente envolve o processo de estrutura¸cão de texto de entrada, derivando padrões nos dados não-estruturados e, no fim, avalia e interpreta os resul-tados. Para isso são necessárias algumas técnicas, e as tarefas t´ıpicas incluem categoriza¸cão e agrupamento de texto (clustering), extra¸cão de conceitos e entidades, o resumo do documento e modela¸cão da rela¸cão de entidades, ou seja, identificar as rela¸cões entre nomes de entidades. Técnica de associa¸cão

A extra¸cão de associa¸cão é uma técnica de minera¸cão de dados bastante utilizada na minera¸cão de texto, com o objetivo de descobrir as associa¸cões existentes entre termos e ca-tegorias de documentos. Representam padrões onde a ocorrência de eventos num conjunto é alta. Podemos dizer que é a probabilidade de que um conjunto de itens apare¸ca numa transa¸cão, dado que outro conjunto esteja presente. Ou seja, é uma técnica que gera regras do tipo “Se X então Y” (X ⇒ Y ) onde X e Y são conjuntos de itens que coocorrem.

O objetivo das regras de Associa¸cão, é encontrar todos os conjuntos de itens que fre-quentemente ocorrem de forma conjunta na base de dados e formar regras a partir destes conjuntos. Utilizam algoritmos espec´ıficos, destacando-se o algoritmo APriori [12], utilizado para encontrar associa¸cões relevantes entre itens de dados, através de pesquisas recursivas. Cada regra da forma X ⇒ Y possui dois atributos (suporte e confian¸ca) que determinam sua validade no conjunto de dados e também limitam a quantidade de regras extra´ıdas. Estes atributos possibilitam o descarte das regras tidas como de pouco interesse, já que são menos frequentes e confiáveis.

Sumariza¸c˜ao

O processo de sumariza¸cão consiste na sele¸cão de informa¸cões mais importantes do texto, tornando a descri¸cão mais compacta, mas mantendo a mesma informa¸cão. A sumariza¸cão tem por objetivo produzir uma lista de frases do documento de origem resumindo o conteúdo deste documento, reduzindo o seu volume, mas mantendo a mesma informa¸cão. As representa¸cões dos textos são analisadas para encontrar similaridades e diferen¸cas de informa¸cões. O que quer dizer que, para combinar as informa¸cões extra´ıdas de artigos diferentes, são aplicados

(26)

operadores semânticos para exprimir contradi¸cão, adi¸cão, concordância, falta de informa¸cão, etc. Tais operadores também decidem que informa¸cões incluir no resumo final, com base em determinados graus de importância, de acordo com critérios tais como: informa¸cões que aparecem em mais artigos tem maior grau de importância. Por essa razão, é uma técnica muito utilizada na minera¸cão de texto com o fim de identificar palavras ou frases mais importantes dos documentos.

Categoriza¸c˜ao

A categoriza¸cão de texto é a tarefa de associar categorias pré-definidas a texto e pode ser aplicada em diversos contextos, desde indexa¸cão de documentos com vocabulário controlado, filtragem documental, gera¸cão automática de metadados, desambigua¸cão semântica, catálogos hierárquicos de recursos Web e qualquer tipo de aplica¸cão que requeira organiza¸cão documen-tal ou sele¸cão e adapta¸cão de documentos. Podemos fazer uma analogia entre essa técnica e o trabalho de um bibliotecário que categoriza os livros de uma biblioteca. A identifica¸cão de tópicos principais e a sua associa¸cão é baseada em algoritmos predefinidos que analisam todos os exemplos de documentos e armazenam as regras que aprende numa Base de Conhe-cimento. Os documentos a serem classificados passam por um “classificador” baseado nas regras previamente inseridas, que estabelece que classe cada documento pertence. O objetivo principal da categoriza¸cão de texto é encontrar o tema central, permitindo que o acesso a um assunto espec´ıfico seja facilitado.

Clustering

A técnica de clustering (agrupamento ou generaliza¸cão) procura separar automaticamente elementos em classes que serão identificadas durante o processo. Geralmente, esta técnica vem associada com alguma técnica de descri¸cão de conceitos, para identificar os atributos de cada classe. Clustering auxilia o processo de descoberta de conhecimento, facilitando a identifica¸cão de padrões (caracter´ısticas comuns dos elementos) nas classes, pois os textos são agrupados seguindo uma métrica que mede a similaridade entre eles. É uma técnica impor-tante na minera¸cão de texto porque os termos adjacentes ou rela¸cões entre termos têm valor descritivo suficiente para que se possa inferir uma hierarquia de conceitos relacionados entre termos. Diferentemente da classifica¸cão onde os dados de teste estão devidamente classifica-dos e as etiquetas das classes são conhecidas, a análise de clusters trabalha sobre dados onde as etiquetas das classes não estão definidas. Para identificar o n´ıvel de similaridade entre os elementos de um cluster e encontrar um elemento que esteja fora do mesmo é utilizado o critério de similaridade entre os elementos. Segundo Carlos Dias [13] um critério importante para identificar a similaridade entre os elementos é através da distância dos mesmos, onde quanto mais perto um elemento estiver do outro, mais similares eles são.

K-means é o exemplo de uma técnica de clusteriza¸cão que utiliza o critério de distância entre elementos. Consiste na escolha, aleatória, dos elementos que representam cada cluster, e após a escolha dos elementos representativos de cada um, são identificados os elementos com propriedades semelhantes e se estiverem longe dos seus respetivos elementos similares, são movidos para próximo agrupamento.

(27)

2.1.2 M´etodos de identifica¸c˜ao de terminologias em textos cient´ıficos

Existem diversos métodos que permitem fazer o mapeamento entre termos e fontes de dados que vão desde os mais simples, como por exemplo, o método do dicionário e métodos estat´ısticos até aos mais sofisticados como a Aprendizagem Máquinas e Processamento de Linguagem Natural. PLN reúne a ciência computacional e a lingu´ıstica com vista a com-preender as intera¸cões entre linguagens naturais e computacionais. As técnicas associadas ao PLN ajudam a melhorar e promover a RI e outras disciplinas relacionadas.

O método de dicionário realiza uma correspondência entre os termos existentes no di-cionário controlado de palavras e os termos encontrados em texto. No entanto, não se trata de um método muito robusto, principalmente, nos casos em que existe uma grande varia-bilidade de termos que não foram previsto inicialmente. A indexa¸cão de termos usando o método do dicionário tem uma propriedade notável: apenas os termos que existem no di-cionário podem ser indexados, quando presentes na literatura. Tal caracter´ıstica pode ser vista, por um lado, como uma vantagem na medida que elevadas taxas de corre¸cão de erros podem ser conseguidas, tendo em conta que palavras candidatas que não fazem sentido para a indexa¸cão nunca serão consideradas. Por outro lado, pode ser vista como uma desvantagem no caso de utiliza¸cão de dicionários incompletos. Dicionários que não incluem todos os termos relevantes para o estudo podem fazer com que palavras válidas sejam injustamente descarta-das comprometendo o sucesso nos resultados. Na prática, o método do dicionário é favorável quando o dom´ınio da tarefa requer um pequeno vocabulário ou quando o vocabulário de ter-mos válidos são completamente conhecidos. A precisão deste método pode ser afetada pela ambiguidade [14] dos termos, no entanto já foram propostas algumas técnicas para resolver esse problema [15].

O método estat´ıstico, por sua vez, é baseado na teoria da informa¸cão e o léxico é proces-sado para obter propriedades de todos os itens, tais como frequência de palavras individuais no conjunto terminológico. Ao processar o texto, vários parâmetros são medidos em deter-minadas zonas do texto, que pode ser uma frase, um parágrafo ou todo o documento. Os métodos estat´ısticos visam tornar o processo de investiga¸cão o mais eficiente e produtivo poss´ıvel, tendo como principal vantagem permitir a sua utiliza¸cão em qualquer idioma, e por isso, muitas vezes, compreende a manipula¸cão de dados amb´ıguos para resolu¸cão de proble-mas que não foram definidos inicialmente.

Os métodos podem ser utilizados individualmente ou em simultâneo. Jimeno et al [7], propuseram o uso de três abordagens (método do dicionário, estat´ıstico e MetaMap [16]) que dependem de diferentes tecnologias subjacentes, como forma de obter melhores resultados. MetaMap é um servi¸co web que extrai conceitos Metathesaurus do texto e usa uma abordagem de conhecimento intensivo, baseado em processamento de linguagem natural e técnicas de lingu´ısticas computacionais. A entrada de MetaMap pode ser um texto de comprimento variável e a sua sa´ıda é uma lista ordenada de conceitos Metathesaurus associados a cada bocado de texto.

(28)

2.1.3 Terminologias

UMLS, ou Unified Medical Language System [17], é um repositório que integra várias ter-minologias1 biomédicas e de saúde, desenvolvidos pela National Library of Medicine (NLM), com o objetivo de superar duas barreiras significativas na recupera¸cão de informa¸cão: (i ) a variedade de nomes utilizados para expressar o mesmo conceito e (ii ) a ausência de um formato padrão para a distribui¸cão de terminologias. NLM produz e distribui as fontes de conhecimento UMLS para que se possam construir ou melhorar sistemas de informa¸cão para criar, processar, recuperar, integrar e ou pesquisar dados biomédicos.

O UMLS compreende diferentes vocabulários controlados e padrões, que fornecem rela¸cões entre diferentes conceitos agrupados por tipos semânticos e organizados segundo uma estru-tura hierárquica para permitir a interoperabilidade entre sistemas de computador. Inclui mais de 100 terminologias médicas controladas e sistemas de classifica¸cão codificados com diferentes estruturas semânticas e sintáticas. Uma das caracter´ısticas mais poderosas da UMLS é a sua capacidade de ligar termos médicos, nomes de remédios e informa¸cões de saúde através de diferentes sistemas de computa¸cão.

As três principais fontes de conhecimento de UMLS são o Metathesaurus, Rede Semântica e recursos lexicais especializados. O Metathesaurus, componente principal e base de todo o projeto, é o repositório que contém informa¸cões sobre conceitos biomédicos e de saúde, as rela¸cões entre os conceitos e termos sinónimos que estão associados com os conceitos [18]. O Metathesaurus organiza o conhecimento baseado em conceitos. Um conceito é definido como o “significado” de um termo, e é expresso por ter atributos espec´ıficos que o define. Um conceito contém uma defini¸cão do conceito, conceitos relacionados, as rela¸cões com outros conceitos e tipos semânticos definidos a partir da rede semântica. Os termos sinónimos são agrupados em conjunto para formar um conceito, e conceitos estão inter-ligados, uns aos ou-tros, através de vários tipos de rela¸cões. Por incluir conteúdos de vocabulários produzidos por detentores de direitos de autor, bem como o conteúdo produzido pela NLM, o Metathesau-rus em si carece de um contrato de licen¸ca, no entanto a UMLS está dispon´ıvel gratuitamente. A Rede Semântica contém informa¸cões sobre o tipo semântico de um conceito Metathe-saurus e sua rela¸cão com outros tipos semânticos. Um tipo semântico é um aglomerado de palavras que estão significativamente relacionados de alguma forma. Um conceito pode ter mais de um tipo semântico. Exemplos de tipos semânticos incluem: organismo, as estruturas anatómicas, a fun¸cão biológica, produtos qu´ımicos, etc, e contam, atualmente, com cerca de 135 tipos semânticos relacionados por 54 rela¸cões semânticas. Por sua vez, os recursos lexicais incluem léxicos especializados de uma base de dados de informa¸cão lexicográfica para uso em PLN.

Esta base de dados contém critérios para a categoriza¸cão dos conceitos no Metathesaurus que abrange a defini¸cão de categorias da rede semântica, como organizador dos termos indivi-duais e conceitos no Metathesaurus. Um termo pode ser constitu´ıdo por mais de uma palavra. Existe uma entrada lexical para cada ortografia ou varia¸cão ortográfica e cada entrada pode ter mais de um conceito UMLS.

(29)

O UMLS Metathesaurus contém uma base de dados de vocabulário biomédicos e concei-tos de saúde relacionados provenientes de mais de 100 fontes de conhecimentos diferentes que foram semi-automaticamente integradas numa única fonte. Os conceitos associados com palavras e termos são enumerados através de identificadores exclusivos (Concept Unique Iden-tifiers - CUI). Por exemplo, os dois sentidos poss´ıveis para o termo Cold são C0009264 cujo termo preferido corresponde a baixas temperaturas e C0009443 que tem a constipa¸cão como o termo preferido. O termo preferido é o termo atribu´ıdo ao CUI para fins descritivos.

UMLS integra terminologias como a taxonomia2NCBI (National Center for Biotechnology Information), utilizado para a identifica¸cão de organismos, e Gene Ontology (GO) utilizado para anota¸cão de genes através de diferentes modelos de organismos. Além dos dados, o UMLS também consiste de ferramentas, como programas ou servi¸cos web. MetamorphoSys [17] ajuda os utilizadores a personalizar o Metathesaurus para as suas aplica¸cões através de, por exemplo, sele¸cão de conceitos de um determinado subdom´ınio. No cap´ıtulo “Análise de requisitos” iremos abordar com detalhes a cria¸cão do subconjunto de UMLS direcionado para as doen¸cas neurodegenerativas, e explicaremos como iremos utilizar esse recurso.

2.1.4 Aprendizagem M´aquina

A Aprendizagem Máquina é um ramo da IA dedicado ao desenvolvimento de algoritmos e técnicas que permitam ao computador aprender, ou seja, que permitem ao computador aper-fei¸coar seu desempenho em algumas tarefa, baseados em dados emp´ıricos. Normalmente, AM refere-se às mudan¸cas nos sistemas que executam tarefas associadas com IA. Essas tarefas envolvem reconhecimento, diagnóstico, planeamento, previsão, etc. Segundo Nilsson [19], a máquina aprende sempre que muda a sua estrutura, programa ou dados (com base nas suas entradas ou em resposta a informa¸cões externas), de tal forma que seu desempenho futuro melhore automaticamente mediante experiência.

Existem várias razões pelas quais Aprendizagem Máquina é importante, como por exemplo ajustar a sua estrutura interna para produzir sa´ıdas corretas para um grande número de entradas, ou extrair rela¸cões e correla¸cões importantes, escondidas entre grandes volumes de dados. Outro aspeto relevante é que a quantidade de conhecimento dispon´ıvel sobre determinadas tarefas tende a ser cada vez maior, dificultando a sua codifica¸cão expl´ıcita por seres humanos. Existe um fluxo constante de novos eventos no mundo e torna-se impraticável ajustar os sistemas para adaptar ao novo conhecimento sempre que isso se justifique. Assim, os métodos de AM podem ser capazes de aprender gradualmente este conhecimento de forma a dar uma resposta mais eficiente ao problema, que de outra forma os humanos não conseguiriam dar. Já existem muitas aplica¸cões bem sucedidas nesse dom´ınio, das quais a mais significativa é a minera¸cão de texto. Outras aplica¸cões incluem sistemas que analisam os dados de vendas passadas para prever o comportamento do cliente, otimiza¸cão de comportamento do robô para que uma tarefa possa ser conclu´ıda com recursos m´ınimos, e extra¸cão de conhecimento a partir de dados bioinformáticos.

(30)

Algoritmos de Aprendizagem M´aquina

As pessoas são frequentemente propensas a cometer erros durante a análise ou, possivel-mente, ao tentar estabelecer rela¸cões entre várias caracter´ısticas, o que torna dif´ıcil encontrar solu¸cões para determinados problemas. Algoritmos Aprendizagem Máquina podem ser apli-cados com sucesso para estes problemas, melhorando a eficiência dos sistemas. Atualmente, esses algoritmos são usados em muitos dom´ınios; cada um com métricas de desempenho di-ferentes. Por exemplo Precision/Recall são usadas na recupera¸cão de informa¸cão, enquanto Lift [20] é apropriado para algumas tarefas de marketing. As diferentes métricas de desem-penho medem diferentes tradeoffs nas previsões feitas por um classificador, e é poss´ıvel que os métodos de aprendizagem automática tenham um bom desempenho numa métrica, mas noutras métricas não. Os algoritmos de aprendizagem automática podem ser organizados de acordo com o resultado desejado do algoritmo.

Aprendizagem supervisionada

Nesta categoria a classifica¸cão é vista como aprendizagem supervisionada a partir de exem-plos, isto é, os dados (observa¸cões, medidas, etc) são classificados com classes pré-definidas. A aprendizagem supervisionada gera uma fun¸cão que mapeia entradas e sa´ıdas desejadas (também chamado de rotulagem, porque são frequentemente fornecidas por especialistas hu-manos que anotam os dados de teste). Aprendizagem supervisionada pode ser estudada do ponto de vista probabil´ıstico. O Classificador Naive Bayes [21] (Naive Bayes classifier ) considera-se como parte dos classificadores probabil´ısticos e identifica o conceito adequado de uma instância através do cálculo da probabilidade de cada um dos poss´ıveis conceitos, tendo em conta o contexto em que é utilizado. É um classificador probabil´ıstico simples baseado na aplica¸cão de teorema de Bayes, com fortes premissas de independência.

A aplica¸cão de algoritmos de aprendizagem supervisionada consiste em diversos passos, sendo o primeiro a recolha de conjunto dados de teste. Para essa tarefa o método mais simples é o de “for¸ca bruta”, cujo objetivo é analisar tudo que estiver dispon´ıvel na esperan¸ca de que recursos corretos possam ser isolados. No entanto, um conjunto de dados obtidos pelo método de “for¸ca bruta”não é adequado para indu¸cão. Ele contém, na maioria dos casos, ru´ıdo e falta de valores de recursos e, portanto, requere pré-processamento significativo.

Aprendizagem n˜ao supervisionada (clustering )

Na aprendizagem não supervisionada as classes de classifica¸cão dos dados são desconhe-cidas, e por isso a tarefa passa por estabelecer a existência de classes ou clusters (agrupa-mentos) nos dados, tendo em conta um conjunto de dados. Os algoritmos não supervisionado simplesmente recebem dados de entradas, mas não obtêm nem sa´ıdas supervisionadas, nem recompensas de seu ambiente. Pode parecer um pouco estranho imaginar o que a máquina poderia aprender uma vez que não recebe qualquer feedback de seu ambiente. No entanto, é poss´ıvel desenvolver framework de aprendizagem não supervisionada baseada na ideia de que o objetivo da máquina é a constru¸cão de representa¸cões de entrada que podem ser utili-zadas para a tomada de decisão, prevendo entradas futuras, de forma eficiente comunicando as entradas para outra máquina. Em certo sentido, a aprendizagem não supervisionada pode ser pensada como uma forma de encontrar padrões nos dados, e dois exemplos clássicos de aprendizagem não supervisionada muito simples são clustering e redu¸cão de dimensionalidade.

(31)

Aprendizagem de Refor¸co

Na aprendizagem por refor¸co a máquina interage com seu ambiente de forma a aprender como agir dada uma observa¸cão do mundo. Toda a¸cão tem algum impacto no ambiente, e o ambiente fornece feedback na forma de recompensas (ou puni¸cões) que orienta o algoritmo de aprendizagem. O objetivo da máquina é aprender a agir de uma maneira que maximize as recompensas futuras que receberá (ou minimizar as puni¸cões) durante o seu tempo de vida [22]. Aprendizagem por Refor¸co está intimamente relacionado com os campos da teoria da decisão (em estat´ıstica e gestão de ciência), e teoria de controlo (em engenharia). Os problemas fundamentais estudados nestes campos são muitas vezes formalmente equivalente, e as solu¸cões são a mesma, embora os diferentes aspetos do problema e solu¸cão são geralmente enfatizado.

2.2 Desambigua¸

c˜

ao de sentido de palavras

Algumas palavras têm múltiplos sentidos e na comunica¸cão humana a determina¸cão do sentido correto de uma palavra num texto ou conversa¸cão é uma tarefa constante e trivial que raramente causa problemas. Já para o computador, esse problema torna-se numa enor-me dificuldade, ainda que as palavras sejam óbvias para um humano. Essa dificuldade por parte do computador deve-se ao facto das máquinas interpretarem texto como um conjunto de palavras sem qualquer significado e/ou valor. Assim, para conseguir a compreensão e in-terpreta¸cão adequada do informa¸cão é essencial analisar com detalhe cada palavra de forma a obter o sentido apropriado. É por este motivo que a desambigua¸cão de sentido de palavra, cujo tarefa é identificar de forma automática o correto sentido (ou conceito) de uma palavra amb´ıgua, assume um papel de relevo dentro do PLN.

Recupera¸cão de Informa¸cão é a tarefa de indexa¸cão e busca de dados, e nesse processo, os documentos precisam ser devidamente indexados com base no conceito das palavras nos documentos, em vez da própria palavra, de forma que documentos apropriados sejam retor-nados. A tarefa de mapeamento de conceitos é feita através do mapeamento de palavras nos documentos ao seu conceito adequado na base de dados. Por isso, e a fim de fazer isso com precisão, o conceito adequado deve ser identificado.

Algum trabalho tem sido feito, especificamente utilizando a informa¸cão biomédica para desambiguar palavras em artigos biomédicos. Mcinnes propôs, na sua tese de doutoramento [23], dois métodos que calculam a probabilidade de uma palavra estar no mesmo contexto da palavra-alvo de forma a determinar o conceito adequado. A probabilidade é obtida através da contagem do número de vezes que uma palavra ocorre com a palavra-alvo no mesmo trecho de texto. Aplicar estes métodos ao texto biomédico requer apenas um texto de referência na ´

area biomédica para determinar a probabilidade de termos biomédicos ocorrerem com outros termos biomédicos.

Como referimos em 2.1.3, UMLS é uma estrutura que integra conceitos de fontes bio-médicas e cl´ınicas numa única base de dados contendo informa¸cões sintáticas e semânticas sobre esses conceitos. No UMLS, os conceitos associados as palavras e termos são enume-rados através de identificadores exclusivos denominados Concept Unique Identifiers(CUI), e dois métodos foram desenvolvidos com base nesses identificadores para resolver o problema

(32)

de termos amb´ıguos, tendo a particular vantagem de poder ser utilizado em qualquer texto biomédico [23]. Um dos métodos utiliza o CUI como recurso para um método de apren-dizagem supervisionada para eliminar a ambiguidade, enquanto que o outro, baseado em conhecimento, faz uso da informa¸cão UMLS para representar o contexto de poss´ıveis sentidos de uma palavra. No UMLS esses identificadores são mapeados considerando os termos, em vez de palavras individuais. A elimina¸cão de ambiguidades em UMLS Metathesaurus é uma preocupa¸cão nossa para este trabalho porque, independentemente do tipo, as ambiguidades devem ser resolvidas, especialmente se os conceitos UMLS, obtidos pelo algoritmos de mapea-mento, forem usado como suporte ao processamento adicional de texto de entrada, que é o que acontece no nosso caso, pois utilizamos um dicionários de termos UMLS para especificar o texto a ser indexado.

O UMLS Metathesaurus cont´em uma quantidade significativa de ambiguidade agrupadas em algumas classes [14]:

• Ambiguidade de Contexto. Surge, normalmente, a partir de termos que exigem contexto dentro do seu vocabul´ario, a fim de ser devidamente compreendido. Muitos dos problemas relacionados com ambiguidade foram corrigidos suprimindo termos errados do conceito, mas os problemas continuam a aparecer `a medida que o Metathesaurus cresce.

• Ambiguidade de Generaliza¸cão. Tal como a ambiguidade de contexto, a ambigui-dade de generaliza¸cão pertence a classe de falsa ambiguidade, e é causada por agrupa-mento de vários conceitos num conjunto, utilizando um termo mais geral.

• Ambiguidade de Abreviatura. Esta grande classe de ambiguidade é causada por situa¸cões em que diferentes conceitos têm a mesma sigla (ou abreviatura). Por exemplo, “focal glomerular sclerosis”, “focal glomerulosclerosis”, “focal segmental glomeruloscle-rosi” e “focal sclerosing glomerulonephrit” todos têm a mesma abreviatura “FSGS” ou “fsgs”. Embora essa classe represente ambiguidade verdadeira no sentido estrito, a mesma é desencorajada nas situa¸cões de processamento de elevada quantidade de texto, especialmente aqueles em que os autores definem as abreviaturas que usam.

No sistema proposto por [24] o processo de WSD é impulsionado por regras associadas aos tipos semânticos. Cada tipo semântico tem associado a si uma regra de desambigua¸cão que especifica a evidência de que suporta a sele¸cão deste tipo semântico. O princ´ıpio geral que suporta a resolu¸cão dessa ambiguidade é a no¸cão de que um determinado sentido de um termo ocorre num contexto definido. Isto é, após a sele¸cão de um tipo semântico, o conceito UMLS associado a esse tipo semântico é selecionado e todos os restantes candidatos são rejeitados. Uma caracter´ıstica importante dessa abordagem é o facto da mesma ser probabil´ıstica, ou seja, a aplica¸cão bem sucedida de uma regra a favor de um determinado tipo semântico indica que existe uma probabilidade da ambiguidade ser resolvida a favor desse tipo semântico.

2.2.1 Metodologia B´asica

No WSD, o contexto são as palavras que se encontram no lado direito e esquerdo da palavra amb´ıgua num texto. As palavras de contexto auxiliam os métodos de WSD a encontrar rela¸cões ou padrões que caraterizam o sentido de uma palavra a desambiguar.

(33)

Por se tratar de um fenómeno dif´ıcil de ser tratado é de vital importância entender como outros componentes no PLN interagem com o léxico, e a partir dessa informa¸cão tornar poss´ıvel a elimina¸cão da ambiguidade determinando a semântica das palavras num contexto. Segundo [23] os métodos utilizados na tarefa de WSD podem ser agrupados em três grandes grupos de métodos de Machine Learning:

• Métodos baseados em conhecimento • Métodos de Aprendizagem Supervisionada • Métodos Aprendizagem não Supervisionada Métodos baseados em conhecimento

Para essa disserta¸cão, esse é o método que mais nos interessa pelo facto do mesmo utilizar recursos externos, tais como, dicionários, Thesaurus ou mesmo textos sem qualquer tipo de anota¸cão, para eliminar ambiguidades de conceitos. A grande vantagem desse método em rela¸cão aos outros dois mencionados, é que não existe a necessidade de se ter dados de teste para cada palavra amb´ıgua, permitido dessa forma que o sistema possa eliminar as ambiguidades em texto “corrido”. Por outro lado, tem a desvantagem de ser um método dependente da l´ıngua e dom´ınio, pois é necessário uma fonte de conhecimento na l´ıngua e dom´ınio apropriado.

M´etodos de Aprendizagem Supervisionada

Estes métodos eliminam as ambiguidades recorrendo às informa¸cões obtidas automatica-mente a partir de um corpus manualautomatica-mente anotado. Normalautomatica-mente, têm uma fase de treino onde o algoritmo aprende a reconhecer o contexto em torno do conceito, e após o treino o modelo de WSD é gerado e pode ser usado para resolver novos casos de ambiguidades que, no entanto, apare¸cam. A principal vantagem desses métodos é o facto de que os sentidos podem ser estabelecidos, previamente, fornecendo uma anota¸cão mais adequada e refinada.

Essa caracter´ıstica faz com que os métodos supervisionados apresentem, geralmente, um melhor desempenho na precisão da elimina¸cão de ambiguidades, tanto para um pequeno grupo de palavras, como para todas as palavras do texto. No entanto, a necessidade de haver dados de teste, manualmente anotados, para cada palavra amb´ıgua constitui uma desvantagem, uma vez que se trata de um trabalho intensivo e um processo bastante demorado, aspetos que acabam, inevitavelmente, por restringir a abrangência de muitos trabalhos a poucas palavras, porque não há, ainda, corpus representativos com anota¸cões de sentido, que possam ser utilizados de forma generalista para o WSD, uma vez que o n´ıvel de refinamento de anota¸cões exigida depende da aplica¸cão e do dom´ınio [25].

M´etodos de Aprendizagem n˜ao Supervisionada

Ao contrário dos métodos supervisionados, os métodos não supervisionados identificam padrões nos conjuntos de dados sem benef´ıcio dos dados anotados, ou seja, confiam nos dados de testes não anotados. Estes padrões são utilizados para agrupar dados com caracter´ısticas similares. Ou seja, agrupam palavras tendo como referência a similaridade do contexto (cada

(34)

grupo representa um conceito), sem, no entanto, ter um conjunto pré-determinado de cate-gorias. Essa caracter´ıstica baseia-se na premissa de que palavras com significado similares tendem a ter contexto similares. Em geral, este método favorece a descrimina¸cão do sentido de palavra em vez de WSD, pois possui apenas um conjunto de dados não anotados como ´

unico recurso. Dito de outra maneira, o m´etodo procura identificar grupos de conceitos simi-lares e, na presen¸ca de uma nova palavra, verificar em que grupo ela pertence.

Dessa forma, a grande vantagem dos métodos de aprendizagem não supervisionada é o facto de não ser necessário uma grande quantidade de dados de teste, anotados manualmente, porque esse trabalho é feito usando algoritmos de clustering em vez de anotadores humanos como nos métodos supervisionados. Outro aspeto vantajoso desse método é o facto de ser independente da l´ıngua e dom´ınio de interesse. Por outro lado, são necessários dados de teste para cada palavra que é preciso desambiguar, e, em termos de precisão na desambigua¸cão de sentido de palavras, este método não consegue resultados tão bons como nos métodos supervisionados.

2.2.2 Desambigua¸c˜ao de abreviaturas

A resolu¸cão de uma abreviatura num documento consiste em obter o seu sentido para o contexto em que está a ser utilizado. Este é um aspeto muito importante a ter em considera¸cão porque o seu devido tratamento melhora a precisão dos sistemas de RI. As abreviaturas (ou siglas ou acrónimos) podem ser distinguidas como globais e locais [26], sendo que as globais aparecem nos documentos sem a indica¸cão expl´ıcita da sua forma extensa, enquanto que as locais aparecem acompanhadas da sua forma extensa. As abreviaturas globais são geralmente amb´ıguas, o que significa que têm diferentes sentidos em documentos diferentes. Em particu-lar, 80% das abreviaturas definidas no UMLS têm ocorrências amb´ıguas no Medline.

Muitos erros na identifica¸cão de nomes de entidade são explicados por varia¸cões obser-vadas nas abreviaturas globais. Por isso, a resolu¸cão de abreviaturas locais e globais para as suas formas extensa é um passo importante para a melhoria da qualidade de extra¸cão de informa¸cão e sistemas de recupera¸cão de informa¸cão, sendo que a etapa mais problemática na resolu¸cão da abreviatura é a recupera¸cão do sentido de uma abreviatura global que é amb´ıgua. A desambigua¸cão de uma abreviatura contida num documento consiste em calcular o seu contexto no documento e recuperar o sentido mais provável, dado o contexto.

Entre os trabalhos relacionados com abreviaturas, destaca-se o de Rebholz-Schuhmann et al. [26] que apresentou técnicas distintas para a resolu¸cão de abreviaturas globais e locais. Quando uma abreviatura é identificada, é realizada uma pesquisa eficiente para todas as formas poss´ıveis que corresponde a abreviatura localizada no documento. Se for encontrada uma correspondência, a sua forma mais frequente é mantida. Se nenhuma forma extensa da abreviatura puder ser recuperada a partir do documento, é realiza uma verifica¸cão no dicionário. Se apenas um sentido é encontrado, então a abreviatura não é amb´ıgua e a forma mais frequente do sentido original é mantida. Caso contrário, se vários sentidos para a mesma abreviatura forem encontrados, então é aplicado o processo de desambigua¸cão.

(35)

Para as abreviaturas locais utiliza um dicionário de abreviaturas onde se procura a sua forma extensa que ocorre com mais frequente nos textos, enquanto que no caso de abreviaturas globais amb´ıguas é utilizado um processo de WSD que consiste no uso do contexto para identificar o significado adequado da abreviatura. É um processo baseado num dicionário de alta qualidade, onde não é tomado em considera¸cão os pares abreviatura/sentido que raramente ocorrem, sem, no entanto, alterar a natureza do problema de desambigua¸cão. Os termos de contexto utilizados nessa abordagem são extra´ıdos com recurso ao uso do método “C-value” que combina aspetos lingu´ısticos e estat´ısticos dos termos [27]. De acordo com esse método, apenas as palavras que contêm termos com pontua¸cão (score) elevada são mantidas para representar um documento.

2.3 Ferramentas e sistemas de identifica¸

c˜

ao de coocorrˆ

encia

No conceito de identifica¸cão de doen¸cas, referenciam-se alguns trabalhos cujo objetivo é a identifica¸cão de rela¸cão entre doen¸cas e genes/prote´ınas. Craven [28] utiliza métodos es-tat´ısticos e AM recorrendo ao OMIM (Online Mendelian Inheritance in Man), base de dados baseada em informa¸cões geradas manualmente de artigos cient´ıficos, para induzir rotinas para extrair rela¸cões de doen¸cas de forma automática, enquanto que Chun [29] usa técnicas basea-das nos recursos UMLS identificando rela¸cões de doen¸cas e genes/prete´ınas através de uma sele¸cão aleatória de um subconjunto de registos MEDLINE. Já referimos que o método de dicionário produz grandes quantidades de falsos positivos. Por esse motivo, desenvolveram um método de Aprendizagem Máquina baseada em reconhecimento de nomes de entidades para diminuir o reconhecimento de falsas rela¸cões.

O MetaMap [16] é um programa bastante utilizado no dominio biomédico para descobrir conceitos UMLS referidos nos textos. Utiliza uma abordagem baseada no conhecimento inten-sivo, PLN e técnicas de lingu´ıstica computacional, e tanto pode ser aplicado para RI como para aplica¸cões de minera¸cão de dados. MetaMap foi originalmente desenvolvido para melhorar a recupera¸cão de texto biomédico, especificamente a recupera¸cão de cita¸cões da MEDLINE, mas a sua versão preliminar carecia de melhorias, nomeadamente ao n´ıvel da dete¸cão de texto como nomes qu´ımicos, siglas e abreviaturas, quantidades numéricas ou constru¸cões similares e resolu¸cão de ambiguidades. No entanto, o sistema conheceu alguns avan¸cos significativos como por exemplo, a dete¸cão de abreviaturas [30].

MetaMap possui uma série de pontos fortes e fracos. Entre os seus pontos fortes estão o seu rigor, caraterizado pela sua forma agressiva de gerar variantes de palavras, e sua aborda-gem baseada em princ´ıpios lingu´ısticos para análises léxica e sintática, bem como sua métrica de avalia¸cão para contar e classificar conceitos. Um dos pontos fracos do MetaMap é que pode ser aplicado, apenas, ao texto em Inglês. A sua natureza centrada no Inglês é evidente em toda a sua execu¸cão, não apenas nos seus algoritmos lexicais e sintáticos. Outra consequência negativa do Metamap é que é relativamente lento.

Para além desses trabalhos, existem diversos recursos terminológicos que estão dispon´ıveis para fornecer termos de doen¸cas. Os mais usuais são o Medical Subject Headings(MeSH) , o National Cancer Institute (NCI) thesaurus e Snomed CT . Tendo em conta a vasta inves-tiga¸cão já existente sobre a minera¸cão de texto em artigos biomédicos, é de prever que já

(36)

existam inúmeras aplica¸cões que ajudam os utilizadores a procurar rela¸cões entre conceitos. Iremos abordar alguns sistemas cujas funcionalidades são similares ao trabalho que propomos realizar.

O FACTA [31] é um motor de pesquisa que permite procurar rela¸cões entre conceitos biomédicos no resumos da MEDLINE. Este sistema recupera os conceitos biomédicos através de querys definidas pelo utilizadores e os resultados são apresentados em forma tabular, clas-sificados com base em estat´ısticas de coocorrência. Essa classifica¸cão pode também ser feita com aux´ılio de uma medida de associa¸cão [32], Mutual Information, de forma a ter-se uma percep¸cão mais clara do quanto os valores observados se desviam do valor esperado. FACTA diferencia de outros sistemas similares (XplorMed [33], MedlineR [34], LitMiner [35]) prin-cipalmente pela sua capacidade de dar resposta em tempo real apesar de aceitar consultas flex´ıveis definidas pelo utilizador. Alguns sistemas cujo tempo de resposta são elevados resol-vem esse problema limitando o número de documentos a ser analisados (no caso de XplorMed, por exemplo, o número máximo é de 500 documentos), no entanto, tal limita¸cão conduz a uma deteriora¸cão significativa dos resultados.

O problema de ambiguidade de termos é um dos maiores desafios nos sistemas de mi-nera¸cão de texto, e FACTA não é exce¸cão. Apesar de sofrer algumas atualiza¸cões [36](passou a ser designidado FACTA+) e novas funcionalidades terem sido implementadas, o problema de ambiguidade de semântica dos termos persiste. Para minimizar o problema de ambiguidade de abreviaturas/acrónimos foi utilizada um método simples baseado em regras, mas o pro-blema de ambiguidade com termos como nome de prote´ına continua por resolver. Das novas carater´ısticas, adicionadas ao FACTA, talvez a que merece maior aten¸cão é a descoberta de rela¸cões indiretas entre conceitos, através da combina¸cão de duas rela¸cões conhecidas, obtidas de estat´ısticas de coocorrência diretas. Os conceitos-alvo (conceitos que estão indiretamente associados com a consulta através de conceitos-pivô) são recuperados, considerando todos os poss´ıveis conceitos-pivô (conceitos que estão diretamente associados com a consulta) de uma determinada classe. A resposta em tempo real do FACTA deve-se ao seu mecanismo de indexa¸cão, que consiste na constru¸cão, em offline, de dois ´ındices - um para indexar as palavras que ocorrem no documento e outro para indexar conceitos mencionados no mesmo documento. Os dois ´ındices são armazenados em memória permitindo obter respostas rápidas mesmo quando o número de documentos a que corresponde a pesquisa é grande.

Tal como FACTA, o LitMiner [37] também retorna o resultado da pesquisa imediatamente, e isso deve-se ao pré-processamento de estat´ısticas de associa¸cão entre conceitos, próprio do sistema, mas não aceitam consultas flex´ıveis (por exemplo, palavras-chave livres ou com-bina¸cões booleanas de palavras-chave/conceitos), e por isso, os conceitos que podem ser es-pecificados pela consulta do utilizador são limitadas àquelas pré-definidas. Os resultados são baseados na análise de coocorrência de termos chaves presentes no abstract.

Anni [38] é uma aplica¸cão java Cliente-Servidor que fornece uma interface baseada na ontologia para a MEDLINE. Anni consegue encontrar conceitos que têm muitos conceitos intermédios em comum, permitindo ao utilizador descobrir conceitos que não coocorrem dire-tamente com o conceito de partida. Ao contrário de FACTA, o conceito de partida é definido como uma combina¸cão de conceitos predefinidos fornecidos pelo sistema, isto é, palavras-chave livres não podem ser utilizadas para definir um conceito.

(37)

Arrowsmith [39] é outra ferramenta de gera¸cão de hipóteses baseada em literatura pro-jetada para encontrar conceitos ou termos que interligam dois conceitos distintos. De modo mais geral, permite aos utilizadores identificar liga¸cões biologicamente significativas entre quaisquer dois conjuntos de artigos A e C em PubMed, mesmo quando estes não partilham artigos ou autores em comum e representam temas ou disciplinas diferentes.

A aplica¸cão web PolySearch [6] explora diversas técnicas de minera¸cão de texto e RI para reconhecer, selecionar e classificar informa¸cão. Utiliza o método do dicionário e a informa¸cão é classificada em diferentes n´ıveis do documento(abstrat, paragrafo ou frases). A sua grande vantagem é suportar uma grande variedade de queries e permitir pesquisas de diferentes ti-pos de fontes de informa¸cão. Como qualquer uma outra aplica¸cão, o PolySearch tem as suas limita¸cões, e a que mais salienta é o tempo que leva a processar os resultados, principalmente quando as consultas são complexas e exclusivas. Para as consultas mais comuns os resultados são devolvidos quase instantaneamente, isto porque todas as consultas são armazenadas em caches.

O sistema LAITOR(Literature Assistant for Identification of Terms co-Occurrences and Relationships) [40] faz a análise de coocorrência filtrando conceitos biomédicos utilizando dicionários personalizados, e está otimizado para analisar resumos de artigos cient´ıficos que contenham tags. Utilizam algumas regras simples adicionais na análise da coocorrência, como por exemplo, tomam em considera¸cão apenas os termos presentes na mesma frase do resumo. Estas regras permitem filtrar pares de entidades biomédicas que ocorrem em algumas estru-turas de frase. Tal como em outros sistemas mencionados, o LAITOR também enfrenta o problema de ambiguidades de nomes. Para lidar com o problema de ambiguidade de nomes o LAITOR utiliza uma estratégia de taxonomia de bases de dados limitando o número de entradas usadas, o que reduz a possibilidade de inclusão de nomes que podem causar ambi-guidades entre termos.

Dado que existem termos que ocorrem geralmente em mais de um organismo, ou em diferentes prote´ınas a partir do mesmo organismo que partilha o mesmo nome ou sinónimos, o LAITOR utiliza um ficheiro de tags onde os termos amb´ıguos identificados são normalizados no dicionário. Assim, termos que correspondem a múltiplas prote´ınas, por exemplo, são marcados no resultado, alertando os utilizadores para a possibilidade de serem termos dúbios.

2.4 Sum´

ario

Neste cap´ıtulo foi feito uma análise comparativa e cr´ıtica dos métodos e ferramentas existentes, semelhantes a que propomos realizar. Foi também apresentado um conjunto de técnicas e métodos de minera¸cão de texto e alguns conceitos relacionados com a desambi-gua¸cão de termos. Podemos concluir que, embora seja uma boa prática, a minera¸cão de texto tem as suas limita¸cões. Não existe um padrão que possa ser usado na prepara¸cão e interpreta¸cão de todo e qualquer tipo de texto, sendo que a informa¸cão de que muitas vezes precisamos estão em recursos textuais (dados não estruturados).

(38)

(39)

Cap´ıtulo 3

An´

alise de Requisitos

Como primeiro passo de qualquer processo de desenvolvimento de software é necessário efetuar uma boa análise de requisitos, estabelecendo um conjunto de objetivos gerais que o sistema deve cumprir. Neste cap´ıtulo são descritas as funcionalidades que foram identificadas como necessárias a desenvolver, de uma forma detalhada.

3.1 Vis˜

ao Geral do Sistema

A aplica¸cão tem como principal requisito ser um sistema de identifica¸cão de coocorrências entre termos, através de técnicas de indexa¸cão e pesquisa de conceitos biomédicos, mais dire-cionados para as doen¸cas neurodegenerativas. Doen¸ca neurodegenerativa é um termo genérico para uma série de condi¸cões que afetam principalmente os neurónios no cérebro humano. As doen¸cas neurodegenerativas são doen¸cas incuráveis e debilitantes que resulta na destrui¸cão progressiva e irrevers´ıvel de neurónios, as células responsáveis pelas fun¸cões do Sistema Ner-voso, conduzindo a um processo de perda gradativa de fun¸cões motoras, fisiológicas e/ou mental, por parte do paciente [41]. Exemplos de doen¸cas neurodegenerativas incluem a de Parkinson, doen¸ca de Alzheimer e doen¸ca de Huntington. Uma vez que existe muita inves-tiga¸cão nesse ramo da biomedicina, é nossa pretensão colaborar desenvolvendo um sistema que auxilie os investigadores nos seus trabalhos diários, de forma a diminuir a quantidades de artigos cient´ıficos lidos, que é enorme. Pretendemos que seja um sistema robusto e sufi-cientemente inteligente a fim de conseguir resolver poss´ıveis casos de ambiguidade de termos, e devolver ao utilizador o resultado, o mais aproximado poss´ıvel, dentro do contexto, da pes-quisa efetuada.

Existe um conjunto de requisitos (funcionais e não funcionais) essenciais que devem ter tidos em considera¸cão na implementa¸cão do sistema em causa, nomeadamente:

• Desempenho - O sistema ter´a de ter uma boa resposta para que nem a sua utiliza¸c˜ao nem o trabalho do utilizador sejam prejudicados;

• Escalabilidade - A adi¸cão de funcionalidades e informa¸cão terá de ser feita de forma acess´ıvel e o comportamento do sistema não deverá ressentir dessa evolu¸cão;

• Usabilidade - A fácil utiliza¸cão do sistema, baseada numa interface web simples e intuitiva, será sempre um objetivo a atingir.