A abordagem de Buitelaar et al - TRABALHOS RELACIONADOS

3 TRABALHOS RELACIONADOS

3.2 A abordagem de Buitelaar et al

Em [BUI04], é apresentada uma abordagem para extração ou extensão (também denominada enriquecimento) de ontologias a partir de documentos textuais. Segundo Buitelaar et al., esta abordagem segue os passos típicos de aprendizado de ontologia, porém objetivando integrar mais diretamente a engenharia de ontologia com análise lingüística, através da definição de regras de mapeamento, que relacionam entidades lingüísticas, em

coleções de texto anotadas, a conceitos e atributos. A seguir provemos uma descrição em alto nível dos passos desta abordagem, que é implementada como um plugin, denominado OntoLT3, para a ferramenta de desenvolvimento de ontologia Protégé.

3.2.1 Anotação lingüística do corpus

A primeira parte do processo de extração consiste em realizar anotação lingüística nos textos do corpus. Este passo é realizado por um sistema baseado em regras para análise do alemão e do inglês denominado Schug4 que, segundo os autores [BUI04], provê as seguintes informações: part-of-speech (categoria gramatical), informação morfológica (flexão, derivação ou composição de uma palavra), estrutura sintática da frase e da sentença.

3.2.2 Regras de mapeamento

A próxima etapa desta abordagem consiste em definir regras de mapeamento entre a estrutura lingüística e o conhecimento ontológico. Previamente são providas algumas regras de mapeamento, mas o usuário tem a liberdade para criar novas regras se achar necessário. A seguir apresentamos dois exemplos de regras de mapeamento previamente definidos:

HeadNounToClass_ModToSubClass: mapeia o substantivo principal para uma

classe (conceito) e, em combinação com seus modificadores, para uma ou mais sub-classes.

SubjToClass_PredToSlot: mapeia um sujeito para uma classe (conceito), e seu

predicado para um atributo (slot) dessa classe.

A idéia é executar as regras de mapeamento coletivamente e, à medida que as pré- condições sejam satisfeitas, gerar os conceitos e atributos para uma nova ontologia ou integrá- los em uma ontologia existente, sempre de forma automática. Deve-se observar que as regras de mapeamento somente serão executadas para aquela informação considerada relevante no pré-processamento estatístico (vide próxima sub-seção). Por fim, os conceitos e atributos extraídos são validados pelo usuário.

3_{http://olp.dfki.de/OntoLT/OntoLT.htm}

3.2.3 Pré-processamento estatístico

Este passo serve para filtrar, a partir da informação lingüística extraída, aquela relevante ao domínio. Para realizar essa tarefa a abordagem baseia-se em uma função denominada qui-quadrado5, a partir da qual é determinada a relevância da informação ao domínio através da comparação da sua freqüência no corpus do domínio com sua freqüência em um corpus de referência.

3.2.4 Geração semi-automática de regras de mapeamento

A partir do passo anterior é possível a geração semi-automática de regras de mapeamento, as quais simplesmente poderiam ser geradas para todos os possíveis elementos da anotação lingüística, porém limitados às palavras que foram selecionadas pela medida qui- quadrado.

3.2.5 Considerações

O uso de mapeamentos entre a estrutura lingüística e o conhecimento ontológico, similar ao proposto por Velardi e co-autores em [VEL01], é uma abordagem que poderia ser utilizada, principalmente, no que diz respeito à construção de ontologias de domínio, onde algumas informações importantes precisam de regras específicas para ser extraídas. Porém, é nosso objetivo focar em regras mais genéricas, que possibilitem a geração de estruturas ontológicas para diferentes domínios.

Quanto ao processamento estatístico, nosso objetivo inicial era trabalhar somente com o corpus do domínio para o qual a estrutura ontológica deveria ser gerada. Sendo assim, o processamento estatístico utilizado em [BUI04] não poderia ser utilizado em nossa proposta, pois a medida qui-quadrado precisa de um corpus de referência para determinar qual informação é relevante ao domínio. Assim, utilizaríamos a medida TFIDF (subseção 3.5.2.2) para determinar os termos relevantes do domínio. Porém, a medida TFIDF retorna apenas uma classificação dos termos, não ocorrendo nenhuma poda e nenhum valor ou regra para poda são sugeridos. Isso acaba resultando em uma quantidade muito grande de termos não relevantes sendo apresentados ao engenheiro de ontologia.

Nesse caso, a medida qui-quadrado poderia ser utilizada para podar termos através da sua comparação em um corpus de referência. Uma medida alternativa a medida qui-quadrado é a medida Log-Likelihood. De acordo com Rayson et al. [RAY04], a medida Log-Likelihood é muito semelhante à medida qui-quadrado, com uma ligeira melhora nos resultados para algumas situações.

3.2.5.1 A medida Log-Likelihood

A medida Log-Likelihood calcula a relevância de um termo do corpus do domínio com base na sua freqüência no corpus do domínio e no corpus de referência. É possível calcular a medida Log-Likelihood (G2) com a seguinte fórmula:

G2 = 2*((a*ln (a/E1)) + (b*ln (b/E2))) Onde,

E1 = c*(a+ b) / (c+ d); E2 = d*(a+ b) / (c+ d);

a: é a freqüência da palavra observada no corpus de referência; b: é a freqüência da palavra observada no corpus do domínio; c: corresponde ao número de palavras no corpus de referência; d: corresponde ao número de palavras no corpus do domínio.

Quanto mais alto o valor de G2, mais significante é a diferença entre duas freqüências. Vale observar que o valor de G2 será sempre um número positivo. Para definir se o termo no corpus de referência é mais significante que no corpus do domínio, ou vice-versa, calcula-se como segue:

Se a*(ln(a/E1) > = 0 então o termo é mais relevante no corpus de referência; Se a*(ln(a/E1) < 0 então o termo é mais relevante no corpus do domínio.

A medida Log-Likelihood será utilizada em nossa abordagem para poda de termos na fase de identificação de termos relevantes.

No documento Uma abordagem semi-automática para identificação de estruturas ontológicas a partir de textos na língua portuguesa do Brasil (páginas 31-34)