• Nenhum resultado encontrado

4 ABORDAGEM PARA A CONSTRUÇÃO DE ESTRUTURAS ONTOLÓGICAS

4.5 Avaliação

Como pôde ser visto durante a descrição da proposta, existe a necessidade de avaliação dos resultados em algumas etapas. A forma avaliação proposta segue a forma mais utilizada dentre as abordagens estudadas: a validação manual por um especialista. A Tabela 4.9 refere- se à forma de avaliação da ontologia resultante proposta por diferentes autores, em comparação à proposta de avaliação desta dissertação.

Tabela 4.9: Avaliação da ontologia resultante

Autor* Avaliação

Baségio [proposta]

Avaliação manual realizada por um especialista nas saídas de cada etapa e também da ontologia resultante.

Buitelaar [BUI04]

Uma plataforma para avaliação de ontologias extraídas é um dos seus trabalhos futuros.

Degeratu

[DEG04] Avalia somente precisão. A avaliação foi realizada por dois especialistas. Lame

[LAM03]

Cita somente validação manual das saídas de cada etapa e não de avaliação da ontologia resultante.

Maedche

[MAE02] Através das medidas de precisão e recall e com validação humana. Velardi

[VEL01] Avaliação realizada por um especialista. * As abordagens estão identificadas pelo primeiro autor

Em nossa proposta, a avaliação dos resultados se torna necessária a partir da quarta etapa da primeira fase, logo após a pesagem dos termos e definição do limiar. Nesta etapa são apresentados ao engenheiro de ontologia (especialista) os termos identificados e considerados relevantes ao domínio. Cabe ao engenheiro de ontologia avaliar os termos e então excluir os aqueles julgados incorretos. Caso algum termo considerado relevante pelo engenheiro não tenha sido selecionado, o mesmo pode incluí-lo nesta etapa. A quinta etapa desta mesma fase corresponde à identificação de termos compostos. A validação dos termos compostos extraídos também deve ser realizada pelo engenheiro de ontologia. Uma avaliação correta neste ponto (termos simples e termos compostos) é muito importante, pois todos os termos resultantes desta etapa servirão de base para a segunda fase.

Na segunda fase da abordagem, relacionada à identificação de relações taxonômicas, a avaliação dos resultados pelo engenheiro de ontologia deve ocorrer em todas as três fases: Identificar relações taxonômicas com base em termos compostos; Identificar relações taxonômicas através dos padrões de Hearst; Identificar relações taxonômicas através dos

padrões de Morin e Jacquemin. A avaliação dos resultados das etapas citadas nesta sessão implicará na qualidade da ontologia resultante.

4.6 Considerações

A abordagem aqui proposta, de modo geral, está baseada nas abordagens e medidas estudadas durante o desenvolvimento deste trabalho. A Tabela 4.10 mostra em destaque as principais contribuições de cada autor para a definição desta proposta.

Tabela 4.10: Principais contribuições de cada autor para definir esta proposta

Autor Medidas Termos Relações Automático Intervençãos do

usuário Buitelaar [BUI04] Qui-quadrado Termos simples Baseado em regras de mapeamento Semi- automático Define regras de mapeamento e valida conceitos e atributos extraídos. Degeratu [DEG04]

Informação mútua para variantes. Seleciona termos que ocorram 2 ou mais vezes em um texto ou múltiplos textos.

Variantes e termos simples

Padrões de Hearst Automático

Avalia a precisão da ontologia resultante.

Lame

[LAM03] Não consta

Simples e compostos Relações baseadas em termos compostos Semi- automático Validação manual das saídas de cada etapa. Maedche [MAE02] TFIDF Termos simples Padrões de Hearst e agrupamento hierárquico por similaridade. Semi- automático Valida relações. Se necessário, auxilia na resolução de conflitos. Velardi [VEL01] Relevância de domínio e consenso de domínio Simples e compostos Relações baseadas em termos compostos Semi- automático Validação da ontologia resultante e sua integração a uma ontologia base. Hearst

[HEA94] N/A N/A

Padrões léxico- sintáticos Semi- automático O usuário valida as relações extraídas. Morin

[MOR03] N/A N/A

Padrões léxico- sintáticos Semi- automático O usuário valida as relações extraídas. Rayson [RAY04] Log-likelihood - - - -

As tabelas 4.11 e 4.12 posicionam a abordagem aqui proposta face a características gerais e características mais específicas das abordagens estudadas.

* As abordagens estão identificadas pelo primeiro autor.

Buitelaar

[BUI04] Conceitos e atributos

Anotação lingüística Pré-processamento estatístico Definição de regras de mapeamento Geração semi-automática de regras de

mapeamento

Validação manual de conceitos e atributos pré-

selecionados

Integração dos conceitos e atributos validados em

uma ontologia (nova ou existente)

Análise e anotação

lingüística

Abordagem

estatística

Semi-automático O usuário define regras de mapeamento e valida conceitos e atributos extraídos

Degeratu [DEG04] Termos relevantes Relações taxonômicas Relações não-taxonômicas Pré-processamento Identificação de termos

Extração de relacionamentos (taxonômicos e não-

taxonômicos) Agrupamento de termos Criação de hierarquia Análise e anotação lingüística Abordagem estatística Uso de padrões léxico-sintáticos Automático

A referência utilizada descreve que o usuário somente “interage” avaliando a precisão da

ontologia resultante, ou seja, após o processo de construção automática da ontologia

Lame [LAM03]

Conceitos

Relações não-taxonômicas

Análise sintática

Análise de relações de coordenação Análise estatística Pattern matching Análise e anotação lingüística Abordagem estatística

Semi-automático O usuário valida algumas saídas e determina alguns limiares Maedche [MAE02] Conceitos Relações taxonômicas Relações não-taxonômicas

Escolha da ontologia base (a ser ampliada) Extração de informação

Aquisição de conceitos Aquisição de taxonomia

Aquisição de relações conceituais

Análise e anotação

lingüística

Abordagem

estatística

Semi-automático O usuário seleciona e nomeia relações

Caso necessário, na resolução de conflitos

Velardi [VEL01] Conceitos Relações taxonômicas Relações não-taxonômicas Identificar conceitos

Identificar instâncias de conceitos Organizar os conceitos em hierarquias Descobrir relações entre conceitos

Análise e anotação

lingüística

Abordagem

estatística

Semi-automático

Resultado é avaliado por especialistas O usuário interage na integração de sub-

árvores a nodos apropriados na ontologia e na definição de regras

Hearst

[HEA94] Relações taxonômicas Identificar relações

Identificação

baseada em padrões Semi-automático O usuário valida as relações extraídas

Morin

[MOR] Relações taxonômicas Identificar relações

Identificação

baseada em padrões Semi-automático O usuário valida as relações extraídas

Baségio [proposta]

Termos relevantes Relações taxonômicas

Identificar termos relevantes simples e compostos Identificar relações taxônomicas

Abordagem

estatística

Identificação

baseada em padrões

Tabela 4.12: Abordagem proposta face à características específicas das abordagens estudadas Autor* Reuso de outras

ontologias Fontes de conhecimento utilizadas

Ferramentas associadas

Domínio onde foi aplicada

Buitelaar

[BUI04] Não consta

O corpus MuchMore foi

usado como corpus de referência contrastante, representando o domínio médico em geral OntoLT - plugin da ferramenta Protégé Neurologia Degeratu

[DEG04] Não utiliza Não utiliza

OntoStruct MxTerminator

Comércio

eletrônico

Lame

[LAM03] Não consta Não consta Syntex

Legislação

francesa

Maedche [MAE02]

Permite utilizar uma

ontologia para servir de estrutura central (usou GermaNet)

Podem ser usados

dicionários, ontologias de domínio e genéricas como WordNet e GermaNet

Text-To-Onto

Shug Seguros

Velardi [VEL01]

Permite usar uma

ontologia de domínio para ligar as sub-árvores geradas Não consta OntoLearn Chaos Ariosto Turismo Baségio

[proposta] Não utiliza

Corpus de referência(geral)

disponibilizado pelo NILC

Protótipo desenvolvido no escopo desta dissertação

Turismo