4 ABORDAGEM PARA A CONSTRUÇÃO DE ESTRUTURAS ONTOLÓGICAS
4.5 Avaliação
Como pôde ser visto durante a descrição da proposta, existe a necessidade de avaliação dos resultados em algumas etapas. A forma avaliação proposta segue a forma mais utilizada dentre as abordagens estudadas: a validação manual por um especialista. A Tabela 4.9 refere- se à forma de avaliação da ontologia resultante proposta por diferentes autores, em comparação à proposta de avaliação desta dissertação.
Tabela 4.9: Avaliação da ontologia resultante
Autor* Avaliação
Baségio [proposta]
Avaliação manual realizada por um especialista nas saídas de cada etapa e também da ontologia resultante.
Buitelaar [BUI04]
Uma plataforma para avaliação de ontologias extraídas é um dos seus trabalhos futuros.
Degeratu
[DEG04] Avalia somente precisão. A avaliação foi realizada por dois especialistas. Lame
[LAM03]
Cita somente validação manual das saídas de cada etapa e não de avaliação da ontologia resultante.
Maedche
[MAE02] Através das medidas de precisão e recall e com validação humana. Velardi
[VEL01] Avaliação realizada por um especialista. * As abordagens estão identificadas pelo primeiro autor
Em nossa proposta, a avaliação dos resultados se torna necessária a partir da quarta etapa da primeira fase, logo após a pesagem dos termos e definição do limiar. Nesta etapa são apresentados ao engenheiro de ontologia (especialista) os termos identificados e considerados relevantes ao domínio. Cabe ao engenheiro de ontologia avaliar os termos e então excluir os aqueles julgados incorretos. Caso algum termo considerado relevante pelo engenheiro não tenha sido selecionado, o mesmo pode incluí-lo nesta etapa. A quinta etapa desta mesma fase corresponde à identificação de termos compostos. A validação dos termos compostos extraídos também deve ser realizada pelo engenheiro de ontologia. Uma avaliação correta neste ponto (termos simples e termos compostos) é muito importante, pois todos os termos resultantes desta etapa servirão de base para a segunda fase.
Na segunda fase da abordagem, relacionada à identificação de relações taxonômicas, a avaliação dos resultados pelo engenheiro de ontologia deve ocorrer em todas as três fases: Identificar relações taxonômicas com base em termos compostos; Identificar relações taxonômicas através dos padrões de Hearst; Identificar relações taxonômicas através dos
padrões de Morin e Jacquemin. A avaliação dos resultados das etapas citadas nesta sessão implicará na qualidade da ontologia resultante.
4.6 Considerações
A abordagem aqui proposta, de modo geral, está baseada nas abordagens e medidas estudadas durante o desenvolvimento deste trabalho. A Tabela 4.10 mostra em destaque as principais contribuições de cada autor para a definição desta proposta.
Tabela 4.10: Principais contribuições de cada autor para definir esta proposta
Autor Medidas Termos Relações Automático Intervençãos do
usuário Buitelaar [BUI04] Qui-quadrado Termos simples Baseado em regras de mapeamento Semi- automático Define regras de mapeamento e valida conceitos e atributos extraídos. Degeratu [DEG04]
Informação mútua para variantes. Seleciona termos que ocorram 2 ou mais vezes em um texto ou múltiplos textos.
Variantes e termos simples
Padrões de Hearst Automático
Avalia a precisão da ontologia resultante.
Lame
[LAM03] Não consta
Simples e compostos Relações baseadas em termos compostos Semi- automático Validação manual das saídas de cada etapa. Maedche [MAE02] TFIDF Termos simples Padrões de Hearst e agrupamento hierárquico por similaridade. Semi- automático Valida relações. Se necessário, auxilia na resolução de conflitos. Velardi [VEL01] Relevância de domínio e consenso de domínio Simples e compostos Relações baseadas em termos compostos Semi- automático Validação da ontologia resultante e sua integração a uma ontologia base. Hearst
[HEA94] N/A N/A
Padrões léxico- sintáticos Semi- automático O usuário valida as relações extraídas. Morin
[MOR03] N/A N/A
Padrões léxico- sintáticos Semi- automático O usuário valida as relações extraídas. Rayson [RAY04] Log-likelihood - - - -
As tabelas 4.11 e 4.12 posicionam a abordagem aqui proposta face a características gerais e características mais específicas das abordagens estudadas.
* As abordagens estão identificadas pelo primeiro autor.
Buitelaar
[BUI04] Conceitos e atributos
Anotação lingüística Pré-processamento estatístico Definição de regras de mapeamento Geração semi-automática de regras de
mapeamento
Validação manual de conceitos e atributos pré-
selecionados
Integração dos conceitos e atributos validados em
uma ontologia (nova ou existente)
Análise e anotação
lingüística
Abordagem
estatística
Semi-automático O usuário define regras de mapeamento e valida conceitos e atributos extraídos
Degeratu [DEG04] Termos relevantes Relações taxonômicas Relações não-taxonômicas Pré-processamento Identificação de termos
Extração de relacionamentos (taxonômicos e não-
taxonômicos) Agrupamento de termos Criação de hierarquia Análise e anotação lingüística Abordagem estatística Uso de padrões léxico-sintáticos Automático
A referência utilizada descreve que o usuário somente “interage” avaliando a precisão da
ontologia resultante, ou seja, após o processo de construção automática da ontologia
Lame [LAM03]
Conceitos
Relações não-taxonômicas
Análise sintática
Análise de relações de coordenação Análise estatística Pattern matching Análise e anotação lingüística Abordagem estatística
Semi-automático O usuário valida algumas saídas e determina alguns limiares Maedche [MAE02] Conceitos Relações taxonômicas Relações não-taxonômicas
Escolha da ontologia base (a ser ampliada) Extração de informação
Aquisição de conceitos Aquisição de taxonomia
Aquisição de relações conceituais
Análise e anotação
lingüística
Abordagem
estatística
Semi-automático O usuário seleciona e nomeia relações
Caso necessário, na resolução de conflitos
Velardi [VEL01] Conceitos Relações taxonômicas Relações não-taxonômicas Identificar conceitos
Identificar instâncias de conceitos Organizar os conceitos em hierarquias Descobrir relações entre conceitos
Análise e anotação
lingüística
Abordagem
estatística
Semi-automático
Resultado é avaliado por especialistas O usuário interage na integração de sub-
árvores a nodos apropriados na ontologia e na definição de regras
Hearst
[HEA94] Relações taxonômicas Identificar relações
Identificação
baseada em padrões Semi-automático O usuário valida as relações extraídas
Morin
[MOR] Relações taxonômicas Identificar relações
Identificação
baseada em padrões Semi-automático O usuário valida as relações extraídas
Baségio [proposta]
Termos relevantes Relações taxonômicas
Identificar termos relevantes simples e compostos Identificar relações taxônomicas
Abordagem
estatística
Identificação
baseada em padrões
Tabela 4.12: Abordagem proposta face à características específicas das abordagens estudadas Autor* Reuso de outras
ontologias Fontes de conhecimento utilizadas
Ferramentas associadas
Domínio onde foi aplicada
Buitelaar
[BUI04] Não consta
O corpus MuchMore foi
usado como corpus de referência contrastante, representando o domínio médico em geral OntoLT - plugin da ferramenta Protégé Neurologia Degeratu
[DEG04] Não utiliza Não utiliza
OntoStruct MxTerminator
Comércio
eletrônico
Lame
[LAM03] Não consta Não consta Syntex
Legislação
francesa
Maedche [MAE02]
Permite utilizar uma
ontologia para servir de estrutura central (usou GermaNet)
Podem ser usados
dicionários, ontologias de domínio e genéricas como WordNet e GermaNet
Text-To-Onto
Shug Seguros
Velardi [VEL01]
Permite usar uma
ontologia de domínio para ligar as sub-árvores geradas Não consta OntoLearn Chaos Ariosto Turismo Baségio
[proposta] Não utiliza
Corpus de referência(geral)
disponibilizado pelo NILC
Protótipo desenvolvido no escopo desta dissertação
Turismo