3 TRABALHOS RELACIONADOS
3.9 Visão integrada das abordagens estudadas
Nossa primeira etapa, neste trabalho, foi fornecer uma visão geral sobre abordagens existentes para construção de ontologias a partir de textos. Na Tabela 3.5 apresentamos uma visão integrada dessas abordagens. Podemos ver que, de modo geral, a construção de ontologias passa pelos seguintes objetivos: extrair conceitos, extrair relações taxonômicas e não-taxonômicas e popular a ontologia com instâncias.
Dessa forma podemos classificar abordagens como “mais completas” ou “menos
completas” conforme a quantidade de objetivos que elas se propõem a alcançar. Por esse
ponto de vista, e conforme a Tabela 3.5, a abordagem de Buitelaar seria a menos abrangente (menos completa) entre as estudadas, tratando apenas da identificação de conceitos. Já a abordagem de Maedche, devido ao número de objetivos que visa alcançar, estaria entre as mais completas.
* As abordagens estão identificadas pelo primeiro autor. Autor* Objetiva identificar Principais etapas Principais técnicas
usadas
Nível de
automatização Intervenção do usuário
Buitelaar
[BUI04] Conceitos e atributos
Anotação lingüística Pré-processamento estatístico Definição de regras de mapeamento Geração semi-automática de regras de
mapeamento
Validação manual de conceitos e atributos pré-
selecionados
Integração dos conceitos e atributos validados em
uma ontologia (nova ou existente)
Análise e anotação
lingüística
Abordagem
estatística
Semi-automático O usuário define regras de mapeamento e valida conceitos e atributos extraídos
Degeratu [DEG04] Termos relevantes Relações taxonômicas Relações não-taxonômicas Pré-processamento Identificação de termos
Extração de relacionamentos (taxonômicos e não-
taxonômicos) Agrupamento de termos Criação de hierarquia Análise e anotação lingüística Abordagem estatística Uso de padrões léxico-sintáticos Automático
A referência utilizada descreve que o usuário somente “interage” avaliando a precisão da
ontologia resultante, ou seja, após o processo de construção automática da ontologia
Lame [LAM03]
Conceitos
Relações não-taxonômicas
Análise sintática
Análise de relações de coordenação Análise estatística Pattern matching Análise e anotação lingüística Abordagem estatística
Semi-automático O usuário valida algumas saídas e determina alguns limiares Maedche [MAE02] Conceitos Relações taxonômicas Relações não-taxonômicas
Escolha da ontologia base (a ser ampliada) Extração de informação
Aquisição de conceitos Aquisição de taxonomia
Aquisição de relações conceituais
Análise e anotação
lingüística
Abordagem
estatística
Semi-automático O usuário seleciona e nomeia relações
Caso necessário, na resolução de conflitos
Velardi [VEL01] Conceitos Relações taxonômicas Relações não-taxonômicas Identificar conceitos
Identificar instâncias de conceitos Organizar os conceitos em hierarquias Descobrir relações entre conceitos
Análise e anotação
lingüística
Abordagem
estatística
Semi-automático
Resultado é avaliado por especialistas O usuário interage na integração de sub-
árvores a nodos apropriados na ontologia e na definição de regras
Hearst
[HEA94] Relações taxonômicas Identificar relações
Identificação
baseada em padrões Semi-automático O usuário valida as relações extraídas Morin
[MOR] Relações taxonômicas Identificar relações
Identificação
Outro ponto importante em relação a construção de ontologias é o nível de automatização proposto pela abordagem. Quanto a esse aspecto, a abordagem de Degeratu e Hatzivassiloglou propõe um processo totalmente automatizado. Isso, porém, nos deixa receosos quanto à qualidade da ontologia resultante, pois podemos verificar que as demais abordagens estudadas propõem a construção semi-automática de ontologias a partir de textos, requisitando intervenções do usuário em alguma parte importante do processo como, por exemplo, validação de conceitos ou de relações extraídas.
Na Tabela 3.6, podemos ver outras características mais específicas das abordagens estudadas. O reuso ou não de ontologias existentes, bem como o uso de fontes de conhecimento adicionais (por exemplo, dicionários ou corpora de texto mais genéricos) para auxiliar na extração de conceitos e relacionamentos, são aspectos muito importantes a serem considerados.
Tabela 3.6: Visão integrada de características mais específicas das abordagens estudadas Autor* Reuso de outras
ontologias Fontes de conhecimento utilizadas
Ferramentas associadas
Domínio onde foi aplicada
Buitelaar
[BUI04] Não consta
O corpus MuchMore22 foi usado como corpus de referência contrastante, representando o domínio médico em geral OntoLT - plugin da ferramenta Protégé Neurologia Degeratu
[DEG04] Não utiliza Não utiliza
OntoStruct MxTerminator
Comércio
eletrônico Lame
[LAM03] Não consta Não consta Syntex
Legislação
francesa
Maedche [MAE02]
Permite utilizar uma
ontologia para servir de estrutura central (usou GermaNet)
Podem ser usados
dicionários, ontologias de domínio e genéricas como WordNet e GermaNet
Text-To-Onto
Shug Seguros
Velardi [VEL01]
Permite usar uma
ontologia de domínio para ligar as sub-árvores geradas Não consta OntoLearn Chaos Ariosto Turismo
* Os métodos estão identificados pelo primeiro autor.
22 http://muchmore.dfki.de/resources1.htm
A Tabela 3.7 refere-se a avaliação da ontologia resultante. Através dela podemos ver que a avaliação manual é a mais utilizada dentre as abordagens estudadas, tanto para a validação da ontologia resultante quanto para a validação das saídas em cada etapa como, por exemplo, na abordagem de Lame[LAM03], que apresenta apenas avaliação dos resultados de cada etapa, sem uma avaliação final. Segundo Maedche em [MAE02], não existe medida padrão para avaliação de ontologias extraídas de texto, e então o autor propõe uma abordagem de avaliação baseada nas medidas de precisão e recall.
Tabela 3.7: Avaliação da ontologia resultante
Autor* Avaliação
Buitelaar [BUI04]
Uma plataforma para avaliação de ontologias extraídas é um dos seus trabalhos futuros.
Degeratu
[DEG04] Avalia somente precisão. A avaliação foi realizada por dois especialistas. Lame
[LAM03]
Cita somente validação manual das saídas de cada etapa e não de avaliação da ontologia resultante.
Maedche
[MAE02] Através das medidas de precisão e recall e com validação humana. Velardi
[VEL01] Avaliação realizada por um especialista. * As abordagens estão identificadas pelo primeiro autor
O próximo capítulo descreve a abordagem proposta nesta pesquisa, a qual foca nas atividades de identificação de termos relevantes do domínio e relações taxonômicas entre esses termos, bem como a fase relacionada à geração da estrutura ontológica. Descreve ainda as etapas de cada uma das fases.