• Nenhum resultado encontrado

3 TRABALHOS RELACIONADOS

3.9 Visão integrada das abordagens estudadas

Nossa primeira etapa, neste trabalho, foi fornecer uma visão geral sobre abordagens existentes para construção de ontologias a partir de textos. Na Tabela 3.5 apresentamos uma visão integrada dessas abordagens. Podemos ver que, de modo geral, a construção de ontologias passa pelos seguintes objetivos: extrair conceitos, extrair relações taxonômicas e não-taxonômicas e popular a ontologia com instâncias.

Dessa forma podemos classificar abordagens como “mais completas” ou “menos

completas” conforme a quantidade de objetivos que elas se propõem a alcançar. Por esse

ponto de vista, e conforme a Tabela 3.5, a abordagem de Buitelaar seria a menos abrangente (menos completa) entre as estudadas, tratando apenas da identificação de conceitos. Já a abordagem de Maedche, devido ao número de objetivos que visa alcançar, estaria entre as mais completas.

* As abordagens estão identificadas pelo primeiro autor. Autor* Objetiva identificar Principais etapas Principais técnicas

usadas

Nível de

automatização Intervenção do usuário

Buitelaar

[BUI04] Conceitos e atributos

Anotação lingüística Pré-processamento estatístico Definição de regras de mapeamento Geração semi-automática de regras de

mapeamento

Validação manual de conceitos e atributos pré-

selecionados

Integração dos conceitos e atributos validados em

uma ontologia (nova ou existente)

Análise e anotação

lingüística

Abordagem

estatística

Semi-automático O usuário define regras de mapeamento e valida conceitos e atributos extraídos

Degeratu [DEG04] Termos relevantes Relações taxonômicas Relações não-taxonômicas Pré-processamento Identificação de termos

Extração de relacionamentos (taxonômicos e não-

taxonômicos) Agrupamento de termos Criação de hierarquia Análise e anotação lingüística Abordagem estatística Uso de padrões léxico-sintáticos Automático

A referência utilizada descreve que o usuário somente “interage” avaliando a precisão da

ontologia resultante, ou seja, após o processo de construção automática da ontologia

Lame [LAM03]

Conceitos

Relações não-taxonômicas

Análise sintática

Análise de relações de coordenação Análise estatística Pattern matching Análise e anotação lingüística Abordagem estatística

Semi-automático O usuário valida algumas saídas e determina alguns limiares Maedche [MAE02] Conceitos Relações taxonômicas Relações não-taxonômicas

Escolha da ontologia base (a ser ampliada) Extração de informação

Aquisição de conceitos Aquisição de taxonomia

Aquisição de relações conceituais

Análise e anotação

lingüística

Abordagem

estatística

Semi-automático O usuário seleciona e nomeia relações

Caso necessário, na resolução de conflitos

Velardi [VEL01] Conceitos Relações taxonômicas Relações não-taxonômicas Identificar conceitos

Identificar instâncias de conceitos Organizar os conceitos em hierarquias Descobrir relações entre conceitos

Análise e anotação

lingüística

Abordagem

estatística

Semi-automático

Resultado é avaliado por especialistas O usuário interage na integração de sub-

árvores a nodos apropriados na ontologia e na definição de regras

Hearst

[HEA94] Relações taxonômicas Identificar relações

Identificação

baseada em padrões Semi-automático O usuário valida as relações extraídas Morin

[MOR] Relações taxonômicas Identificar relações

Identificação

Outro ponto importante em relação a construção de ontologias é o nível de automatização proposto pela abordagem. Quanto a esse aspecto, a abordagem de Degeratu e Hatzivassiloglou propõe um processo totalmente automatizado. Isso, porém, nos deixa receosos quanto à qualidade da ontologia resultante, pois podemos verificar que as demais abordagens estudadas propõem a construção semi-automática de ontologias a partir de textos, requisitando intervenções do usuário em alguma parte importante do processo como, por exemplo, validação de conceitos ou de relações extraídas.

Na Tabela 3.6, podemos ver outras características mais específicas das abordagens estudadas. O reuso ou não de ontologias existentes, bem como o uso de fontes de conhecimento adicionais (por exemplo, dicionários ou corpora de texto mais genéricos) para auxiliar na extração de conceitos e relacionamentos, são aspectos muito importantes a serem considerados.

Tabela 3.6: Visão integrada de características mais específicas das abordagens estudadas Autor* Reuso de outras

ontologias Fontes de conhecimento utilizadas

Ferramentas associadas

Domínio onde foi aplicada

Buitelaar

[BUI04] Não consta

O corpus MuchMore22 foi usado como corpus de referência contrastante, representando o domínio médico em geral OntoLT - plugin da ferramenta Protégé Neurologia Degeratu

[DEG04] Não utiliza Não utiliza

OntoStruct MxTerminator

Comércio

eletrônico Lame

[LAM03] Não consta Não consta Syntex

Legislação

francesa

Maedche [MAE02]

Permite utilizar uma

ontologia para servir de estrutura central (usou GermaNet)

Podem ser usados

dicionários, ontologias de domínio e genéricas como WordNet e GermaNet

Text-To-Onto

Shug Seguros

Velardi [VEL01]

Permite usar uma

ontologia de domínio para ligar as sub-árvores geradas Não consta OntoLearn Chaos Ariosto Turismo

* Os métodos estão identificados pelo primeiro autor.

22 http://muchmore.dfki.de/resources1.htm

A Tabela 3.7 refere-se a avaliação da ontologia resultante. Através dela podemos ver que a avaliação manual é a mais utilizada dentre as abordagens estudadas, tanto para a validação da ontologia resultante quanto para a validação das saídas em cada etapa como, por exemplo, na abordagem de Lame[LAM03], que apresenta apenas avaliação dos resultados de cada etapa, sem uma avaliação final. Segundo Maedche em [MAE02], não existe medida padrão para avaliação de ontologias extraídas de texto, e então o autor propõe uma abordagem de avaliação baseada nas medidas de precisão e recall.

Tabela 3.7: Avaliação da ontologia resultante

Autor* Avaliação

Buitelaar [BUI04]

Uma plataforma para avaliação de ontologias extraídas é um dos seus trabalhos futuros.

Degeratu

[DEG04] Avalia somente precisão. A avaliação foi realizada por dois especialistas. Lame

[LAM03]

Cita somente validação manual das saídas de cada etapa e não de avaliação da ontologia resultante.

Maedche

[MAE02] Através das medidas de precisão e recall e com validação humana. Velardi

[VEL01] Avaliação realizada por um especialista. * As abordagens estão identificadas pelo primeiro autor

O próximo capítulo descreve a abordagem proposta nesta pesquisa, a qual foca nas atividades de identificação de termos relevantes do domínio e relações taxonômicas entre esses termos, bem como a fase relacionada à geração da estrutura ontológica. Descreve ainda as etapas de cada uma das fases.