• Nenhum resultado encontrado

Uma obra recente é apresentada por Euzenat e Shvaiko [EUZ07] onde diversas técnicas de mat-

chingentre ontologias são discutidas conforme o contexto da aplicação, ou seja, baseada em strings,

grafos, taxonomia e outras. O conceito de combinação, também conhecido como matching, é o pro-

cesso de encontrar relacionamentos ou correspondências entre elementos de diferentes ontologias.

O processo de combinação é composto por um par (ou mais) de ontologias, um alinhamento já

existente, assim como parâmetros e recursos externos. Esse processo retorna um alinhamento entre

as ontologias, sendo esse alinhamento, a saída do processo de combinação.

As técnicas de combinação são classificadas a partir de 3 dimensões: dimensões de entrada, pro-

cesso e saída. As dimensões de entrada dependem dos dados e modelos conceituais em que as onto-

logias são expressas (por exemplo, modelo relacional, orientado a objetos, entidade-relacionamento,

XML, RDF, etc.). As dimensões de processo podem ser baseadas em suas propriedades gerais, de na-

tureza aproximada ou exata. Essa dimensão, também baseada em dados de entrada, é classificada em

3 classes, chamadas de sintáticas, semânticas e externas. As dimensões de saída referem-se à forma

de produzir o resultado dos sistemas. Partindo dessas dimensões, podemos classificar as técnicas de

combinação a partir de suas características: Interpretação de Entrada e Granularidade (essa classifica-

ção é baseada na granularidade de combinação, por exemplo, nível de elemento ou estrutura e, como

as técnicas geralmente interpretam a informação de entrada); Tipo de Entrada (essa classificação é

baseada no tipo de entrada que é usada pelas técnicas de combinação elementares).

Alguns algoritmos são brevemente discutidos, em sua maioria, aplicados a ontologias OWL e

RDF, para a língua inglesa. Quanto à taxonomia, que refere-se ao contexto de nosso trabalho, as

técnicas apresentadas referem-se ao Mapeamento Taxonômico de Maedche e Staab [MAE02b]. De-

vido à complexidade das técnicas, para aplicá-las ao nosso trabalho, seria necessária a obtenção de

ontologias que apresentassem informações mais sofisticadas como propriedades, instâncias e outros

tipos de relacionamentos. Portanto, destacamos a relevância destas técnicas para trabalhos futuros.

3.9 Considerações sobre este capítulo

Trazemos aqui, os trabalhos relacionados ao estudo. Mencionamos o estudo base e outros tra-

balhos da literatura que visam principalmente, a similaridade estrutural entre estruturas ontológicas,

sendo que nosso trabalho apresenta estratégias baseadas nessa abordagem.

A medida SiSe, proposta por Freitas [FRE07], formada pela definição de conjuntos onde aplica-se

a medida de Jaccard, é dada pela divisão da cardinalidade resultante das operações de intersecção e

união desses conjuntos. Com isso, teremos o resultado da similaridade estrutural entre os termos das

ontologias distintas. Partindo dos resultados dessa medida, iremos tratar de estratégias para aprimorar

os resultados da mesma.

O estudo de Egenhofer e Rodríguez [EGE03], no contexto deste trabalho, refere-se ao uso de uma

função de profundidade que visa atribuir um valor de acordo com a posição do termo na hierarquia.

Esta função é inserida no modelo de Tversky com o intuito de encontrar a similaridade semântica entre

uma mesma ontologia ou ontologias distintas. Como contribuição ao nosso trabalho, iremos utilizar

a função de profundidade para auxiliar no aprimoramento dos coeficientes gerados pela medida SiSe.

O estudo de Brank et al. [BRA07] é uma tradução do coeficiente de Jaccard, utilizado pela SiSe.

Este estudo difere da Jaccard que leva em consideração os superconceitos/subconceitos de um termo,

e este estudo considera somente os superconceitos do termo. Outra diferença refere-se ao uso do

algoritmo de stem para uniformizar os termos da língua portuguesa, pela SiSe. Como contribuição ao

nosso trabalho está o uso dos superconceitos do termo.

No estudo de Isaac et al. [ISA07], como contribuição a nosso estudo, tem-se aqui o fato de que

a medida de Jaccard é adaptada para calcular a similaridade entre instâncias. A medida é calculada

pela raiz quadrada da fração do produto da interseção dos conjuntos e a união desses conjuntos.

Como em nosso estudo empregamos taxonomias, resolvemos utilizar esta medida para analisar o seu

comportamento.

O trabalho de Felicíssimo [FEL04] refere-se ao desenvolvimento de uma ferramenta, denominada

CATO (Componente para Alinhamento Taxonômico entre Ontologias), que alinha automaticamente

as taxonomias das ontologias de entrada. A estratégia tem como entrada duas ontologias e uma única

ontologia como saída, que representa as duas ontologias originais alinhadas. A contribuição deste

trabalho em nosso estudo reforça a aplicação de comparação lexical e estrutural. Em nosso estudo a

comparação lexical é atribuída aos stems dos termos, assim como em Freitas [FRE07], diferentemente

do trabalho de Felicíssimo, que usa além da comparação entre os caracteres dos termos, um banco

de sinônimos. Esta estratégia é relevante no sentindo de que pode ser aplicada a trabalhos futuros.

A autora utilizou ainda a comparação entre as estruturas hierárquicas das ontologias, assim como em

nosso estudo.

Já os trabalhos de Tous e Delgado [TOU06], Heß [HEß06] e Euzenat e Shvaiko [EUZ07] des-

crevem uma abordagem mais elaborada, ou seja, necessitam de recursos mais sofisticados para que

a similaridade seja calculada. Nos referimos a ontologias em formato OWL ou RDF que apresentem

mais informações, além de suas classes para aplicarmos os estudos desses autores.

A seguir, o Capítulo 4 descreve as estratégias de aprimoramento da medida SiSe. Este capítulo está

estruturado da seguinte forma: a Seção 4.1 apresenta as subseções (4.1.1 e 4.1.2) que abordam alguns

casos relevantes que foram apresentados pela SiSe, a fim de introduzirem o problema e apresentar as

estratégias para resolvê-lo. Logo, as estratégias são apresentadas na Seção 4.2.

4 ESTRATÉGIAS DE APRIMORAMENTO DA MEDIDA SiSe

A medida SiSe, apresentada de modo introdutório no Capítulo 3 (Seção 3.1) é empregada como

estudo base para este trabalho e a partir dele, propusemos algumas estratégias que visam o aprimo-

ramento da SiSe, principalmente no que se refere aos falsos positivos e falsos negativos. Para isso,

utilizaremos, assim como em Freitas [FRE07], 5 pares de estruturas ontológicas (Anexo A), prove-

nientes de fragmentos de dois vocabulários controlados da USP (VCUSP) e Senado Federal (VCBS)

do domínio do direito. Cada par de estruturas ontológicas refere-se à hierarquia de um determinado

termo (por exemplo, a hierarquia do termodireito eleitoral).

O VCBS é composto de uma lista de palavras cobrindo diferentes áreas do conhecimento, e é

utilizada pelos profissionais da Biblioteca do Senado Federal na catalogação do material existente em

sua biblioteca. Pode ser acessado em http://webthes.senado.gov.br/thes/default-vcbs.htm. O VCUSP

contém uma grande quantidade de conceitos utilizados na indexação de documentos de dados biblio-

gráficos. O vocabulário abrange várias áreas de conhecimento, utilizando relações de equivalência e

hierarquia. Pode ser consultado em http://143.107.73.99/Vocab/SIBIX652.dll/Index.

A Seção 4.1 descreve brevemente o comportamento da medida SiSe frente aos termos lexical-

mente idênticos e aos termos lexicalmente diferentes gerados pela mesma. Com isso, iremos observar

os procedimentos para o cálculo da similaridade através da estrutura hierárquica dos termos, a fim

de aplicar estratégias baseadas na similaridade estrutural dos mesmos e corrigir os coeficientes de

similaridade considerados como falsos positivos e falsos negativos. As estratégias são descritas em

detalhe na Seção 4.2.

Documentos relacionados