Uma obra recente é apresentada por Euzenat e Shvaiko [EUZ07] onde diversas técnicas de mat- chingentre ontologias são discutidas conforme o contexto da aplicação, ou seja, baseada em strings, grafos, taxonomia e outras. O conceito de combinação, também conhecido como matching, é o pro- cesso de encontrar relacionamentos ou correspondências entre elementos de diferentes ontologias. O processo de combinação é composto por um par (ou mais) de ontologias, um alinhamento já existente, assim como parâmetros e recursos externos. Esse processo retorna um alinhamento entre as ontologias, sendo esse alinhamento, a saída do processo de combinação. As técnicas de combinação são classificadas a partir de 3 dimensões: dimensões de entrada, pro- cesso e saída. As dimensões de entrada dependem dos dados e modelos conceituais em que as onto- logias são expressas (por exemplo, modelo relacional, orientado a objetos, entidade-relacionamento, XML, RDF, etc.). As dimensões de processo podem ser baseadas em suas propriedades gerais, de na- tureza aproximada ou exata. Essa dimensão, também baseada em dados de entrada, é classificada em 3 classes, chamadas de sintáticas, semânticas e externas. As dimensões de saída referem-se à forma de produzir o resultado dos sistemas. Partindo dessas dimensões, podemos classificar as técnicas de combinação a partir de suas características: Interpretação de Entrada e Granularidade (essa classifica- ção é baseada na granularidade de combinação, por exemplo, nível de elemento ou estrutura e, como as técnicas geralmente interpretam a informação de entrada); Tipo de Entrada (essa classificação é baseada no tipo de entrada que é usada pelas técnicas de combinação elementares). Alguns algoritmos são brevemente discutidos, em sua maioria, aplicados a ontologias OWL e RDF, para a língua inglesa. Quanto à taxonomia, que refere-se ao contexto de nosso trabalho, as técnicas apresentadas referem-se ao Mapeamento Taxonômico de Maedche e Staab [MAE02b]. De- vido à complexidade das técnicas, para aplicá-las ao nosso trabalho, seria necessária a obtenção de ontologias que apresentassem informações mais sofisticadas como propriedades, instâncias e outros tipos de relacionamentos. Portanto, destacamos a relevância destas técnicas para trabalhos futuros. 3.9 Considerações sobre este capítulo Trazemos aqui, os trabalhos relacionados ao estudo. Mencionamos o estudo base e outros tra- balhos da literatura que visam principalmente, a similaridade estrutural entre estruturas ontológicas, sendo que nosso trabalho apresenta estratégias baseadas nessa abordagem. A medida SiSe, proposta por Freitas [FRE07], formada pela definição de conjuntos onde aplica-se a medida de Jaccard, é dada pela divisão da cardinalidade resultante das operações de intersecção e união desses conjuntos. Com isso, teremos o resultado da similaridade estrutural entre os termos das ontologias distintas. Partindo dos resultados dessa medida, iremos tratar de estratégias para aprimorar os resultados da mesma. O estudo de Egenhofer e Rodríguez [EGE03], no contexto deste trabalho, refere-se ao uso de uma função de profundidade que visa atribuir um valor de acordo com a posição do termo na hierarquia. Esta função é inserida no modelo de Tversky com o intuito de encontrar a similaridade semântica entre uma mesma ontologia ou ontologias distintas. Como contribuição ao nosso trabalho, iremos utilizar a função de profundidade para auxiliar no aprimoramento dos coeficientes gerados pela medida SiSe. O estudo de Brank et al. [BRA07] é uma tradução do coeficiente de Jaccard, utilizado pela SiSe. Este estudo difere da Jaccard que leva em consideração os superconceitos/subconceitos de um termo, e este estudo considera somente os superconceitos do termo. Outra diferença refere-se ao uso do algoritmo de stem para uniformizar os termos da língua portuguesa, pela SiSe. Como contribuição ao nosso trabalho está o uso dos superconceitos do termo. No estudo de Isaac et al. [ISA07], como contribuição a nosso estudo, tem-se aqui o fato de que a medida de Jaccard é adaptada para calcular a similaridade entre instâncias. A medida é calculada pela raiz quadrada da fração do produto da interseção dos conjuntos e a união desses conjuntos. Como em nosso estudo empregamos taxonomias, resolvemos utilizar esta medida para analisar o seu comportamento. O trabalho de Felicíssimo [FEL04] refere-se ao desenvolvimento de uma ferramenta, denominada CATO (Componente para Alinhamento Taxonômico entre Ontologias), que alinha automaticamente as taxonomias das ontologias de entrada. A estratégia tem como entrada duas ontologias e uma única ontologia como saída, que representa as duas ontologias originais alinhadas. A contribuição deste trabalho em nosso estudo reforça a aplicação de comparação lexical e estrutural. Em nosso estudo a comparação lexical é atribuída aos stems dos termos, assim como em Freitas [FRE07], diferentemente do trabalho de Felicíssimo, que usa além da comparação entre os caracteres dos termos, um banco de sinônimos. Esta estratégia é relevante no sentindo de que pode ser aplicada a trabalhos futuros. A autora utilizou ainda a comparação entre as estruturas hierárquicas das ontologias, assim como em nosso estudo. Já os trabalhos de Tous e Delgado [TOU06], Heß [HEß06] e Euzenat e Shvaiko [EUZ07] des- crevem uma abordagem mais elaborada, ou seja, necessitam de recursos mais sofisticados para que a similaridade seja calculada. Nos referimos a ontologias em formato OWL ou RDF que apresentem mais informações, além de suas classes para aplicarmos os estudos desses autores. A seguir, o Capítulo 4 descreve as estratégias de aprimoramento da medida SiSe. Este capítulo está estruturado da seguinte forma: a Seção 4.1 apresenta as subseções (4.1.1 e 4.1.2) que abordam alguns casos relevantes que foram apresentados pela SiSe, a fim de introduzirem o problema e apresentar as estratégias para resolvê-lo. Logo, as estratégias são apresentadas na Seção 4.2. 4 ESTRATÉGIAS DE APRIMORAMENTO DA MEDIDA SiSe A medida SiSe, apresentada de modo introdutório no Capítulo 3 (Seção 3.1) é empregada como estudo base para este trabalho e a partir dele, propusemos algumas estratégias que visam o aprimo- ramento da SiSe, principalmente no que se refere aos falsos positivos e falsos negativos. Para isso, utilizaremos, assim como em Freitas [FRE07], 5 pares de estruturas ontológicas (Anexo A), prove- nientes de fragmentos de dois vocabulários controlados da USP (VCUSP) e Senado Federal (VCBS) do domínio do direito. Cada par de estruturas ontológicas refere-se à hierarquia de um determinado termo (por exemplo, a hierarquia do termodireito eleitoral). O VCBS é composto de uma lista de palavras cobrindo diferentes áreas do conhecimento, e é utilizada pelos profissionais da Biblioteca do Senado Federal na catalogação do material existente em sua biblioteca. Pode ser acessado em http://webthes.senado.gov.br/thes/default-vcbs.htm. O VCUSP contém uma grande quantidade de conceitos utilizados na indexação de documentos de dados biblio- gráficos. O vocabulário abrange várias áreas de conhecimento, utilizando relações de equivalência e hierarquia. Pode ser consultado em http://143.107.73.99/Vocab/SIBIX652.dll/Index. A Seção 4.1 descreve brevemente o comportamento da medida SiSe frente aos termos lexical- mente idênticos e aos termos lexicalmente diferentes gerados pela mesma. Com isso, iremos observar os procedimentos para o cálculo da similaridade através da estrutura hierárquica dos termos, a fim de aplicar estratégias baseadas na similaridade estrutural dos mesmos e corrigir os coeficientes de similaridade considerados como falsos positivos e falsos negativos. As estratégias são descritas em detalhe na Seção 4.2. No documento Uso de relações semântico-estruturais no aprimoramento do cálculo da similaridade semântica : um estudo voltado a estruturas ontológicas em língua portuguesa (páginas 41-45)