Medidas de avaliação

pares das estruturas

avaliação humana

análise da avaliação humana

"Golden Mapping" ontológicas

Para Hollink et al. [HOL08], se um alinhamento é muito extenso, avaliar todas as correspon-

dências pode ser um processo que consome muito tempo. Uma alternativa é avaliar uma amostra

randômica de todas as correspondências e generalizar os resultados para capturar uma estimativa da

qualidade de um alinhamento. Hage et al. [HAG07] reforçam a idéia de que a avaliação pode ser

feita por uma amostra randômica de uma parte de um conjunto de correspondências. Essas, podem

ser classificadas como “Corretas” ou “Incorretas”, ou seja, por uma medida de acurácia.

Hollink e co-autores destacam também que a avaliação é comumente feita de duas formas, ou

seja, julgar a corretude de cada correspondência e comparar o alinhamento a um Gold Standard como

um alinhamento de referência. Já para Isaac et al. [ISA08], a avaliação considera a proporção de

correspondências que são corretas e quantas correspondências foram recuperadas. Há duas medidas-

padrão de Recuperação da Informação, precisão e abrangência, que são normalmente utilizadas e

referenciadas com frequência na literatura. O ideal também, é que a avaliação possa ser baseada

em um alinhamento completo de referência (Gold Standard). Mas, se o Gold Standard não está

disponível, então a abrangência absoluta não pode ser calculada.

Considerando as abordagens dos autores citados acima, iremos avaliar as estratégias de acordo

com o Golden Mapping ou Gold Standard, assim como os falsos positivos e falsos negativos gerados

pelas mesmas. A amostra refere-se neste trabalho às correspondências dos falsos positivos, falsos

negativos e as que foram consideradas similares pelo Golden Mapping. Também serão calculadas a

precisão, abrangência e medida-F dos coeficientes gerados.

5.1.1 Golden Mapping desenvolvido por Freitas [FRE07]

Para a avaliação dos resultados, utilizamos o mapeamento de referência de Freitas [FRE07] deno-

minado “Golden Mapping”. Este mapeamento foi gerado por três especialistas distintos, ou seja, três

avaliadores humanos.

Cabe salientar que esta avaliação humana foi feita antes da obtenção dos resultados da medida

SiSe, pelo fato de tornar a avaliação menos tendenciosa, pois os humanos poderiam encontrar mapea-

mentos que as medidas não encontraram. O GM gera um consenso dos mapeamentos de acordo com

as avaliações dos humanos, podendo ser confrontado com os resultados das medidas automáticas para

o mapeamento entre ontologias.

Para a geração do GM, foram definidas as características que cada especialista deveria ter para

realizar a avaliação e os motivos para as escolhas. A seguir, descrevemos as características:

• Linguísta: este profissional foi escolhido para participar da avaliação por se tratar de um es-

pecialista no estudo da linguagem, trazendo importante conhecimento das relações semânticas

que estão presentes nas estruturas ontológicas. Desta forma, um estudante de doutorado em

Linguística foi convidado para participar da avaliação.

• Bacharel em Ciência da Computação: a escolha deste profissional se deve ao conhecimento

adquirido sobre os conceitos de ontologias na Ciência da Computação da área de agentes inte-

ligentes e que faz uso de ontologias em seu trabalho.

• Bacharel em Direito: como as ontologias utilizadas para avaliação foram do domínio do Direito,

Freitas [FRE07] achou que um profissional desta área seria importante, pois trata da visão de um

especialista que tem conhecimento do jargão utilizado neste domínio, podendo assim encontrar

mapeamentos que os outros humanos não encontraram. Um Bacharel em Direito, especialista

em Direito Civil foi convidado para esta atividade.

Para a geração do GM, quatro etapas são necessárias. A seguir temos a descrição destas etapas

(vide Figura 8) e as orientações que foram dadas aos avaliadores humanos.

Figura 8 – Etapas para a produção do Golden Mapping

• Pares das estruturas ontológicas: cada um dos humanos envolvidos no processo de avaliação

recebe um documento contendo: (i) a hierarquia dos trechos das estruturas ontológicas; (ii)

uma tabela de mapeamento para cada par de estrutura ontológica. Para a avaliação, foram

selecionados 5 pares de estruturas, sendo que cada par é formado pelas estruturas ontológicas

do VCBS e VCUSP. O documento utilizado pelos humanos para a avaliação dos pares das

estruturas ontológicas está no Anexo B.

• Avaliação humana: após receber os pares das estruturas ontológicas, cada avaliador humano

indica na tabela de mapeamento os termos que foram considerados similares, assinalando a

que estrutura ontológica os termos pertencem. Os avaliadores receberam instruções para que a

similaridade entre os termos das estruturas seja considerada pela semântica dos mesmos, e não

apenas pela representação (combinação de caracteres) do termo. Desta forma, os avaliadores

preenchem uma tabela de mapeamento para cada par de extratos das estruturas ontológicas.

• Análise da avaliação humana: após realizadas as avaliações pelos humanos, as mesmas são

avaliadas, tentando chegar a um consenso dos termos mapeados pelos três humanos que parti-

ciparam da avaliação, podendo incluir ou excluir mapeamentos destas pessoas de acordo com

as seguintes regras: será considerado para o GM aquele mapeamento entre os termos das estru-

turas ontológicas que foram identificados no mínimo por dois dos três humanos, sendo que os

mapeamentos considerados pelo Bacharel em Direito são sempre considerados, independente

da análise dos outros humanos.

• Golden Mapping: ao final deste processo é criada uma referência de mapeamentos entre as es-

truturas ontológicas envolvidas. Esta referência de mapeamento é denominada “Golden Map-

ping” e é confrontada com o mapeamento da medida de similaridade.

5.1.2 Precisão, abrangência e medida-F

De acordo com a literatura, mais especificamente na Recuperação da Informação, duas medidas

de avaliação são comumente utilizadas, a saber, precisão (P) e abrangência (A) e ainda, medida-F

(F1). Para Ehrig et al. [EHR07b], essas medidas podem ser descritas da seguinte forma:

• A precisão mede o grau de mapeamentos que são realmente corretos pelo grau de mapeamentos

encontrados (corretos e incorretos).

P =

mapeamentos corretos

mapeamentos encontrados

(5.1)

• A abrangência mede o grau de mapeamentos corretos encontrados em comparação ao número

total (GM) de mapeamentos corretos existentes.