Para Hollink et al. [HOL08], se um alinhamento é muito extenso, avaliar todas as correspon-
dências pode ser um processo que consome muito tempo. Uma alternativa é avaliar uma amostra
randômica de todas as correspondências e generalizar os resultados para capturar uma estimativa da
qualidade de um alinhamento. Hage et al. [HAG07] reforçam a idéia de que a avaliação pode ser
feita por uma amostra randômica de uma parte de um conjunto de correspondências. Essas, podem
ser classificadas como “Corretas” ou “Incorretas”, ou seja, por uma medida de acurácia.
Hollink e co-autores destacam também que a avaliação é comumente feita de duas formas, ou
seja, julgar a corretude de cada correspondência e comparar o alinhamento a um Gold Standard como
um alinhamento de referência. Já para Isaac et al. [ISA08], a avaliação considera a proporção de
correspondências que são corretas e quantas correspondências foram recuperadas. Há duas medidas-
padrão de Recuperação da Informação, precisão e abrangência, que são normalmente utilizadas e
referenciadas com frequência na literatura. O ideal também, é que a avaliação possa ser baseada
em um alinhamento completo de referência (Gold Standard). Mas, se o Gold Standard não está
disponível, então a abrangência absoluta não pode ser calculada.
Considerando as abordagens dos autores citados acima, iremos avaliar as estratégias de acordo
com o Golden Mapping ou Gold Standard, assim como os falsos positivos e falsos negativos gerados
pelas mesmas. A amostra refere-se neste trabalho às correspondências dos falsos positivos, falsos
negativos e as que foram consideradas similares pelo Golden Mapping. Também serão calculadas a
precisão, abrangência e medida-F dos coeficientes gerados.
5.1.1 Golden Mapping desenvolvido por Freitas [FRE07]
Para a avaliação dos resultados, utilizamos o mapeamento de referência de Freitas [FRE07] deno-
minado “Golden Mapping”. Este mapeamento foi gerado por três especialistas distintos, ou seja, três
avaliadores humanos.
Cabe salientar que esta avaliação humana foi feita antes da obtenção dos resultados da medida
SiSe, pelo fato de tornar a avaliação menos tendenciosa, pois os humanos poderiam encontrar mapea-
mentos que as medidas não encontraram. O GM gera um consenso dos mapeamentos de acordo com
as avaliações dos humanos, podendo ser confrontado com os resultados das medidas automáticas para
o mapeamento entre ontologias.
Para a geração do GM, foram definidas as características que cada especialista deveria ter para
realizar a avaliação e os motivos para as escolhas. A seguir, descrevemos as características:
• Linguísta: este profissional foi escolhido para participar da avaliação por se tratar de um es-
pecialista no estudo da linguagem, trazendo importante conhecimento das relações semânticas
que estão presentes nas estruturas ontológicas. Desta forma, um estudante de doutorado em
Linguística foi convidado para participar da avaliação.
• Bacharel em Ciência da Computação: a escolha deste profissional se deve ao conhecimento
adquirido sobre os conceitos de ontologias na Ciência da Computação da área de agentes inte-
ligentes e que faz uso de ontologias em seu trabalho.
• Bacharel em Direito: como as ontologias utilizadas para avaliação foram do domínio do Direito,
Freitas [FRE07] achou que um profissional desta área seria importante, pois trata da visão de um
especialista que tem conhecimento do jargão utilizado neste domínio, podendo assim encontrar
mapeamentos que os outros humanos não encontraram. Um Bacharel em Direito, especialista
em Direito Civil foi convidado para esta atividade.
Para a geração do GM, quatro etapas são necessárias. A seguir temos a descrição destas etapas
(vide Figura 8) e as orientações que foram dadas aos avaliadores humanos.
pares das estruturas
avaliação humana
análise da
avaliação humana
"Golden Mapping"
ontológicas
Figura 8 – Etapas para a produção do Golden Mapping
• Pares das estruturas ontológicas: cada um dos humanos envolvidos no processo de avaliação
recebe um documento contendo: (i) a hierarquia dos trechos das estruturas ontológicas; (ii)
uma tabela de mapeamento para cada par de estrutura ontológica. Para a avaliação, foram
selecionados 5 pares de estruturas, sendo que cada par é formado pelas estruturas ontológicas
do VCBS e VCUSP. O documento utilizado pelos humanos para a avaliação dos pares das
estruturas ontológicas está no Anexo B.
• Avaliação humana: após receber os pares das estruturas ontológicas, cada avaliador humano
indica na tabela de mapeamento os termos que foram considerados similares, assinalando a
que estrutura ontológica os termos pertencem. Os avaliadores receberam instruções para que a
similaridade entre os termos das estruturas seja considerada pela semântica dos mesmos, e não
apenas pela representação (combinação de caracteres) do termo. Desta forma, os avaliadores
preenchem uma tabela de mapeamento para cada par de extratos das estruturas ontológicas.
• Análise da avaliação humana: após realizadas as avaliações pelos humanos, as mesmas são
avaliadas, tentando chegar a um consenso dos termos mapeados pelos três humanos que parti-
ciparam da avaliação, podendo incluir ou excluir mapeamentos destas pessoas de acordo com
as seguintes regras: será considerado para o GM aquele mapeamento entre os termos das estru-
turas ontológicas que foram identificados no mínimo por dois dos três humanos, sendo que os
mapeamentos considerados pelo Bacharel em Direito são sempre considerados, independente
da análise dos outros humanos.
• Golden Mapping: ao final deste processo é criada uma referência de mapeamentos entre as es-
truturas ontológicas envolvidas. Esta referência de mapeamento é denominada “Golden Map-
ping” e é confrontada com o mapeamento da medida de similaridade.
5.1.2 Precisão, abrangência e medida-F
De acordo com a literatura, mais especificamente na Recuperação da Informação, duas medidas
de avaliação são comumente utilizadas, a saber, precisão (P) e abrangência (A) e ainda, medida-F
(F1). Para Ehrig et al. [EHR07b], essas medidas podem ser descritas da seguinte forma:
• A precisão mede o grau de mapeamentos que são realmente corretos pelo grau de mapeamentos
encontrados (corretos e incorretos).
P =
mapeamentos corretos
mapeamentos encontrados
(5.1)
• A abrangência mede o grau de mapeamentos corretos encontrados em comparação ao número
total (GM) de mapeamentos corretos existentes.
A =
mapeamentos corretos encontrados
mapeamentos corretos do GM
(5.2)
• A medida-F representa a média harmônica da precisão e abrangência. É considerada a principal
medida para avaliar a qualidade dos mapeamentos encontrados.
F 1 =
2 × P × A
P + A
(5.3)
Para facilitar o entendimento, exemplifiquemos:
O mapeamento de referência possui 100 itens mapeados, onde cada item refere-se a dois termos
mapeados, cada um pertencente a sua estrutura ontológica. Ao aplicarmos uma medida de cálculo
de mapeamento, foram encontrados 75 termos mapeados corretamente, pois foram comparados ao
mapeamento de referência e 35 mapeados incorretamente (falsos positivos).
Apliquemos o cálculo da precisão:
P =
75
75 + 35
=
75
110
= 0.68
Aqui, identificamos o número de mapeamentos corretos encontrados (75) e o número de mapea-
mentos encontrados - corretos e incorretos (75+35). Ao aplicarmos a fórmula, chegamos a 68% de
precisão. Então, dos 110 mapeamentos encontrados, apenas 68% são corretos.
Para a abrangência, calculemos:
A =
75
100
= 0.75
Identificamos o número de mapeamentos corretos encontrados (75) e o número de mapeamentos
corretos existentes - mapeamento de referência (100). Então, dos 100 mapeamentos de referência,
apenas 75% foram encontrados.
Quanto à medida-F, aplicamos a média harmônica da precisão e abrangência. Calculemos:
M edida − F =
2 × P × A
P + A
=
2 × 0.68 × 0.75
0.68 + 0.75
=
1.02
1.43
= 0.71
A seguir, apresentamos as Seções 5.2 a 5.6 e 5.7, que tratam da análise de cada par de estruturas
ontológicas e a análise do conjunto total de pares.