3.2 Os modelos semânticos
3.2.1 Os conceitos na modelagem de domínios do conhecimento
A modelagem de domínios do conhecimento pode ser realizada,
compreendendo o conceito do conceito com base em três posições filosóficas: o
Realismo, o Conceitualismo e o Nominalismo. No Realismo, defende-se a existência
de Universais e Particulares, sendo que os Universais são as essências ou
características comuns que existem nos Particulares. Na visão realista, o conceito
pode ser entendido como um Universal, que existe na realidade independente da
observação de um ser humano e é organizado em árvore de gênero e espécie,
conectados pela relação “é um”. No Conceitualismo, advoga-se que os Universais não
existem na realidade, mas apenas nas mentes humanas, sendo criados de forma ad
hoc. No Conceitualismo, o conceito é compreendido como “ideias gerais”, que podem
ser compartilhados por uma pluralidade de pessoas, mas que não correspondem a
Universais ou invariantes juntos à realidade. Já, na abordagem nominalista,
defende-se que não há Universais na realidade ou em nossas mentes, mas apenas termos
gerais, ou seja, etiquetas de coleções de coisas particulares ou eventos, criados de
forma ad hoc. No Nominalismo, o conceito é compreendido como termo geral.
Observam-se traços das três posições na literatura da área de Ciência da Informação
e o posicionamento nem sempre é explicitado pelo autor, causando contradições nos
resultados (SMITH, 2004; KLEIN, SMITH, 2005; GRENON; SMITH, 2011; CAMPOS,
GOMES, 2014).
No âmbito desta pesquisa, interessa-nos as abordagens filosóficas do
Conceitualismo e Realismo, que se complementam e são bases de sustentação das
metodologias de construção de tesauros e ontologias respectivamente. De acordo com
Sales e Café (2010, p. 109), na literatura voltada aos tesauros, o conceito é
considerado como “o conjunto formado pelas características de um objeto que, por sua
vez, são sintetizadas por um termo, definição pautada na Teoria do Conceito”. Já, no
caso de ontologias, os conceitos são “unidades de um vocabulário especializado que
representam classes, entidades, atributos e processos”. Os autores destacam que, em
relação aos tesauros, o conceito é abordado sob uma ótica mais teórica, enquanto que
nas ontologias é tratado sob uma ótica mais aplicada. Afirmam que no ciclo do
desenvolvimento científico, ambas as abordagens se complementam e utilizam de
referenciais teóricos de outras áreas para se fortalecerem.
Moreira (2003) esclarece que o triângulo do conceito proposto por Dahlberg
(figura 10) difere do triângulo do significado de Ogden e Richards
22,,já que no segundo
o conceito é um dos vértices do triângulo enquanto que, no primeiro, o conceito é o
triângulo. Esta diferença reflete visões distintas sobre o relacionamento entre
conceitos e termos, pois no triângulo Ogden e Richards, criado a partir de uma
abordagem nominalista, o conceito é colocado em um patamar mental e foca no
símbolo. O triângulo do conceito de Dahlberg, criado a partir de uma visão
22
OGDEN, C.K; RICHARDS, I.A. O significado de significado: um estudo da influência da linguagem sobre o pensamento e sobre a ciência do simbolismo. Trad. de Álvaro Cabral. Rio : Zahar, 1972. 349 p.
conceitualista reúne as noções de conceito e termo como aspectos de uma mesma
entidade. A autora ressalta que esta é uma visão adequada à Ciência da Informação,
que requer uma correspondência unívoca entre termo e conceito.
Figura 10 – Triângulo do conceito de Dahlberg
Fonte: Campos, Gomes e Motta (2004).
Com relação aos tesauros, o vocabulário selecionado para sua criação é
formado a partir de um conjunto restrito de termos extraídos das fontes do domínio,
que recebem tratamento terminológico para fixar o seu referente e estabelecer as
relações com os demais termos do vocabulário. O conhecimento na área de domínio
deve permitir definir se determinado termo deve ou não fazer parte do tesauro, por
isso, muitas vezes, é necessário um estudo prévio da área e a ajuda de especialistas
no assunto.
Em relação à seleção dos termos para inclusão no tesauro, Cavalcanti (1970,
p.29) classifica os métodos em: (1) analítico, que é baseado no exame de uma série
de documentos, dos quais são extraídas as palavras significativas, obtendo-se assim
um inventário dos termos (os sinônimos são incluídos mediante remissivas e o arranjo
hierárquico dos termos é realizado posteriormente); (2) sintético, baseado na reunião
dos termos colhidos em dicionários, índices de obras, nomenclaturas, glossários,
esquemas especializados de classificação, etc., relativos ao assunto objeto do
levantamento; (3) a priori, baseado nas listas apresentadas por grupos de
especialistas no assunto. A autora assinala que o método mais adequado será uma
combinação dos três: análise da terminologia encontrada nos documentos, análise
comparativa com os termos colhidos nas obras de referência e consulta aos
especialistas.
Lancaster (1987) e Dodebei (2002), por outro lado, classificam os métodos de
construção de tesauros em método indutivo e método dedutivo. O método indutivo
obtém a terminologia, partindo da incidência de termos na literatura e na consulta de
usuários. No método dedutivo, a obtenção se dá pelo processo consensual realizado
através de comitês formados por peritos no assunto, e ambos derivam dos princípios
de garantia literária e de uso.
Em relação às fontes para a coleta de termos, de acordo com Lancaster
(1987), a maneira mais eficiente de coletar a terminologia de um assunto para um
tesauro é buscá-la naquelas fontes de referência com probabilidade de conter alta
concentração de termos e que estejam razoavelmente atualizados. O compilador do
tesauro deveria identificar os termos que traduzem os interesses temáticos dos
usuários com aqueles coletados na literatura, pois estas abordagens são
complementares e não alternativas.
Soergel (1974) destaca a possibilidade de convidar os próprios usuários a
sugerir termos e conceitos úteis ou, ainda, de utilizar a indexação de documentos
realizada por especialistas ou indexadores de outros centros de documentação.
Destaca as terminologias, sumários, abstracts e índices de manuais e livros técnicos e
ressalta que o texto completo da literatura básica da área também pode ser útil na
coleta de conceitos e técnicas automáticas, podendo ser utilizadas para extração de
palavras-chave. De acordo com Gomes (1990), os conceitos podem ser coletados
através de outras linguagens documentárias, mas que se deve considerar as
diferenças conceituais existentes entre os termos já estruturados que, muitas vezes,
não estão explicitadas verbalmente.
Na literatura sobre a modelagem de ontologias, Arp, Smith e Spear (2015)
orientam que é necessário realizar um estudo sistemático do conhecimento científico
do domínio coberto pela ontologia. Realizar um levantamento principalmente do
conteúdo atual de livros de autoridades no assunto e em terminologias relevantes,
buscando os termos gerais de ciências estabelecidas. Segundo os autores, muito
ocasionalmente, ontologias precisam ser desenvolvidas para apoiar a investigação em
áreas ainda não estabelecidas; neste caso, uma ontologia provisória pode ser criada
com base em artigos de revistas, produzidos sob o ponto de vista de um subconjunto
de autores. Destacam os princípios adotados pela Gene Ontology – GO:
1. Incluir termos para as entidades mais importantes do domínio a ser representado, que fazem parte da terminologia utilizada por grupos influentes de cientistas.
2. Buscar garantir o máximo consenso com o uso de terminologia dos cientistas na disciplina relevante. Isso pode envolver o trabalho com especialistas de domínio, por exemplo, na negociação de concessões terminológicas.
3. Identificar áreas de sobreposição disciplinar onde o uso de terminologia não é consistente. Procurar manter o controle de sinônimos para termos da terminologia dessas áreas.
4. Não reinventar a roda. Na seleção de termos, ficar o mais próximo possível do real de uso dos especialistas do domínio. Na construção da terminologia e modelagem da ontologia, fazer uso de tantos recursos existentes (terminologias e ontologias) quanto possível (ARP, SMITH, SPEAR, 2015, p. 60).