Interoperabilidade Semântica e
Compatibilização de Linguagens em
ambientes heterogêneos: a questão do
acesso aberto e as possibilidades de
tratamento terminológico
Profa. Dra Maria Luiza de Almeida Campos
Universidade Federal Fluminense
Departamento de Ciência da Informação
Programa de Pós-Graduação em Ciência da Informação
Grupo de Pesquisa - Estudos ônticos e ontológicos em contextos
informacionais: representação, recuperação e métricas
A Ciência Aberta e o
TratamentoTerminológico
•
O tema Ciência Aberta vem alterando, não só conceitos, mas
também o modus operandi das instituições de pesquisa científica
em todo o mundo, principalmente, nas universidades,
institutos de pesquisa e laboratórios.
•
Oriunda do movimento de Acesso Aberto ao Conhecimento,
a Ciência Aberta vem, aos poucos implantando mudanças
expressivas principalmente relacionadas à organização,
recuperação e acesso às informações e dados científicos.
•
Neste sentido, uma questão que se apresenta está relacionada
a integração entre esses diversos dados através de uma
terminologia consistente para obtenção de uma recuperação
precisa em Ambientes Heterogêneos.
Ambientes Heterogênicos e os
Produtos Informacionais
•
Tipos de dados podem incluir, por exemplo,
números, imagens, textos, vídeos, áudio,
software, algoritmos, equações,
animações, modelos, simulações.
No Espaço da Ciência
•
Exemplos específicos: sequência genômica, exemplar de
uma planta, dados atmosféricos
A questão da Heterogeneidade
•
Um problema de difícil tratamento e de recuperação
devido a diversidade de fontes de informação e formas
de tratamento
•
Essas fontes possuem diferenças de natureza sintática,
semântica e estruturais entre os sistemas
•
Envolve interoperabilidade e cooperação entre essas
múltiplas fontes de informação
A questão que se coloca
•
Como possibilitar o intercâmbio
desses dados e o compartilhamento
de informações e conhecimentos de
maneira que as informações
recebidas sejam processadas de
maneira significativa?
Interoperabilidade Semântica
• Capacidade dos sistemas de tecnologias de
informação e comunicação (TIC) para o
intercâmbio de dados e compartilhamento de
informações e conhecimentos de forma
significativa.
Objetivo
• Contribuir para a discussão no âmbito do acesso
aberto de algumas questões que envolvem a
interoperabilidade semântica em ambientes
heterogêneos
• Apresentar procedimentos teóricos e metodológicos
no âmbito da Ciência da Informação relacionados a
compatibilização de linguagens, visando
melhorias no tratamento e recuperação de
informação nesses ambientes
O Universo de Ciência e de Tecnologia nos Sistemas de Informação de Pesquisa (CRIS)
UM AMBIENTE HETEROGÊNIO
Organizações de
Pesquisa
Oportunidades de
Investimento
Projetos
Publicações
Patentes
Equipamento
Governos
Financiadores
Pesquisadores
Publicadores
Bibliotecas
Centros de
Dados
Instituições
de
Pesquisa
Indústria
Produtos
Dados de Pesquisa
Infraestrutura
Pesquisadores
Fonte: EUROCRIS.org
Maria Luiza de A. Campos – Pré ConfOA
Fonte: EUROCRIS.org
Uso
Racional de
Metadados
Descrição de
Dados de
Forma
Consistente
Uso de
Ontologias
Fontes de Dados
Heterôgeneos
podem ser
tratados através
de associações
semânticas
0
0
1
1
0
0
0
1
1
1
0
0
0
1
1
0
1
0
1
0
0
0
1
0
1
1
0
0
0
1
0
1
1
1
0
1
0
0
1
0
1
1
0
0
1
0
1
0
0
1
1
1
1
1
0
1
0
1
0
1
0
0
“Informação” não estruturada X estruturada
INFORMAÇÃO DESCONTEXTUALIZADA
INFORMAÇÃO CONTEXTUALIZADA
Buscar por “João
Brasil”???
Maria Luiza de A. Campos – Pré ConfOA
Fonte: material didático do prof. Carlos Henrique Marcondes (UFF)
Informações
precisam ser
contextualizadas
A questão fundamental é que
queremos possibilitar o acesso a
estas informações em um
espaço de uma Web que se quer
semântica
INFORMAÇÃO CONTEXTUALIZADA = SENTIDO APROPRIADO PARA
ATENDER A UM PROPÓSITO
Onde está a
Semântica?
Na Web Semântica
O Cavalo Canadense é um
herbívoro que come folhas de
Plátano
Vegetal
herbívoro
Árvore
Cavalo
come
É-um
É-um
Cavalo Canadense
É-um
Folha
É-parte-de
Plátano
É-um
A Semântica está no processo cognitivo de um indivíduo?
M
M
A Semântica na Web Semântica deve ser extraída dos dados contidos nas
informações e deverão ser transportados para um Modelo Formal.
ִ ! ִ" # $ " % % " $ " " $ % " & $ " " & # $ " ' ( ִ % % ) " % " $ " * % "
A linguagem natural para a
máquina pode ser definida
como um conjunto de
caracteres que não fazem
sentido.
É necessário que subjacente
a estes caracteres exista uma
linguagem formalizada
A Linguagem
Natural deve ser
“escrita” para a
máquina como um
modelo formal.
O MODELO DEVE SER TRANSFERIDO DA MENTE DO
INDIVÍDUO PARA A MÁQUINA ATRAVÉS DE UMA LINGUAGEM
FORMALIZADA QUE POSSA POSSIBILITAR INFERÊNCIAS
Web semântica
•
Ontologias
são fundamentais para a interoperabilidade
semântica – possuem uma linguagem formalizada
•
Uma ontologia é (definindo de forma bem simples) um vocabulário
consensual, compartilhado, de entendimento comum de um domínio.
Escrito através de uma especificação formal, que a máquina “entende”.
21
Maria Luiza de A. Campos – Pré ConfOA Fonte: material didático - Disciplina Representação da Informação / UFF
Ontologia do dinossauro
Trecho do código OWL da ontologia
23
Maria Luiza de A. Campos – Pré ConfOA Fonte: material didático - Disciplina Representação da Informação / UFF
Ligações comuns x nomeadas: exemplo
Buscas apoiadas por ontologias
leves/tesauros
NECESSIDADE DE CONTROLE TERMINOLÓGICO
25
Relações
nomeadas
A Web semântica: características
•
Uma Web de
dados descritos com metadados
•
Capaz de ser entendida por humanos e máquinas
simultaneamente
•
Informação estruturada e com
semântica bem definida
•
Permite a
realização de inferências
sobre o seu conteúdo
•
Oferece suporte a aplicações inteligentes e inovadoras
•
Agentes de software capazes de processar e entender os dados
•
Facilita a automação, integração e distribuição dos dados
Web semântica
•
Interoperabilidade Sintática
•
Formatos de dados e linguagens compatíveis
•
Interoperabilidade Semântica
•
É preciso ser capaz de concordar sobre o
“significado” de dados e operações sobre esses
dados
Eis a questão ...
•
Hoje em dia, os dados manipulados pelas instituições estão
dispersos nos mais variados recursos de informação, tais
como bases de dados e documentos de diferentes tipos.
•
Com isso, a integração da informação contida nessas
fontes é uma tarefa árdua.
•
Diferentes abordagens podem ser seguidas para
conseguir a integração, porém o desafio principal será
conquistar a interoperabilidade semântica entre as
fontes de informação, garantindo a manipulação do
conjunto sem forçar a conversão das partes em um
formato único.
Para atingir a interoperabilidade
semântica é necessário adotar
princípios de Compatibilização
Compatibilização
•
Ciência da Computação
•
Capacidade dos
computadores de vários
tipos de utilizar programas
escritos para outros sem
conversão para outras
linguagens de máquinas
•
Ciência da Informação
•
Medida de similaridade entre
duas linguagens, onde se
introduz o conceito de graus
de compatibilidade e
estabelecem a distribuição
entre compatibilidade no
plano semântico e no plano
linguístico.
Compatibilidade
de Linguagens de
Tratamento e
Recuperação de
Informações: o desafio do
profissional de
informação
Compatibilidade
•
Medida de similaridade entre duas
linguagens, onde se introduz o
conceito de graus de compatibilidade
e estabelecem a distribuição entre
compatibilidade no plano semântico e
no plano linguístico.
Compatibilidade pode ser definida, em
outras palavras, como...
•
a qualidade de um vocabulário de se
articular com outro de temática afim,
direta ou indiretamente , seja para definir
equivalências conceituais entre seus
termos, estabelecendo relações de
semelhança, seja para complementá-lo
em seu escopo, estabelecendo relações de
natureza lógica ou ontológica
Compatibilidade - motivação
•
Possibilidade de recuperar informação que pode
coexistir ou ser conectada de forma coerente entre
sistemas que utilizam esses vocabulários, permitindo
um intercâmbio de informações entre esses sistemas.
•
Para tanto cria-se Matriz de Compatibilização
•
Mapeamento das potencialidade semânticas
e linguísticas as Linguagens
•
Taxa de Coincidência Verbal
•
Grau de Compatibilidade Conceitual
Taxa de coincidência verbal
•
Analise da medida de similaridade
entre o símbolo linguístico e seu
conteúdo conceitual
•
Autor no Sistema A = Produtor
intelectual de um Documento
•
Autor no Sistema Y = O que
Grau de Compatibilidade
Conceitual
•
Compreende três fases:
•
Coincidência conceitual
•
Termos possuem a mesma forma verbal e todas as sua características são idênticas.
•
Termos são idênticos conceitualmente e possuem/ e não possuem o mesmo
termo genérico – problemas encontrados nas Ontologias da GO
•
Correspondência conceitual
•
Dois conceitos combinam a maior parte de suas características, sendo similares
•
São considerados quase sinônimos - problemas encontrados nas Ontologias da
GO
•
Correlação Conceitual
•
Dois conceitos são correlacionados através de símbolos matemáticos, por exemplo.
•
Indica que um conceito em uma linguagem equivale a uma combinação de
conceitos na outra linguagem
A Medida de Compatibilidade Conceitual
está diretamente relacionada com o
estudo das definições e das relações
conceituais
•
As características dos conceitos, são também
conceitos e estão expressas na definição conceitual e
nas relações
•
Estudo das definições conceituais
•
Estudo das relações
Método de Dalhberg – matriz de compatibilidade
conceitual- mapear as potencialidade semânticas
Compatibilização pressupõe o estudo das
definições e relações conceituais
Produto da compatibilização
Pode ser :
•
Um novo vocabulário, fruto da junção
de vocabulários compatíveis, ou
•
Uma linguagem intermediária que
estabelece correspondências entre os
termos destes vocabulários.
Existem diversas Propostas
metodológicas
•
Linguagem Mundial
– possibilidade de elaboração
de uma linguagem universal
•
Linguagem de Comutação
– propõe a criação de
uma estrutura básica comum, servindo de elemento
norteador no desenvolvimento de linguagens
individuais
•
Linguagem Intermediária
– é uma linguagem de
conversão que integra diversas linguagens
•
Este conceito surge em 1963, esboçado pelo Groupe d´Etude sur Information
Scientifique (GEIS) no projeto de criação de um léxico intermediário.
Linguagem Intermediária
•
Criação de uma léxico intermediário com um sistema
de códigos que possa convergir para dois ou mais
instrumentos de representação a ser
compatibilizados
•
Características:
•
As Linguagens originais são mantidas
•
Criação de uma linguagem de conversão ( sistema de
códigos)
•
Propõe a adoção de uma Linguagem Base
•
A linguagem de maior abrangência no domínio. Será utilizada como
padrão para análise
Linguagem Intermediária
•
Criação de uma léxico intermediário com um sistema
de códigos que possa convergir para dois ou mais
instrumentos de representação a ser compatibilizados
•
Características:
•
Estabelece onze níveis de correspondência
•
correspondência exata (idiomas diferentes, plural/singular);
termos sinônimos; termo específico para o termo genérico...
•
Ex: O vocabulário de origem usa uma só um descritor para
designar um conceito, enquanto que para o mesmo conceito o
vocabulário destino precisa usar dois ou mais descritores em
conjunto
•
Ex: o descriptor do vocabulário de origem existe no
vocabulário de destino descriptor mais genérico
Léxico intermediário
•
Vocabulário central
que atua como um
mediador de mapeamentos entre n
vocabulários com os quais queremos
estabelecer compatibilidade.
•
O Mapeamento é feito entre cada
vocabulário e o léxico.
Maria Luiza de A. Campos – Pré ConfOA
Método de Neville – Reconciliação de Tesauros –
propõe uma linguagem intermediária através do mapeamento entre
vocabulários
Mapeamento
•
no mapeamento busca-se obter uma
correspondência entre dois vocabulários,
onde se estabelecem critérios de
conversão de um vocabulário para o
outro.
•
é unidirecional, ou seja, é feito tendo em
vista a conversão de um vocabulário para
outro, mas não vice-versa.
Uma outra Proposta ...
O Vocabulário Integrado
•
Na integração o foco é gerar um novo vocabulário,
que possivelmente tem seu escopo ampliado em
relação aos vocabulários originais, uma vez que é o
resultado da agregação desses vocabulários.
•
Essa visão contrasta com a abordagem do léxico
intermediário, que têm por princípio a
preservação dos vocabulários originais e o
estabelecimento de equivalências entre os
vocabulários, enquanto que na integração essa
preservação é perdida uma vez que se cria um novo
vocabulário.
Abordagens para integração
•
Uso de diversas estratégias de casamento léxico
•
a normalização prévia dos termos dos
vocabulários
•
a exploração da estrutura hierárquica
•
a análise de documentos indexados com os
vocabulários
•
a participação de especialistas para validar o
resultado proposto de casamentos propostos
por processos semi-automatizados
Qual o princípio adotar?
O que serve aos nossos
propósitos visando possibilitar o
acesso aberto????
OBRIGADA!!!
Maria Luiza de A. Campos – Pré ConfOA