• Nenhum resultado encontrado

O QUE SÃO E PARA QUE SERVEM OS SISTEMAS DE ORGANIZAÇÃO DO CONHECIMENTO?

Sistemas de organização do conhecimento: Antigas e novas linguagens Marisa Bräscher1 e Eliana Carlan2

SUMÁRIO DO CAPÍTULO 8

2. O QUE SÃO E PARA QUE SERVEM OS SISTEMAS DE ORGANIZAÇÃO DO CONHECIMENTO?

Antes de abordar especificamente os SOC, é necessário introduzir conceitos relacionados à organização do conhecimento e à organização da informação. Em trabalho apresentado no X Encontro Nacional de Pesquisa em Ciência da Informação, Bräscher e Café (2008) discorreram sobre o tema, por conseguinte, limitar-nos-emos a destacar pontos que auxiliam a situar os SOC no contexto desses processos de organização.

Dahlberg (1993, p. 211) define organização do conhecimento como "a ciência que estrutura e organiza sistematicamente unidades do conhecimento (conceitos) segundo seus elementos de conhecimento (características) inerentes e a aplicação desses conceitos e classes de conceitos ordenados a objetos/assuntos." Em trabalho mais recente, a autora distingue duas aplicações para a organização do conhecimento: ―a) a construção de sistemas conceituais; e b) a correlação ou mapeamento de unidades desse sistema conceitual com objetos da realidade.‖ (DAHLBERG, 2006, p. 12)

A fim de evitar confusões terminológicas advindas do uso do termo para se referir às duas aplicações, preferimos usar o termo organização do conhecimento apenas no sentido da primeira aplicação sugerida por Dahlberg. Para nos referirmos à segunda aplicação, adotamos o termo organização da informação, conforme proposto por Bräscher e Café (2008):

3 Tradução para o português do termo knowledge organization systems (KOS) proposto em 1998 pelo Networked Knowledge Organization Systems Working Group, na Conferência ACM Digital Libraries 98. (Hodge, 2000)

150

Em nossa visão, temos dois tipos distintos de processos de organização, um que se aplica às ocorrências individuais de objetos informacionais - o processo de organização da informação, e outro que se aplica a unidades do pensamento (conceitos) - o processo de organização do conhecimento. A OI compreende, também, a organização de um conjunto de objetos informacionais para arranjá-los sistematicamente em coleções, neste caso, temos a organização da informação em bibliotecas, museus, arquivos, tanto tradicionais quanto eletrônicos. A organização do conhecimento, por sua vez, visa à construção de modelos de mundo que se constituem em abstrações da realidade.‖ (BRÄSCHER; CAFÉ, 2008, P. 6)

Considerando a primeira aplicação sugerida por Dahlberg (2006), os SOC são tipos de sistemas conceituais, ou, como afirmamos na introdução deste trabalho, tipos de representações do conhecimento, frutos do processo de organização do conhecimento.

Conforme a segunda aplicação destacada por Dahlberg (2006) os SOC são aplicados para mapear objetos informacionais, ou seja, para representar os assuntos dos documentos num sistema de informação. Nesse contexto, os SOC são instrumentos usados nos processos de classificação e indexação. A qualidade obtida na recuperação da informação dependrá substancialmente desses instrumentos. Portanto, os padrões de organização devem ser definidos desde a concepção do sistema para permitir que a informação seja encontrada posteriormente.

Num sistema de informação, a qualidade obtida na recuperação da informação depende substancialmente dos procedimentos e instrumentos utilizados para organização da informação. Os padrões de organização devem, portanto, ser definidos desde a concepção do sistema para permitir que a informação seja encontrada posteriormente.

Na década de 60, Montgomery (1969) já afirmava que o módulo que controla a representação do conteúdo é o coração de um sistema de recuperação da informação. Esta ideia também é reforçada por Salton (1990) quando afirma que qualquer modelo avançado de recuperação da informação deve lidar com o problema da análise da linguagem, uma vez que o conteúdo dos textos e dos documentos necessariamente controla as atividades de recuperação.

Zeng (2006) considera a busca por assunto a tarefa mais importante do usuário, como evidenciam os recursos utilizados por ferramentas de busca, diretórios, bases de dados e sites para prover acesso aos conteúdos.

Vickery (1986) lembra que a representação do conhecimento é objeto antigo de pesquisa na área de informação e retrata a evolução nessa área. A representação do conhecimento é uma questão que preocupa a Documentação desde sua origem. O problema agora é relevante em muitas outras situações além dos documentos e índices. A estrutura de registros e arquivos de bases de dados; a estrutura de dados nos programas de computador; a estrutura sintática e semântica da linguagem natural; a representação do conhecimento em inteligência artificial; os modelos de memória humana: em todos esses campos é necessário decidir como o conhecimento pode ser representado de forma que estas representações possam ser manipuladas. (VICKERY, 1986, p. 145)

Diante do destaque atribuído por autores renomados da área de Ciência da Informação aos aspectos de representação e recuperação de conteúdos, concluímos que os SOCs cumprem importante papel nesse contexto. Para Hodge (2000), os SOCs são "mecanismos de organização da informação", e, como prefere Vickery (2008), "instrumentos complementares que ajudam o usuário a encontrar seu caminho no texto". Hodge (2000) chega a qualificar esses sistemas como ―o coração de toda biblioteca, museu e arquivo".

Se por um lado há concordância dos autores quanto à importância dos SOCs para a organização e recuperação de informações, parece não haver tanto consenso quanto à abrangência do conceito de SOC e aos tipos de sistemas considerados. Vickery (2008) indica índices e sumários de livros como

151

as formas mais simples de SOCs. No entanto, o autor ressalta que, com o tempo, esses sistemas tornaram-se mais complexos e assumiram funções mais amplas, havendo, em consequência, o surgimento de novas denominações, como taxonomias, categorizações, tesauros ou ontologias. Os SOCs são esquemas que organizam, gerenciam e recuperam informação e a base dos modernos SOCs são termos e indicações de relacionamentos entre eles. Ainda para o autor supracitado, essa definição abrange dicionários, glossários, redes semânticas, slots e frames (representações do conhecimento usadas pela inteligência artificial), mapas conceituais e listas de termos.

Segundo perspectiva histórica, Vickery (2008) reúne os SOCs em quatro grupos:

1) Era da pré-coordenação: os SOCs eram estruturas estáticas e atendiam às necessidades dos sistemas manuais de organização e recuperação da informação, como índices e catálogos. Incluem-se aqui as listas de cabeçalhos de assunto e as classificações.

2) Era da pós-coordenação: os SOCs tornam-se mais dinâmicos e possibilitam que cada um de seus elementos (termos) sejam manipulados de forma independente para representar os assuntos de cada documento. Exemplos de SOCs dessa era são vocabulários controlados (listas de termos autorizados para uso na indexação e recuperação da informação) e tesauros.

3) Era da Internet: os SOCs que se destacam são as classificações hierárquicas que orientam o usuário na escolha do termo que melhor expressa sua questão de busca; os elos estabelecidos por meio de URL entre itens da Web e os índices das ferramentas de busca, compostos de palavras extraídas dos conteúdos dos objetos informacionais.

4) Era da Web Semântica: os SOCs dessa era diferenciam-se dos demais por serem projetados para uso por agentes inteligentes. O principal exemplo são as ontologias.

Pode-se ou não concordar com a classificação sugerida por Vickery (2008). No entanto, observamos que a característica que o autor privilegia em sua proposta é a função de organização e recuperação de informações que os SOCs cumprem em diferentes momentos que marcam a evolução dos sistemas de informação. Nesse aspecto, concordamos com a visão do autor e destacamos que a Ciência da Informação deve se ocupar principalmente dos SOCs que cumprem essa função.

A classificação de tipos de SOC proposta por Hodge (2000) é utilizada por vários autores (SHIRI, MOLBERG, 2005; MCCULLOCH, MACGREGOR 2008; HJORLAND, 2008; ZENG, 2006) e também adotada pelo Networked Knowledge Organization Systems and Services – NKOS4.

Segundo Hodge (2000),

Sistemas de Organização do Conhecimento englobam todos os tipos de instrumentos usados para organizar a informação e promover o gerenciamento do conhecimento. Incluem os esquemas de classificação que organizam materiais em nível geral (como livros em estantes), cabeçalhos de assunto que provêm acesso mais detalhado e listas de autoridade que controlam versões variantes de chaves de acesso à informação (nomes geográficos e nomes de pessoas). Incluem, ainda, esquemas menos tradicionais, tais como redes semânticas e ontologias. (HODGE, 2000)

Em sua classificação, Hodge (2000) agrupa os SOCs em três categorias:

152

1) Listas de termos: englobam listas de termos geralmente acompanhados de suas definições. Compreendem:

 Lista de autoridades: listas de termos que controlam as variações de nomes para entidades, como nomes de países, indivíduos ou instituições. Ex.:http://www.senado.gov.br/sf/Biblioteca/servicos/VCB_AUTR.asp

 Glossários: lista de termos com definições, geralmente de um assunto ou domínio específico. Ex.: http://www.bcb.gov.br/?glossario  Dicionários: lista alfabética de palavras e suas definições. Seu escopo é mais geral que o dos glossários.

Ex.:http://www.dicionariodoaurelio.com/

 Gazetteers: dicionário de nomes de lugares e acidentes geográficos, tais como cidades, rios, vulcões. Quando georreferenciados, os gazetteers apresentam as coordenadas para a localização de lugares na superfície da Terra. Ex.: http://www.world-gazetteer.com/ 2) Classificações e categorias: reúnem SOCs que enfatizam a criação de classes de assuntos. São eles:

 Cabeçalhos de assunto: conjunto de termos controlados que representam os assuntos de uma coleção. Ex.:  http://memory.loc.gov/hlas/portugues/assuntos.html

 Esquemas de classificação, taxonomias e esquemas de categorização: esquemas utilizados para agrupar entidades em classes mais gerais. Os esquemas de categorização são geralmente usados para reunir os termos de tesauros em tópicos. As taxonomias são usadas em modelos orientados a objeto e em sistemas de gestão do conhecimento, para indicar grupos de objetos baseados em características particulares. Ex.: http://www.google.com.br/dirhp

3) Listas de relacionamentos: agrupam SOCs que privilegiam a conexão entre termos e conceitos. Englobam:

 Tesauros: conjunto de termos que representam conceitos e as relações de equivalência, hierárquicas e associativas que se estabelecem entre eles. Ex.: http://www.cnfcp.gov.br/tesauro/

 Redes semânticas: estrutura de conceitos e termos em forma de rede ou teia, os conceitos são nós e os relacionamentos expandem-se a partir dos nós. Ex.: http://wordnetweb.princeton.edu/

 Ontologia: estrutura de conceitos e representação dos relacionamentos complexos entre eles, incluindo regras de inferência e axiomas. Ex.: http://wiki.musicontology.com/index.php/Main_Page

Zeng e Salaba (2005) propõem um gráfico (Fig. 1) que sintetiza a classificação proposta por Hodge (2000) e ressaltam as características que diferenciam os SOC quanto ao nível de complexidade da estrutura e quanto à maior ou menor aproximação com a linguagem natural.

Zeng (2008) apresenta proposta mais recente de visão geral dos SOCs, segundo sua estrutura e função. No entanto, preferimos adotar a proposta anterior, de 2005, por considerá-la mais coerente em relação às características dos SOCs destacadas no gráfico, onde se torna claro que as listas de termos são menos estruturadas e mais próximas da linguagem natural do que os tesauros e ontologias, que se encontram no outro extremo do gráfico.

Apesar da ampla aceitação da classificação de Hodge (2000), não concordarmos plenamente com a abrangência atribuída ao conceito de SOC, que reúne diferentes tipos de instrumentos sob essa mesma denominação. Predomina na literatura a visão de SOC como ―um amplo conjunto de esquemas para organizar a informação e facilitar a descrição e descoberta de recursos‖ [de informação]. (Shiri e Molberg, 2005, p.605).

No entanto, neste capítulo, preferimos seguir a visão de autores que definem os SOCs num sentido mais restrito, como Broughton et al. (2004, p.143), que os consideram, no ―sentido específico da palavra, como ferramentas semânticas que consistem de palavras conceitos e relações semânticas, definidas e selecionadas‖. Apesar da posição dos autores, preferimos adotar ―termos‖ em vez de ―palavras‖.

Para chegar a uma definição que melhor represente os interesses da Ciência da Informação em relação ao estudo e ao desenvolvimento de SOCs, tomamos por princípio que esses sistemas são ferramentas semânticas, segundo a definição proposta por Hjorland (2008): ―os SOCs são ferramentas

153

que apresentam a interpretação organizada de estruturas do conhecimento, também chamadas de ferramentas semânticas‖. Segundo o mesmo autor, essas ferramentas contemplam, essencialmente, conceitos e suas relações semânticas, além de informarem o significado dos termos ou símbolos que empregam. Pressupomos, ainda, que, para a Ciência da Informação, os SOCs devem cumprir a função de instrumentos de organização e recuperação da informação.

Figura 1. – Tipos de Sistemas de Organização do Conhecimento (Fonte: Zeng & Salaba: FRBR Workshop, OCLC 2005) .... ...

Diante do exposto, entendemos que, para a Ciência da Informação, os SOCs são representações de domínios do conhecimento que delimitam o significado de termos no contexto desses domínios, estabelecem relações conceituais que auxiliam a posicionar um conceito no sistema conceitual e são utilizadas como instrumentos de organização e recuperação da informação.

Levando em conta essa delimitação conceitual, discutimos a inclusão, entre esses sistemas, das listas de autoridade, dicionários, glossários e gazetteers. Apesar de serem instrumentos de organização e recuperação da informação, as listas de autoridade não contemplam a representação em nível conceitual. São instrumentos que têm por essência a padronização de vocabulário e não constituem representações do conhecimento. Os dicionários, glossários e gazetteers delimitam conceitos e apresentam alguns tipos de relações conceituais, como as relações de equivalência e associativas. No entanto, não são instrumentos elaborados com os objetivos de organização e recuperação de informações.

154

Acreditamos ser importante delimitarmos os tipos de SOC àqueles que possuem essas características comuns, em função da dificuldade em traçar princípios teóricos e metodológicos que abranjam uma ampla diversidade de sistemas. Hjorland (2008) chama a atenção para isso e lembra o fato de uma pessoa lhe haver dito que era especialista em alguns tipos de SOC, como, por exemplo, tesauros, mas não em outros, como enciclopédias. Para o autor, essa afirmação leva ao questionamento acerca da abrangência do conceito de SOC: ―esse conceito geral é ruim ou está definido de maneira muito geral‖. Hjorland (2008) nos coloca, ainda, a seguinte questão: ―os métodos utilizados para elaboração de tesauros são úteis para a elaboração de enciclopédias?‖

Não aprofundaremos essas discussões neste capítulo, deixaremos essa árdua tarefa para outra oportunidade. Apenas levantamos esses questionamentos para justificar a delimitação do conjunto de SOCs que abordamos neste trabalho. Para tanto, recorremos ao escopo definido pelo SKOS - Simple Knowledge Organization System, que se ocupa do desenvolvimento de especificações e padrões para apoiar o uso de sistemas de organização do conhecimento, no contexto da Web Semântica. “Sistema de Organização do Conhecimento é um conjunto de elementos, geralmente estruturado e controlado, que pode ser usado para descrever (indexar) objetos, navegar em coleções, etc. Exemplos típicos de SOCs são tesauros, classificações, listas de cabeçalhos de assunto e taxonomias‖ (SKOS, 2004).

Delimitada, então, a abrangência dos SOCs adotada neste capítulo, passemos às funções desses sistemas. Soergel (1999) apresenta diversas aplicações dos SOCs, das quais destacamos o auxílio à recuperação da informação. Para o autor, os SOCs fornecem uma base de conhecimento que apoia a busca pelo usuário final, como, por exemplo, menus em árvores, orientação de busca por facetas de determinado assunto, cadeias hierárquicas que orientam a navegação, mapeamento de termos de busca para descritores usados em bases de dados ou para outras expressões em linguagem natural. Além disso, esses sistemas apoiam a expansão da busca por meio da cadeia hierárquica e orientam a ordenação de resultados de busca. Nos processos de tratamento da informação, Soergel (1999) classifica os SOCs como instrumentos de indexação.

Para Vickery (2008), os SOCs explicitam o conhecimento de um domínio e possibilitam: indexação, organização e recuperação de informações ou de outros tipos de objetos; construção de mapas de conhecimento; navegação para busca de informação e criação de novo conhecimento a partir do existente. Segundo o autor, as relações semânticas em SOCs são necessárias para que cumpram as seguintes funções de auxílio à busca:

 buscas genéricas: seleção de um conjunto de itens relevantes para determinado assunto geral. O SOC reúne todos os assuntos específicos em um campo de assunto mais geral, de maneira que possam ser encontrados pelo usuário;

 buscas específicas: seleção de um conjunto de itens do conhecimento relevantes para um tópico específico. Esses assuntos normalmente são descritos por uma combinação de termos, os quais devem estar reunidos de forma compreensível em um SOC;

 arranjo sequencial: arranjo de um conjunto de itens armazenados ou selecionados de maneira compreensível para o usuário;

 escolha de termos de busca: apresentação de termos semanticamente relacionados, de maneira que o usuário possa selecionar aqueles que melhor representem o assunto que deseja.

Na visão de Shiri e Molberg (2005), os SOCs têm o potencial de prover várias perspectivas de uma coleção no ambiente digital, pois oferecem ao usuário uma estrutura conceitual rica e uma estrutura semântica que facilitam a seleção de termos para a formulação, reformulação e expansão da busca. A função dos SOCs em bibliotecas digitais é abordada por Hodge (2000): Bibliotecas digitais podem usar SOCs para estabelecer elos entre recursos digitais e entre esses e objetos físicos. Um exemplo disso é a expansão de códigos e siglas. Os registros podem ser localizados diretamente por meio da navegação nos SOCs ou indiretamente, por meio de uma chave de busca que pode ser usada para acessar outra fonte de informação. Esse conceito coloca o uso dos SOCs um passo à frente, fornecendo informações sobre a localização física de objetos em museus ou catálogos de exposições.

155

McCulloch e Macgregor (2008) discutem a questão do mapeamento terminológico entre diferentes SOCs em repositórios digitais, pois com o crescimento do número de repositórios, objetos digitais são indexados e organizados segundo uma variedade de diferentes esquemas. Para esses autores, é irreal esperar que os usuários interroguem cada repositório separadamente e que estejam familiarizados com as inúmeras terminologias adotadas. É necessário, portanto, que os usuários possam consultar e navegar simultaneamente múltiplos repositórios distribuídos.

Com base no exposto, concluímos que os SOCs cumprem duas funções principais. Na organização da informação, cuidam da padronização da representação dos conteúdos dos documentos e, na recuperação da informação, orientam e auxiliam o usuário quanto à localização de conteúdos. Essas funções se aplicam tanto ao ambiente tradicional quanto ao digital.