• Nenhum resultado encontrado

3 IRML: Linguagem de Modelação de Sistemas de IR

3.6 Vista de Informação

Esta vista representa todo o fluxo de informação dentro do sistema e pode ser dividida em três sub-vistas (resultado a divisão da vista num domínio mais especifico); (1) Vista

IR -A c to r

I R -U s e r IR -

A u th o r i ty P r o d u c e rIR - IR - In v e s ti g a to r

de informação de entrada composta por: Colecção, a qual agrega documentos, necessidades de informação expressa sob a forma de pergunta ou perfil utilizador, e pelo espaço classificado (sistema de classificação, dicionário); (2) vista de informação transformada, índice dos documentos e as perguntas ou perfil do utilizador expandidos; (3) vista de informação de saída, a qual corresponde ao output do sistema, ou seja lista de documentos ordenado por medida de relevância, documentos classificados ou ainda a identificação de comunidades. IR -C o lle c tio n IR -D o c u m e n t IR -In d e x IR -K n o w la d g e S p a c e IR -In fo rm a tio n N e e d s IR -R e s u lts IR -Q u e ry IR -U s e r-P ro file IR -C la s s ifie d S ys te m IR -C o m u n ity IR -Th e s a u ru s IR -S ys te m p ro d u ce > + o u tp u t + i n p u t c o n su m e > + i n p u t u se > + i n p u t u se > + i n p u t u se > u se > + i n p u t

Figura 3.7: Metamodelo da IRML – específico para a vista de informação.

Os estereótipos desta vista e as suas relações encontram-se definidas no metamodelo proposto na Figura 3.7, o qual é constituído pelos seguintes estereótipos: (1) o

Documento (IR-Document) é a informação produzida pelo autor, a qual é não-

estruturada, existente nos mais diversos formatos tendo inerentes os problemas da subjectividade e do contexto da linguagem humana; (2) a Colecção (IR-Collection), a qual representa a fonte de informação para o sistema, constituída por um conjunto de documentos arquivados. A maior colecção existente é a Web. Existem diversas colecções construídas à medida para testes de sistemas. Numa colecção existe uma grande variedade de formatos, tamanhos de documentos, temas/assuntos. Uma colecção pode dividir-se em várias sub-colecções. As colecções podem ser armazenadas de uma forma centralizada ou distribuída; (3) o Índice (IR-Index) o qual é o resultado da operação de criação de um representativo de uma colecção de menores dimensões, o qual se encontra arquivado numa base de dados apropriada. É constituído, essencialmente, por termos representativos dos documentos com as respectivas frequências e baseado nas propriedades estatísticas dos documentos. É proposto um

índice mais geral (não tão rápido) o qual pode servir para todos os processos de recuperação. O Índice constitui a ‘matéria-prima’ para o funcionamento de um sistema de recuperação (IR-MatchingProcess) sendo previamente construído; (4) a Necessidade

de Informação do Utilizador (IR- UserInformationNeeds) representa os interesses

específicos de informação de um determinado utilizador, expresso por um conjunto de termos escolhidos pelo utilizador ou então pela navegação num espaço de conhecimento apropriado. É usado como input no IR-MatchingProcess. Estas necessidades podem ser divididas em duas grandes classes:

O Perfil Utilizador (IR-UserProfile) representa os interesses estáveis de um utilizador. Pode ser formado por um conjunto de termos ou, então, por pontuação (identifica o atributo nota) dada a determinados eventos. Identifica a periodicidade com que o utilizador pretende receber a informação, informação que identifique o utilizador do ponto de vista do sistema (endereço de correio electrónico e login) e adicionalmente, pode ter um Perfil negativo do Utilizador, que reflecte temas nos quais o utilizador não está interessado em receber informação.

A Pergunta (IR-Query) representa o interesse momentâneo de um determinado utilizador, expresso através de um conjunto de termos. Estes termos são posteriormente trabalhados de forma a melhorar o desempenho de um determinado sistema.

(5) o Espaço Conhecimento (IR-KnowladgeSpace) representa o espaço organizado e previamente trabalhado por um conjunto de entidades. Este espaço é dividido em três grandes áreas, correspondentes a três estereótipos, ilustrado na Figura 3.8: sistema de

classificação, thesaurus/dicionários e comunidades de utilizadores (definições

apresentadas na Secção 2.10 a 2.12. à excepção das comunidades); (6) o Resultado (IR-

Result), o qual é o output do sistema em causa, habitualmente consiste numa lista de documentos ordenada por uma determinada medida de relevância, ou na catalogação de documentos bem como a identificação de comunidades.

Figura 3.8: Estereótipos do espaço classificado de informação. IR -K n o w la d g e S p a c e

Na vista de informação ainda é proposto como componente opcional a introdução do Sistema (IR-System), como forma de identificar o sistema a que a vista de informação pertence e, ao mesmo tempo, fazer a ‘ponte’ para a vista de processos, pois o conjunto de processos transforma a informação de entrada na saída constituí o sistema.

3.6.1 Sistema de Classificação

Os sistemas de classificação podem ser divididos em genéricos ou especializados, tal como se esquematiza na Figura 3.9.

Os primeiros pretendem abarcar todo o espaço do conhecimento. Como exemplo de sistemas genéricos temos:

CDU – Classificação Decimal Universal (McIlwaine, 1993:7), sistema amplamente aceite nas bibliotecas Europeias. < www.udcc.org/>.

LCSH – Library of Congress Subject Headings, desenvolvido e mantido nos Estados Unidos sob a supervisão da Biblioteca do Congresso <http://lcWeb.loc.gov/catdir/cpso/lcco/lcco.html> e <http://www.unc.edu/courses/ jomc050/loc/lcsh3.html>.

« IR -C l a ssi fi e d S yste m »

S is te m a C la s s ific a ç ã o (S C )

« IR -C l a ssi fi e d S yste m »

S C G e ra l « IR -C l a ssi fi e d S yste m »S C E s pe c ífic o

« IR -C l a ssi fi e d S yste m » C D U « IR -C l a ssi fi e d S yste m » LCS H « IR -C l a ssi fi e d S yste m » A C M « IR -C l a ssi fi e d S yste m » M S C 0 ..1 0 ..1 0 ..1 0 ..1

Figura 3.9: Tipos de Sistema de Classificação.

Os sistemas especializados estão destinados a domínios específicos, criados por organizações ou entidades interessadas nesses mesmos domínios.

ACM Computing Reviews Classification System, criado pela ACM – (Association for Computing Machinery) <www.acm.org/class/>. Este sistema organiza-se em torno de uma árvore com onze nós principais (descritores de áreas), cada qual dividindo-se em um ou dois níveis de termos genéricos.

MSC – Mathematics Subject Classification, utilizado na classificação de obras na área da Matemática <http://www.ams.org/msc>.

3.6.2 Thesaurus (Dicionários) e Ontologias

Thesaurus descreve relações de sinónimos entre palavras e está relacionado com a

temática de normalização do vocabulário. Este conceito tornou-se comum desde que Peter Mark Roget publicou a obra Thesaurus of English Words and Phrases (Roget, 1942). Nessa obra, Roget apresenta as classes de topo, o espaço, a matéria, o intelecto, a vontade, as afecções, as quais estão subdivididas em secções, onde se representam então as palavras, havendo indicação de relações explícitas entre quaisquer palavras que o justifiquem.

Esta noção generalizou-se pelo que, tipicamente, um thesaurus é entendido hoje em dia como uma estrutura de nós ligados, em que cada nó corresponde a um termo ou conceito. Associado a cada nó podem-se encontrar vários campos de informação, tais como outros termos mais ou menos abrangentes, termos relacionados ou notas. Regra geral, esta estrutura de nós, no thesaurus, tem ainda uma forma hierárquica em árvore. Podem, no entanto, existir ligações entre diferentes níveis através de notas ou tipos de relações. Pode acontecer ainda que existam múltiplas hierarquias representando cada uma determinada faceta. Existe uma norma ISO para a representação de thesaurus (ISO, 1986), e uma outra para representação de um thesaurus em mais do que uma língua (ISO, 1985).

Figura 3.10: Principais formas de construir um thesaurus.

« IR -T h e sa u ru s»

The s a urus

« IR -T h e sa u ru s»

The s a urus :S ta tis tic a l

« IR -T h e sa u ru s»

The s a urus :M a nua l

« IR -T h e sa u ru s»

The s a urus : A s s oc ia tiv e

Um thesaurus propriamente dito é definido por um conjunto de termos e por um conjunto de relações. O tipo e a variedade de relações utilizadas por um thesaurus são que o distinguem de um simples dicionário de sinónimos. Os dicionários de sinónimos são um caso particular de thesaurus, uma vez que estes têm a relação de equivalência entre termos, que definem hierarquias entre conceitos, termos preferidos, etc.

Adicionalmente, o conceito de ontologia, definido originalmente na Filosofia, começou a ser adaptado nas áreas da Engenharia e da Ciência dos Computadores (Blackburn, 1997) (“Ontologia: Termo derivado da palavra grega «ser», mas usado desde o século XVII para denominar o ramo da metafísica que diz respeito àquilo que existe.[...]” (Blackburn, 1997:308)), sendo usado para designar formas mais avançadas de abordar este problema da classificação e da representação de relações entre entidades. Ontologias são definidas como um conjunto de termos e relações usados num determinado domínio, permitindo a partilha de conhecimento. Permite também explicitar uma conceitualização que descreve a semântica da informação (i.e. meta informação).

Em relação à organização dos espaços de conhecimento é interessante e de referir o projecto OIL (Ontology Inference Layer <www.ontoknowledge.org/oil>) que pretende definir os requisitos para uma linguagem de ontologias comum, baseada nos padrões XML e RDF. Outro projecto interessante é o Web-Ontology (WebOnt) do W3C <www.w3c.org/2001/sw/webont> baseado em RDF e OWL (Web Ontology Language).

3.6.3 Sistema de IR

O Sistema (IR-System) é um conjunto integrado de recursos (humanos e tecnológicos) cujo objectivo é satisfazer adequadamente a totalidade das necessidades de um determinado utilizador. Na Secção 3.7, são identificados e caracterizados os três principais sistemas.