Linguagem para Modelação de Sistemas de Pesquisa de
Informação
João Ferreira Alberto Rodrigues da Silva José Delgado
ISEL INESC-ID, IST Instituto Superior Técnico
jferreira@deetc.isel.ipl.pt alberto.silva@acm.org Jose.Delgado@tagus.ist.utl.pt Sumário: O presente trabalho pretende abordar o problema da falta de uniformização de conceitos, fórmulas e parâmetros na área da pesquisa de informação, introduzindo uma linguagem própria com base nos mecanismos de extensão do UML, a qual serve de base à construção de modelos abstractos para a PI. Este modelos constituem um conjunto de bibliotecas cuja integração numa infra-estrutura permite construir sistemas de pesquisa de informação de uma forma simplificada, modular e uniforme..
Palavras chave: Pesquisa Informação, Modelação, Linguagem, UML.
1 Introdução
A pesquisa de informação tem-se desenvolvido explorando as propriedades estatísticas dos documentos, introduzindo um conjunto de simplificações ad-hoc, as quais são validadas em ambientes de teste. Não existem padrões nem uma teoria geral que possa contextualizar o problema. O trabalho desenvolvido neste domínio tem sido orientado para a criação de métodos e sistema de pesquisa, não existindo uniformização de notações, nem uma linguagem própria para a descrição dos problemas associados. Neste trabalho pretende-se dar os primeiros passos nesta área, usando as potencialidades do UML. Este trabalho insere-se no objectivo da construção automática de sistema de PI a partir de um conjunto de necessidades específicas de grupos de utilizadores. A perspectiva geral na qual o trabalho se integra encontra-se definida na Figura 1, da qual iremos abordar neste artigo a definição da IR-Language, língua criada com base nos mecanismos de extensão do UML, adaptada às necessidade especificas da PI.
Figura 1: Etapas para a construção automatica de sistemas de PI.
Para facilitar a modelação do problema da construção de sistemas de Pesquisa de informação são propostas vistas, as quais têm como objectivo facilitar o processo da construção de um sistema, permitindo uma visão parcial do todo. Têm um papel semelhante às diferentes vistas de um plano de construção de uma casa. São propostas três vistas, de acordo com a Figura 2: (1) IR-UseCaseView define os actores (IR-Actors),
IR -L a n g u a g e IR -M o d e lo s A b s tr a c to s M e to d o l o g ia In fr a -E s tr u tu r a IR -S ys te m IR -P l a ta fo r m a Te s te IR -A p lic a ç õ e s U M L u sa > l i n g u a g e m u sa > d e fi n e e t a p a s a rq u i te c tu ra m o d e l o s + o u tp u t c o n c e p ç ã o c o n c e p ç ã o + o u tp u t b a se a d o b a se a d o b a se a d o
apresentando uma sequência de acções que estes realizam no sistema de forma a obterem um resultado particular. Esta vista define as relações do sistema com o exterior bem como define os objectivos do sistema; (2) IR-DataView, define os dados de entrada e saída do sistema, sendo estes caracterizados por um diagrama de classe e uma sequência de acções. Nesta vista pretende-se caracterizar os dados e o seu respectivo fluxo; (3) IR-ProcessView, define uma sequência, os atributos e as operações necessárias a um conjunto de processos, para transformar os dados de entrada no resultado a apresentar ao utilizador.
Figura 2: Vistas de representação de sistemas da linguagem para PI.
2
Vista de casos de utilização
Figura 3: Vista dos casos de uso de um sistema de Pesquisa de Informação.
Actor, caracteriza o actor do sistema o qual pode representar quatro papéis principais; (1) IR-Autor (IR-Producer), o produtor de informação, usando os meios disponíveis para publicar a sua
informação; (2) IR-Utilizador (IR-User) aquele que tem necessidade de recuperar informação e para o efeito expressa a sua necessidade por um conjunto de termos e espera que o sistema devolva uma lista ordenada de documentos relevantes; A necessidade de informação pode ser livre; (3)
IR-Autoridade (IR-Authority) é responsável pela criação e gestão do espaço de conhecimento e
simultaneamente pode identificar (criar) colecções de teste; (4)IR-Investigador (IR-Investigator), usa um sistema para testar algoritmos e abordagens de forma a contribuir para o avanço da ciência relacionada com a Pesquisa de informação. É responsável pela avaliação dos resultados obtidos.
3
Vista de Dados
IR-Document (Documento), é a informação produzida pelo autor, não-estruturada, existente nos mais
diversos formatos e tendo inerentes os problemas da subjectividade e do contexto da linguagem Humana.
I R -S ys te m M o d e l I R -U s e C a s e V i e w I R -D a ta V i e w I R -P r o c e s s V i e w « i m p a c t s» « i m p a c t s» + i n p u t + o u t p u t I R -U s e r D e fi n e N e c e s s i d a d e I n fo r m a ç ã o D e fi n e P e r g u n ta D e fi n e P e r fi l U ti l i z a d o r I n tr o d u z te r m o s E s c o l h e c a te g o r i a s \ te r m o s n u m E s p a ç o C l a s s i fi c a d o E s c o l h e C o m u n i d a d e R e c e b e l i s ta d o c u m e n to o r d e n a d o s p o r m e d i d a d e r e l e v â n c i a I R -A u th o r i ty C r i a E s p a ç o C o n h e c i m e n to G e r e E s p a ç o C o n h e c i m e n to V a l i d a d e C o m u n i d a d e U ti l i z a d o r e s C r i a C o l e c ç ã o Te s te C r i a Tó p i c o s A v a l i a R e l e v a n c i a D o c u m e n to s fa c e a o s Tó p i c o s I R -I n v e s ti g a to r E s c o l h e S e r v i ç o E s c o l h e M é to d o C o m p a r a ç ã o A v a l i a R e s u l ta d o s D e fi n e A m b i e n te Te s te E s c o l h e C o l e c ç ã o E s c o l h e p a r a m e tr o s Í n d i c e E s c o l h e o u c r i a n o v o s P r o c e s s o s C r i a e te s ta n o v o s m é to d o s I R -P r o d u c e r P r o d u z D o c u m e n to R e tr o a ç ã o R e s u l ta d o s « e x t e n d » « e x t e n d » « i n c l u d e » « i n c l u d e » « e x t e n d » « e x t e n d » « e x t e n d » « e x t e n d » « e x t e n d » « e x t e n d » « e x t e n d »
IR-Collection (Colecção) representa a fonte de informação para o sistema, constituída por um conjunto de
documentos arquivados. A maior colecção existente é a Web. Existem diversas colecções construídas à medida para testes de sistemas. Numa colecção existe uma grande variedade de formatos, tamanhos de documentos, temas/assuntos. Uma colecção pode dividir-se em várias sub-colecções. As colecções podem ser armazenadas de uma forma centralizada ou distribuída.
IR -C o lle c tio n IR -D o c u m e n t IR -In d e x IR -K n o w la d g e S p a c e IR -In fo rm a tio n N e e d s IR -R e s u lts IR -Q u e r y IR -U s e r -P ro file IR -C la s s ifie d S ys te m IR -C o m u n ity IR -Th e s a u ru s IR -S ys te m IR -S e rv ic e p ro d u c e > + o u tp u t + i n p u t c o n su m e > + i n p u t u se > + i n p u t u se > + i n p u t u se > u se > + i n p u t 1 1 Figura 4: Vista dos perfis relacionados com a vista dos dados
IR-Index (Índice), é o resultado da operação de criação de um representativo, de menores dimensões, de
uma colecção. Os representativos encontram-se arquivados numa base de dados apropriada. É constituído essencialmente por termos representativos dos documentos com as respectivas frequências e baseado nas propriedades estatísticas dos documentos. É proposto um índice mais geral (não tão rápido) o qual pode servir para todos os métodos de Pesquisa. O Índice constitui a ‘matéria-prima’ para o funcionamento de um sistema de Pesquisa sendo previamente construído.
IR- UserInformationNeeds (Necessidade de Informação do Utilizador), representa os interesses
específicos de informação de um determinado utilizador, expresso por um conjunto de termos escolhidos pelo utilizador ou então pela navegação num espaço de conhecimento apropriado. Estas necessidades podem ser divididas em duas grandes classes: (1) IR-UserProfile (Perfil Utilizador), representa os interesses estáveis de um utilizador. Pode ser formado por um conjunto de termos ou então por pontuação (identifica o atributo nota) dada a determinados eventos. Identifica a periodicidade com que o utilizador pretende receber a informação. O perfil contém ainda informação que identifica o utilizador do ponto de vista do sistema (endereço correio electrónico e login) e adicionalmente pode ter um Perfil negativo que reflecte temas nos quais o utilizador não está interessado em receber informação; (2) IR-Query (Pergunta), representa o interesse momentâneo de um determinado utilizador, expresso através de um conjunto de termos. Estes termos são posteriormente trabalhados de forma a melhorar o desempenho de um determinado sistema.
IR-KnowladgeSpace (Espaço Conhecimento), representa o espaço organizado e previamente trabalhado
por um conjunto de entidades. Este espaço é dividido em três grandes áreas: sistema de classificação,
thesaurus/dicionários e comunidades de utilizadores (definições apresentadas em [2])
IR-Results (Resultados), é o resultado do serviço em causa, consistindo habitualmente numa lista de
documentos ordenada por medida de relevância.
IR-System (Sistema), é um conjunto integrado de recursos (humanos e tecnológicos) cujo objectivo é
satisfazer adequadamente a totalidade das necessidades de um determinado serviço
IR-Service (Serviço), representa a generalização do conceito de sistema orientado para um determinado
objectivo, do ponto de vista das acções a executar tendo em conta os objectivos definidos para os utilizadores. O sistema é constituído por um conjunto de acções, enquanto que o serviço está orientado para o conceito.
4
Vista de processos
Figura 5: Vista dos processos principais de Pesquisa de informação.
IR-Process (Processo), é um conceito vasto, que pretende designar uma sequência de actividades (agrupadas
em fases e tarefas) executadas de forma sistemática e uniformizada, por intervenientes com responsabilidades bem definidas, e que a partir de um conjunto de entradas produzem um conjunto de saídas. Existem diversos processos, dos quais se realçam quatro específicos, ficando os restantes identificados como processos:
− IR-IndexProcess (processo de indexação), responsável por criar representativos dos documentos
existentes numa colecção e é um dos principais processos do serviço de Pesquisa. O objectivo deste processo é criar um representativo do documento com dimensões inferiores. Os processos de indexação são orientados para o método de comparação a implementar. Para descrição mais detalhada ver [1];
− IR-MatchingProcess (processo comparação), por meio de um conjunto de algoritmos compara os
representativos dos documentos com os representativos das necessidades de informação dos utilizadores resultando numa lista de documentos ordenados por ordem de relevância ou de acordo com uma medida previamente estabelecida. Cada um destes métodos encontram-se descritos em [2];
− IR-OptimationProcess (processo optimização), tem como objectivo melhorar a lista de documentos
considerados relevantes, a apresentar aos utilizadores. Estão divididos em dois tipos principais: (1) os de retroacção, que trabalham os inputs do sistema (necessidades de informação e índice); (2) os de combinação que trabalham os resultados obtido. Para maior detalhe ver [1];
I R -P r o c e s s I R -A l g o r i th m
− IR-EstimationProcess (processo estimar), que a partir de colecções de teste, estimam parâmetros para
modelos linguísticos, usados nos algoritmos de classificação.
5
Perfil UML para IR
Nas secções anteriores foram definidos estereótipos, os quais definem o perfil UML para a Pesquisa de informação. A Tabela 1 estabelece as relações (C-Criação; V-Validação; U-Uso; I-Mehoramentos) entre os diferentes estereótipos identificados.
Relações C - Cria; V - Valida; U - Usa; A- Avaliação; I-Melhora IR -A ct o r IR -A u to r IR -U se r IR -A u th o rity IR -I nves tig ator IR -D o cu m en t IR -C o lle ct io n IR -P ro ce ss IR -In d ex P ro ce ss IR -O p tim iz at io n P ro IR -Es tim at io n P ro c IR -M at ch in g P ro ce s IR -I n d ex IR -I nf or ma tionNe eds IR -Q u ery IR -U se rP ro file IR -K nowla dgeSpa ce IR -D ic io n ary IR -C la ss ifie d Sy st em IR -C o m u n ity IR -S y ste m IR -S er v ic e IR -R es u lts IR-Actor IR-Autor C IR-User C C U U U IR-Authority C C C C V IR-Investigator U C C C C C C U U A IR-Document C U U U IR-Collection C U U IR-Process C U IR-IndexProcess C U C U U U IR-OptimizationProcess C I I I U I IR-EstimationProcess C I U IR-MatchingProcess C I U U U U C IR-Index C U C I U I I U IR-InformationNeeds IR-Query C C I U I I I U IR-UserProfile C I U I I I U IR-KnowladgeSpace IR-Dicionary C U I I I U IR-ClassifiedSystem C U I I I U IR-Comunity V I I U IR-System U U U U U U U U U U U U U U U C C IR-Service U U C IR-Results U A I C C
Tabela 1: Relações entre os estereótipos definidos no perfil UML para a Pesquisa de informação.
6 Modelos
abstractos
Com base na linguagem proposta, definem-se os modelos abstractos, os quais disponibilizam um conjunto de bibliotecas padrão, para o processo de criação de sistemas modelares de IR. Devido à elevada quantidade de informação a gerir e armazenar, procura-se que estes modelos assentem numa infra-estrutura, que disponibilize uma base de dados para guardar o índice dos documentos, Figura 1. A Figura 6, identifica os principais modelos abstractos, do ponto de vista dos dados. Os modelos abstractos do ponto de vista do processo estão abordados em [1]. A partir destes modelos outros podem ser derivados constitíndo um conjunto de bibliotecas disponiveis para a concepção e construção de sistemas de pesquisa de informação.
Figura 6: Modelos abstractos da vista de dados de um sistema de pesquisa.
Referências
[1] Ferreira J, Tese de Doutoramento. Metodologia para Concepção e Construção de Sistemas de Recuperação de Informação
[2] Ferreira J, Silva A, Delgado J. (2005). Métodos Estatísticos para Pesquisa de Informação. JET2005. [3] Silva A, Videira C., (2005). UML - Metodologias e Ferramentas CASE (2ª Edição, revista e
actualizada para o UML 2), ed. Centro Atlântico
« I R -C o l l e t i o n » C o l e c ç ã o - n º d o c u m e n t o : I n t - n º t e rm o : I n t - d a t a : d a t e - t a m a n h o [ M b ] : I n t - t a m a n h o m é d i o d o c : S h o rt « I R -D o c u m e n t » D o c u m e n to - m e t a d a t a : B o o l e a n - n o m e f i c h e i ro : S t ri n g - p a t h n a m e : S t ri n g - u rl [ 0 . . 1 ] : I n t - d a t a : D a t e - f o rm a t o : - n º t e rm o : I n t - t í t u l o : S t ri n g « I R -I n d e x » L i g a ç ã o - U R L o u t : S t ri n g * 1 * 1 « IR -Q u e ry » P e r g u n ta - fra se [* ]: S tri n g - d e sc ri ç ã o : S tri n g - m e ta d a ta : S tri n g - c a te g o ri a [* ]: In t - te rm o [* ]: S tri n g « IR -U se rP ro fi l e » P e r filU tliliz a d o r - e m a i l : S tri n g - p e ri o d i c i d a d e : In t - p a ssw o rd : S tri n g « IR -Q u e ry » Tó p ic o (TR E C ) - te rm o [* ]: S tri n g - d e sc ri ç ã o : S tri n g - m e ta d a ta : S tri n g « IR -Q u e ry » P e r g u n ta A d h o c - te rm o [* ]: S tri n g « IR -Q u e ry » P e r g u n ta S is te m a C la s s ific a ç ã o - d e sc ri ç ã o [* ]: S tri n g - c a te g o ri a [* ]: S tri n g - n o m e : S tri n g « IR -U se rP ro fi l e » P e r filU tiliz a d o r -- te rm o [*]: S tri n g - c a te g o ri a [* ]: S tri n g « IR -U se rP ro fi l e » P e r filU tiliz a d o r + C o m u n id a d e - te rm o [* ]: S tri n g - d a ta c ri a ç ã o : D a te - n o m e : S tri n g IR -In fo r m a tio n N e e d s - te rm o [* ]: In t - p e so : S h o rt « IR -U se rP ro fi l e » P e r filU tiliz a d o r + L iv r e - te rm o [* ]: S tri n g « IR -U se rP ro fi l e »
P e r filU tiliz a d o r+ C o la b o r a tiv o
- n o ta : M a tri x
« IR -U se rP ro fi l e »
P e r filU tiliz a d o r + S is te m a C la s s ific a ç ã o
- te rm o [* ]: S tri n g - c a te g o ri a [* ]: S tri n g - n o m e : S tri n g « IR -Q u e ry » J s p e lle r o p c i o n a l « IR -In d e x » Ín d ic e G e ra l - n u m e ro d o c u m e n to : In t - U R L : S tri n g - títu l o : S tri n g - fra se : S tri n g - te rm o [*]: S tri n g - n u m e ro te rm o d o c u m e n to : In t - fre q u ê n c i a te rm o d o c u m e n to : In t - ta m a n h o d o c u m e n to : In t « IR -In d e x » Ín d ic e E s p e c ífic o - n u m e ro d o c u m e n to : In t - U R L : S tri n g - títu l o : S tri n g - fra se : S tri n g - te rm o [*]: S tri n g - n u m e ro te rm o d o c u m e n to : In t - p e so te rm o d o c u m e n to (fu n ç ã o m é to d o ): In t - ta m a n h o d o c u m e n to : In t Ín d i c e g e ra l , p o d e n d o se r u sa d o p e l o s d i v e rso s p ro c e sso s d e c o m p a ra ç ã o Ín d i c e o ri e n ta d o p a ra u m d e te rm i n a d o m é to d o p e sq u i sa . A l g u n s d o s a tri b u to s p o d e m n ã o se r u sa d o s. « IR -R e su l t» R e s u lta d o - fi l e p a th : S tri n g - m e d i d a re l e vâ n ci a : In t - su m á ri o : S tri n g