• Nenhum resultado encontrado

Linguagem para modelação de sistemas de pesquisa de informação

N/A
N/A
Protected

Academic year: 2021

Share "Linguagem para modelação de sistemas de pesquisa de informação"

Copied!
6
0
0

Texto

(1)

Linguagem para Modelação de Sistemas de Pesquisa de

Informação

João Ferreira Alberto Rodrigues da Silva José Delgado

ISEL INESC-ID, IST Instituto Superior Técnico

jferreira@deetc.isel.ipl.pt alberto.silva@acm.org Jose.Delgado@tagus.ist.utl.pt Sumário: O presente trabalho pretende abordar o problema da falta de uniformização de conceitos, fórmulas e parâmetros na área da pesquisa de informação, introduzindo uma linguagem própria com base nos mecanismos de extensão do UML, a qual serve de base à construção de modelos abstractos para a PI. Este modelos constituem um conjunto de bibliotecas cuja integração numa infra-estrutura permite construir sistemas de pesquisa de informação de uma forma simplificada, modular e uniforme..

Palavras chave: Pesquisa Informação, Modelação, Linguagem, UML.

1 Introdução

A pesquisa de informação tem-se desenvolvido explorando as propriedades estatísticas dos documentos, introduzindo um conjunto de simplificações ad-hoc, as quais são validadas em ambientes de teste. Não existem padrões nem uma teoria geral que possa contextualizar o problema. O trabalho desenvolvido neste domínio tem sido orientado para a criação de métodos e sistema de pesquisa, não existindo uniformização de notações, nem uma linguagem própria para a descrição dos problemas associados. Neste trabalho pretende-se dar os primeiros passos nesta área, usando as potencialidades do UML. Este trabalho insere-se no objectivo da construção automática de sistema de PI a partir de um conjunto de necessidades específicas de grupos de utilizadores. A perspectiva geral na qual o trabalho se integra encontra-se definida na Figura 1, da qual iremos abordar neste artigo a definição da IR-Language, língua criada com base nos mecanismos de extensão do UML, adaptada às necessidade especificas da PI.

Figura 1: Etapas para a construção automatica de sistemas de PI.

Para facilitar a modelação do problema da construção de sistemas de Pesquisa de informação são propostas vistas, as quais têm como objectivo facilitar o processo da construção de um sistema, permitindo uma visão parcial do todo. Têm um papel semelhante às diferentes vistas de um plano de construção de uma casa. São propostas três vistas, de acordo com a Figura 2: (1) IR-UseCaseView define os actores (IR-Actors),

IR -L a n g u a g e IR -M o d e lo s A b s tr a c to s M e to d o l o g ia In fr a -E s tr u tu r a IR -S ys te m IR -P l a ta fo r m a Te s te IR -A p lic a ç õ e s U M L u sa > l i n g u a g e m u sa > d e fi n e e t a p a s a rq u i te c tu ra m o d e l o s + o u tp u t c o n c e p ç ã o c o n c e p ç ã o + o u tp u t b a se a d o b a se a d o b a se a d o

(2)

apresentando uma sequência de acções que estes realizam no sistema de forma a obterem um resultado particular. Esta vista define as relações do sistema com o exterior bem como define os objectivos do sistema; (2) IR-DataView, define os dados de entrada e saída do sistema, sendo estes caracterizados por um diagrama de classe e uma sequência de acções. Nesta vista pretende-se caracterizar os dados e o seu respectivo fluxo; (3) IR-ProcessView, define uma sequência, os atributos e as operações necessárias a um conjunto de processos, para transformar os dados de entrada no resultado a apresentar ao utilizador.

Figura 2: Vistas de representação de sistemas da linguagem para PI.

2

Vista de casos de utilização

Figura 3: Vista dos casos de uso de um sistema de Pesquisa de Informação.

Actor, caracteriza o actor do sistema o qual pode representar quatro papéis principais; (1) IR-Autor (IR-Producer), o produtor de informação, usando os meios disponíveis para publicar a sua

informação; (2) IR-Utilizador (IR-User) aquele que tem necessidade de recuperar informação e para o efeito expressa a sua necessidade por um conjunto de termos e espera que o sistema devolva uma lista ordenada de documentos relevantes; A necessidade de informação pode ser livre; (3)

IR-Autoridade (IR-Authority) é responsável pela criação e gestão do espaço de conhecimento e

simultaneamente pode identificar (criar) colecções de teste; (4)IR-Investigador (IR-Investigator), usa um sistema para testar algoritmos e abordagens de forma a contribuir para o avanço da ciência relacionada com a Pesquisa de informação. É responsável pela avaliação dos resultados obtidos.

3

Vista de Dados

IR-Document (Documento), é a informação produzida pelo autor, não-estruturada, existente nos mais

diversos formatos e tendo inerentes os problemas da subjectividade e do contexto da linguagem Humana.

I R -S ys te m M o d e l I R -U s e C a s e V i e w I R -D a ta V i e w I R -P r o c e s s V i e w « i m p a c t s» « i m p a c t s» + i n p u t + o u t p u t I R -U s e r D e fi n e N e c e s s i d a d e I n fo r m a ç ã o D e fi n e P e r g u n ta D e fi n e P e r fi l U ti l i z a d o r I n tr o d u z te r m o s E s c o l h e c a te g o r i a s \ te r m o s n u m E s p a ç o C l a s s i fi c a d o E s c o l h e C o m u n i d a d e R e c e b e l i s ta d o c u m e n to o r d e n a d o s p o r m e d i d a d e r e l e v â n c i a I R -A u th o r i ty C r i a E s p a ç o C o n h e c i m e n to G e r e E s p a ç o C o n h e c i m e n to V a l i d a d e C o m u n i d a d e U ti l i z a d o r e s C r i a C o l e c ç ã o Te s te C r i a Tó p i c o s A v a l i a R e l e v a n c i a D o c u m e n to s fa c e a o s Tó p i c o s I R -I n v e s ti g a to r E s c o l h e S e r v i ç o E s c o l h e M é to d o C o m p a r a ç ã o A v a l i a R e s u l ta d o s D e fi n e A m b i e n te Te s te E s c o l h e C o l e c ç ã o E s c o l h e p a r a m e tr o s Í n d i c e E s c o l h e o u c r i a n o v o s P r o c e s s o s C r i a e te s ta n o v o s m é to d o s I R -P r o d u c e r P r o d u z D o c u m e n to R e tr o a ç ã o R e s u l ta d o s « e x t e n d » « e x t e n d » « i n c l u d e » « i n c l u d e » « e x t e n d » « e x t e n d » « e x t e n d » « e x t e n d » « e x t e n d » « e x t e n d » « e x t e n d »

(3)

IR-Collection (Colecção) representa a fonte de informação para o sistema, constituída por um conjunto de

documentos arquivados. A maior colecção existente é a Web. Existem diversas colecções construídas à medida para testes de sistemas. Numa colecção existe uma grande variedade de formatos, tamanhos de documentos, temas/assuntos. Uma colecção pode dividir-se em várias sub-colecções. As colecções podem ser armazenadas de uma forma centralizada ou distribuída.

IR -C o lle c tio n IR -D o c u m e n t IR -In d e x IR -K n o w la d g e S p a c e IR -In fo rm a tio n N e e d s IR -R e s u lts IR -Q u e r y IR -U s e r -P ro file IR -C la s s ifie d S ys te m IR -C o m u n ity IR -Th e s a u ru s IR -S ys te m IR -S e rv ic e p ro d u c e > + o u tp u t + i n p u t c o n su m e > + i n p u t u se > + i n p u t u se > + i n p u t u se > u se > + i n p u t 1 1 Figura 4: Vista dos perfis relacionados com a vista dos dados

IR-Index (Índice), é o resultado da operação de criação de um representativo, de menores dimensões, de

uma colecção. Os representativos encontram-se arquivados numa base de dados apropriada. É constituído essencialmente por termos representativos dos documentos com as respectivas frequências e baseado nas propriedades estatísticas dos documentos. É proposto um índice mais geral (não tão rápido) o qual pode servir para todos os métodos de Pesquisa. O Índice constitui a ‘matéria-prima’ para o funcionamento de um sistema de Pesquisa sendo previamente construído.

IR- UserInformationNeeds (Necessidade de Informação do Utilizador), representa os interesses

específicos de informação de um determinado utilizador, expresso por um conjunto de termos escolhidos pelo utilizador ou então pela navegação num espaço de conhecimento apropriado. Estas necessidades podem ser divididas em duas grandes classes: (1) IR-UserProfile (Perfil Utilizador), representa os interesses estáveis de um utilizador. Pode ser formado por um conjunto de termos ou então por pontuação (identifica o atributo nota) dada a determinados eventos. Identifica a periodicidade com que o utilizador pretende receber a informação. O perfil contém ainda informação que identifica o utilizador do ponto de vista do sistema (endereço correio electrónico e login) e adicionalmente pode ter um Perfil negativo que reflecte temas nos quais o utilizador não está interessado em receber informação; (2) IR-Query (Pergunta), representa o interesse momentâneo de um determinado utilizador, expresso através de um conjunto de termos. Estes termos são posteriormente trabalhados de forma a melhorar o desempenho de um determinado sistema.

(4)

IR-KnowladgeSpace (Espaço Conhecimento), representa o espaço organizado e previamente trabalhado

por um conjunto de entidades. Este espaço é dividido em três grandes áreas: sistema de classificação,

thesaurus/dicionários e comunidades de utilizadores (definições apresentadas em [2])

IR-Results (Resultados), é o resultado do serviço em causa, consistindo habitualmente numa lista de

documentos ordenada por medida de relevância.

IR-System (Sistema), é um conjunto integrado de recursos (humanos e tecnológicos) cujo objectivo é

satisfazer adequadamente a totalidade das necessidades de um determinado serviço

IR-Service (Serviço), representa a generalização do conceito de sistema orientado para um determinado

objectivo, do ponto de vista das acções a executar tendo em conta os objectivos definidos para os utilizadores. O sistema é constituído por um conjunto de acções, enquanto que o serviço está orientado para o conceito.

4

Vista de processos

Figura 5: Vista dos processos principais de Pesquisa de informação.

IR-Process (Processo), é um conceito vasto, que pretende designar uma sequência de actividades (agrupadas

em fases e tarefas) executadas de forma sistemática e uniformizada, por intervenientes com responsabilidades bem definidas, e que a partir de um conjunto de entradas produzem um conjunto de saídas. Existem diversos processos, dos quais se realçam quatro específicos, ficando os restantes identificados como processos:

IR-IndexProcess (processo de indexação), responsável por criar representativos dos documentos

existentes numa colecção e é um dos principais processos do serviço de Pesquisa. O objectivo deste processo é criar um representativo do documento com dimensões inferiores. Os processos de indexação são orientados para o método de comparação a implementar. Para descrição mais detalhada ver [1];

IR-MatchingProcess (processo comparação), por meio de um conjunto de algoritmos compara os

representativos dos documentos com os representativos das necessidades de informação dos utilizadores resultando numa lista de documentos ordenados por ordem de relevância ou de acordo com uma medida previamente estabelecida. Cada um destes métodos encontram-se descritos em [2];

IR-OptimationProcess (processo optimização), tem como objectivo melhorar a lista de documentos

considerados relevantes, a apresentar aos utilizadores. Estão divididos em dois tipos principais: (1) os de retroacção, que trabalham os inputs do sistema (necessidades de informação e índice); (2) os de combinação que trabalham os resultados obtido. Para maior detalhe ver [1];

I R -P r o c e s s I R -A l g o r i th m

(5)

IR-EstimationProcess (processo estimar), que a partir de colecções de teste, estimam parâmetros para

modelos linguísticos, usados nos algoritmos de classificação.

5

Perfil UML para IR

Nas secções anteriores foram definidos estereótipos, os quais definem o perfil UML para a Pesquisa de informação. A Tabela 1 estabelece as relações (C-Criação; V-Validação; U-Uso; I-Mehoramentos) entre os diferentes estereótipos identificados.

Relações C - Cria; V - Valida; U - Usa; A- Avaliação; I-Melhora IR -A ct o r IR -A u to r IR -U se r IR -A u th o rity IR -I nves tig ator IR -D o cu m en t IR -C o lle ct io n IR -P ro ce ss IR -In d ex P ro ce ss IR -O p tim iz at io n P ro IR -Es tim at io n P ro c IR -M at ch in g P ro ce s IR -I n d ex IR -I nf or ma tionNe eds IR -Q u ery IR -U se rP ro file IR -K nowla dgeSpa ce IR -D ic io n ary IR -C la ss ifie d Sy st em IR -C o m u n ity IR -S y ste m IR -S er v ic e IR -R es u lts IR-Actor IR-Autor C IR-User C C U U U IR-Authority C C C C V IR-Investigator U C C C C C C U U A IR-Document C U U U IR-Collection C U U IR-Process C U IR-IndexProcess C U C U U U IR-OptimizationProcess C I I I U I IR-EstimationProcess C I U IR-MatchingProcess C I U U U U C IR-Index C U C I U I I U IR-InformationNeeds IR-Query C C I U I I I U IR-UserProfile C I U I I I U IR-KnowladgeSpace IR-Dicionary C U I I I U IR-ClassifiedSystem C U I I I U IR-Comunity V I I U IR-System U U U U U U U U U U U U U U U C C IR-Service U U C IR-Results U A I C C

Tabela 1: Relações entre os estereótipos definidos no perfil UML para a Pesquisa de informação.

6 Modelos

abstractos

Com base na linguagem proposta, definem-se os modelos abstractos, os quais disponibilizam um conjunto de bibliotecas padrão, para o processo de criação de sistemas modelares de IR. Devido à elevada quantidade de informação a gerir e armazenar, procura-se que estes modelos assentem numa infra-estrutura, que disponibilize uma base de dados para guardar o índice dos documentos, Figura 1. A Figura 6, identifica os principais modelos abstractos, do ponto de vista dos dados. Os modelos abstractos do ponto de vista do processo estão abordados em [1]. A partir destes modelos outros podem ser derivados constitíndo um conjunto de bibliotecas disponiveis para a concepção e construção de sistemas de pesquisa de informação.

(6)

Figura 6: Modelos abstractos da vista de dados de um sistema de pesquisa.

Referências

[1] Ferreira J, Tese de Doutoramento. Metodologia para Concepção e Construção de Sistemas de Recuperação de Informação

[2] Ferreira J, Silva A, Delgado J. (2005). Métodos Estatísticos para Pesquisa de Informação. JET2005. [3] Silva A, Videira C., (2005). UML - Metodologias e Ferramentas CASE (2ª Edição, revista e

actualizada para o UML 2), ed. Centro Atlântico

« I R -C o l l e t i o n » C o l e c ç ã o - n º d o c u m e n t o : I n t - n º t e rm o : I n t - d a t a : d a t e - t a m a n h o [ M b ] : I n t - t a m a n h o m é d i o d o c : S h o rt « I R -D o c u m e n t » D o c u m e n to - m e t a d a t a : B o o l e a n - n o m e f i c h e i ro : S t ri n g - p a t h n a m e : S t ri n g - u rl [ 0 . . 1 ] : I n t - d a t a : D a t e - f o rm a t o : - n º t e rm o : I n t - t í t u l o : S t ri n g « I R -I n d e x » L i g a ç ã o - U R L o u t : S t ri n g * 1 * 1 « IR -Q u e ry » P e r g u n ta - fra se [* ]: S tri n g - d e sc ri ç ã o : S tri n g - m e ta d a ta : S tri n g - c a te g o ri a [* ]: In t - te rm o [* ]: S tri n g « IR -U se rP ro fi l e » P e r filU tliliz a d o r - e m a i l : S tri n g - p e ri o d i c i d a d e : In t - p a ssw o rd : S tri n g « IR -Q u e ry » Tó p ic o (TR E C ) - te rm o [* ]: S tri n g - d e sc ri ç ã o : S tri n g - m e ta d a ta : S tri n g « IR -Q u e ry » P e r g u n ta A d h o c - te rm o [* ]: S tri n g « IR -Q u e ry » P e r g u n ta S is te m a C la s s ific a ç ã o - d e sc ri ç ã o [* ]: S tri n g - c a te g o ri a [* ]: S tri n g - n o m e : S tri n g « IR -U se rP ro fi l e » P e r filU tiliz a d o r -- te rm o [*]: S tri n g - c a te g o ri a [* ]: S tri n g « IR -U se rP ro fi l e » P e r filU tiliz a d o r + C o m u n id a d e - te rm o [* ]: S tri n g - d a ta c ri a ç ã o : D a te - n o m e : S tri n g IR -In fo r m a tio n N e e d s - te rm o [* ]: In t - p e so : S h o rt « IR -U se rP ro fi l e » P e r filU tiliz a d o r + L iv r e - te rm o [* ]: S tri n g « IR -U se rP ro fi l e »

P e r filU tiliz a d o r+ C o la b o r a tiv o

- n o ta : M a tri x

« IR -U se rP ro fi l e »

P e r filU tiliz a d o r + S is te m a C la s s ific a ç ã o

- te rm o [* ]: S tri n g - c a te g o ri a [* ]: S tri n g - n o m e : S tri n g « IR -Q u e ry » J s p e lle r o p c i o n a l « IR -In d e x » Ín d ic e G e ra l - n u m e ro d o c u m e n to : In t - U R L : S tri n g - títu l o : S tri n g - fra se : S tri n g - te rm o [*]: S tri n g - n u m e ro te rm o d o c u m e n to : In t - fre q u ê n c i a te rm o d o c u m e n to : In t - ta m a n h o d o c u m e n to : In t « IR -In d e x » Ín d ic e E s p e c ífic o - n u m e ro d o c u m e n to : In t - U R L : S tri n g - títu l o : S tri n g - fra se : S tri n g - te rm o [*]: S tri n g - n u m e ro te rm o d o c u m e n to : In t - p e so te rm o d o c u m e n to (fu n ç ã o m é to d o ): In t - ta m a n h o d o c u m e n to : In t Ín d i c e g e ra l , p o d e n d o se r u sa d o p e l o s d i v e rso s p ro c e sso s d e c o m p a ra ç ã o Ín d i c e o ri e n ta d o p a ra u m d e te rm i n a d o m é to d o p e sq u i sa . A l g u n s d o s a tri b u to s p o d e m n ã o se r u sa d o s. « IR -R e su l t» R e s u lta d o - fi l e p a th : S tri n g - m e d i d a re l e vâ n ci a : In t - su m á ri o : S tri n g

Referências

Documentos relacionados

A abordagem não cirúrgica atualmente não é um tratamento eficaz a longo prazo para a maioria dos doentes, uma vez que existem diversos fatores biológicos, psicológicos e sociais

Considerando a contabilidade como centro de gestão da informação, os autores defendem o aprimoramento de uma visão sistêmica ao profissional, como também uma maior compreensão

No final, os EUA viram a maioria das questões que tinham de ser resolvidas no sentido da criação de um tribunal que lhe fosse aceitável serem estabelecidas em sentido oposto, pelo

As autoras descrevem a criação de um Wiki central onde constam: um guião para a elaboração de um Wiki através do Pbworks (anteriormente Pbwiki), as regras e prazos do trabalho

Taking into account the theoretical framework we have presented as relevant for understanding the organization, expression and social impact of these civic movements, grounded on

Figura 4.10 – Fluxo de CO2 para as áreas de footprint de três torres localizadas em unidades experimentais submetidas a diferentes tipos de manejo pastoril Rotativo,

Outra surpresa fica por conta do registro sonoro: se num primeiro momento o som da narração do filme sobre pôquer, que se sobrepõe aos outros ruídos da trilha, sugere o ponto de

Neste tipo de situações, os valores da propriedade cuisine da classe Restaurant deixam de ser apenas “valores” sem semântica a apresentar (possivelmente) numa caixa