• Nenhum resultado encontrado

Combinação de métodos para pesquisa de informação

N/A
N/A
Protected

Academic year: 2021

Share "Combinação de métodos para pesquisa de informação"

Copied!
6
0
0

Texto

(1)

Combinação de Métodos para Pesquisa de Informação

João Ferreira Alberto Rodrigues da Silva José Delgado

ISEL INESC-ID, IST Instituto Superior Técnico

jferreira@deetc.isel.ipl.pt alberto.silva@acm.org Jose.Delgado@tagus.ist.utl.pt

Sumário: Pretende-se investigar diversos caminhos para combinar métodos de pesquisa por forma a melhorar o desempenho dos sistemas, oferecendo uma nova perspectiva da investigação dos sistemas de pesquisa, à descoberta da melhor estratégia, propondo um método de combinação baseado na combinação de três modelos: Textual, ligações e de classificação.

Palavras chave: Combinações, Pesquisa Informação

1 Introdução

Descobrir o melhor caminho para encontrar a informação desejada, especialmente na Web é difícil senão mesmo impossível. Como ainda não foi encontrada uma teoria unificada de pesquisa, pode investigar-se a escolha do melhor de cada método e estudar a melhor estratégia para as combinar.

Outro grande desafio é a optimização dos parâmetros das combinações onde diferentes combinações resolvem problemas diferentes. Como [1] referiram, “deve haver uma ordem de combinação óptima, com os pesos dos termos óptimos para uma dada situação na pesquisa de informação”. Por exemplo, ao combinar várias fontes de evidências para uma colecção simples de documentos podem obter-se resultados diferentes dos obtidos combinando resultados da pesquisa em colecções múltiplas ou combinando múltiplos paradigmas de pesquisa. Assim, há vários tipos de combinações de métodos para lidar com diferentes situações de pesquisa.

2

Combinação de Resultados

A combinação faz-se de acordo com a Figura 1, ao nível da:

− Combinação de colecções, usado essencialmente para sistemas distribuídos de recuperação, em que se faz a análise das combinações de matéria-prima dos sistemas de informação (i.e., colecções de documentos). Na Figura 1, faz-se referência a três métodos principais de combinação, informação mais detalhada encontra-se na página pessoal autor;

− Combinação de classificadores, elaborando-se uma síntese dos principais métodos de catalogação de documentos;

− Meta pesquisa, onde se aborda o tema da combinação de resultados de diferentes sistemas de pesquisa na Web;

(2)

o Perguntas; combina diferentes formulações de perguntas as quais podem resultar em diferentes expressões de necessidades de informação, bem como a escolha de representativos e do tipo de perguntas (e.g. booleana, linguagem natural);

o Documentos; combina diferentes representações de documentos, as quais podem resultar, na escolha das fontes (e.g. título, termos, sumários, texto total) e o método (e.g. stopwords, radicalizar, peso termos, escolha termos) ou a indexação;

o Pesos dos termos indexados; combina diferentes esquemas de pesos para os termos;

− Combinação de resultados de diferentes processos de comparação, ao seja por meio de algoritmos apropriados (formulas) combinam-se resultados obtidos por processos diferentes:

o Métodos, combinam diferentes métodos de pesquisa (e.g. probabilístico, espaço vectorial, seguimento das ligações) estimando a relevância de documentos em diferentes caminhos com ênfase nas diferentes características de documentos e perguntas;

o Retroacção, combinação de diferentes métodos de retroacção.

« P ro c e sso O p ti m i za ç ã o » C o m b in a ç õ e s R e s u lta d o s « P ro c e sso O p ti m i z a çã o » C o m b in a ç ã o C la s s ific a d o re s C o m b i n a -se C l a ssi fi c a d o re s (A l g o ri tm o s) « P ro c e sso O p ti m i z a ç ã o » C o m b in a ç ã o C o le c ç õ e s U sa d o p a ra si ste m a s d i stri b u i d o s d e R e cu p e ra çã o « P ro c e sso O p ti m i z a çã o » M e ta P e s q u is a C o m b i n a çã o d e R e su l ta d o s d e d i fe re n te s m o to re s d e p e sq u i sa M e ta C ra w le r P ro fu s io n In q u iris S a v v yS e a r c h G lo s s C o ri M R D D « P ro ce sso O p ti m i za ç ã o » C o m b in a ç ã o R e p re s e n ta ç ã o D o c u m e n to s O b j e c to d e e stu d o n a p re se n te tra b a l h o « P ro ce sso O p ti m i z a çã o » C o m b in a ç ã o P ro c e s s o s C o m p a ra ç ã o « E sp a ç o R e p re se n ta ti v o » P e rg u n ta « E sp a ç o R e p re se n ta ti v o » D o c u m e n to s « E sp a ç o R e p re se n ta ti v o » P e s o s Te r m o s « R e su l ta d o s» R e tr o a c ç ã o « R e su l ta d o s» M é to d o s D i fe re n te s R e p re se n ta ç õ e s d o c : títu l o , te rm o s, te x to to ta l In q u e ry S m a rt P M E E stu d o fó rm u l a s co m b i n a çã o « re a l i z e » « re a l i z e » « re a l i z e » « re a l i z e »

Figura 1: Principais formas de combinações.

Projectos e experiências realizadas, bem como uma descrição dos processos enunciados não abordados na presente dissertação, podem ser encontrados na página pessoal do autor, salientando-se uma predominância das combinações de diferentes métodos de pesquisa.

(3)

3

Fórmulas de Combinações

O problema da combinação de resultados obtidos dos métodos individuais é determinar quais são os parâmetros e os métodos mais importantes, sendo um problema actual da recuperação de informação [2,3,4,5,6]. Como combinar ou integrar as diferentes componentes é a questão central desta fase da investigação. Os caminhos mais usuais resumem-se a aplicar a combinação no momento da pesquisa (i.e. componentes combinados são integrados para produzir um único conjunto de resultados) ou após a pesquisa (i.e. múltiplos conjuntos de resultados são produzidos pela combinação de métodos aplicados em paralelo após a pesquisa). Na presente dissertação, é aplicada a combinação de métodos após a pesquisa usando duas das fórmulas de combinação mais comuns:

− Combinação de semelhanças (Fox e Shaw 1994 1995; Lee 1996 1997); − Somas pesadas [4,10,3];

− Ambas as fórmulas calculam uma medida de combinação linear das componentes que medem as semelhanças das perguntas e dos documentos, numa escala ordenada.

P ro c e s s o s O p ti mi z a ç ã o (P O ) « IR -O p ti m i z a ti o n P ro c e ss» F ó rm u la s C o m b in a ç ã o F ó rmu l a s C o mb i n a ç ã o « IR -O p ti m i z a ti o n P ro c e ss» P O :F C p o r m e d id a o rd e m (R W S ) F ó rmu l a s C o mb i n a ç ã o « IR -O p ti m i z a ti o n P ro c e ss» F C p o r m e d id a s e m e lh a n ç a (F C S ) F C S : S M « IR -A l g o ri th m » W R S « IR -A l g o ri th m » O W R S « IR -A l g o ri th m » R O W R S -P « IR -A l g o ri th m » R O W R S -F « IR -A l g o ri th m » R O W R S -s f

Figura 2: Principais fórmulas de Combinação 3.1 União de Semelhanças

O conceito da união de semelhanças (Similarity Merge, SM), nas fórmulas combinadas, foi introduzido inicialmente por Fox e Shaw [7] e refinado por Lee [2,8], calculando a medida combinada de um documento pela soma das medidas normalizadas estimuladas pela sobreposição da pesquisa. Quando combinada com um grande número de conjuntos resultantes, a sobreposição torna-se relevante com medidas normalizadas. Contudo, um método com mais variações de

(4)

sistemas pode dominar o processo de combinações pois tem tendência para apresentar uma medida mais elevada.

A sobreposição é normalizada pelo número de sistemas num determinado método. A Fórmula F1 descreve a forma de combinação usada para ordenar documentos pesquisados por sistemas diferentes: ) ( ) ( i m olp NS FS=

i ∗ (F1)

FS = medida de combinação de um determinado documento; NSi = medida normalizada do

documento pelo sistema i; olp = número de sistemas que pesquisaram um determinado documento;

m(i) = número de métodos a que o sistema i pertence.

A medida normalizada do documento NSi é calculada pela fórmula min-máx de Lee [2,8] sendo que

Si é a medida de pesquisa de um determinado documento e Smáx e Smin são as medidas máxima e

mínima dos documentos no sistema i:

NSi = (Si – Smin) / (Smáx – Smin) (F2)

Esta fórmula (SM) é de simples implementação não requerendo dados de treino ou qualquer refinamento, sendo de baixo custo computacional e dando ênfase à sobreposição. Por outro lado, esta fórmula (SM) não leva em consideração a diferença dos vários componentes combinados nem distingue a sobreposição de diferentes sistemas.

3.2 Soma ordenada de pesos

Quando os componentes dos sistemas combinados são distintos uns dos outros, a normalização das medidas dos documentos entre sistemas pode não compensar as diferenças nas ordens dos documentos apresentados. Este é o caso da combinação de métodos de sistemas de pesquisa textual, de ligações e de classificação, cujas medidas de semelhança documento / pergunta são calculadas de forma diferente:

− Sistemas vectoriais, medem a semelhança entre perguntas e documentos; − Sistemas probabilísticos medem a probabilidade de relevância;

− Sistemas HITS representam as autoridades das ligações de um documento em relação ao assunto da pergunta;

− Sistemas de classificação medem a probabilidade do documento pertencer à mesma categoria da pergunta.

Neste cenário, é útil combinar as ordens dos documentos em vez de combinar as medidas.

Para compensar as diferenças entre a combinação das componentes dos sistemas surge a fórmula Soma das Ordens Pesadas (Weighted Rank Sum (WRS)), que usa medidas baseadas em ordens (i.e.

(5)

1/ordem) no lugar das medidas dos documentos na fórmula F3:

FS = ∑ (wi*RSi) (F3)

wi = peso do sistema i; RSi = medida de ordem do documento pelo sistema i.

Apesar de a Fórmula WRS tentar pesar as contribuições individuais dos componentes da combinação na pesquisa dando ênfase à sua força relativa, não explicita a diferença entre sobreposição ou não de instâncias, (sumário das medidas das componentes dos sistemas de combinação implicitamente recompensam a sobreposição). Por outras palavras, a contribuição absoluta do documento pesquisado por um sistema permanece a mesma independentemente de ser ou não pesquisado por outro sistema. O que a fórmula WRS despreza é a possibilidade de a contribuição de um documento poder ser diferente tendo em conta a sobreposição de partições (i.e. documentos pesquisados por um ou dois sistemas apenas, etc.).

A soma das medidas de ordem sobrepostas (Overlap Weighted Rank Sum (OWRS)) tenta suprir o problema anteriormente referido tendo em conta a sobreposição de partições.

FS = ∑ (wik*RSi) (F4)

wik = peso do sistema i na sobreposição da partição k; RSi = medida de ordem do documento pelo

sistema i.

A soma das medidas de ordem sobrepostas ordenadas (Rank-Overlap Weighted Rank Sum (ROWRS)) é uma variação da fórmula OWRS que considera não só a sobreposição de partições como também a ordem pela qual um documento é pesquisado. A Fórmula F5 descreve a fórmula ROWRS:

FS = ∑ (wikj*RSi) (F5)

wikj = peso do sistema i na sobreposição da partição k na ordem j; RSi = medida de ordem do

documento pelo sistema i.

Em todas as Fórmulas F3, F4 e F5, os conjuntos de treino usados como dados de treino para determinar os pesos:

wi (Fórmula F3) é determinada pela média da precisão geral (i.e. média dos valores de precisão média das perguntas de treino), que é uma simples medida que reflecte o desempenho geral sobre todos os documentos;

wik (Fórmula F4) precisão média global é multiplicada pela média da precisão sobreposta.

Esta precisão média é calculada para cada partição sobreposta. Numa combinação de três sistemas, a precisão média é calculada para cada uma das quarto partições sobrepostas de cada sistema, Tabela 1. De outra forma, o conjunto de resultados de um sistema é dividido em partições sobrepostas (i.e. para o sistema A: documentos pesquisados pelo sistema A e B por sistema A e C por sistema A B e C) e a precisão média é calculada para cada partição de cada

(6)

sistema;

Tabela 1: Sobreposição da partição de 3 sistemas.

wikj (Fórmula F5), é necessário estimar o desempenho numa dada ordem, e por isso a

precisão média global não é adequada. Assim três medidas de ordem em cada ordem são usadas para calcular os pesos das três versões da fórmula ROWRS: (1) eficiência (F); (2) precisão (P); (3) sucesso/falhas (sf).

4 Conclusões

Elaborou-se uma sistematização dos conceitos que as combinações de métodos de pesquisa envolvem. Este trabalho esta envolvido num geral de criar uma linguagem específica para a pesquisa de informação, a qual permita a sistematização e conceitos e uniformização de notação. Referências

[1] Belkin N. J. Cool. C. Croft W. B. e Callan J. P. (1993). The effect of multiple query representations on information retrieval system performance. Proceedings of ACM SIGIR Conference on Research and Development in Information Retrieval 339-346.

[2] Lee J. H. (1997). Analyses of multiple evidence combination. Proceedings of the ACM SIGIR Conference on Research and Development in Information Retrieval 267-276. [3] Modha D. e Spangler W. S. (2000). Clustering hypertext with applications to Web

searching. Proceedings of the 11th ACM Hypertext Conference 143-152.

[4] Bartell B. T. Cottrell G. W. e Belew R. K. (1994). Automatic combination of multiple ranked retrieval systems. Proceedings of the ACM SIGIR Conference on Research and Development in Information Retrieval.

[5] Beitzel et al. (2003) Recent Results on Fusion of Effective Retrieval Strategies in the Same Information Retrieval. Proceedings of the ACM SIGIR Conference on Research and Development in Information Retrieval.

[6] Montague, M., & Aslam, J. (2002, November). Condorcet Fusion for Improved Retrieval. Paper presented at the 11th Annual ACM Conference on Information and Knowledge Management (CIKM-2002), Tyson's Corner, VA.

[7] Fox E. A. e Shaw J. A. (1994). Combination of multiple searches. In D. K. Harman (Ed.) The Second Text Rerieval Conference (TREC-2) (NIST Spec. Publ. 500-215 pp. 243-252). Washington DC: U.S. Government Printing Office.

[8] Lee J. H. (1996). Combining multiple evidence from different relevance feedback

methods (Tech. Rep. No. IR-87). Amherst: University of Massachusetts Center for

Intelligent Information Retrieval.

[9] Lee J. H. (1997). Analyses of multiple evidence combination. Proceedings of the ACM SIGIR Conference on Research and Development in Information Retrieval 267-276. [10] Larkey L. e Croft W. B. (1996). Combining Classifiers in Text Categorization.

Proceedings of the ACM SIGIR Conference on Research and Development in Information Retrieval 289-297.

A: Método A apenas B: Método B apenas C: Método C apenas AB: Método A e B BC: Método B e C AC: Método A e C

Imagem

Figura 1: Principais formas de combinações.
Figura 2: Principais fórmulas de Combinação

Referências

Documentos relacionados

O CES é constituído por 54 itens, destinados a avaliar: (a) cinco tipos de crenças, a saber: (a1) Estatuto de Emprego - avalia até que ponto são favoráveis, as

Os resultados são apresentados de acordo com as categorias que compõem cada um dos questionários utilizados para o estudo. Constatou-se que dos oito estudantes, seis

Podem treinar tropas (fornecidas pelo cliente) ou levá-las para combate. Geralmente, organizam-se de forma ad-hoc, que respondem a solicitações de Estados; 2)

O primeiro passo para introduzir o MTT como procedimento para mudança do comportamento alimentar consiste no profissional psicoeducar o paciente a todo o processo,

Dessa forma, a partir da perspectiva teórica do sociólogo francês Pierre Bourdieu, o presente trabalho busca compreender como a lógica produtivista introduzida no campo

Foi membro da Comissão Instaladora do Instituto Universitário de Évora e viria a exercer muitos outros cargos de relevo na Universidade de Évora, nomeadamente, o de Pró-reitor (1976-

Ficou com a impressão de estar na presença de um compositor ( Clique aqui para introduzir texto. ), de um guitarrista ( Clique aqui para introduzir texto. ), de um director

Os doentes paliativos idosos que permanecem nas instituições privadas são encaminhados pelos hospitais em que estavam ou internados pelos próprios familiares