• Nenhum resultado encontrado

Metodologia para a Concepção de Sistemas de Recuperação de Informação

N/A
N/A
Protected

Academic year: 2021

Share "Metodologia para a Concepção de Sistemas de Recuperação de Informação"

Copied!
318
0
0

Texto

(1)

UNIVERSIDADE TÉCNICA DE LISBOA

INSTITUTO SUPERIOR TÉCNICO

Metodologia para a Concepção de Sistemas de

Recuperação de Informação

João Carlos Amaro Ferreira

(Mestre)

DISSERTAÇÃO PARA OBTENÇÃO DO GRAU DE DOUTOR EM ENGENHARIA INFORMÁTICA E DE COMPUTADORES

Orientador: Doutor José Carlos Martins Delgado Co - Orientador: Doutor Alberto Manuel Rodrigues da Silva

JÚRI:

Presidente: Reitor da Universidade Técnica de Lisboa Vogais: Doutor José Manuel Nunes Salvador Tribolet

Doutor Arlindo Manuel Limede de Oliveira Doutor Mário Jorge Costa Gaspar Silva Doutor Paulo Miguel Torres Duarte Quaresma Doutor José Carlos Martins Delgado

Doutor Alberto Manuel Rodrigues da Silva

Novembro de 2005

IR M L U M L I R -I n fo r m a tio n N e e d s I R -M o d e lo s IR -M e to d o lo g ia I n fr a -e s tr u tu r a IR -M o d e lo S i s te m a C o n c e p tu a l IR -S is te m a I R -S is te m a E s p e c í fi c o IR -P la ta fo r m a Te s te IR -C o le c ç ã o Te s te IR -P r o c e s s o s « IR -R e su l t » R e s u l ta d o s « I R -K n o w l a d g e S p a c e » L is ta D o c R e le v a n te P a r a C a d a Tó p i c o « IR -R e su l t » A v a li a ç ã o b a se a d o u sa > m o d e l o s l i n g u a g e m u sa c o n stro í b i b l i o te c a s b a se a d o si st e m a c o n c e p tu a l

(2)

Tese realizada sob a orientação do Professor José Carlos Martins Delgado

Professor Associado do Departamento de Engenharia Informática do Instituto Superior Técnico

e

Co-orientação do

Professor Alberto Manuel Rodrigues da Silva

Professor Auxiliar do Departamento de Engenharia Informática do Instituto Superior Técnico

(3)

Título

Metodologia para a Concepção de Sistemas

de Recuperação de Informação

Resumo

Propõe-se nesta dissertação uma metodologia para a concepção e construção de sistemas de IR, em particular no contexto do espaço distribuído e descentralizado que é a Web. Esta metodologia inclui uma linguagem de modelação (IRML-Information

Retrieval Modelling Language), e baseada no mecanismo de extensão do UML e

adequada às necessidades da Recuperação de Informação (IR). Para facilitar o processo de construção e promover a colaboração entre os investigadores de IR, é proposto um conjunto de bibliotecas padrão baseadas na linguagem IRML, no qual está embebido os principais conceitos da IR. Destas actividades resulta um conjunto de sistemas conceptuais que são implementados usando uma infra-estrutura adequada. Este conjunto de etapas permite simplificar o processo de construção de sistemas de IR. São construídos dez sistemas de IR ao qual se junta uma plataforma de teste onde são testados mais de mil sistemas num ambiente controlado. Esta plataforma permite testar processos existentes e outros construídos de raiz, nomeadamente novos processos de comparação híbridos, novas fórmulas de seguimento de ligação, pseudo-retroacção e de combinação de resultados.

Palavras-chave

Modelos, Metodologia, Linguagem, Infra-estrutura, Sistema, Pesquisa, Filtragem, Combinações, Classificação, Processo, Recuperação.

(4)

Title

A Methodology to Design Information

Retrieval Systems

Abstract

This dissertation proposes a new methodology to design information retrieval systems, in particular in the context of the decentralized and distributed Web space. The methodology uses a modeling language (IRML), based on the extension mechanisms of the UML and adequate to the Information Retrieval needs and issues. To ease the design process and to promote the cooperation between IR researchers, standard libraries have been created using the IRML and based on the main IR concepts. A group of conceptual systems has been implemented as result of the previous described activities, using and adequate infrastructure. The experience collected makes available a simplified process to develop IR systems. Ten IR systems have been developed and, in addition, a testing platform used in more then one thousand systems in a controlled environment was made available. The testing platform can test existing and new processes, namely new hybrid comparison processes, new fusion formulas, pseudo feedback and hubs and authorities formulas.

Keywords

Models, Methodology, Language, Infrastructure, System, Retrieval, Filtering, Fusion, Classification, Process.

(5)

Agradecimentos

Ao Prof. José Delgado, pela sua orientação, organização geral desta tese.

Ao Prof. Alberto Manuel Rodrigues da Silva, pelo seu apoio, motivação, orientação e pela leitura crítica e cuidada da tese.

Ao Prof. José Borbinha, pelo apoio inicial, dinamismo.

Ao Eng. Carlos Leandro pelo seu trabalho no OpenFTS e integração de diferentes programas.

Ao Prof. Mário Silva pelo seu apoio, disponibilidade.

A todos os colegas da Secção de Matemática do ISEL e do departamento (DEETC) em especial a Prof. Arnaldo Abrantes e Eng. Rui Jesus.

À Sandra pelo tempo dispendido na correcção e apoio dado. ***

À Fundação para a Ciência e a Tecnologia (FCT), pela atribuição da bolsa de estudo (BD 5968/95), programa PRAXIS XXI.

(6)
(7)

Índice

1 INTRODUÇÃO E OBJECTIVOS... 1 -1.1 INTRODUÇÃO...-1 -1.2 RECUPERAÇÃO DE INFORMAÇÃO...-2 -1.3 PROBLEMAS...-5 -1.4 CONTEXTO...-5

-1.5 OBJECTIVOS E CONTRIBUIÇÕES ORIGINAIS...-6

-1.6 PUBLICAÇÕES...-8

-1.7 ORGANIZAÇÃO DA DISSERTAÇÃO...-10

-1.8 NOTAÇÕES E REFERÊNCIAS...-12

-2 RECUPERAÇÃO DE INFORMAÇÃO... 15

-2.1 INTRODUÇÃO...-16

-2.2 PRINCIPAIS PROBLEMAS DA RECUPERAÇÃO DE INFORMAÇÃO...-18

-2.3 PESQUISA DE INFORMAÇÃO...-20

-2.4 INDEXAÇÃO DOS DOCUMENTOS...-25

-2.5 PERGUNTA...-31

-2.6 PROCESSOS DE COMPARAÇÃO...-36

-2.7 PROCESSOS DE AVALIAÇÃO...-46

-2.8 SISTEMAS E APLICAÇÕES NA INTERNET...-54

-2.9 FILTRAGEM DE INFORMAÇÃO...-58

-2.10 CLASSIFICAÇÃO DE INFORMAÇÃO...-60

-2.11 AGRUPAMENTO...-61

-2.12 CATALOGAÇÃO DE DOCUMENTOS...-63

-2.13 COMBINAÇÃO DE RESULTADOS...-70

-3 IRML: LINGUAGEM DE MODELAÇÃO DE SISTEMAS DE IR... 79

-3.1 INTRODUÇÃO...-79

-3.2 A LINGUAGEM UML...-80

-3.3 VISÃO CONJUNTA DA IRML...-82

-3.4 VISTAS DE SISTEMAS DE IR...-86

-3.5 VISTA DE CASOS DE UTILIZAÇÃO...-87

-3.6 VISTA DE INFORMAÇÃO...-87

-3.7 VISTA DE PROCESSOS...-92

-3.8 CONCLUSÕES...-98

-4 BIBLIOTECA DE MODELOS ABSTRACTOS PARA SISTEMAS DE IR... 99

-4.1 MODELO DE IR-ACTOR...-99

-4.2 MODELO DE INFORMAÇÃO...-101

-4.3 MODELOS DE PROCESSOS...-107

(8)

-5 METODOLOGIA PARA A CONCEPÇÃO E CONSTRUÇÃO DE SISTEMAS DE IR... 109

-5.1 MOTIVAÇÃO...-109

-5.2 METODOLOGIA...-110

-5.3 APLICAÇÕES...-119

-5.4 SISTEMAS PADRÃO DE IR...-120

-5.5 CONCLUSÃO...-130

-6 PLATAFORMA DE TESTE WEBSEARCHTESTER... 131

-6.1 INTRODUÇÃO...-131

-6.2 MOTIVAÇÃO...-131

-6.3 OBJECTIVO...-132

-6.4 VISTA DOS CASOS DE UTILIZAÇÃO...-132

-6.5 VISTA DE INFORMAÇÃO...-133

-6.6 INFRA-ESTRUTURA BASE...-138

-6.7 VISTA DE PROCESSOS...-139

-6.8 CONCLUSÕES...-149

-7 CASOS DE ESTUDO COM BASE NA METODOLOGIA PROPOSTA... 151

-7.1 JORNAL PERSONALIZADO: SISTEMA MYNEWSPAPER...-152

-7.2 IDENTIFICAÇÃO DE PROGRAMAS DE TELEVISÃO: MYTV (GUIA DE PROGRAMAS)...-157

-7.3 MYTV: SISTEMA DE TELEVISÃO PERSONALIZADA...-161

-7.4 MYENTERPRISE NEWS (ALERTAS EMPRESARIAIS)...-167

-7.5 MYDOCUMENT: SISTEMA DE GESTÃO EMPRESARIAL...-171

-7.6 SISTEMA DE PESQUISA DE 3ª GERAÇÃO...-174

-7.7 SISTEMA DE PESQUISA USANDO O ESPAÇO DE CONHECIMENTO...-179

-7.8 CONCLUSÕES...-184

-8 WEBSEARCHTESTER PLATAFORMA DE TESTE PARA PROCESSOS DE IR... 185

-8.1 RESULTADOS DE SISTEMAS DE PESQUISA INDIVIDUAIS...-186

-8.2 RESULTADOS DE SISTEMAS COMBINADOS...-194

-8.3 ANÁLISE DA SOBREPOSIÇÃO...-202

-8.4 CONCLUSÕES...-206

-9 CONCLUSÕES E TRABALHO FUTURO... 211

-9.1 CONCLUSÕES...-211

-9.2 TRABALHO FUTURO...-215

-APÊNDICE A - GLOSSÁRIO, SIGLAS, ABREVIATURAS E SÍMBOLOS DE MEDIDAS, FÓRMULAS E SISTEMAS DE PESQUISA... 219

-A.1 GLOSSÁRIO...-219

-A.2 SIGLAS MAIS USADAS...-220

-A.3 ABREVIATURAS...-224

-A.4 SÍMBOLOS DE MEDIDAS APLICADAS...-224

-A.5 SISTEMAS DE RECUPERAÇÃO ACTIVOS REFERIDOS...-225

(9)

227

-B.1 CARACTERÍSTICAS DOS DOCUMENTOS...-227

-B.2 CARACTERÍSTICAS DOS UTILIZADORES...-230

-B.3 PROCESSO DE REDUÇÃO DE DIMENSÃO...-232

-B.4 CLASSIFICAÇÃO DE DOCUMENTOS NA WEB...-238

-APÊNDICE C – APLICAÇÕES DA METODOLOGIA A SISTEMAS CONCEPTUAIS DE IR- 242 -C.1 MYCLASSIFICATOR...-242

-C.2 MYCOMBINEDCLASSIFICATOR...-244

-C.3 SISTEMA DE FILTRAGEM BASEADO NA COMBINAÇÃO DE DIFERENTES ABORDAGENS (MYCOMBINEDFILTER)...-247

-APÊNDICE D – RESULTADOS DOS TESTES NA PLATAFORMA WEBSEARCHTESTER.... 251

-D.1 RESULTADOS DE SISTEMAS DE PESQUISA QUE USAM PROCESSOS TEXTUAIS (VSM)...-251

-D.2 RESULTADOS DOS SISTEMAS DE SEGUIMENTO DE LIGAÇÕES...-253

-D.3 SISTEMAS DE PESQUISA BASEADOS EM PROCESSOS HÍBRIDOS...-256

-D.4 SISTEMAS TM...-260

-D.5 COMBINAÇÃO INTERNAS...-262

-D.6 COMBINAÇÕES EXTERNAS...-266

-D.7 COMBINAÇÃO DE SISTEMAS DE TOPO...-270

-APÊNDICE E - ANÁLISE DO GRUPO DE PERGUNTAS... 274

(10)

-Índice de Figuras e Tabelas

FIGURA 1.1: PRINCIPAIS MEIOS DE GERIR A INFORMAÇÃO... -1

-FIGURA 1.2: CICLO DE VIDA GENÉRICO DA INFORMAÇÃO... -2

-FIGURA 1.3: PRINCIPAIS PUBLICAÇÕES E ORGANISMOS RESPONSÁVEIS PELA GESTÃO DE INFORMAÇÃO... -3

-FIGURA 1.4: CARACTERIZAÇÃO DOS PRINCIPAIS PROCESSOS DE PRODUÇÃO E RECUPERAÇÃO DE INFORMAÇÃO... -4

-FIGURA 1.5: RELAÇÃO ENTRE AS ÁREAS DE CONHECIMENTO E A SUA CONTEXTUALIZAÇÃO NA PRESENTE DISSERTAÇÃO. ... -6

-FIGURA 1.6: OBJECTIVO PRINCIPAL DA DISSERTAÇÃO... -7

-FIGURA 1.7: DIAGRAMA DA ORGANIZAÇÃO DA DISSERTAÇÃO EM CAPÍTULOS... -11

-FIGURA 2.1: DIAGRAMA DOS TÓPICOS DO CAPÍTULO DOIS... -15

-FIGURA 2.2: RECUPERAÇÃO DE INFORMAÇÃO, SISTEMAS QUE SERÃO OBJECTO DE ANÁLISE... -17

-FIGURA 2.3: PRINCIPAIS PROBLEMAS IDENTIFICADOS NA IR... -18

-FIGURA 2.4: PRINCIPAIS PROBLEMAS DOS UTILIZADORES AO USAREM SISTEMAS DE IR... -19

-FIGURA 2.5: PRINCIPAIS TÉCNICAS USADAS NA IR... -21

-FIGURA 2.6: SERVIÇO DE PESQUISA DE INFORMAÇÃO NA SUA FORMA MAIS SIMPLES... -21

-FIGURA 2.7: DEFINIÇÕES DE HUB (PÁGINA QUE APONTA PARA VÁRIAS AUTORIDADES) E AUTORIDADE (PÁGINA QUE É APONTADA POR VÁRIOS HUB)... -24

-FIGURA 2.8:CARACTERIZAÇÃO DAS FORMAS DE INDEXAÇÃO... -26

-FIGURA 2.9: PROCESSO SIMPLES DE INDEXAÇÃO... -27

-TABELA 2.1:PESOS DOS TERMOS EM CADA DOCUMENTO... -29

-FIGURA 2.10: DESCRIÇÃO DOS PRINCIPAIS PROCESSOS DE CRIAÇÃO DO REPRESENTATIVO DAS NECESSIDADES DE INFORMAÇÃO... -32

-FIGURA 2.11: REPRESENTAÇÃO ESQUEMÁTICA DO USO DA RETROACÇÃO DO UTILIZADOR... -36

-FIGURA 2.12: DESCRIÇÃO DOS PRINCIPAIS PROCESSOS DE PESQUISA DE INFORMAÇÃO... -36

-FIGURA 2.13: CURVA DA PROBABILIDADE DE RELEVÂNCIA EM FUNÇÃO DA FREQUÊNCIA DOS TERMOS NO DOCUMENTO .-39 -TABELA 2.2:VALORES DE CONTINGÊNCIA PARA CADA TERMO itt ... -40

-FIGURA 2.14: MODELOS LINGUÍSTICOS... -43

-FIGURA 2.15: DIAGRAMA DO PROCESSO BÁSICO DAS REDES NEURONAIS... -45

-FIGURA 2.16: METODOLOGIA PARA AVALIAR O DESEMPENHO DE UM SISTEMA... -47

-FIGURA 2.17: GRÁFICO DE PRECISÃO VS. COBERTURA... -48

-FIGURA 2.18: EXEMPLO DA COLECÇÃO WT10G... -51

-FIGURA 2.19: EXEMPLO DE UM TÓPICO (PERGUNTA)... -52

-FIGURA 2.20: DESCRIÇÃO DO FUNCIONAMENTO DAS EXPERIÊNCIAS DA TREC... -53

-TABELA 2.3: DADOS DO SEARCHENGINEWATCH, REFERENTES A DEZEMBRO 2004... -55

-FIGURA 2.21: ESTATÍSTICA DE UTILIZAÇÃO DOS MOTORES DE PESQUISA NOS ESTADOS UNIDOS DA AMÉRICA, EM DEZEMBRO DE 2004... -55

-TABELA 2.4: SISTEMAS DE PESQUISA MAIS RELEVANTES CONSIDERADOS NO ESTUDO... -56

-FIGURA 2.22: PRINCIPAIS PROCESSOS DE FILTRAGEM... -58

-FIGURA 2.23: PRINCIPAIS TÉCNICAS DE FILTRAGEM DE INFORMAÇÃO... -59

-FIGURA 2.24: PRINCIPAIS DESAFIOS INERENTES AO SISTEMA DE FILTRAGEM... -59

-FIGURA 2.25: PRINCIPAIS APLICAÇÕES DOS SISTEMAS DEDICADOS À FILTRAGEM DE INFORMAÇÃO... -60

-FIGURA 2.26: ESQUEMA DAS DIFERENTES FORMAS DE CLASSIFICAR DOCUMENTOS... -61

(11)

-FIGURA 2.28: PRINCIPAIS PROCESSOS DE AGRUPAMENTO... -62

-FIGURA 2.29: PROCESSO AUTOMÁTICO DE CATALOGAÇÃO DE DOCUMENTOS... -63

-FIGURA 2.30: PRINCIPAIS APLICAÇÕES DA CATALOGAÇÃO DE DOCUMENTOS... -64

-FIGURA 2.31: TRÊS PRINCIPAIS APROXIMAÇÕES NA CD... -64

-FIGURA 2.32:DESCRIÇÃO DOS PRINCIPAIS PROCESSOS DE CATALOGAÇÃO... -65

-FIGURA 2.33: PRINCIPAIS PROCESSOS DE REDUÇÃO DE DIMENSÃO... -66

-FIGURA 2.34: GRÁFICO DO CUSTO COMPUTACIONAL VS. DESEMPENHO, PARA OS PRINCIPAIS PROCESSOS DE REDUÇÃO DE DIMENSÃO... -67

-FIGURA 2.35: PRINCIPAIS ALGORITMOS DE CLASSIFICAÇÃO... -68

-FIGURA 2.36: OBJECTIVO DO PROCESSO DE CLASSIFICAÇÃO SVM... -69

-FIGURA 2.37:GRÁFICO DO CUSTO COMPUTACIONAL VS. DESEMPENHO, PARA OS PRINCIPAIS PROCESSOS DE CLASSIFICAÇÃO... -70

-FIGURA 2.38: PACOTES ENVOLVIDOS NUM SISTEMA DE CATALOGAÇÃO DE DOCUMENTOS... -70

-FIGURA 2.39: PROCESSO DE METAPESQUISA... -72

-FIGURA 2.40: PRINCIPAIS FORMAS DE COMBINAÇÕES... -73

-FIGURA 2.41: FÓRMULAS DE COMBINAÇÃO USADAS NA DISSERTAÇÃO... -74

-TABELA 2.5: SOBREPOSIÇÃO DA PARTIÇÃO DE 3 SISTEMAS... -77

-TABELA 2.6: TABELA DE SOBREPOSIÇÃO DAS PARTIÇÕES... -78

-TABELA 2.7:TABELA DA MEDIDA SUCESSO-FALHA... -78

-FIGURA 3.1: OBJECTIVOS DA IRML... -79

-FIGURA 3.2: ARQUITECTURA UML, ADAPTADA DE (SILVA 01)... -80

-FIGURA 3.3: MECANISMOS DE EXTENSÃO DO UML, ADAPTADO DE (OMG99)... -81

-TABELA 3.1: CLASSE BASE DOS ESTEREÓTIPOS DEFINIDOS... -82

-TABELA 3.2: RELAÇÕES ENTRE OS ESTEREÓTIPOS DEFINIDOS PARA A IR... -84

-FIGURA 3.4: VISÃO GERAL DO METAMODELO DA IRML... -85

-FIGURA 3.5: VISTAS DE REPRESENTAÇÃO DE SISTEMAS DA LINGUAGEM PARA IR... -86

-FIGURA 3.6: ACTORES DE UM SISTEMA DE IR... -87

-FIGURA 3.7: METAMODELO DA IRML – ESPECÍFICO PARA A VISTA DE INFORMAÇÃO... -88

-FIGURA 3.8: ESTEREÓTIPOS DO ESPAÇO CLASSIFICADO DE INFORMAÇÃO... -89

-FIGURA 3.9: TIPOS DE SISTEMA DE CLASSIFICAÇÃO... -90

-FIGURA 3.10: PRINCIPAIS FORMAS DE CONSTRUIR UM THESAURUS... -91

-FIGURA 3.11: METAMODELO DA IRML –ESPECÍFICO PARA A VISTA DOS PROCESSOS... -93

-FIGURA 3.12: PROCESSO DE INDEXAÇÃO... -94

-FIGURA 3.13: PRINCIPAIS PROCESSOS DE COMPARAÇÃO... -94

-FIGURA 3.14: PRINCIPAIS PROCESSOS DE COMPARAÇÃO NA ÁREA DOS SISTEMAS DE FILTRAGEM... -95

-FIGURA 3.15: PRINCIPAIS PROCESSOS DE COMPARAÇÃO NA ÁREA DOS SISTEMAS DE CLASSIFICAÇÃO (CATALOGAÇÃO)... -95

-FIGURA 3.16: PRINCIPAIS PROCESSOS DE COMPARAÇÃO NA ÁREA DOS SISTEMAS DE PESQUISA... -96

-FIGURA 3.17: PRINCIPAIS PROCESSOS DE OPTIMIZAÇÃO... -97

-FIGURA 3.18: DESCRIÇÃO E CARACTERIZAÇÃO DO PROCESSO DE ESTIMAÇÃO DE PARÂMETROS... -97

-FIGURA 4.1: ORGANIZAÇÃO DO CAPÍTULO 4... -99

-FIGURA 4.2: VISTA DOS CASOS DE USO DE UM SISTEMA DE IR... -100

-FIGURA 4.3: ATRIBUTOS DAS CLASSES ABSTRACTAS DA COLECÇÃO E DOS DOCUMENTOS... -101

-FIGURA 4.4: CARACTERIZAÇÃO DA PERGUNTA... -102

-FIGURA 4.5: CARACTERIZAÇÃO DO PERFIL DE UM UTILIZADOR... -103

-FIGURA 4.6: ATRIBUTOS DA CLASSE ABSTRACTA ÍNDICE... -105

-FIGURA 4.7: DIAGRAMA DE CLASSES DE UM SISTEMA DE CLASSIFICAÇÃO... -105

-FIGURA 4.8: VISTA PARCIAL DO SISTEMAS DE CLASSIFICAÇÃO DA ACM E RESPECTIVOS ATRIBUTOS... -106

(12)

-FIGURA 4.10: PROCESSO EXTERNO DE AVALIAÇÃO DAS COMUNIDADES IDENTIFICADAS DE FORMA AUTOMÁTICA PELO

SISTEMA... -107

-FIGURA 4.11: ATRIBUTOS DA CLASSE ABSTRACTA RESULTADO... -107

-FIGURA 4.12: PROCESSO DE INDEXAÇÃO DE UM DOCUMENTO... -108

-FIGURA 5.1: PRINCIPAIS ACTORES NA PRODUÇÃO DE SISTEMAS DE IR... -110

-FIGURA 5.2: METODOLOGIA PROPOSTA PARA A CONCEPÇÃO DE SISTEMAS DE IR... -112

-FIGURA 5.3: SUB-ACTIVIDADES DO LEVANTAMENTO DAS NECESSIDADES... -114

-FIGURA 5.4: METAMODELO DOS PRINCIPAIS CONCEITOS SUBJACENTES AO MDA... -115

-FIGURA 5.5: TRANSFORMAÇÕES ENTRE MODELOS MDA... -116

-FIGURA 5.6: PROCESSO DE GERAÇÃO DE CÓDIGO... -117

-FIGURA 5.7: APLICAÇÕES DA METODOLOGIA PROPOSTA... -120

-FIGURA 5.8: PRINCIPAIS SISTEMAS DE PESQUISA... -120

-FIGURA 5.9: VISTAS PARA CARACTERIZAR UM SISTEMA DE PESQUISA... -121

-FIGURA 5.10: VISTA DOS CASOS DE UTILIZAÇÃO DE UM SISTEMA DE PESQUISA DE INFORMAÇÃO... -121

-FIGURA 5.11: VISTA DE INFORMAÇÃO DE UM SISTEMA DE PESQUISA... -122

-FIGURA 5.12: VISTA DE PROCESSOS DE UM SISTEMA DE PESQUISA... -123

-FIGURA 5.13: VISTAS PARA CARACTERIZAR O SISTEMA DE FILTRAGEM DE INFORMAÇÃO... -124

-FIGURA 5.14: DIAGRAMAS DE CASOS DE USO DE UM SISTEMA DE CATALOGAÇÃO... -125

-FIGURA 5.15: VISTA DE INFORMAÇÃO DO SISTEMA DE CATALOGAÇÃO DE INFORMAÇÃO... -125

-FIGURA 5.16: VISTA DOS PROCESSOS DE UM SISTEMA DE CATALOGAÇÃO... -126

-FIGURA 5.17: PRINCIPAIS PROCESSOS E ALGORITMOS DE REDUÇÃO DE DIMENSÃO... -127

-FIGURA 5.18: VISTAS PARA CARACTERIZAR O SISTEMA DE CATALOGAÇÃO DE INFORMAÇÃO... -127

-FIGURA 5.19: CASOS DE UTILIZAÇÃO DE UM SISTEMA DE FILTRAGEM... -128

-FIGURA 5.20: VISTA DE INFORMAÇÃO DE UM SISTEMA DE FILTRAGEM... -129

-FIGURA 5.21: VISTA DE PROCESSOS DE UM SISTEMA DE FILTRAGEM... -130

-FIGURA 6.1: CAMADAS DA PLATAFORMA, WEBSEARCHTESTER... -132

-FIGURA 6.2: VISTA DOS CASOS DE UTILIZAÇÃO DO SISTEMA WEBSEARCHTESTER... -133

-FIGURA 6.3: CARACTERIZAÇÃO DA COLECÇÃO WT10G, USADA NA PLATAFORMA DE TESTE... -134

-FIGURA 6.4: CARACTERIZAÇÃO DAS PERGUNTAS USADAS, TÓPICOS... -135

-FIGURA 6.5: CONSTRUÇÃO DE SISTEMAS DE CLASSIFICAÇÃO, ATRAVÉS DOS FICHEIROS DE ENDEREÇOS E CONTEÚDOS... -136

-TABELA 6.1: EXEMPLO DE UM FICHEIRO DE CONTEÚDOS E DE TEXTO, PARA A CATEGORIA DE ARTES DO YAHOO. ....-137 -FIGURA 6.6: IMPLEMENTAÇÃO DO PROCESSO DE INDEXAÇÃO... -139

-TABELA 6.3: FILTROS DISPONÍVEIS NO OPENFTS... -140

-FIGURA 6.7: VISTA DOS PROCESSOS DE OPTIMIZAÇÃO IMPLEMENTADOS... -141

-FIGURA 6.8: VISTA DOS PRINCIPAIS PROCESSOS DE COMPARAÇÃO IMPLEMENTADOS... -144

-TABELA 6.4: TABELA DE CONTINGÊNCIA PARA AS COMBINAÇÕES POSSÍVEIS DE A E B... -145

-FIGURA 6.9: DESCRIÇÃO MODULAR DO SISTEMA DC... -147

-TABELA 6.5: LISTA DOS ENDEREÇOS A REMOVER... -148

-FIGURA 7.1: ESQUEMA DA DIVISÃO EM SECÇÕES DO CAPÍTULO 7... -151

-FIGURA 7.2: SISTEMA MYNEWSPAPER... -153

-FIGURA 7.3: CASOS DE USO DO SISTEMA MYNEWSPAPER... -153

-FIGURA 7.4: VISTA DE INFORMAÇÃO DO SISTEMA MYNEWSPAPER... -154

-FIGURA 7.5: VISTA DE PROCESSOS DO SISTEMA MYNEWSPAPER... -156

-FIGURA 7.6: SISTEMA MYTV (GUIA DE PROGRAMAS)... -157

-FIGURA 7.7: VISTA DE CASOS DE UTILIZAÇÃO DO SISTEMA MYTV (GUIA DE PROGRAMAS)... -158

-FIGURA 7.8: VISTA DE INFORMAÇÃO PARA O SISTEMA MYTV (GUIA DE PROGRAMAS)... -160

(13)

-FIGURA 7.10: SISTEMA MYTV (TELEVISÃO PERSONALIZADA)... -162

-FIGURA 7.11: VISTA DOS CASOS DE UTILIZAÇÃO DO SISTEMA MYTV (TELEVISÃO PERSONALIZADA)... -163

-FIGURA 7.12: VISTA DE INFORMAÇÃO DO SISTEMA MYTV (TELEVISÃO PERSONALIZADA)... -165

-FIGURA 7.13: VISTA PROCESSOS DO SISTEMA MYTV (TELEVISÃO PERSONALIZADA)... -166

-FIGURA 7.14: SISTEMA MYENTERPRISENEWS... -167

-FIGURA 7.15: VISTA DE CASOS DE UTILIZAÇÃO DO SISTEMA MYENTERPRISENEWS... -168

-FIGURA 7.16: VISTA DE INFORMAÇÃO DO SISTEMA MYENTERPRISENEWS... -169

-FIGURA 7.17: VISTA DE PROCESSOS DO SISTEMA MYENTERPRISENEWS... -171

-FIGURA 7.18: SISTEMA MYDOCUMENT... -172

-FIGURA 7.19: VISTA DE CASOS DE UTILIZAÇÃO DO SISTEMA MYDOCUMENT... -172

-FIGURA 7.20: VISTA DE INFORMAÇÃO DO SISTEMA MYDOCUMENT... -173

-FIGURA 7.21: VISTA DE PROCESSOS DO SISTEMA MYDOCUMENT... -174

-FIGURA 7.22: SISTEMA DE PESQUISA DE 3ªGERAÇÃO... -175

-FIGURA 7.23: VISTA DE CASO DE UTILIZAÇÃO DO SISTEMA DE PESQUISA DE 3ª GERAÇÃO... -176

-FIGURA 7.24: VISTA DE INFORMAÇÃO DO SISTEMA DE PESQUISA DE 3ª GERAÇÃO... -177

-FIGURA 7.25: VISTA DE PROCESSOS DO SISTEMA DE PESQUISA DE 3ª GERAÇÃO PROPOSTO... -179

-FIGURA 7.26: SISTEMA DE PESQUISA TM... -180

-FIGURA 7.27: VISTA DOS CASOS DE UTILIZAÇÃO DO SISTEMA DE PESQUISA TM... -181

-FIGURA 7.28: VISTA DE INFORMAÇÃO DO SISTEMA TM... -182

-FIGURA 7.29: VISTA DE PROCESSOS DO SISTEMA TM... -183

-FIGURA 8.1: DIAGRAMA DE BLOCOS QUE REPRESENTA A ESTRUTURA DO CAPÍTULO OITO... -185

-FIGURA 8.2:PARÂMETROS TESTADOS EM SISTEMAS DE PESQUISA INDIVIDUAIS... -186

-FIGURA 8.3: NOTAÇÃO USADA PARA SISTEMAS DE PESQUISA INDIVIDUAIS... -186

-TABELA 8.1: VALORES DE PARÂMETROS DE SISTEMAS POR ORDEM DE DESEMPENHO... -187

-FIGURA 8.5: CURVA PRECISÃO/COBERTURA DOS SISTEMAS HITS PARA OS TÓPICOS 501-550... -189

-TABELA 8.3: RESULTADOS DE SISTEMAS HITS POR CONJUNTO SEMENTE E COMPRIMENTO DO ENDEREÇO... -189

-TABELA 8.4: RESUMO DA NOMENCLATURA USADA PARA OS SISTEMAS TM... -190

-FIGURA 8.8: RESULTADOS PARA O SISTEMA LM COM ESTIMADORES DE DIRECHLET PARA OS TÓPICOS 451-500...-192 -FIGURA 8.9:CURVAS DE PRECISÃO/COBERTURA PARA O SISTEMA LM COM ESTIMADORES DE DIRECHLET PARA OS TÓPICOS 451-500... -192

-FIGURA 8.10:CURVAS PRECISÃO/COBERTURA 451-500... -193

-FIGURA 8.11: RESULTADOS DE SISTEMAS SIMPLES PARA OS TÓPICOS 451-500... -193

-FIGURA 8.12: RESUMO DOS TÓPICOS DA SECÇÃO 8.2... -194

-FIGURA 8.13:DIAGRAMA DO ESPAÇO SOLUÇÃO DOS SISTEMAS... -196

-FIGURA 8.14: RESUMO DOS MELHORES RESULTADOS DA COMBINAÇÃO DE SISTEMAS EXTERNOS PARA OS TÓPICOS 451-500... -197

-FIGURA 8.15: RESUMO DAS MELHORES CURVAS PRECISÃO/COBERTURA PARA COMBINAÇÃO DE SISTEMAS ATRAVÉS DA FÓRMULA SM... -198

-FIGURA 8.16: RESUMO DAS MELHORES CURVAS PRECISÃO/COBERTURA PARA COMBINAÇÃO DE SISTEMAS ATRAVÉS DA FÓRMULA WRS... -198

-TABELA 8.7:RESULTADOS DOS SISTEMAS DE TOPO EM FUNÇÃO DAS DIFERENTES FÓRMULAS PARA OS TÓPICOS 451-500... -202

-TABELA 8.8: RESULTADOS DOS SISTEMAS DE TOPO EM FUNÇÃO DAS DIFERENTES FÓRMULAS PARA OS TÓPICOS 501-550... -202

-TABELA 8.9: NÚMERO DE DOCUMENTOS RELEVANTES PESQUISADOS NA ORDEM 1000... -202

-TABELA 8.10: MÉDIAS DAS ORDENS EM DOCUMENTOS SOBREPOSTOS PARA TODOS OS SISTEMAS COM SOBREPOSIÇÃO MAIOR OU IGUAL A 10... -204

-FIGURA 8.17: NÍVEL DE DESEMPENHO ÓPTIMO NA ORDEM 1000... -204

(14)

-FIGURA 8.19: DENSIDADE DE SOBREPOSIÇÃO DE DOCUMENTOS RELEVANTES EM TODOS OS SISTEMAS, PARA OS

TÓPICOS 501-550... -205

-FIGURA 8.20: DENSIDADE DE SOBREPOSIÇÃO DE DOCUMENTOS RELEVANTES EM TODOS OS SISTEMAS, PARA OS TÓPICOS 451-500... -205

-TABELA 8.11: CONJUNTO DE DOCUMENTOS SEMENTE PRODUZIDO PELO VLC10... -206

-TABELA 8.12: FREQUÊNCIAS DE SISTEMAS E PROCESSOS NAS TRÊS ORDENS DE TOPO DOS TÓPICOS 451-550...-208 -TABELA 9.1: RESUMO DOS PRINCIPAIS SISTEMAS DE PESQUISA INDIVIDUAIS TESTADOS COM A COLECÇÃO WT10G. -213 -FIGURA 9.1: RESUMO DO TRABALHO ELABORADO NA PRESENTE DISSERTAÇÃO... -214

-FIGURA B.1: PRINCIPAIS PROCESSOS DE CATALOGAÇÃO DE DOCUMENTOS COM BASE NA APROXIMAÇÃO HIERÁRQUICA. -235 -FIGURA C.1: SISTEMA MYCLASSIFICATOR... -242

-FIGURA C.2: VISTA DE CASOS DE UTILIZAÇÃO DO SISTEMA MYCLASSIFICATOR... -243

-FIGURA C.3: VISTA DE INFORMAÇÃO DO SISTEMA MYCLASSIFICATOR... -243

-FIGURA C.4: VISTA DE PROCESSOS DO SISTEMA MYCLASSIFICATOR... -244

-FIGURA C.5: SISTEMA MYCOMBINEDCLASSIFICATOR... -245

-FIGURA C.6: VISTA DE CASOS DE UTILIZAÇÃO DO SISTEMA MYCOMBINEDCLASSIFICATOR... -245

-FIGURA C.7: VISTA DE INFORMAÇÃO DO SISTEMA MYCOMBINEDCLASSIFICATOR... -246

-FIGURA C.8: VISTA DE PROCESSOS DO SISTEMA MYCOMBINEDCLASSIFICATOR... -247

-FIGURA C.9: SISTEMA MYCOMBINEDFILTER... -247

-FIGURA C.10: VISTA DE CASOS DE UTILIZAÇÃO DO SISTEMA DE FILTRAGEM BASEADO NA COMBINAÇÃO DE DIFERENTES ABORDAGENS... -248

-FIGURA C.11: VISTA DE INFORMAÇÃO DE UM SISTEMA DE FILTRAGEM BASEADO NA COMBINAÇÃO DE DIFERENTES ABORDAGENS... -249

-FIGURA C.12: VISTA DE PROCESSOS DE UM SISTEMA DE FILTRAGEM BASEADO NA COMBINAÇÃO DE DIFERENTES ABORDAGENS... -249

-FIGURA D.1: RESULTADOS DOS SISTEMAS VSM PARA OS TÓPICOS 451-500... -251

-FIGURA D.2: CURVAS DE PRECISÃO/COBERTURA DOS SISTEMAS VSM PARA OS TÓPICOS 451-500... -251

-FIGURA D.3: RESULTADOS DOS SISTEMAS VSM PARA OS TÓPICOS 501-550... -252

-FIGURA D.4: CURVAS DE PRECISÃO/COBERTURA DOS SISTEMAS VMS PARA OS TÓPICOS 501-550... -252

-TABELA D.1:SISTEMA DE TOPO VSM EM FUNÇÃO DO COMPRIMENTO DA PERGUNTA... -252

-TABELA D.2:SISTEMA DE TOPO VSM EM FUNÇÃO DO ÍNDICE DE TERMOS USADOS... -252

-TABELA D.3:SISTEMAS DE TOPOVSM EM FUNÇÃO DO USO DE FRASES... -253

-TABELA D.4: SISTEMAS DE TOPO VSM EM FUNÇÃO DO USO DE RETROAÇÃO... -253

-FIGURA D.5: NÚMERO DE DOCUMENTOS RELEVANTES PARA OS SISTEMAS HITS... -253

-FIGURA D.6: RESULTADOS DE PRECISÃO MÉDIA PARA OS SISTEMAS HITS... -254

-FIGURA D.7: RESULTADOS DE SISTEMAS HITS, PARA OS TÓPICOS 451-500... -254

-FIGURA D.8: CURVA PRECISÃO/COBERTURA PARA SISTEMAS HITS DOS TÓPICOS 451-500... -255

-FIGURA D.9: RESULTADOS DE SISTEMAS HITS, PARA OS TÓPICOS 501-550... -255

-FIGURA D.10: CURVA PRECISÃO/COBERTURA PARA SISTEMAS HITS DOS TÓPICOS 501-550... -255

-TABELA D.5: ÍNDICE DA COLECÇÃO A USAR... -257

-TABELA D.6: NOMENCLATURA DOS SISTEMAS DC USADOS... -257

-TABELA D.7: RESULTADOS DE SISTEMAS DC AGRUPADOS PELOS DIFERENTES TERMOS DE CATEGORIA PARA OS TÓPICOS 451-550... -258

-FIGURA D.11: DESEMPENHO DOS 13 “MELHORES” SISTEMAS DC E DO “PIOR” SISTEMA DC PARA OS TÓPICOS 451-550... -259

-FIGURA D.12: CURVA COBERTURA/PRECISÃO PARA OS 10 SISTEMAS DC DE TOPO PARA OS TÓPICOS 451-550...-259 -TABELA D.8: RESUMO DA NOMENCLATURA USADA PARA OS SISTEMAS TM... -260

(15)

-FIGURA D.13: RESULTADOS DOS SISTEMAS TM PARA OS TÓPICOS 451-500... -261

-FIGURA D.14: CURVA PRECISÃO/COBERTURA DOS SISTEMAS TM PARA OS TÓPICOS 451-500... -261

-FIGURA D.15: RESULTADOS DOS SISTEMAS TM DOS TÓPICOS 501-550... -261

-FIGURA D.16: CURVA PRECISÃO/COBERTURA PARA SISTEMAS TM DOS TÓPICOS 501-550... -262

-TABELA D.9: NOMENCLATURA USADA PARA AS COMBINAÇÕES INTERNAS DO SISTEMA VSM... -262

-TABELA D.10: NOMENCLATURA USADA PARA AS COMBINAÇÕES INTERNAS DO SISTEMA HITS... -263

-TABELA D.11: NOMENCLATURA USADA PARA AS COMBINAÇÕES INTERNAS DOS SISTEMAS DC... -263

-TABELA D.12: NOMENCLATURA USADA PARA AS COMBINAÇÕES INTERNAS DOS SISTEMAS TM... -263

-FIGURA D.17: RESULTADOS DOS MELHORES SISTEMA DE COMBINAÇÃO INTERNA POR SISTEMA E FÓRMULA PARA OS TÓPICOS 451-500... -264

-FIGURA D.18: CURVAS DE PRECISÃO/COBERTURA PARA OS MELHORES SISTEMA DE COMBINAÇÃO INTERNA POR SISTEMA E FÓRMULA PARA OS TÓPICOS 451-500... -264

-FIGURA D.19: RESULTADOS DOS MELHORES SISTEMA DE COMBINAÇÃO INTERNA POR SISTEMA E FÓRMULA PARA OS TÓPICOS 501-550... -264

-FIGURA D.20: CURVAS DE PRECISÃO/COBERTURA PARA OS MELHORES SISTEMA DE COMBINAÇÃO INTERNA POR SISTEMA E FÓRMULA PARA OS TÓPICOS 501-550... -265

-FIGURA D.21: CURVAS DE PRECISÃO/COBERTURA PARA O SISTEMA HITS COM COMBINAÇÃO INTERNA PARA OS TÓPICOS 501-550... -265

-FIGURA D.22: CURVAS DE PRECISÃO/COBERTURA PARA O SISTEMA TM COM COMBINAÇÃO INTERNA PARA OS TÓPICOS 451-500... -265

-TABELA D.13:NOMENCLATURA PARA COMBINAÇÃO DE SISTEMAS EXTERNOS... -266

-FIGURA D.23: RESULTADOS MAIS SIGNIFICATIVOS DAS COMBINAÇÕES EXTERNAS DOS SISTEMAS VSM-HITS.-267 -FIGURA D.24: RESULTADOS MAIS SIGNIFICATIVOS DAS COMBINAÇÕES EXTERNAS DOS SISTEMAS VSM-TM... -268

-FIGURA D.25: RESULTADOS MAIS SIGNIFICATIVOS DAS COMBINAÇÕES EXTERNAS DOS SISTEMAS HITS-TM... -269

-FIGURA D.26: RESULTADOS MAIS SIGNIFICATIVOS DAS COMBINAÇÕES EXTERNAS DOS SISTEMAS VSM-HITS-TM. .-270 -TABELA D.14: NOMENCLATURA DAS 12 FÓRMULAS USADAS... -271

-FIGURA D.27:RESULTADOS DOS SISTEMAS DE TOPO COMBINADOS PARA OS TÓPICOS 451-500... -271

-FIGURA D.28:RESULTADOS DOS SISTEMAS DE TOPO COMBINADOS PARA OS TÓPICOS 501-550... -272

-FIGURA D.29:CURVA DE PRECISÃO COBERTURA PARA OS SISTEMAS DE TOPO COMBINADOS PARA OS TÓPICOS 501-550, USANDO A FÓRMULA OWRS... -272

-FIGURA D.30: CURVA DE PRECISÃO/COBERTURA PARA OS SISTEMAS DE TOPO COMBINADOS PARA OS TÓPICOS 501-550, USANDO A FÓRMULA ROWRS... -273

-FIGURA D.31: CURVA DE PRECISÃO COBERTURA PARA OS SISTEMAS DE TOPO COMBINADOS PARA OS TÓPICOS. 501-550, USANDO AS FÓRMULAS ROWRS-SF/F/P... -273

-FIGURA D.32: DISTRIBUIÇÃO DE DOCUMENTOS RELEVANTES PARA OS TÓPICOS 501-550... -273

-FIGURA E.1: NÚMERO DE DOCUMENTOS RELEVANTES CONHECIDOS POR TÓPICOS 451-550... -274

-FIGURA E.2: DIVISÃO DE RESULTADOS FEITA NO APÊNDICE E... -275

-FIGURA E.3: RESULTADOS MÉDIOS DAS PERGUNTAS AGRUPADOS PELO NÚMERO TOTAL DE DOCUMENTOS RELEVANTES (NTDR) INFERIORES A 10... -277

-FIGURA E.4: RESULTADOS MÉDIOS DAS PERGUNTAS AGRUPADOS PELO NÚMERO TOTAL DE DOCUMENTOS RELEVANTES (NTDR) ENTRE 10 E 50... -277

-FIGURA E.5: RESULTADOS MÉDIOS DAS PERGUNTAS AGRUPADOS NÚMERO TOTAL DE DOCUMENTOS RELEVANTES (NTDR) ENTRE 50 E 100... -277

-FIGURA E.6: RESULTADOS MÉDIOS DAS PERGUNTAS AGRUPADOS PELO NÚMERO TOTAL DE DOCUMENTOS RELEVANTES (NTDR) SUPERIORES A 100... -278

-TABELA E.1: LISTA DAS PERGUNTAS EM FUNÇÃO DOS GRUPOS DE DOCUMENTOS RELEVANTES ESTABELECIDOS... -278

-FIGURA E.7: RESULTADOS MÉDIOS DAS PERGUNTAS AGRUPADOS PELO MELHOR PROCESSO=VSM... -278

-FIGURA E.8: RESULTADOS MÉDIOS DAS PERGUNTAS AGRUPADOS PELO MELHOR PROCESSO HITS... -279

(16)

-TABELA E.2: LISTA DAS PERGUNTAS EM FUNÇÃO DOS SISTEMAS QUE OBTIVERAM MELHOR DESEMPENHO... -279

-FIGURA E.10: RESULTADOS MÉDIOS DAS PERGUNTAS AGRUPADOS PELA PRECISÃO MÉDIA INFERIOR A 0.1... -280

-FIGURA E.11: RESULTADOS MÉDIOS DAS PERGUNTAS AGRUPADOS PELA PRECISÃO MÉDIA ENTRE 0.1 E 0.2.-280 -FIGURA E.12: RESULTADOS MÉDIOS DAS PERGUNTAS AGRUPADOS PELA PRECISÃO MEDIAM, SUPERIOR A 0,2.-280 -FIGURA E.13:RESULTADOS DA MÉDIA SOBRE PERGUNTAS AGRUPADOS PELA ESPECIFICIDADE DAS PERGUNTAS (PERGUNTAS VAGAS)... -281

-FIGURA E.14: RESULTADOS DA MÉDIA SOBRE PERGUNTAS AGRUPADOS PELA ESPECIFICIDADE DAS PERGUNTAS (PERGUNTAS RESTRITAS)... -281

-FIGURA E.15: RESULTADOS DA MÉDIA SOBRE PERGUNTAS AGRUPADOS PELA ESPECIFICIDADE DAS PERGUNTAS (PERGUNTAS ESPECIFICAS)... -282

-TABELA E.3: LISTA DAS PERGUNTAS EM FUNÇÃO DA NATUREZA... -282

-TABELA E.4: TRÊS MELHORES SISTEMAS POR CADA TÓPICO (TÓPICOS 451-500)... -283

(17)

-Capítulo 1

1

Introdução e Objectivos

1.1 Introdução

Os avanços tecnológicos permitem uma maior facilidade na produção e difusão de informação conduzindo a uma realidade que muitas vezes se traduz em situações de excesso de informação, não permitindo às pessoas obter a informação desejada, cada vez mais indispensável e crítica. Esta problemática tem duas vertentes principiais conforme ilustrado na Figura 1.1, a recuperação de informação (IR) (iremos usar a designação IR para este conceito da recuperação de informação) e a aquisição de conhecimento. Os sistemas de IR permitem a um utilizador aceder à informação pretendida, destacando-se evidentemente o sistema de pesquisa, devido à sua larga utilização, na Word Wide Web (referida como Web ao longo da dissertação). O Google é o expoente máximo dos sistemas de pesquisa a nível de utilização. Estão habitualmente disponíveis numerosos sistemas de pesquisa nos quais, o utilizador formula a sua necessidade de informação através de um conjunto de termos. A maioria dos sistemas responde de uma forma rápida mas com uma lista infindável de documentos, sendo a maioria deles irrelevantes relativamente à necessidade de informação do utilizador.

Figura 1.1: Principais meios de gerira informação.

Esta e outras razões tornam importante o estudo e o desenvolvimento de metodologias

Pesquisa Filtragem Catalogação Resumo Documentos Agrupamento

Informação

Extracção ‘Mining’ Visualização Serviços Recuperação ‘Mining’ Recuperação Informação Organização da Informação

Área da presente Dissertação

Navegação Difusão Pesquisa Filtragem Catalogação Resumo Documentos Agrupamento

Informação

Extracção ‘Mining’ Visualização Serviços Recuperação ‘Mining’ Recuperação Informação Organização da Informação

Área da presente Dissertação

Navegação Difusão

(18)

capazes conceber e construir de sistemas de IR de uma forma simples, originando assim sistemas de recuperação adaptados às necessidades de grupos de utilizadores.

Outro aspecto deste problema é o facto de as diferentes formas de IR serem habitualmente abordadas de uma forma independente, não se beneficiando de possíveis sinergias entre os diferentes sistemas (ver Secção 1.2, pesquisa, filtragem, classificação). Nesta dissertação, propõe-se uma metodologia para a concepção de sistemas de IR, permitindo uma análise do problema referido, em particular aplicando-o ao espaço distribuído e descentralizado que é a Web. Esta metodologia inclui de forma original uma linguagem de modulação adaptada às necessidades da IR, baseada no mecanismo de extensão do UML.

1.2 Recuperação de Informação

Nos nossos dias, tal como ao longo dos tempos, o acesso e controlo da informação são vitais e a Web abriu caminho para um processo que permite divulgar e aceder à informação de uma forma fácil, rápida e a baixo custo. Esta condição acabou por criar o problema do excesso de informação disponibilizada, levando ao estudo e desenvolvimento de sistemas de submissão e recuperação de informação, conforme sugerido na Figura 1.2, em que se representa o ciclo de vida da informação. Genericamente existem dois sistemas, um para produção e submissão de informação e um outro que permite a recuperação da informação pretendida.

Figura 1.2: Ciclo de vida genérico da informação.

Devido à realidade social e tecnológica, onde a necessidade de informação é uma constante, a IR tem concentrado a atenção de um grande número de investigadores e, dada a complexidade do problema, tem-se mantido tema actual ao longo de mais de duas décadas (Salton 83, Rijsberg 79, Korfhage 97, Yates 99, Zhai 01). O número de grupos de investigação quadruplicou num espaço de 10 anos (dados estimados com base na análise do numero de grupos que concorreram à TREC (vid. Secção 2.7)). Desenvolveram-se inúmeras associações e têm emergido diferentes publicações (Figura 1.3). No entanto, na área dos sistemas e dos processos estatísticos nenhuma organização ou publicação se impôs como referência.

Para além destes factos, a informação disponível é arquivada sob a forma escrita em documentos ou registos, que são arquivados num meio conveniente sob as mais variadas

:Informação Produtor

Consumidor Produção/Submissão

(19)

formas e dimensões. Os registos representam informação estruturada com campos bem definidos associados a Bases de Dados. Por outro lado, os documentos constituem informação não estruturada onde o elemento fundamental é o texto, que representa a expressão escrita da linguagem humana. O texto é um mecanismo poderoso para guardar informação, permitindo armazenar qualquer conteúdo verbal expresso; um poder que advém da riqueza, da diversidade, da subjectividade e da flexibilidade existentes na linguagem humana. Quando é criado um texto, o autor tem ao seu dispor uma enorme diversidade de vocábulos e termos, que podem ser combinados das mais diversas formas para expressar o que deseja comunicar. Por outro lado, um vocábulo ou termo pode assumir vários significados consoante o contexto em que se aplicam. Estas formas de guardar informação só farão sentido se posteriormente for possível consultar e encontrar a informação desejada pelos utilizadores. As necessidades de informação dos utilizadores podem ser estáveis ou dinâmicas, consoante a taxa de variação dos interesses ao longo do tempo, podendo ainda ser classificadas como vastas ou específicas (Belkin, 1992).

Figura 1.3: Principais publicações e organismos responsáveis pela gestão de informação.

A recuperação de informação pode ser caracterizada do ponto de vista da informação (estruturada vs. não-estruturada), das necessidades de informação (genéricas vs. específicas) e do fluxo de informação (estável vs. dinâmico), nos seguintes processos, como sugerido na Figura 1.4:

− Navegação (N), processo interactivo em que o utilizador está mais interessado em explorar e conhecer os documentos do que em satisfazer uma necessidade específica de informação.

− Consulta de base de dados (BD), processo que permite recuperar registos bem definidos num meio apropriado.

− Pesquisa de Informação (PI), área das ciências da computação que estuda a questão da recuperação de informação, dada uma necessidade momentânea de informação de um utilizador, (Belkin, 1992; Salton 1983; Rijsbergen 1979, SIGIR, TREC (vid. Secção 2.7)).

G e s tã o In fo rm a ç ã o A p re n d iz a g e m 'M in in g ' IC D E A C M S IG K D D IC M L U A I A A A I W W W A S IS TR E C C L E F A C M S IG IR A C M C IK M H L T J C D L C O L IN G N L P (L in g u a g e m N a tu r a l) A p lic a ç õ e s IR B a s e d e D a d o s A C L C iê n c ia d o s C o m p u ta d o re s A C M S IG M O D E s ta tís tic a O p tim iz a ç ã o S o ftw a re S is te m a s V L D B

(20)

− Filtragem de Informação (FI), área das ciências da computação que estuda o encaminhamento automático de informação, dado um conjunto de interesses estáveis de um utilizador (vid. Secção 2.9), (ACM 1992, ACM 1997, ACM 2004, DELOS 1997).

− Classificação de Informação (C), processo de organizar o espaço de informação, subdividindo-o em conceitos previamente definidos que formam grupos, tendo como objectivo facilitar a IR e melhorar o desempenho dos sistemas desenvolvidos para esse fim (vid. Secção 2.10 a 2.12).

Figura 1.4: Caracterização dos principais processos de produção e recuperação de informação.

Relativamente a estes processos, a análise da presente dissertação foca o problema da

IR não estruturada na presença de interesses específicos de informação, dos quais

se destacam evidentemente os processos de pesquisa e de filtragem de informação. Associado a estes processos é abordado o problema da classificação de informação através de um espaço de conhecimento previamente definido, tendo como objectivo a melhoria dos resultados gerados pelos processos acima referidos.

A IR é um processo no qual uma colecção de documentos (i.e informação não-estruturada) é dividida em duas categorias de documentos, relevantes e não-relevantes. Documentos relevantes são aqueles que satisfazem as necessidades de informação de um utilizador, cabendo na outra categoria todos os outros documentos.

A riqueza da linguagem humana, quer pela diversidade de vocábulos de termos utilizados, quer pela forma como estes são combinados, tornam bastante difícil a tarefa de recuperar informação o que faz com que este problema esteja longe de estar resolvido; sendo esta uma área onde se têm dispendido esforços, no sentido de desenvolver técnicas e estratégias necessárias para minimizar o problema de encontrar a informação desejada. Fluxo informação Documentos Registos Estruturado Não Estruturado FI PI BD Processos

FI - Filtragem de Informação; PI - Pesquisa de Informação; BD - Base de Dados; N – Navegação; C – Classificação de Informação

Produção de Informação Necessidades de Informação

Estável Dinâmico Genérico Específico FI BD PI N Dinâmico N Estável C C

(21)

1.3 Problemas

Entre os vários problemas da IR destacam-se aqueles que se consideram mais relevantes para os objectivos da presente investigação, a saber:

− Dada a complexidade da área de IR, existe um conjunto diverso de sistemas e de processos de pesquisa, de filtragem e de classificação sem que nenhum apresente uma resolução completa do problema. Existem ainda poucas iniciativas no sentido de explorar sinergias dos três sistemas.

− Existe pouca personalização ao nível dos sistemas de recuperação, não havendo distinção entre os diferentes níveis de experiência dos utilizadores. Estão disponíveis poucas alternativas nas formas de pesquisa (principal sistema de recuperação). São disponibilizadas poucas ferramentas eficazes para trabalhar a informação identificada como relevante por um sistema, agrupando-a em tópicos ou diminuindo o seu número usando determinados critérios.

− Inexistência de plataformas de teste, aceites e usadas pela comunidade de IR. − Inexistência de uma ontologia de conceitos aceite para IR. O conceito de

ontologia é empregue no sentido da definição de um conjunto de conceitos definidos para um determinado domínio de modo a poderem ser reutilizados. − Nota-se uma falta de utilização generalizada de uma linguagem de modelação e de

uma metodologia na construção e concepção de sistemas de IR.

− Os sistemas de IR dão geralmente respostas rápidas, no entanto devolvem muitos documentos, tornando a sua verificação quase impossível e muitos de relevância nula, face à necessidade do utilizador.

1.4 Contexto

Sintetiza-se na Figura 1.5, o contexto da presente dissertação e a relação entre diferentes áreas de conhecimento. O problema da IR é abordado na perspectiva dos modelos, dos algoritmos, dos sistemas e das aplicações. São igualmente abordados assuntos das áreas de:

− Engenharia de Software onde se aborda o problema da construção e concepção de sistemas de IR.

− Estatística e Optimização relacionada como o estudo de processos e algoritmos de IR.

(22)

− Aplicações onde se propõe uma plataforma de teste e um conjunto diverso de aplicações.

Figura 1.5: Relação entre as áreas de conhecimento e a sua contextualização na presente dissertação.

1.5 Objectivos e Contribuições Originais

Sintetiza-se nesta secção o principal objectivo e contribuição desta dissertação, conforme sugerido na Figura 1.6.

Hipótese: Os sistemas de IR devem ser desenvolvidos de acordo com uma metodologia

que permita sistematizar os seus requisitos com uma linguagem de modelação adequada e conduzir a uma implementação bem estruturada, com base num conjunto de modelos abstractos específicos de IR.

Objectivo: Contribuir para o desenvolvimento da IR, através da proposta de uma

metodologia específica baseada numa linguagem de modelação para a concepção de sistemas de IR.

Consequências Práticas: Definição de uma linguagem baseada nos mecanismos de

extensibilidade do UML, adaptadas às necessidades da IR, a qual serve de base à definição de um conjunto de modelos específicos de IR, os quais servem de bibliotecas base na criação de sistemas de IR. Este processo conduziu à criação de uma plataforma de teste comum, onde foram testados diferentes processos (algoritmos) de IR e validados outros, propostos pelo autor.

Contribuições: Identificam-se as seguintes contribuições originais do presente trabalho:

− Definição de uma linguagem de modelação (IRML) adaptada às necessidades da IR, através da criação de um perfil UML (vid. Capítulo 3). Para além de servir de

(23)

base à criação de modelos abstractos, esta linguagem permite a sistematização conceitos e notação na área da IR.

− Definição de uma biblioteca de modelos abstractos para IR, baseada na linguagem proposta, a qual agrega e estrutura um conjunto padrão de modelos, usados no processo de criação de sistemas modulares de IR.

C o n trib u ír p a ra o d e s e n v o lv im e n to d a IR « C o n tri b u to » IR M L C a p ítu l o 6 « C o n tri b u to » IR -M o d e lo s A b s tra c to s In fra -E s tru tu ra IR -S is te m a IR -P la ta fo rm a Te s te IR -A p lic a ç õ e s C a p ítu l o 7 C a p ítu l o 8 (R e su l ta d o s d a P l a ta fo rm a d e T e ste ) Te s te IR -P ro c e s s o C a p ítu l o 3 C a p ítu l o 5 IR -A lg o rith m o N o v o s A l g o ri tm o s C ri a d o s O a u to r c ri o u o s se g u i n te s a l g o ri tm o s: - C a p ítu l o 6 : T M - C a p ítu l o 7 : D C ; P se u d o -R e tro a c ç ã o ; A l te ra ç õ e s n a s fó rm u l a s d e se g u i m e n to d e l i g a ç õ e s; T rê s fó rm u l a s d e c o m b i n a ç ã o ; C a p ítu l o 4 « C o n tri b u to » M e to d o lo g ia O b j e c ti v o d a d i sse rta ç ã o U M L u sa > + o u tp u t c o n c e p ç ã o A v a l i a d e se n v o l v i m e n to IR d e fi n e e ta p a s a rq u i te c tu ra m o d e l o s d e se n v o l v i m e n to IR > c o n c e i to s e n o ta ç ã o < u sa c o n c e p ç ã o + o u tp u t + m o d e l o s c o n j u n to 'b i b l i o te c a s' d i sp o n ív e i s b a se a d a b a se a d o u sa l i n g u a g e m

Figura 1.6: Objectivo principal da dissertação.

− Proposta de uma metodologia para concepção e construção de sistemas de IR adaptados às necessidades específicas de grupos de utilizadores, com base na linguagem de IR, nos modelos abstractos de IR e numa infra-estrutura disponível que seja possível criar.

− Criação de uma plataforma de teste modular para IR, comum aos diferentes sistemas de IR (e.g. pesquisa, filtragem, classificação de informação) e aos

(24)

diferentes processos de IR, a qual serve de base ao teste controlado de diferentes algoritmos de IR.

Como consequência da metodologia criada e dos sistemas construídos podem-se identificar, num segundo plano, contribuições complementares:

− Criação de sistemas adaptados às necessidades específicas de grupos, áreas ou utilizadores (vid. Capítulo 7).

− Introdução de mecanismos de retroacção automática nas fórmulas de combinação de resultados (vid. Capítulo 6).

− Introdução de ajuste às fórmulas de pseudo-retroacção e de seguimento de ligações (vid. Capítulo 6).

− Criação de novos processos de pesquisa, baseados numa aproximação híbrida de processos de pesquisa com sistemas de classificação (vid. Capítulo 6 e 7).

− Combinação de processos para identificar comunidades de utilizadores (vid. Capítulo 7).

1.6 Publicações

No âmbito deste trabalho de investigação foram produzidas e publicadas as seguintes comunicações científicas:

Internacionais com júri:

A modular platform applicable to all statistical retrieval models, Proceedings of

the ITA05, de 7 a 9 de Setembro de 2005 em Wrexham, País de Gales

<www.newi.ac.uk/computing/research/ita05/>. Deu origem à Secção 2.6 e

Capítulo 65, faz-se uma descrição dos algoritmos de recuperação em termos de conceitos e fórmulas empregues, orientados para uma plataforma modular de teste comum aos diferentes algoritmos.

Web Services for Information Retrieval, Proceedings of the ITCC 2005, da IEEE

de 4-6 de Abril de 2005 em Las Vegas (USA) <http://www.itcc.info/>.

Plataforma de IR apresentada sob o ponto de vista conceptual, sendo apresentada uma visão de futuro da referida plataforma. O referido artigo reflecte ideias apresentadas no Capítulo 5 e 6.

Using LDAP in a Filtering Service for a Digital Library. Fifth DELOS Workshop

- Collaborative Filtering. Budapeste Hungria, 10-12 Novembro 1997. Usado na

Secção 2.9.

(25)

Deliver the Right Information to the Right User?). Proceedings of the

ICEIS'2001. Setúbal, Julho 2001, Portugal. Deu origem à Secção 2.9 e à

descrição dos sistemas de filtragem no Capítulo 7.

Does Overlap mean relevance? Proceedings of the IADIS WWW/Internet 2004,

Madrid 6 a 9 Outubro de 2004. Foram publicados os resultados e as conclusões

da Secção 8.3.

How to Improve Retrieval effectiveness on the Web, Proceedings of the IDAS

e-Society 2004, Avila 16 a 19 Julho de 2004. Foram publicados os resultados das

Secções 8.1 e 8.2.

Infra-estrutura modular de teste para pesquisa de informação. Proceedings of the

IADIS Conferência Ibero-Americana WWW/Internet 2004 - October 7 - 8, 2004.

Foi publicado a descrição do sistema WebSearhTester, Capítulo 6.

Combinações de Sistemas de Pesquisa de Informação. Proceedings of the IADIS

Conferencia Ibero-Americana WWW/Internet 2004 October 7 - 8, 2004.

Publicados os resultados das Secções 8.2 a 8.4.

Fusion methods to find Web Communities, Proceedings of the Web based

Communities 2005, de 23-25 de Fevereiro de 2005, Algarve, <http://www.iadis.org/wbc2005/>.

Parameters Analyses of Main Retrieval Systems, Proceedings of the Applied

Computing 2005, de 22-25 de Fevereiro de 2005 <http://www.iadis.org/

ac2005/>. Publicado de uma forma detalhada os resultados da Secção 8.2.

Personalised Filtering Systems Based on the Combination of Different Methods,

Proceedings of the Applied Computing 2005, da IADIS de 22-25 de Fevereiro de

2005 <http://www.iadis.org/ac2005/>. Deu origem ao Apêndice C.3.

The Next Generation of Information Retrieval Applications, Proceedings of the

MULTI 2005, conferência virtual realizada em Abril de 2005. Deu origem ao

Capítulo 5. É proposto do ponto de vista conceptual um novo sistema de pesquisa. Nacional com júri internacional (Brasileiro e Italiano), JETC (Jornadas de Engenharia de Electrónica e Telecomunicações e de Computadores):

Arquitectura para um serviço de disseminação selectiva de informação,

J.Ferreira, JETC99, ISEL 28-29 de Outubro de 1999. Usado nas Secções 2.9 e

5.7. São descritos os requisitos de um sistema de filtragem.

Combinação de Métodos para Pesquisa de Informação, JETC 2005, de 17 a 18

Novembro de 2005 Lisboa. Deu origem à Secção 2.14, descreve o estado de arte

(26)

Modelos Estatísticos para Recuperação de Informação, JETC 2005, de 17 a 18 Novembro de 2005, Lisboa. Deu origem a Secção 2.6, explorando a vertente

organizacional dos diferentes processos.

Modelação de Pesquisa de Informação, JETC 2005, de 17 a 18 Novembro de

2005, Lisboa. Deu origem ao Capítulo 3, propõe-se uma linguagem baseada no

perfil UML para a concepção de sistema de IR.

Terceira Geração de Sistemas de Pesquisa de Informação, JETC 2005, de 17 a 18

Novembro de 2005, Lisboa. Detalhes de implementação de sistemas de pesquisa

(recuperação), usando informação do perfil dos utilizadores (guardado do lado do cliente). Deu origem à Secção 7.7.

MyTv: Sistema Personalizado de Televisão, JETC 2005, de 17 a 18 Novembro de

2005, Lisboa. Deu origem à Secção 7.3, descrevendo-se o sistema de televisão

personalizada MyTv.

1.7 Organização da Dissertação

A dissertação está organizada em nove capítulos, de acordo com a Figura 1.7:

− No Capítulo 1 é definido o enquadramento e o problema, são definidos os objectivos e principais contributos da dissertação.

− No Capítulo 2 é elaborada a síntese do estado da arte dos tópicos relacionados com a dissertação, tendo em vista os objectivos propostos, ou seja orientado para a metodologia a propor. Neste capítulo é elaborada uma síntese dos processos envolvidos na IR, são identificados os principais problemas e processos. É apresentado uma caracterização dos sistemas de pesquisa, filtragem e classificação de informação. É ainda descrito a combinação de processos de pesquisa de informação e é elaborado um resumo dos principais processos de combinação de resultados.

− Os Capítulos 3 a 8 são desenvolvidos pelo autor de modo a atingir os objectivos propostos, nomeadamente:

o No Capítulo 3 (IRML: Linguagem de Modelação para Sistemas de Recuperação de Informação). Com base no UML é derivada uma nova linguagem adaptada ao problema da IR.

o No Capítulo 4 (Biblioteca de Modelos Abstractos para Sistemas de Recuperação de Informação) são descritos os modelos abstractos necessários à concepção de sistemas de IR.

(27)

Figura 1.7: Diagrama da organização da dissertação em capítulos.

o No Capítulo 5 (Metodologia para Concepção e Construção de Sistemas de IR) é identificada uma metodologia para conceber sistemas de IR, com base numa infra-estrutura identificada (OpenFTS), na linguagem e nos modelos abstractos propostos.

o No Capítulo 6 é criada e descrita uma plataforma de teste para processos de IR, WebSearchTester.

o No Capítulo 7 (Casos de Estudo com base na metodologia, linguagem proposta) são concebidos e implementados diversos sistemas com fins comerciais.

o No Capítulo 8, são apresentados resultados da plataforma de teste, onde

1 - In tro d u c ç ã o e O b j e c tiv o s N o vo s A l g o ri tm o s C ri a d o s: D C ; P se u d o -R e tro a c çã o ; A l te ra ç õ e s n a s fó rm u l a s d e se g u i m e n to d e l i g a ç õ e s; T rê s fó rm u l a s d e co m b i n a çã o ; E sta d o d a a rte o ri e n ta d o p a ra a IR -l i n g u a g e m e IR -M o d e l o s a b stra cto s a p ro p o r n o s c a p ítu l o s 3 e 4 C o n tri b u i ç õ e s d a d i sse rta ç ã o 2 - R e c u p e ra ç ã o d e In fo rm a ç ã o 3 - IR M L 4 - B ib lio te c a d e M o d e lo s A b s tra c to s p a ra S is te m a s d e IR 5 - M e to d o lo g ia p a ra a C o n c e p ç ã o e C o n s tru ç ã o d e S is te m a s d e IR 7 - C a s o s d e E s tu d o c o m B a s e n a M e to d o lo g ia P ro p o s ta 8 - R e s u lta d o s W e b s e a rc h Te s te r P la ta fo rm a d e Te s te p a ra P ro c e s s o s d e IR 9 - C o n c lu s õ e s e Tra b a lh o F u tu ro A p ê n d ic e s C ri a d o s si ste m a s d e : - F i l tra g e m :M y N e w sP a p e r, M yT vG u i a P ro g ra m a s,M yT V - C l a ssi fi ca ç ã o - P e sq u i sa , T M , 3 ª g e ra ç ã o N o v o s m é to d o s: - T M B ib lio g ra fia A B C N o vo s m é to d o s: -C o m b i n a çã o d e c l a ssi fi c a d o re s; -C o m b i n a çã o d e m é to d o s d e fi l tra g e m D E 6 - P la ta fo rm a d e Te s te W e b S e a rc h Te s te r

(28)

são testados novos processos de retroacção e combinação de resultados, apresentados diversos resultados num ambiente de teste controlado. − No Capítulo 9 (Conclusões e Trabalhos Futuro) faz-se uma análise global do

trabalho realizado tendo por base a hipótese e objectivos originalmente estabelecidos. Resumem-se os principais contributos deste trabalho e em particular os relativos à concepção e implementação da infra-estrutura WebSearchTester. Por fim, identificam-se as principais expectativas, questões em aberto e consequentes trabalhos futuros.

− Nos Apêndices:

o Apêndice A: apresenta-se glossário, siglas, abreviaturas, símbolos de medidas, fórmulas e sistemas de IR referidos.

o Apêndice B: apresenta-se informação complementar sobre IR.

o Apêndice C: informação complementar ao Capítulo 7 de sistemas concebidos, mas não implementados.

o Apêndice D: resumo dos resultados obtidos através da plataforma WebSearchTester.

o Apêndice E: faz-se uma análise dos resultados obtidos em função das perguntas usadas (Tópicos 451 a 550, da TREC).

− Na bibliografia, listam-se por ordem alfabética todas as referências bibliográficas utilizadas ao longo da tese.

1.8 Notações e Referências

Para facilitar a leitura desta dissertação foram introduzidos os seguintes critérios de notação sintáctica:

− Termos e expressões consideradas importantes são realçados no texto a negrito, como por exemplo Pesquisa de Informação.

− Termos e expressões utilizadas de modo informal, em sentido figurado ou ainda neologismo tornados comuns, mas não integrados formalmente na Língua Portuguesa, são apresentados entre aspas, como por exemplo “ciberespaço”.

− Termos e expressões em língua estrangeira, geralmente de significado reconhecido, mas para os quais não se encontrou uma tradução com semântica equivalente aceitável, são apresentados em itálico, como por exemplo hub.

(29)

tal como é referido por João Frada no Capítulo 3 da sua obra “Guia prático para elaboração e apresentação de trabalhos científicos” (Frada, 1997).

No caso de publicações acessíveis na Internet, em exclusivo ou em complemento de edições impressas, fornece-se ainda o seu endereço nesse espaço. Na ausência de normas universalmente aceites, usou-se as recomendações da MLA (Modern Language

Association). Estas reflectem uma tendência geral de apresentar o endereço da obra

delimitado pelos caracteres “<” e “>”.

Finalmente, no que respeita à notação gráfica utilizada nos diagramas, segue-se a notação associada à linguagem UML - Unified Modeling Language, conforme definida pela OMG <http://www.omg.org/uml>, a organização que tem liderado os esforços

da sua definição, tendo sido ainda usadas como referência as publicações (Erikson e Penker, 1998), (Booch 1994 e 1999) e (Rosenberg e Scott, 1999, Silva, 2001 e 2005).

(30)
(31)

Capítulo 2

2

Recuperação de Informação

Figura 2.1: Diagrama dos tópicos do Capítulo dois.

C l a ssi fi c a ç ã o d e In fo rm a ç ã o P e sq u i sa d e In fo rm a ç ã o (S e rv i ç o m a i s u sa d o ) 2 .1 . - In tr o d u ç ã o 2 .2 . - P r in c ip a is P r o b le m a s d a R e c u p e r a ç ã o d e In fo r m a ç ã o 2 .3 . - P e s q u is a d e In fo r m a ç ã o 2 .4 . - In d e x a ç ã o 2 .5 . - P e r g u n ta s 2 .6 . - M é to d o s d e C o m p a r a ç ã o 2 .7 . - A v a lia ç ã o d e R e s u lta d o s 2 .8 . - S is te m a s d e P e s q u is a d e In fo r m a ç ã o 2 .9 . - F iltr a g e m d e In fo r m a ç ã o 2 .1 0 . - C la s s ific a ç ã o d e In fo r m a ç ã o 2 .1 1 . - A g r u p a m e n to d e D o c u m e n to s 2 .1 2 . - C a ta lo g a ç ã o d e D o c u m e n to s 2 .1 4 . - C o m b in a ç ã o d e R e s u lta d o s

(32)

Este capítulo faz a análise e subsequente síntese do estado da arte da IR orientada no sentido do objectivo proposto para a dissertação e divide-se em catorze pontos de acordo com a Figura 2.1. Será dada ênfase aos três principais sistemas de IR: (1) pesquisa de informação (o mais usado); (2) filtragem de informação; (3) classificação de informação.

2.1 Introdução

A Recuperação de informação é um processo fundamental da comunicação, onde utilizadores com necessidades de informação descrevem essas mesmas necessidades e a colecção onde será efectuada a busca contém documentos descritos de uma forma que os utilizadores entendam (Blair, 1990).

O problema da IR não é recente. Foi abordado há milhares de anos atrás com a concentração da informação nas bibliotecas e, mais recentemente, com o aparecimento dos computadores e da informação em formato digital. Foi ganhando dimensão e importância, deixando de ser um problema exclusivo dos bibliotecários, passando a ser um problema da área das ciências da computação, ao qual deram o nome de Information

Retrieval, recuperação ou pesquisa de informação (Amado, 1997). As primeiras

referências a este problema, com esta designação, vêm da década de 50 (Mooers, 1952), mas um grande número de trabalhos surgiu na década de oitenta, mantendo-se um problema actual dado a sua amplitude e complexidade. Esta complexidade pode traduzir-se nos seguintes “Postulados de Impotência”, enunciados por (Fairthorne, 1963) e (Whittaker, 1979):

− A necessidade de informação não pode ser expressa numa pergunta independente dos inúmeros pressupostos do contexto. A pergunta não pode ser completamente formulada enquanto não for encontrada a resposta.

− A relevância de um documento depende do contexto.

− É impossível verificar se todos os documentos relevantes foram encontrados. − Os computadores não percebem os diferentes significados das palavras, logo não

podem replicar os pensamentos humanos. A estatística da ocorrência de palavras não pode substituir o significado das palavras.

O que se constata é que o problema não é passível de ter uma solução óptima, o que se procura é um processo fácil que satisfaça minimamente os requisitos das necessidades de informação por parte dos utilizadores.

As primeiras abordagens a este problema, na área das ciências da computação, foram feitas com base em técnicas desenvolvidas na recuperação de registos de bases de dados.

(33)

A IR é efectuada através da formulação de uma pergunta que é comparada com os registos existentes na base de dados. O resultado desta operação é a existência (ou não) de registos que satisfaçam a pergunta formulada. A informação obtida é estruturada e permite ao utilizador saber qual o tipo ou a natureza da informação existente na base de dados.

Dois dos passos mais significativos do ciclo de vida da informação, ilustrado na Figura 1.1, são a sua criação e posteriormente a sua recuperação. Na recuperação podem identificar-se dois principais tipos de sistemas:

Pesquisa de informação, em que um utilizador procura o sistema para satisfazer

uma necessidade de informação momentânea. Está associada a uma acção de IR iniciada pelo utilizador ao inquirir o sistema com um determinado objectivo.

Filtragem de informação, em que o sistema encaminha a informação de acordo

com um conjunto de interesses estáveis do utilizador (perfil) criando um sistema de filtragem de informação. O sistema “toma a iniciativa” de entregar ao utilizador informação de acordo com os parâmetros previamente definidos.

Figura 2.2: Recuperação de informação, sistemas que serão objecto de análise.

Nesta perspectiva podemos dizer que Pesquisa/Recuperação e Filtragem/Entrega são duas faces do mesmo problema que é a obtenção da informação desejada. Para além destes dois sistemas adiciona-se a classificação de informação, na qual a informação é organizada num espaço de conhecimento previamente definido, em que o utilizador

S e rvi ço C l a ssi fi c a çã o S e rvi ço P e sq u i sa S e rv i ç o F i l tra g e m U tiliza d o r C ria « D o c u m e n to » « C o l e cç ã o » N e c e s s id a d e s E s tá v e is d e In fo rm a ç ã o N e c e s s id a d e s M o m e n tâ n e a s d e In fo rm a ç ã o N a v e g a ç ã o n u m E s p a ç o C la s s ific a d o re c u p e ra ç ã o d e i n fo rm a ç ã o re cu p e ra çã o d e i n fo rm a ç ã o re c u p e ra ç ã o d e i n fo rm a ç ã o a u to r

(34)

navega para satisfazer uma necessidade momentânea de informação. Este espaço de conhecimento organizado pode também servir para normalizar a comparação feita nos processos de pesquisa e filtragem entre os espaços representativos dos documentos e as necessidades de informação do utilizador. Este assunto envolve os seguintes conceitos, os quais se sistematizam como mostra a Figura 2.2.

2.2 Principais Problemas da Recuperação de Informação

Os principais actores de um sistema de recuperação são: a informação guardada sob a forma de documentos, os utilizadores que têm necessidade de encontrar ou recuperar determinado tipo de informação, o sistema propriamente dito cujo papel é comparar por meio de um determinado processo os representativos da informação com os representativos das necessidades de informação dos utilizadores. O espaço é dividido em duas regiões, a dos documentos relevantes (habitualmente ordenada de acordo com uma medida de relevância) e a dos não relevantes. Um resumo dos principais problemas é ilustrado na Figura 2.3. P r o b le m a s d a R e c u p e ra ç ã o d e In fo r m a ç ã o D o c u m e n to s U tiliz a d o r e s S is te m a s In fo rm a ç ã o m a i s d e ta l h a d a n o a p ê n d i c e B 1 S u b j e c tiv id a d e D im e n s ã o H e te ro g e n id a d e A q u a n ti d a d e d e i n fo rm a ç ã o d i sp o n ív e l te m a u m e n ta d o d e fo rm a e x p o n e n c i a l In e x p e riê n c ia E rro s O r to g rá fic o s D e s is te m d e v id o à C o m p le x id a d e N ã o in te r a g e m c o m o S is te m a D e v o lv e m m u ito s d o c u m e n to s re le v a n te s m a s fa ls o s Tr a ta m d a m e s m a fo rm a u tiliz a d o r e s c o m d ife r e n te s n ív e is d e e x p e riê n c ia O rie n ta d o s p a ra d e te rm in d a d o s e rv iç o P e rs o n a liz a ç ã o p o u c o e x p lo r a d a P a ra m a i s i n fo rm a ç ã o v e r a p ê n d i c e B 2 G e n e ra lis ta s , n ã o s ã o o rie n ta d o s p a ra á r e a s e s p e c ífic a s d o c o n h e c im e n to E x i ste g ra n d e d i v e rsi d a d e d e ta m a n h o s, fo rm a to s, te m a s

Figura 2.3: Principais problemas identificados na IR.

2.2.1 Problemas dos Utilizadores

As características da média dos utilizadores da Web reportadas por Jansen et al. (Jansen, Spink, Bateman, Saracevic 1998) e Silverstein et al. (Silverstein, 1999) parecem consistentes com pressupostos de IR em ambientes electrónicos descritos por Marchionini (Marchionini, 1992). Os utilizadores da Web não têm como objectivo

(35)

perceber o processo de IR, mas sim obter respostas imediatas com pouco esforço. Estes factos fazem com que a IR seja influenciada pelo nível de conhecimento dos utilizadores em determinados tópicos e pela sua experiência. Por outras palavras, experiência e conhecimento do tópico podem diminuir o esforço necessário para encontrar a informação desejada. Verifica-se que utilizadores experientes com poucos conhecimentos de um tópico tendem a envolver-se em processos de pesquisa mais complexos (os quais muitas vezes não estão disponíveis no sistema de pesquisa), processos esses que não estão ao alcance dos utilizadores inexperientes.

Figura 2.4: Principais problemas dos utilizadores ao usarem sistemas de IR.

Um ponto importante a estudar é a diferença de comportamentos de utilizadores experientes e inexperientes, uma vez que já está provado que, realmente, adoptam comportamentos e técnicas diferentes. A principal meta de um sistema de pesquisa será reduzir o nível de conhecimento cognitivo requerido a um utilizador num determinado tópico onde executa a sua pesquisa. Só assim toda a informação está de facto ao alcance de todos. Marchionini descreveu que um sistema de recuperação desejável combina e integra os processos de recuperação de uma forma que ajuda os utilizadores a clarificarem os seus problemas e a encontrarem as soluções. Um resumo dos problemas relacionados com os utilizadores encontra-se descrito na Figura 2.4.

P ro b l e m a s U tiliza d o r N ã o s a b e u s a r o S is te m a D á e rro s o rto g rá fic o s D e s c re v e m a l e d e fo rm a d e m a s ia d o s u s c in ta a s n e c e s s id a d e s d e in fo rm a ç ã o R e c e b e g ra n d e q u a n tid a d e d e d o c u m e n to s n ã o re le v a n te D e s m o tiv a -s e e d e s is te p e ra n te a s d ific u ld a d e s

Referências

Documentos relacionados

After selecting the participants, we applied a standardized questionnaire which had been previously tested by the research group, and collected data on socioeconomic

De acordo com SUKHIANI e colaboradores (1996), JERRAM &amp; DEWEY (1999b) e MAYHEW e colaboradores (2004), cães que realizam cirurgia descompressiva podem reapresentar os

In a study with 5,306 patients carried out by the Global Research on Acute Conditions Team (GREAT), among a great number of biomarkers measured at admission in patients with

Figure 1 – Percentage cost reduction in delivered prescription drugs purchased via reverse auction in comparison with private costs according to each drug group in heart failure

O fato da contagem total de hemócitos no experimento com o agroquímico Talcord não ter sido diferente significativamente entre o controle e os dois tratamentos onde os

Inicialmente, destacamos os principais pontos de convergência: • O papel tático e operacional exercido pela área de TI dos Câmpus é claramente identificável, tanto nos

Antes de caminhar efetivamente ao encontro de métodos e mecanismos que nos levem a solucionar os problemas de ajustamento e inclusão dos jovens oriundos das “tribos” juvenis urbanas

Assim, o presente trabalho surgiu com o objetivo de analisar e refletir sobre como o uso de novas tecnologias, em especial o data show, no ensino de Geografia nos dias atuais