Uso de marcadores estilísticos para a busca na Web em português

(1)

Uso de marcadores estilísticos

para a busca na Web em português

Rachel Virgínia Xavier Aires

Orientador: Profa. Dra. Sandra Maria Aluísio

Co-Orientador: Profa. Dra. Diana Santos

T e s e apresentada ao Instituto de C i ê n c i a s M a t e m á t i c a s e de C o m p u t a ç ã o - I C M C - C S P , c o m o parte d o s r e q u i s i t o s para o b t e n ç ã o do título d e D o u t o r e m C i ê n c i a s C i ê n c i a s d e C o m p u t a ç ã o e M a t e m á t i c a C o m p u t a c i o n a l .

" V E R S Ã O REVISADA APÓS A DEFESA"

(2)

(3)

Como crianças aos pés de um mágico, as pessoas reagem ao estilo por atitudes variáreis. Algumas simplesmente se descontraem e

apreciam os efeitos, e talvez mais tarde recordem tranc/iiilaniente suas emoções. Outras sentem o impulso do menino endiabrado, de espiar dentro da manga do mágico e expor as divisões do seu chapéu, mesmo com o risco de ignorar parte do seu espetáculo ou irritar o restante da audiência.

(4)

Resumo

C o m o lidar com o excesso de informação ao qual usuários são submetidos em suas buscas na Web'.' São muitas as página* sobre um m e s m o assunto, por isso uma solução pode ser separá-las s e g u n d o os objetivos dos escritores. M e l h o r ainda seria separá-las segundo os objetivos dos leitores, tão diversos c o m o b u s c a r um p r o g r a m a , a p r e n d e r sobre uma matéria ou saber as últimas notícias sobre um dado assunto. Fsse é o objetivo desta tese. ir além d o c o n t e ú d o dos textos para minimizar o esforço do usuário em encontrar os d o c u m e n t o s que são relevante* para sua consulta em um dado instante de busca. Investigou-se pela primeira vez a hipótese de que e tecnicamente possível e de fácil c o m p r e e n s ã o a classificação resultados de busca segundo os seus objetivos. Para isso estudou-se a classificação automática dos resultados de buscas na W e b em português segundo a intenção da busca. Foram aplicados algoritmos de aprendizado de máquina sobre características linguísticas relacionadas c o m o estilo d e d o c u m e n t o s em português, e desenvolvidos estudos com usuários para avaliar na prática os classificadores criados. Foi t a m b é m investigada a possibilidade de desenvolver classificadores personalizados que. dentro de u m

d e t e r m i n a d o assunto, separassem páginas interessantes de outras irrelevantes, c o m base em p e q u e n o szyxwvutsrqponmlkjihgfedcbaZYXWVUTSRQPONMLKJIHGFEDCBA corpora d e treinamento. Para a avaliação, foram utilizadas tanto as avaliações de sistema c o m o as centradas no usuário. O s

(5)

Abstract

I l o w should one cope witli mformation overtlow. whcn thcrc are too m a n y pages on the W e b aboul almost every subject? This thesis addresses the problem of information overtlow users taco wlien dealing witli W e b search results. T o go beyond content. it is proposed to classifv pages aceording to the seareli goals tliey sorve from a user point of view: to d o w n l o a d a system. learn some subject or ftnd news about another are quite different user goals. l h e hypothesis validated iti the present dissertation is that it is both technically feasible and u n d e r s t a n d b l e to

classifv W e b pages aceording to user goal. By using machine learning teehniques over linguistically inspired zyxwvutsrqponmlkjihgfedcbaZYXWVUTSRQPONMLKJIHGFEDCBA

tcaturcs. autoinatic classitlers were bui 11 to distinguish a m o n g user needs. Also. several user studies w e r e c o n d u c t e d to assess the understandability of the concepts at stake and the gain achieved by using the particular classification in the displav of the results. In addition. this u o r k also tested personali/ed binarv classillers about specillc subjeets. traíned in small traming corpora supplied by the users themselves. With regard to evaluation. both system c \ a l u a t i o n and user-centered evaluation were performed. The results show that (i) the user needs classification is understood by the user. (ii) the use of style markers are a reliable path to be investigated (iii) traimng on small W e b corpora is able to generatc reliable classitlers. and ( i \ ) search can be eased by elassifying scarch results a c e o r d i n g to user needs.

(6)

Agradecimentos

"A capacidade pouco vale sem oportunidade "zyxwvutsrqponmlkjihgfedcbaZYXWVUTSRQPONMLKJIHGFEDCBA N a p o l e ã o

Um dia eu pensei como Anthony Robbins. que disse "Engraçado, costumam dizer que tenho

sorte. Só eu sei que quanto mais eu me preparo mais sorte eu tenho". Mas agora, no fim do

doutorado, preciso admitir que o universo parece ter conspirado a meu favor. Muitos me

ajudaram, minha família, minhas orientadoras, amigos, colegas, professores e mesmo totais

desconhecidos. Graças a todos, nestes quase quatro anos aprendi muito. Yislumbrou-se o que

quero para minha carreira. Conheci meu primeiro amor graças ao doutorado sanduíche na

Noruega. Tive minha fé reforçada. Aprendi nas últimas semanas que não devo julgar antes do

último segundo - o melhor é nunca julgar mas para isso ainda precisaria de uns mil

doutorados. Tive provas frequentes de que tudo acontece apenas no momento certo e porque

realmente deveria acontecer. Obrigada a todos!

Obrigada às minhas orientadoras, Sandra e Diana, que cada uma ao seu modo, me

orientaram e me "desorientaram". Obrigada. Sandra, pela amizade e paciência com meu mau

humor dos últimos dias. Obrigada, Diana, pelas críticas diretas. Diana, quando começamos a

trabalhar juntas, admirava sua capacidade de trabalho: hoje. além disso, respeito sua forma de

trabalhar. Obrigada pelo apoio. Obrigada a ambas pela super dedicação nos últimos dois meses.

(7)

Obrigada, família e amigos, por tolerarem minha ausência. Obrigada, meu querido amigo

irmão Marcello, pelo zelo. Obrigada,zyxwvutsrqponmlkjihgfedcbaZYXWVUTSRQPONMLKJIHGFEDCBA minino Marcos pelo carinho a qualquer distância.

Obrigada. Jorge e Tiago, por suas tentativas incansáveis de me tirar de casa aos

finais-de-semana. Obrigada, Edvaldo. Alan, Claudete, Denise. Ludmila, Érika. Estela. Elma, Élide.

Leandro. Ana Raquel, Flávia. Tulius e Taiz. por estarem em minha vida. Obrigada. Renatinho.

Tânia. Lícia. Lilia, Helene. Cresita e Luís Costa, pelo apoio, foi muito bom conhecê-los melhor e

conquistá-los para minha vida. Obrigada aos trabalhadores do grupo espírita Consciência e

Caridade, pela boa energia e ajuda. Obrigada ao pessoal do NILC, pela companhia divertida.

Obrigada. Tominy. pelo amor. dedicação e ouvido amigo. Obrigada também, amado, pela ajuda

com as ilustrações e com o design do protótipo.

Obrigada a Akwan Information Technologies, pelos logs da máquina de busca TodoBr de

novembro de 1999 e julho de 2002. Obrigada aos alunos e professores do ICMC que

participaram do estudo apresentado em Aires & Aluísio (2003).

Obrigada. Aline, pelas conversas para portar os marcadores do Biber e pela ajuda para

criar o corpus de necessidades. Obrigada, também a Crislaine. Vanessa e Lucélia, pela ajuda

com a criação do corpus. Obrigada, Felipe, pela ajuda com o primeiro script de cálculo de

tcuturcs. Obrigada. Luiz. pelos scripts do Leva-e-traz. Obrigada. Leandro, e Gladis, por

aplicarem o questionário do Apêndice B com seus alunos. Obrigada. Marcello, e Nana. por

pedirem a seus colegas que também respondessem ao questionário. Obrigada, ao pessoal do

NILC". Ariani. Lucas. Ricardo e Gawa, e aos amigos que participaram da avaliação final.

Obrigada, Cristina, Nuno Cardoso, Luís Costa. Marcirio, Débora e Susana pelos corpora

personalizados. Obrigada, a todos que dispensaram tempo para tirar minhas dúvidas e conversar

sobre meu projeto.

Meus agradecimentos especiais a FCCN pelo apoio financeiro de setembro de 2001 a

setembro de 2005.

Obrigada a todos!

(8)

ÍNDICE

RESU M O I ABSTRACT II AGRAD ECI M EN T O S Ill

LIST A D E ABREV I AT URAS VII

LIST A D E FI GURAS VIII LIST A D E Q UAD RO S IX LIST A D E T A BELA S X LIST A D E PU BLI C A Ç Õ ES ORIGINAD AS DA T ESE XI

INTRODUÇÃO 1

Contextualização 1

Motivação e RelevânciazyxwvutsrqponmlkjihgfedcbaZYXWVUTSRQPONMLKJIHGFEDCBA 3

Objetivos 4

Organização da Tese 5

PART E I - REC U PERA Ç Ã O DE INFORM AÇÃO TRAD ICIONAL E COM PLN 7

1. REC U PERA Ç Ã O DE INFORM AÇÃO 8 1.1 Processo de Recuperação de Informação 9

1.1.1 L i n g u a g e m de consulta 12 1.1.2 T é c n i c a s de indexação 15

1.1.3 M o d e l o s de R e c u p e r a ç ã ozyxwvutsrqponmlkjihgfedcbaZYXWVUTSRQPONMLKJIHGFEDCBA 17

1.1.3.1 M o d e l o Booleano 17 1.1.3.2 M o d e l o Vetorial 18

1.1.3.3 M o d e l o Probabilístico 20

1.2 RI: uma história 23

2. AVALIAÇÃO DE SI ST EM AS DE RI 29

2.1 Abordagens para a avaliação 29

2.2 Relevância 30

2.3 Revoeação, precisão e outras medidas de eficácia 32

2.3.1 M e d i d a s influenciadas por características da Web 35

2.4 O conjunto de teste 37

3. RI E PRO C ESSAM EN T O DE LINGUAGEM N AT URAL 40

3.1 índices 41

3.2 Interpretação das Consultas e Retroalimentação 44

3.3. Comparação entre documento e consulta 48

3.3.1 S e g m e n t a ç ã o de textos 48 3.3.2 Características estilísticas de um texto 49

3.4 Apresentação dos resultados e Diálogo 50

3.5 Considerações sobre RI e PLN 51

PART E II - D IST IN ÇÕES M AIS SUT IS: PARA ALÉM DO CON T EÚD O 55 4. O PRO BLEM A DO EX C ESSO DE RESULT AD O S I RRELEV A N T ES 56

5. EST I LO 62

5.1 Estilometria 63

5.1.1 A p l i c a ç õ e s da estilometria h3 5.1.2 .Marcadores de estilo 67 5.1.3 A escolha de m a r c a d o r e s de estilo 68

(9)

5.2.1 O trabalho do KesslerzyxwvutsrqponmlkjihgfedcbaXWVUTSRQPONMLIHGFEDCBA et al (1997)zyxwvutsrqponmlkjihgfedcbaZYXWVUTSRQPONMLKJIHGFEDCBA 73

5.2.3 O trabalho de k a r l g r e n (2000) 75

5.2.4 O trabalho de S t a m a t a t o s et al (2000a) 77

5.2.5 O trabalho de S t a m a t a t o s et al (2000b) para grego 77

5.2.6 O trabalho de l)e\\dne> et aí (2001) 78

5.2.7 O trabalho de Finn et al (2002) 79

5.3 Considerações sobre a classificação em géneros na busca diária de informação 81 6. CLASSI FI CAÇÃO AUTOM ÁTICA DE RESULT AD O S SEGUN D O A IN T EN ÇÃO D E

BU SC A 83 6.1 Modos de classificação explorados neste trabalho 83

6.1.1 G é n e r o s 84

6.1.2 T i p o s Textuais 85

6.1.3 N e c e s s i d a d e s de busca 86

6.1.4 N e c e s s i d a d e s de busca personalizadas 9o

6.2 Algoritmos 92

6.3 Marcadores estilísticos 94

6.4 Leva-e-traz 99

PA RT E III - AVALIAÇÃO 101 7. UT ILID AD E T EÓ RICA DA ABO RD AGEM SEGUN D O O S USUÁRI O S 102

8. T AXA DE ACERT O, PRECI SÃO E REVOCAÇÃO D OS C LA SSI FI C A D O RES 108

8.1 Géneros 108

8.2 Tipos Textuais 110

8.3 Necessidades de busca 112

8.4 Necessidades personalizadas 118

8.5 Considerações sobre os resultados 119 9. RESU LT AD O S COM A BU SCA PERSO N ALIZAD A 120

9.1 Os corpora 121

9.2 Resultados 122

10. EST IM AT IVA DO ESFO RÇ O DE BUSCA DOS USUÁRI O S 125

10.1 Estrutura da avaliação 126

10.2 Resultados 129

10.3 Considerações sobre os resultados 131

11. CO N CLUSÃO 133

11.1 Contribuições 134

11.2 Limitações '36

11.3 Trabalhos futuros 137

11.3.1 Relação entre t a m a n h o do texto e taxa de acerto 137

11.3.2 M a r c a d o r e s estilísticos e algoritmos para classificação 1 38

11.3.3 C o r p u s padrão para testes

11.3.4 IMi de m a r c a d o r e s estilísticos para a classificação em necessidades de textos cm outras línguas 140

11.3.5 T r e i n a m e n t o incremental '-M

11.4 Considerações finais 1-10

BI BLI O GRAFI A E REFERÊN C I A S 142

GLO SSÁ RI O 162 APÊN D I CE A - APRESEN T AÇÃO DO LEVA- E- TRAZ 168

APÊN D I CE B - QUEST ION ÁRIO INICIAL 174 APÊN D I CE C - Q UEST IO N ÁRIO FINAL 179

(10)

Lista de Abreviaturas

ACM Associcition for Computing Machinoy

BNC British National Corpus

FCCN Fundação para Computação Científica Nacional

IRC Internet Rclay Chat

LMT Logistic Modcl Tree

M E D L A R S Medicai Literatura Analysis and Ratriaval Svstani

NILC Núcleo Interinstitucional de Linguística Computacional

PLN Processamento de Linguagem Natural

Propor Processamento Computacional do Português Escrito e Falado

RI Recuperação de informação

SIG1R Spacial In taras t Group on Information Ratriaval

S M O Sequential minimal optimisation

SOM Selj-organizing map

S T A S E L Stylistic Treatment at the sentence levei

SVM Support Vector Machine

T R E C Te.xt Retrieral Conference

(11)

Lista de Figuras

FyxwvutsrqponmljigfedcbaZYXWVUTSRQPONMLKJIHGFEDCBAI CA RA 1 - PRO C ESSO I Í PI CO DI R I ( B i 11 w . 2 0 0 0 )

FlGl RA2-I.FI DF ZlPí• (FlGFRA A D A PT A D A D F VA N RlJSBFRGFN'. 1979.zyxwvutsrqponmlkjihgfedcbaZYXWVUTSRQPONMLKJIHGFEDCBA P. 16. FIGURA 2.1 ) 10

I IG1 R A 3 - 1 . X E M P L O DF A R Q l IVO Ol i \ | ) | c í l \ \ l K i l D o 16

I ;< R A 4 - EX EM P L O DH ARÇH I V O S D F ASSI N A T I RA 1 6

I ICÍL R A 5 - I X FM PI O D F A RV O RF D F M FI XO S 17 F IOL RA 6 - SI M 1 1 . A RI D A D E D F DOC I M EN T O S \ O M O D EL O Y FT O RI A L 19

FI G L R A 7 TEL A PRI N C I PA L DO LEV A - F- I RA / 1 6 9

FI G I RA 8 - ESC O L H EN D O A O PÇÃ O N EC ESSI D A D ES 1 ^ 9

H O ; R A 9 ESC O L H EN D O A O PÇ Ã O N EC ESSI D A D ES PERSO N A I I / A D A S 17_O

FI G L R A 1 0 - ESC O L H EN D O A O PÇ Ã O G ÉN ERO L"7_'»

FI G I RA 11 ESC O L H EN D O A O PÇ Ã O TIPOS T EXT UA I S Í~L

FI G L R A 1 2 - JA N E L A SO BRE OLEY A - E- T RA Z 1 7 1

FLGT RA 1 3 .1 A N I LA D F A JI D A SO BRF A B L SC A CO M RESU L T A D O S C L A SSI FI C A D O S POR N EC ESSI D A D ES 1 7 2

1 IGI RA 14 J A N EL A D E A JI DA SO BRE N EC ESSI D A D ES PERSO N A L I Z A D A S 1 ~ 2

I ; Í, I RA 15 JA N EL A D E A JU D A SO BRE G ÉN ERO S 17₃

I • ,'.,! RA 1 6 J A N EL A D E A JI D A SO BRE T I PO S T EX T U A I S 1 7 3

(12)

Lista de Quadros

QL A D RO 1 I'L N PA RA M EU N O RI A DO I N D L X A D O R 4 4

QU A D R O 2 P L N PA RA A IN I ER PR E FA ÇÃ O D A S C O N SU L T A S 4 8

Q U A D R O 3 - P L N PARA A CORRESPONDÊNCIA E ESCOLHA 4 9

QU A D R O 4 - TÉC N I C A S, REC U RSO S E PESQ U I SA S Q U E PO D EM M EL H O RA R A Q U A L I D A D E D OS SI ST EM A S D E R I 5 2 QU A D R O 5 - MA R C A D O R ES D L EST I L O PA RA I D EN T I FI CA ÇÃ O DL: A UT O RI A Q U E PO D EM SER A PL I C A D O S PA RA A T A REFA

D L ESC RI T A C O L A BO RA T I V A ( G L O V ER & U L RSI , 1 9 9 6 ) 6 6 Q I A D RO 6 - 6 7 MA R C A D O R ES D E EST I L O L EV A N T A D O S POR BI B ER PA RA O I N GL ÊS (BI B E R . 1 9 9 5 . P. 9 5 - 9 6 ) 7 1

Q I A D RO 7 MA R C A D O R ES DE: ESI I LO U T I L I Z A D O S POR KA R I G R E N ( 2 0 0 0 . CA PÍ T U L O 7 . P. 6 5 ) EM SEU S

EX PERI M EN T O S CO M O BR O W NzyxwvutsrqponmlkjihgfedcbaZYXWVUTSRQPONMLKJIHGFEDCBA Í OURES 7 5

Q I A D R O 8 11 ( LI NÍ RO SC O N SI D ERA D O S POR KA R L G R EN ( 2 0 0 0 .CA PÍ T U L O 1 5 . P. 1 1 6 ) 7 6 Q I A D RO 9 - A S 5 0 PA L A V RA S M A I S I - REQ UEN T ES DO B N C C L WÍ. . S' ( ST A M A T A T O S / :/ I/ .. 2 0 0 0A . P. 8 1 0 ) 7 7

Q l A D R O 1 0 2 2 1 E A I U R E S U I I U I Z A D A S NOS E X P E R I M E N T O S PAR A C L A S S I F I C A Ç Ã O DE TEXTOS LM G É N E R O S DE

S I A M A TA T OS HTM. ( 2 0 0 0 B) 7 8

Q L A D RO 1 1 - TA X O N O M I A D E G ÉN ERO S DO L. A CI O- REF 8 5

QL A D RO 12 TI PO S T EXT U A I S DO LA C I O -RL I 8 6

Q l A D R O 1 3 4 6 M A R C A D O R E S ESI IL1SITCOS U TILIZADOS C O M O HHATHKHS NOS P R I M E I R O S E X P E R I M E N T O S DE

C L A SSI FI C A Ç Ã O ( A I R ES ELM. 2 0 0 4 . A, 2 0 0 4 B) 9 4

Q l A D R O 1 4 6 2 M A R C A D O R E S S E L E C I O N ADOS A PAR TIR DA AN ALISE DAS PALAV R AS M AIS E R F O l EN I ES IX) C O H H L S

DL N E C E S S I D A D E S 9 6

Q I A D RO 1 5 - 1 5 MA R C A D O R ES EST I L Í ST I C O S SI N T A T I CO S 9 7

QL A D RO 1 6 - 2 7 M A RC A D O RES EST I L Í ST I C O S BA SEA D O S EM C A RA C T ERÍ ST I C A DA A PA RÊN C I A GRÁFICA D E

DOCT M EN T O S 9 7

Q I A D RO 17 LI SI A D L PRO BL EM AS EN CO N T RA D O S D U RA N I L BU SC A NA WE B C I T A D O S PEL O S EST U D A N I ES 1 0 3

QL A D RO 18 - SI ST EM A S PERSO N A L I Z A D O S M EN CI O N A D O S C O M O D E I N T ERESSE 1 0 4 Q I A D RO 19 EX EM PL O S D E PRO BL EM A S FO RN ECI D O S A OS U SU Á RI O S Q U E C RI A RA M OS C O RPO RA 1 2 1

Q I A D RO 2 0 DESC RI Ç Ã O D A S SET E N EC ESSI D A D ES PERSO N A L I Z A D A S T RA T A D A S 1 2 1

QU A D R O 2 1 - TO PI C O S D E B I SCA U T I L I Z A D O S NA A V A L I A Ç Ã O 1 2 7

(13)

Lista de Tabelas

T A B E I A 1- FX EM PI . O S I): T ÉCN I CA S DA R I A D O T A D A S POR FERRA M EN T A S DI BU SC A 2 6 T A B E L A 2 - PO N T U A Ç Ã O FM JU L G A M EN T O D E REL EV Â N C I A , PRO PO ST A POR GV V I Z D K A & C H I G N EL L ( Í O W T 3 7

T A R EI A 3 D I M EN SÕ ES I:zyxwvutsrqponmlkjihgfedcbaZYXWVUTSRQPONMLKJIHGFEDCBA SI I S M A RC A D O RES EST I L Í ST I CO S ( B I B ER . 1 9 9 3 . P. 2 3 1 - 2 3 2 ) 7 »

1 A BEL A 4 - T A X A S D E A C ERT O A PRESEN T A D A S POR A R G A M O N / ./ I/ ( 1 9 9 8 ) " 4 T A BEL A 5 - T A X A D E A C ER I O PA RAzyxwvutsrqponmlkjihgfedcbaZYXWVUTSRQPONMLKJIHGFEDCBA OS D OIS PRO BL EM A S I RA T A D O S POR FI N N / ./ .1/ ( 2 0 0 2 ) 8 0

I A BEL A 6 - N U M ER O D E T EX T O S POR G EN ERO DO L A C I O - REE 8 3 T A BEL A 7 N U M ER O D E PA L A V RA S POR N EC ESSI D A D E DA PRI M EI RA V ERSÃ O DOzyxwvutsrqponmlkjihgfedcbaZYXWVUTSRQPONMLKJIHGFEDCBA COM S D E N EC ESSI D \ D FS 8 9

I A BEL A 8 - N U M ER O D E T EX T O S E PA L A V RA S N A V ERSÃ O FI N A L DO COURCS D E N EC ESSI D A D ES 9 0 T A REI A 9 PERI T L. D OS EST U D A N T ES Q U E RESPO N D ERA M AO Q U EST I O N Á RI O SO BRE C O M PREEN SÃ O D OS ESQ U EM \ 1 0 3

I A BEL A 10 - N Ú M ER O DF. ES TL D A N T ES Q U E N Ã O C O N SI D ERA M A L GU M DOS ESQ U EM A S L. T H 1 0 6 T A BEL A 1 1 - N I ' A H RO D E EST U D A N T ES QUE: JU I G A R A M O ESQ U EM A C O M O M AIS FA C I I 1 0 6

1 ABI I A 12 RL.Sl I I ADI IS D A ( I.. \SSII• IC AÇÃO EM GÉNEROS 11 >9 T A B EL A 13 - R ESL ET A D OS DA C L A SSI FI C A Ç Ã O FM T I PO S T EX T U A I S 1 1 I

T A B E L A 14 RESU L T A D O S D A C I A SSI I I CA ÇÃ O EM N EC ESSI D A D ES U T I L I Z A N D O O O W / V A DE 5 1 1 U - X I O S 1 1 2

T A BEI A 1 5 - FA X A DE: A C ERT O D \ C L A SSI FI C A Ç Ã O POR N EC ESSI D A D ES 1 1 4 1 A BEL A 1 6 PREC I SÃ O D A C L A SSI H I A ÇÃ O POR N EC ESSI D A D ES 1 1 5 T A BEL A 17 - REV O G A Ç Ã O DA C L A SSI FI C A Ç Ã O POR N EC ESSI D A D ES 1 1 6

I \ BE: I A 18 RESU L T A D O S DA C EA SSI I I CA ÇÃ O EM N EC ESSI D A D ES, UT T EI ZA N D O- SI : M \ RC A D O RES D E A P \ RÍ NC I A

( Í RA EI C A 1 1 7 T A BEL A 19 - RESU L T A D O S D A C L A SSI FI C A Ç Ã O EM N EC ESSI D A D ES, U T I L I Z A N D O - SE M ARC A D O RES S I N I A I K O S 1 1 7

T A B EL A 2 0 - R ESL L L A D O S PA RA A C L A SSI FI C A Ç Ã O EM N EC ESSI D A D ES PERSO N A L I Z A D A S 1 1 8

T A BEL A 2 1 D ESC RI Ç Ã O D OS COIVOKA C RI A D O S POR U SU Á RI O S 1 2 2

T A BEL A 2 2 - RESU L T A D O S DA C L A SSI FI C A Ç Ã O PERSO N A L I Z A D A C O M COKPCS D E U SI A RI O S 1 2 3

(14)

Lista de Publicações originadas da Tese

Aires. R.; Aluísio, A.; Santos. D. (2005)zyxwvutsrqponmlkjihgfedcbaZYXWVUTSRQPONMLKJIHGFEDCBA User-aware page classification in a search engine.

Proceedings of 2005 SIGIR Workshop on Textual Stylistics in Information Access. SIGIR, agosto de 2005, Salvador - Brasil, 8 p.

Aires. R.; Santos, D.; Aluísio, A. (2005) "Yes, user!": compiling azyxwvutsrqponmlkjihgfedcbaXWVUTSRQPONMLIHGFEDCBA corpus according to what the user wants. Corpus Linguistics 2005, julho de 2005. Birmingham - Inglaterra, 14 p.

Disponível em www.corpus.bham.ac.uk/PCLC .

Aires, R.; Aluísio, S. (2005) "As avaliações atuais de sistemas de busca na Web e a

importância do usuário". A ser publicado cm Diana Santos (ed.).zyxwvutsrqponmlkjihgfedcbaZYXWVUTSRQPONMLKJIHGFEDCBA Avaliação conjunta: um novo paradigma no processamento computacional da língua portuguesa. 2005.

Santos. D.; Simões, A.; Frankenberg-Garcia, A.; Pinto, A.: Barreiro, A.; Maia. B.; Mota, C.; Oliveira, D.; Bick, E.; Ranchhod, E.: Dias de Almeida. J. J.: Cabral, L.; Costa, L.; Sarmento, L.; Chaves, M.; Cardoso, N.; Rocha. P.; Aires. R.; Silva. R.; Vilela, R.; Afonso. S. (2004)

Linguateca: LIm centro de recursos distribuído para o processamento computacional da língua portuguesa. Proceedings of the international workshop "Taller de Herramientas y Recursos Linguísticos para el Espanõl v el Português", p. 147-154. IX Iberoamerican Conferenee on Artificial Intelligence (IBERAMIA). novembro de 2004. Puebla - México.

Aires. R.; Manfrin. A.; Aluísio, S.: Santos, D. (2004) Which classification algorithm works best with stylistic features of Portuguese in order to classify Web texts according to users' needs? Relatório técnico n° 241. outubro de 2004, ICMC/USP.

Aires. R.; Manfrin, A.; Aluísio, S.: Santos. D. (2004) What is my Style? Using Stylistic Features of Portuguese Web Texts to classify Web pages according to Users'Needs. In LREC 2004. p. 1943-1946, maio de 2004. Lisboa - Portugal.

Aires. R.; Aluísio, S.; Quaresma. P.: Santos, D.; Silva. M. (2003). An initial proposal for cooperative evaluation on information retrieval in Portuguese. In P R O P O R 2003 - 6th Workshop on Computational Processing of the Portuguese Language. p. 227-234. junho de 2003, Faro - Portugal, (e) Springer-Verlag.

Aires. R.; Aluísio. S. (2003). Como incrementar a qualidade dos resultados das máquinas de busca: da análise de logs à interação em português. Revista Ciência da Informação, vol 32, n.

1. p. 5-16, janeiro/abril de 2003.

Aires. R.: Santos, D. (2002). Measuring the Web in Portuguese. In EuroWeb 2002 conferenee. p. 198-199, dezembro de 2002. Oxford - UK.

(15)

Introdução

"A weekdav edition ot The Acir York Times eonlains more information than tlie averciçe per.son was

likelv lo come aeross in a Hfetime in I Jili-eenturv England.zyxwvutsrqponmlkjihgfedcbaZYXWVUTSRQPONMLKJIHGFEDCBA " Wurnuin (I9X1₎₎

Contextualização

Nos últimos anos. houve um crescimento explosivo do volume de informação. Livros,

filmes, notícias, anúncios, música e, em particular, informações on-line surgem a todo

o momento. Um estudo realizado na Universidade da Califórnia, em Berkeley. em

2000 (Lyman & Varian. 2000), sobre o volume de informação produzido anualmente

no mundo, em diferentes mídias, estima que a produção mundial anual de conteúdo

impresso, em filmes, óptico e magnético requereria cerca de 1,5 bilhão de gigabytes

para ser armazenada. 1.5 bilhão que seria o equivalente a 250 megabytes por pessoa,

isto é. para cada homem, mulher e criança na Terra. Para o ano de 2002. os mesmos

autores acima, em um novo estudo (Lyman & Varian, 2003). estimam que tenham

sido produzidos 5 exabvtes de informação1_{. Especificamente sobre informações na}

Internet, o relatório da Universidade da Califórnia estima ser de aproximadamente 2.5

bilhões de documentos na Web, com uma taxa de crescimento de 7.3 milhões de

páginas por dia. o que equiv ale a um valor entre 25 e 50 terabytes de informação, dos

quais de 10 a 20 terabvtes seriam informação textual. Considerando todo o tipo de

informações disponíveis, incluindo a chamada Web escondida (cleep Web), são 550

bilhões de documentos interligados através da Web. sendo 95°o desta informação

publicamente acessível. O estudo traz ainda uma estimativa do volume de informação

que circula por c-mail. listas cie e-mail. usenet, ftp. IRC (Internet Relay Chat),

serviços de mensagem e telnet. Apesar das dificuldades de estimar o fluxo de

informação entre esses meios e os próprios autores terem dito que não estão

considerando todos os dados, o volume impressiona - são 748.412 terabytes de

informação, somando e-mails. listas de e-maih. usenet e ftp. Já em 2003. o tamanho

' exabvtes seriam o equivalente a 37 mil bibliotecas com cerca de 17 milhões de livros cada (l y m a n ác Varian. 2003).

(16)

da Web foi estimado em 167 terabytes e da Web eseondida estaria entre 66.800 e

91.850 terabytes (Lyman & Varian, 2003).

Um ponto interessante de se ressaltar sobre a Internet é o fato de ela ser uma

mídia que permite que a mesma informação seja utilizada por várias pessoas, como

acontece com o rádio e a TV, ao contrário de outras mídias como livros e jornais em

que cada exemplar, em geral, é lido apenas por uma ou duas pessoas (Lyman &

Varian, 2000). A Internet mostra sua importância como mídia principalmente por uma

característica atualmente crítica em nossa sociedade: a velocidade de mudança. A

todo tempo acontecem inovações científicas, tecnológicas, culturais e sociais.

Pesquisadores, educadores e pessoas de negócios frequentemente se sentem

ultrapassados quanto a algumas mudanças no domínio em que trabalham. Mesmo

enquanto pessoas comuns (não como profissionais), constantemente precisamos

atualizar nosso conhecimento para nos adaptarmos às mudanças. Ou seja, estamos

rodeados de informação e ao mesmo tempo sentindo que precisamos de mais. Por ser

uma mídia atualizada a cada segundo por diversas pessoas, a Internet nos propicia

sempre informações novas e atualizadas.

Tanta informação eletrônica nos traz também problemas. Há 20 anos. as

pessoas contav am com processos relativamente simples de filtragem feita por editores

de jornais, que selecionavam os artigos que seus leitores poderiam gostar de ler, e

pelas livrarias, que decidiam que livros expor, por exemplo. Hoje. este tipo de barreira

para informações inúteis ainda existe, mas não é mais tão eficiente. Atualmente. as

pessoas lidam com essa overdose de informação com esforço próprio, dicas de amigos

e colegas de trabalho e um pouco de sorte. Desperdiçamos um grande número de

horas procurando informações que não sabemos onde estão armazenadas, tentando

nos atualizar e lendo informações que nunca serão utilizadas por nós. Todo esse

esforço para gereneiar a informação acaba gerando custos extras para as organizações,

tanto com armazenamento de informação como com pessoal. Além de gastos extras,

uma consequência de lidar com um grande volume de informação são problemas para

nossa saúde. Segundo psicólogos, lidar com tanta informação causa problemas

psicológicos, tísicos e sociais. O psicólogo David Lewis (1996) chegou a propor o

(17)

excesso de informação, que incluem: ansiedade, capacidade pobre de decisão,

dificuldades em memorizar e lembrar e atenção reduzida.

Tantos problemas geraram um interesse maior pelo processo de gerenciar

informação/conhecimento (zyxwvutsrqponmlkjihgfedcbaZYXWVUTSRQPONMLKJIHGFEDCBAinformation managcmcnt/knowlcdgc mcinagcmcnt).

Gerenciar informação/conhecimento inclui: utilizar, buscar, armazenar, revisar, criar

novo conhecimento ou atualizá-lo e ainda julgar, utilizar conhecimento externo e

descartar conhecimento de pouca qualidade ou desatualizado. Apesar da gerência de

informação conhecimento ser objeto de estudo principalmente da área de

administração e negócios, além de utilizar várias ferramentas de apoio da

computação, ela está de alguma forma relacionada a áreas como descoberta de

conhecimento (knowlcdgc discovcry). mineração de dados (data mining). mineração

de textos (text mining). recuperação de informação (information rctricval) (RI),

acesso à informação (information acccss), extração de informação (i n f o r m a t i o n

extraction). resposta automática a perguntas (quc.stion-answcring) e filtragem de

informação (information filtering). O enfoque maior dessas áreas tem sido em

métodos, modelos e técnicas para auxiliar a lidar com informação textual,

principalmente a que está disponível na Web, devido ao grande volume de recursos e

conhecimento e seu maior alcance. Contudo, a pesquisa sobre técnicas para lidar com

a sobrecarga de informação na Internet de forma a extrair o máximo de benefícios de

seu conteúdo ainda está em seu início. Muito foi feito com relação a mecanismos de

indexação, recuperação e nav egação, mas de acordo com nossa revisão bibliográfica

pouco foi feito para garantir a qualidade da informação retornada.

Motivação e Relevância

Encontrar informação nesta nova mídia ou repositório de informação de tamanho

imenso e pouca organização que é a Internet é uma tarefa difícil, cuja importância tem

aumentado consideravelmente, de forma a poder ser considerada crítica. Desenvolver

ou utilizar técnicas, métodos, e modelos de Recuperação dc Informação que garantam

maior qualidade da informação retornada é uma tarefa essencial para ajudar qualquer

usuário a lidar com a sobrecarga de informação, seja ele pesquisador ou alguém

procurando entretenimento. O conteúdo disponível na Internet aumenta

constantemente e as pessoas que incluem novos dados, em sua maioria, não sabem

(18)

como funcionam os sistemas para recuperação de informações. Com o aumento do

conteúdo, vem também o aumento das fontes, que além de trazerem novos tipos de

informação, têm causado o aumento do número de informações em outros idiomas

que não o Inglês. Assim como nos primeiros anos da Internet, o inglês ainda é o

idioma predominante, mas não tanto como no princípio. Atualmente, o número dos

usuários da Internet que são falantes nativos do inglês já se restringe a 50% (Lyman &

Varian. 2000). Em novembro de 2002, Aires & Santos (2002) estimaram o tamanho

da Web em português em 20.807.956 páginas no Alltheweb. 7.152.022 páginas no

Altavista e 4.260.000 páginas no Google. Em junho de 2005, o mesmo experimento

foi replicado e encontramos um número de páginas bem superior ao encontrado em

2002, que foram, respectivamente. 149.000.000, 167.000.000 e 19.100.000 páginas.

De acordo com nossa pesquisa bibliográfica são diversos profissionais

trabalhando na Recuperação de Informação no Brasil e em Portugal sob diferentes

perspectivas como, por exemplo, psicólogos, bibliotecários, pesquisadores da área de

interação usuário-computador, pesquisadores de redes e pesquisadores de recuperação

de informação. Entretanto, ainda há muito que ser feito para garantir a não exclusão

de falantes do português da Sociedade da Informação. Essa é uma das razões da

necessidade de estudar a interação em português, desenvolver sistemas inteligentes

que processem texto na rede em português e ajudem a encontrar informação em

português, e avaliar o que existe para português e como melhorar seus padrões de

qualidade.

Objetivos

O objetivo inicial desta tese era investigar a utilização do Processamento de

Linguagem Natural (PLN) na RI na Wr_{eb em português. Por um lado. aplicar técnicas}

de PLN do português à RI, por outro, lançar alguma luz sobre as características, que

supomos ser diferentes, da Web brasileira e dos usuários brasileiros e'ou em

português.

Esta é a primeira tese que parte dos problemas concretos dos usuários em

português em vez de simplesmente aplicar técnicas já desenvolvidas para o inglês ou

(19)

Após alguns estudos preliminares de como obter os objetivos de consultas

(Aires & Aluísio, 2003). de ter uma noçào estatística das consultas reais (AireszyxwvutsrqponmlkjihgfedcbaZYXWVUTSRQPONMLKJIHGFEDCBA et ah

2004b) e de ter definido o problema de uma forma global (Aires et ai. 2003),

escolhemos nos dedicar á melhoria da parte da RI mais diretamente relacionada com

os usuários: a apresentação dos resultados. Decidimos implementar um

meta-buscador. e estudar a categorização das respostas em esquemas de classificação que

fossem compreensíveis e úteis aos usuários. Assim, o objetivo principal desta tese é

estudar, para o português, que categorizações dos textos e páginas da Web permitem

uma forma mais fácil de organização dos resultados de uma busca, e como obter

automaticamente essa categorização.

Para esse objetivo. investigou-se o uso de características estilísticas e de um

corpus de páginas Web classificadas segundo as necessidades que satisfazem.

Além disso, foram realizados alguns dos primeiros experimentos com

usabilidade associados à busca na Web em português, estudos esses que esperamos

ser motivadores e um bom ponto de partida para outros pesquisadores, assim como

toda a abordagem e preocupação com a avaliação que tivemos.

Organização da Tese

Esta tese está div idida em três partes com onze capítulos no total. A primeira parte

trata do processo de recuperação de informação textual e apresenta uma breve historia

sobre a evolução da recuperação de informação nos últimos 50 anos (Capítulo 1);

descreve as principais formas de avaliação de sistemas de RI encontradas na literatura

(Capítulo 2) e discute como os sistemas de recuperação de informação fazem e

poderiam fazer uso de recursos e técnicas de PLN na tentativa de aumentar sua

precisão e revoeação (Capítulo 3). A segunda parte detalha a hipótese deste trabalho

(Capitulo 4); define estilo e marcadores estilísticos e exemplifica o uso dos m e s m o s

para solucionar diferentes problemas (Capítulo 5); define os esquemas de

classificação escolhidos, os corpora, algoritmos e conjuntos de marcadores estilísticos

utilizados e o protótipo de um meta-buscador desenv olvido (Leva-e-traz) (Capitulo 6).

A última parte mostra quatro avaliações com objetivos diferentes: verificar que

esquemas de classificação interessam aos usuários (Capítulo 7); avaliar os

(20)

classificadores desenvolvidos sob o ponto de vista do sistema de busca (Capítulo 8);

avaliar com usuários se a proposta de uso de necessidades personalizadas é bem

interpretada e como os marcadores estilísticos funcionam para problemas reais

(Capítulo 9) e verificar com uma avaliação do protótipo Leva-e-traz sob o ponto de

vista do usuário se a classificação em necessidades auxilia o usuário a determinar

(21)

I

(22)

1. Recuperação de Informação

"ThezyxwvutsrqponmlkjihgfedcbaZYXWVUTSRQPONMLKJIHGFEDCBA u (iv ire see the prohlem is the problem. " Stephen R. Covev

Recuperação de Informação (RI) (information Rctricval) é a tarefa de encontrar itens

de informação relevantes para uma determinada necessidade de informação expressa

pela requisição de um usuário (consulta) e disponibilizá-los dc uma forma adequada a

essa necessidade. Por itens de informação entende-se informação em diferentes

mídias, tais como: textos, imagens (fotografias e mapas), vídeos. De acordo com a

mídia tratada, podemos classificar a RI como:

• RI textual ou RI documental (Text Information Retrieval/Documcnt Information

Rctricval);

• RI Visual que inclui RI dc imagem e de vídeos (Visual Information Rctricval)

(Ardizzone & La Casia, 1997);

• RI de áudio (Audio Information Rctricval) (Uitdenbogerd, 2000);

• RI multimídia (Multimedia Information Rctricval) (Chiaramella et al. 1996).

A RI textual ainda pode ser classificada como RI monolíngiie ou RI entre

línguas (cross-language) (Oard. 1997: Peters, 2000). O que distingue um sistema de

RI entre línguas de um monolíngiie é a habilidade do primeiro de recuperar

documentos em uma língua natural diferente da utilizada na consulta. A RI entre

línguas pode ainda ser classificada como bilíngue ou multilingue.

A RI textual é o tipo de RI discutido neste capítulo. Apresentamos em detalhes

o processo de recuperar informação na Seção 1.1. enfatizando a linguagem de

consulta, a de indexação e modelos de recuperação. Concluímos o capítulo com uma

breve discussão sobre a evolução das técnicas dc RI desde a década de 40 até os dias

(23)

1.1 Processo de Recuperação de Informação

Dado um sistema de Recuperação de Informação como o da Figura l, o processo de

recuperar informação se dará em quatro etapas, responsáveis por: i) representar cada

documento em uma forma que possa ser "compreendida" pelo computador, ii)

interpretar as consultas fornecidas, iii) comparar as consultas interpretadas com o

conjunto de documentos indexados, e iv) apresentar os resultados de forma adequada

á necessidade do usuário.

Figura 1 - Processo típico de RI (Belew, 2000)

A criação de representações para os documentos pode ser feita de forma

manual ou automática. Para encontrar a forma de representação adequada pode ser

analisado todo o conteúdo do documento, apenas o resumo, alguns trechos ou até

m e s m o apenas uma lista de palav ras. O resultado será uma lista de nomes, sendo que

cada nome representa uma ciasse de palavras que aparece no texto de entrada. Um

documento será indexado por uma classe se uma de suas palavras significantes for

m e m b r o dessa classe.

L u h t r (1958) propõe que a frequência seja utilizada para extrair palavras e

sentenças representativ as de um documento. Dada uma frequência f de ocorrência e a

ordem rzyxwvutsrqponmlkjihgfedcbaZYXWVUTSRQPONMLKJIHGFEDCBA {runk) dessa frequência de ocorrência, então um gráfico relacionando f a r

seria uma curva similar à mostrada na Figura 2. que diz que o produto da frequência

:_{Hans Peter I.uhn é c o n s i d e r a d o um dos precursores na Ciência da I n f o r m a ç ã o e da RI.}

http: w w w . p e r s o n a l . k e n t . e d u - t f r o e h l i sichfis/luhn.htm

(24)

dc uso dc uma palavra e sua ordem dc importância c aproximadamente constante.

Luhn utiliza esta lei, a lei de Zipf (1949), como uma hipótese nula para estipular dois

pontos de corte, um interior e um superior. As palavras que excedem o limiar superior

são consideradas comuns e as abaixo do limiar inferior são consideradas muito raras.

1 2 0 0 :

10 0 0zxvutsrponmljigfedcbaZXWVUTSRQPONMLKJIGFEDCBA Lim iar j Sup erior I

8 0 0 | í

,- . . . . 600 !

Fr eq u en ci a

d as p al avr as 4q o \ J

2 0 0_{j Lim iar Inferior}

— ^ r i ^ o n c o o c v j m a } _{-- — cg c\j cg}

Pal avr as por su a or dem d e im port ância

F i g u r a 2 - Lei de Z i p f ( F i g u r a a d a p t a d a de van R i j s b e r g e n , 1979, p.16. F i g u r a 2.1)

A remoção das palavras de alta frequênciazyxwvutsrqponmlkjihgfedcbaZYXWVUTSRQPONMLKJIHGFEDCBA (stopwordsY é uma forma de

implementar o limiar superior - isso pode ser feito comparando a entrada com uma

lista de stopwords. Um passo complementar seria remover sufixos (suffix stripping).

assim muitas palavras equivalentes seriam mapeadas cm uma única forma. Outro

passo seria checar os radicais, supondo que se duas palavras possuem o mesmo

radical (stem). essas então se referem ao mesmo conceito c devem ser indexadas

juntas. A saída final será um conjunto de classes, uma para cada radical detectado. O

nome de uma classe é associado a um documento apenas se um de seus membros

ocorre como uma palavra significante no documento. A representação de um

documento será então uma lista de nomes de classes, também chamada de índice de

um documento ou palavras-ehave (kcywords). Caso a indexação seja realizada de

forma probabilística, o resultado será um índice com pesos, assumindo-se assim que

um documento pode ser sobre uma determinada palavra dado um determinado grau de

probabilidade. A Seção 1.1.2 descreve as principais técnicas para construção de

arquivos de indexação.

(25)

Para aumentar a chanee de se obter documentos relevantes, pode-se ainda

contar com a ajuda de um tesauro (Jing & Croft. 1994). o que pode ser feito

substituindo-se cada palavra-chave de um documento por cada uma das equivalentes.

Para estruturar a informação, os documentos podem ser agrupados de alguma

tonna que torne o processo de recuperação mais rápido. Isto pode ser feito através da

elusterização (zyxwvutsrqponmlkjihgfedcbaZYXWVUTSRQPONMLKJIHGFEDCBAclustcring) de palavras-chave ou da elusterização de documentos

(Martin. 1995).

AszyxwvutsrqponmlkjihgfedcbaZYXWVUTSRQPONMLKJIHGFEDCBA consultas fornecidas como entrada serão interpretadas de formas diferentes

de acordo com o tipo de consulta utilizado. Os tipos de consulta são apresentados na

Seção 1.1.1. Para gerar uma consulta que possa ser analisada, o sistema pode utilizar

também as técnicas de remoção de sufixos e checagem de radical, de tesauro e da

associação de pesos aos termos da consulta — as mesmas estratégias citadas

anteriormente para a geração de índices. Um tesauro pode ser utilizado: i) para

substituir as palavras-chave de uma consulta quando a consulta original não retomou

resultados ou retomou poucos, e ii) na expansão da consulta que pode ser feita para se

obter um número maior de resultados ou resultados mais precisos. A expansão de uma

consulta pode ser feita gerando uma ou mais consultas através do uso de palavras

sinónimas ou de palavras que têm alguma relação relevante com as que faziam p a n e

da consulta original.

A busca em si dos documentos relevantes para uma consulta é feita

comparando-se cada consulta aos documentos armazenados ou aos profilcs contendo

clusters de documentos. Para tanto, um sistema adotará um Modelo de Recuperação

ou adotará características de um ou mais modelos de recuperação. Um modelo de

recuperação especifica quais são as representações utilizadas para documentos e

consultas, e como esses são comparados (Turtle & Croft, 1990). Alguns exemplos de

modelos são: Modelo Booleano (Paice, 1984). Modelo de Espaço Yetorial (Salton &

McGill. 1983). Modelo Probabilístico (Maron & Kuhns. 1960). Modelos Booleanos

Estendidos (Extcndcd Boolcan mudeis) (Paice. 1984: Salton et al. 1983). Modelos de

conjunto Fuzzy (F u z z y set models) (Lee, 1995). Modelos Bayesianos (Ribeiro

Muntz. 1996) e Modelos da Língua (Statistieal Language Models Language Models)

(26)

(Ponte & Croft, 1998). Na Seção 1.1.3 explicamos os modelos clássicos de

recuperação, isto é, booleano, vetorial e probabilístico.

AzyxwvutsrqponmlkjihgfedcbaZYXWVUTSRQPONMLKJIHGFEDCBA saída do sistema de RI costuma ser um conjunto de citações de documentos

relevantes para uma dada consulta. As citações podem conter, por exemplo, título,

nome de autores, trechos do texto que contêm os termos da consulta, data em que o

documento foi publicado, há quanto tempo o documento está disponível no sistema,

resumo, localização física ou eletrônica (Web e intranets) do documento. Os

resultados podem ou não estar ordenados segundo a relevância, já que alguns modelos

de recuperação não permitem o cálculo de quão relevante é um documento. Os

resultados podem também ser apresentados em grupos ou até mesmo em formas

gráficas que explicam a relação entre os itens retornados como relevantes, como é o

caso da meta ferramenta de busca Kartoo.4

Os resultados servem ainda como fonte de retroalimentação para o sistema,

no caso de sistemaszyxwvutsrqponmlkjihgfedcbaZYXWVUTSRQPONMLKJIHGFEDCBA on-line em que é possível que o usuário mude sua consulta para

melhorar o resultado da busca que está sendo realizada pelo sistema. Essa

retroalimentação (feedback) pode acontecer atrav és de mudanças feitas pelo próprio

usuário diretamente nas consultas (em sessões de consultas), pelo usuário fornecendo

informações sobre sua satisfação ao sistema de forma explícita, ou automaticamente

pelo sistema. O sistema pode tentar melhorar a qualidade dos resultados analisando os

resultados que foram visualizados pelo usuário e. em seguida, modificar uma consulta

acrescentando termos presentes nos documentos visitados ou gerando novas consultas

com o uso de tesauros e ou ontologias.

1.1.1 Linguagem de consulta

De acordo com Baeza-Yates & Ribeiro-Neto (1999), são três os tipos de consultas que

podem ser formuladas e submetidas a um sistema de RI: palavras-chave (kcvword

based qaery), consultas por padrões (Patteni-matching querics) e consultas estruturais

(structural querics).

(27)

AszyxwvutsrqponmlkjihgfedcbaZYXWVUTSRQPONMLKJIHGFEDCBA consultas através de palavra-ehave são o tipo comumente aceito por

sistemas de RI. Podem ser compostas somente por palavras soltas e. nesse caso, o

resultado retornado pelo sistema é um conjunto de documentos que contêm pelo

menos uma das palavras da consulta, ordenados pela frequência das palavras nos

documentoszyxwvutsrqponmlkjihgfedcbaZYXWVUTSRQPONMLKJIHGFEDCBA (tcrm frequency) ou pela frequência inversa (inverso document

frequency). As consultas por palavras soltas podem ainda ser consideradas dentro de

um contexto, procurando-se uma frase - consulta por frase, ou por palavras que estão

a uma certa distância umas das outras - consulta por proximidade (proximitv qucry).

As consultas por frase são na verdade uma sequência de consultas por uma única

palavra. As consultas por proximidade são uma forma mais flexível de consulta por

frase, neste caso procura-se uma determinada sequência de palavras com uma

distância máxima permitida entre elas. Esta distância pode ser medida em caracteres

ou em palavras. As consultas por palavra-ehave podem também ser compostas por

palavras e operadores booleanos (consultas booleanas) ou podem ser formuladas

como frases de uma língua natural. No caso de consultas booleanas. um documento

satisfaz ou não a consulta; não há como o documento satisfazer parcialmente a

consulta.

Dizer que um sistema aceita consultas em língua natural, na maioria dos casos,

não significa que o sistema utilize sintaxe ou semântica para realmente interpretar o

significado da consulta. Isso em geral significa apenas que o sistema aceita que o

usuário, ao invés de utilizar uma linguagem formal, utilize língua natural. Ou seja, tais

sistemas apenas extraem as palavras-chave de uma consulta para que ela seja

representada para o sistema com várias palavras ou frases. Nesse caso. qualquer

documento que confira com parte da consulta é retomado como resposta, sendo que

uma posição (ranking) melhor é associada aos documentos que conferem com o maior

número de partes da consulta.

As consultas por padrões são utilizadas para permitir a recuperação de

documentos com partes de texto que seguem propriedades pré-espeeifieadas. Um

padrão é um conjunto de propriedades morfológicas que precisa ocorrer em partes do

texto; os tipos de padrão mais utilizados são: palavras, prefixos/ sufixos, subcadeias

(28)

de caracteres, intervaloszyxwvutsrqponmlkjihgfedcbaZYXWVUTSRQPONMLKJIHGFEDCBA (ranges), palavras semelhantes, expressões regulares e

padrões estendidos.

Intervalos (ranges) são utilizados para cobrir quaisquer palavras que estejam

entre um par de cadeias de caracteres seguindo a ordem alfabética, por exemplo, o

intervalo entre as cadeias de caracteres "retornar" e "rotular" recupera cadeias de

caracteres como "retrair", "retribuir", "rigor" e "ritual". Já o padrão de palavras

semelhantes permite encontrar palavras diferentes das fornecidas como entrada,

procurando pequenas diferenças (error threshold) causadas por erros de grafia ou de

digitação. Por exemplo, a palavra "retrair" poderia ser encontrada a partir da entrada

"retra ir".

As expressões regulares são formadas por cadeias de caracteres e operadores

como união, concatenação e repetição. Um exemplo é a consulta "pro (piem | teína) (a

| s | ático) (0 | 1 | 2)*" que poderia encontrar palavras como "problema()2". "proteínas"

e "problemático". Os padrões estendidos são um subconjunto das expressões

regulares com sintaxe mais simples. Podem fazer uso de classes de caracteres,

expressões condicionais e caracteres coringa (wild charaeters). No caso das classes de

caracteres, alguma posição no padrão irá conferir com um caractere de um conjunto

pré-definido, por exemplo, alguns caracteres precisam ser dígitos e não letras. Uma

expressão condicional indica que parte de um padrão pode ou não aparecer. A

combinação permite encontrar qualquer sequência que confira, por exemplo, com

palavras que começam com " f o " e terminam com "ar".

AszyxwvutsrqponmlkjihgfedcbaZYXWVUTSRQPONMLKJIHGFEDCBA consultas estruturais permitem que o usuário, além de utilizar

características de conteúdo como fazia nas consultas por palavra-chave e por padrão,

possa também utilizar características da estrutura do texto. As características a serem

exploradas mudam de acordo com o tipo de estrutura seguida pelos textos: fixa.

hipertexto ou hierárquica. Por exemplo, no caso de nossa caixa de entrada em um

sistema de correio eletrônico. que é composta por c-mails, cada um com os campos:

remetente, data, assunto e corpo de texto, é possível procurar e-mails enviados por

(29)

1.1.2 Técnicas de indexação

São três as principais técnicas para construção dc arquivos dc indexação (Bae/a-Yates

& Ribeiro-Neto. 1999): arquivos invertidos, arquivos de assinaturas e árvores de

sufixo.

Arquivo Invertido é um mecanismo orientado por palavra baseado em listas

de palavras-chave ordenadas, sendo que cada palavra-chave possuizyxwvutsrqponmlkjihgfedcbaZYXWVUTSRQPONMLKJIHGFEDCBA links para os

documentos contendo aquela palav ra-chave. Cada documento é associado a uma lista

dc palavras-chave ou dc atributos, a lista é invertida e passa a não ser mais ordenada

pela ordem de localização, mas sim por ordem alfabética. Cada palav ra-chav e ou

atributo é associado a um peso. Após o processamento dos documentos, essa lista é

dividida em dois arquivos: de vocabulário e de endereçamento. O arquivo de

vocabulário contém todos os termos classificados e o arquivo dc endereçamento

contém uma série de listas, uma para cada entrada do arquivo de índices, cada uma

com todos os identificadores dos documentos que contêm aquele determinado termo.

Um exemplo é mostrado na Figura 3. O arquivo de vocabulário pode utilizar

estruturas como vetores ordenados, estruturas luish e trics (diginil scarch irees). A

principal vantagem deste tipo de estrutura é sua facilidade de implementação e a

principal desvantagem é o alto custo para atualização do índice (Frakes &.

Baeza-Yates. 1992).

Arquivos de Assinatura são estruturas de indexação orientadas por palavra

baseadas em hashing; são compostos por vários blocos de assinatura (kovvalski.

1997). As palavras são mapeadas para máscaras bit (bit nuisk.s) dc B bits. que são a

assinatura de cada palavra: seu padrão de bits é obtido através de uma função íuish

que determina quais posições da assinatura devem ser setadas para 1. Depois de

determinadas as assinaturas de todas as palavras de um bloco, elas são combinadas

(geralmente por uma função estilo OR) a fim de criar a assinatura do bloco.

Os documentos são divididos em blocos lógicos contendo, cada um. um

numero n dc palavras, a fim de evitar que as assinaturas sejam muito densas (o que

ocasionaria uma grande quantidade de colisões, ou seja. palavras com assinaturas

(30)

apropriados para textos que não sejam muito longos; na maioria das aplicações os

arquivos invertidos possuem uma performance superior à dos arquivos de assinatura

(Frakes & Baeza-Yates. 1992). Um exemplo pode ser visto na Figura 4 (fonte

Kowalski. 1997). na qual o tamanho do bloco é de 5 palavras, o tamanho da assinatura

é de 16 bits e o número máximo de dígitos " P permitidos é 5.

ÍVC tíe Ar q u i vo de En d er eçam en t o r a u í v o ds

F i g u r a 3 - E x e m p l o de A r q u i v o ou índice Invertido

C Cs i " p at er 0001 0110 0000 C l i o

S i o n c e 1 CO 1 •n n n o 1110 0000

Gr ad u at c 1000 0 1 0 1 0100 0010

St u d ef Hs 0000 t s i 1000 0100 St u d y 0000 0110 01 10 0100

A ssi n at u r a da M o t o : 0 0 0 1 0110 0000 01 10

F i g u r a 4 - E x e m p l o de Arquiv os de A s s i n a t u r a

No caso das Arvores e Yetores de Sufixos cada posição no texto e

considerada como um sufixo. As árvores de sufixo são indicadas para consultas

complexas, pois consultas frasais são caras de responder se utilizam arquivos

invertidos. Já para aplicações baseadas em palavras, os arquivos invertidos têm

(31)

de sufixos para azyxwvutsrqponmlkjihgfedcbaZYXWVUTSRQPONMLKJIHGFEDCBA string "xabxae". cujos sufixos são "xabxac, abxac, bxae, xac. ac. c "

Uma boa introdução sobre árvores de sufixos é dada por Gusfield (1997).

Figura 5- Exemplo de árvore de sufixos

1.1.3 Modelos de Recuperação

Um modelo de recuperação de informação prediz c explica o que um usuário irá

considerar relevante dada sua consulta. São três os modelos clássicos seguidos por

sistemas de RI para determinar a relevância de documentos: Booleano (Lógico),

Vetorial e Probabilistico.

1. 1.3.1 Modelo Booleano

O modelo booleano foi o primeiro modelo utilizado em RI e o mais utilizado até

meados da década de 1990. apesar das alternativas de modelo que surgiram desde o

final dos anos 1960.

O modelo booleano considera uma consulta como uma expressão booleana

convencional, que liga seus termos através de conectivos lógicos AND, OR e NOT.

Nesse modelo, um documento é considerado relevante ou irrelevante para uma

consulta: não existe resultado parcial e não há informações que permitam a ordenação

do resultado da consulta. O fato de o modelo booleano não possibilitar a ordenação

dos resultados por ordem de relevância é uma de suas principais desvantagens, já que

(32)

esta classificação é uma característica considerada essencial em muitos dos sistemas

de RI modernos, como. por exemplo, nas máquinas de busca.6

Outra característica desse modelo que pode ser considerada uma desv antagem

no caso de usuários inexperientes é o uso de operadores booleanos. Para os usuários

que conhecem bem álgebra booleana, os operadores podem ser considerados uma

forma de controlar/direeionar o sistema. Se o conjunto de resposta é muito pequeno

ou muito grande, eles saberão que operadores utilizar para produzir um conjunto de

respostas maior ou menor. No entanto, para usuários comuns, os operadores

booleanos não são intuitivos, pois seu uso é diferente do uso das palavras equivalentes

a eles em língua natural. Por exemplo, se um usuário se interessa por música e por

dança, a consulta mais indicada seria "música OR dança" e não "música A N D dança".

1.1.3.2 Modelo \ etorial

No modelo de espaço-vetorial, ou simplesmente modelo vetorial, cada documento é

representado por um vetor de termos e cada termo possui um peso associado que

indica seu grau de importância no documento. Em outras palavras, cada documento

possui um vetor associado que é constituído por pares de elementos na forma

i(palavra_l, peso_l). (palavra_2. peso_2),..., (palavra_n, peso_n)}.

Cada elemento do vetor de termos é considerado uma coordenada

dimensional. Assim, os documentos podem ser colocados em um espaço euclidiano

de n dimensões (onde n é o número de termos) e a posição do documento em cada

dimensão é dada pelo seu peso. As distâncias entre um documento e outro indicam

seu grau de similaridade, ou seja, documentos que possuem os m e s m o s termos

acabam sendo colocados em uma mesma região do espaço e, em teoria, tratam de

assuntos similares. Um exemplo é mostrado na Figura 6.

(33)

Termo 2

T e r m o 1

4

Figura 6 - Similaridade de d o c u m e n t o s no modelo vetorial

Consultas também são representadas por vetores. Dessa forma, os vetores dos

documentos podem ser comparados com o vetor da consulta e o grau de similaridade

entre cada um deles pode ser identificado. Os documentos mais similares (mais

próximos no espaço) à consulta são considerados relevantes para o usuário e

retomados como resposta para ela. Uma das formas de calcular a proximidade entre

os vetores é testar o ângulo entre estes vetores. No modelo original, é utilizada a

função cosseno (cosinc vedor similarity) que calcula o produto dos vetores de

documentos através da fórmula:

dados:

• Q é o vetor de termos da consulta;

• D é o vetor de termos do documento;

• Wl|k são os pesos dos termos da consulta:

• W^k são os pesos dos termos do documento.

Calculados os graus de similaridade, é possível montar uma lista ordenada de

todos os documentos ordenados por seus respectivos graus de relevância à consulta

(ranking).

I

W : • 11 _(7*

similaridade! O. D)

(34)

Uma desvantagem do modelo vetorial é que não é possível incluir

dependências entre os termos no modelo, para modelar, por exemplo, frases ou termos

que aparecem perto um do outro. Esse modelo traz ainda duas dificuldades: a

associação de pesos aos termos, que nem sempre é uma tarefa simples, e a

implementação propriamente dita.

1.1.3.3 Modelo Probabilístico

No modelo probabilístico, os termos indexados dos documentos e das consultas não

possuem pesos pré-defmidos. A ordenação dos documentos é calculada pesando

dinamicamente os termos da consulta relativamente aos documentos. E baseado no

princípio da ordenação probabilística (zyxwvutsrqponmlkjihgfedcbaZYXWVUTSRQPONMLKJIHGFEDCBAProbability Ranking Principie). Nesse modelo,

busca-se saber a probabilidade de um documento D ser ou não relevante para uma

consulta Qa. Tal informação é obtida assumindo-se que a distribuição de termos na

eoleção é capaz de informar a relevância provável para um documento qualquer da

coleção. O modelo probabilístico é um dos poucos modelos que não necessita de

algoritmos adicionais para associação de peso aos termos para ser implementado e os

algoritmos de ordenação dos resultados são completamente derivados de sua teoria.

O modelo assume que a relevância de um documento é independente da

relevância de todos os outros, e que um documento D será dito relevante para uma

consulta Qa quando:

P(+Ra D) > P ( - Ra/ D )

dados:

• +Ra — documento é relevante para a consulta Qa

• - Ra — o documento não é relevante para a consulta Qa

• P(+Ra/D) — probabilidade de que o documento D seja relev ante para a consulta

Qa

• P(-Ra/D) — probabilidade de que o documento D não seja relevante para a

consulta Qa

Dada uma consulta Qa. o modelo probabilístico atribui a cada documento D

(35)

Essa fórmula calcula a probabilidade dc observação aleatória de D que pode

ser tanto relevante quanto irrelev ante. A teoria de Bayes auxilia a identificar para cada

termo da consulta o grau de relevância e de irrelevância do documento. O valor final

de probabilidade de relevância é dado pelo somatório dos graus de relevância de cada

termo. Assim, aplicando a regra dc Bayes:

• P(D.+R,) — probabilidade de que. dado um documento relevante para Q:1. este

seja D

• P(D/-Ra) — probabilidade de que. dado um documento não relevante para Qa.

este seja D

• P(+R,i) — probabilidade de um documento ser relevante

• P(-R;1) -— probabilidade de um documento não ser relevante

Para calcular P(D +Ra) e P(D/-Ra). como os termos indexados nos

documentos são apenas presentes ou não presentes, o documento pode ser

representado pelo vetor: D={.X|. x2 xnj . Xk£ {0.1 |. Ou seja, o peso para o termo

indexado X| pertence ao conjunto {0.1 {. Colocando isso na fórmula, reesereve-se:

• P(Xk/+Ra) é a probabilidade que evento descrito em Xk (presença ou ausência do

termo k no documento D) ocorra, dado que o documento D é relevante para a

consulta Qa.

Ou seja. rak=P(Xk=l ~R.,) c a probabilidade de o termo k estar presente em D.

sendo D relevante para a consulta Qa. P (D/+Ra) pode ser reescrita da seguinte fornia:

P( D /+Rn )x P(+Rlt )

P(D/~ Rn )xP(~Ra )

onde:

P( D ;+Rll) = YlP(xli /+R„ )

k --1

onde:

(36)

Analogamente. P(D'-Ra), probabilidade de o termo k estar presente em D,

sendo D irrelevante para a consulta Qa é dada por:

P ( D / - R a ) = \ [ s tk ( \ - st t k)

l-A k

S_{ak (} 1_~ S_{uk >}

k= I

Substituindo as duas últimas expressões na primeira (regra de Bayes) e

considerando os logs, os pesos podem ser calculados da seguinte forma:

n

W_{D Q}

a =XA'A XU'«* + C

k = 1

•V,ne e {0,1}

W(íA = log h Io

1

- rak Sak

P ( - R ) t l 1 - í _ak

Para avaliar um documento é preciso simplesmente avaliar os pesos para os

termos da consulta (vr„J. que também estão presentes nos documentos (\|s=l). A

constante C que é a mesma para qualquer documento vai variar de consulta para

consulta, mas pode ser interpretada como o valor de corte para a função de

recuperação. A equação final pode ser escrita assim:

n

sim( D,Qa) = WD QzxvutsrponmljigfedcbaZXWVUTSRQPONMLKJIGFEDCBA = ^ . t(x u ;i (

k= i

onde:

• \VD Qa é a medida de similaridade entre a consulta Qa e o documento D.

• \\"ak é o peso para o termo k na consulta, enquanto x^ é o peso para o termo k no

documento.

Uma vez que o valor de é binário (xk E J0, 11), pode-se dizer que o modelo

probabilístico não atribui pesos aos termos nos documentos, ou seja, o modelo ordena

(37)

As duas principais desvantagens desse modelo são o fato de que, para várias

aplicações, a distribuição dos termos entre documentos relevantes e irrelevantes não

estará disponível e o fato de que o modelo define apenas uma ordenação parcial dos

documentos.

1.2 RI: uma história

A importância de se ter uma coleçào de informações científicas disponíveis para

estudantes e pesquisadores vem sendo ressaltada há décadas por vários autores

(TrivelpieeezyxwvutsrqponmlkjihgfedcbaZYXWVUTSRQPONMLKJIHGFEDCBA et al. 2000; Bowles. 1998). desde o trabalho pioneiro de Bush (1945).

Foi ainda no final da década de 1940 (Lulin. 1959; Ohlman. I998) e durante a década

de 1950 que surgiram os primeiros trabalhos e sistemas de Recuperação de

Informação (Lesk. 1995: Luhn, 1958). E foi em 1952 também que a expressão

"Information Retrieru/" começou a ser utilizada, após ser cunhada por Calvin N.

Mooers.7_{Os sistemas desta primeira geração de sistemas de RI eram compostos}

basicamente por catálogo dc cartões (Williams, 2002), contendo, em geral, o nome do

autor e o título do documento.

A década de 60 foi uma época de muitos experimentos cm RI. As métricas

precisão (jvecision) e revocação (rccall) usadas na área de Processamento de Sinais

foram empregadas também para a RI. Surgiram as primeiras coleçõcs para avaliação

(Cleverdon. 1962) e foi também quando surgiu a idéia de retroalimentação sobre a

relevância da busca (rcfcrancc feedback). Foi ainda na década de 1960 que

pesquisadores de Inteligência Artificial começaram a se questionar sobre os sistemas

de RI se limitarem a encontrar documentos e os usuários ainda terem de lê-los para

encontrar respostas a suas perguntas, momento cm que começaram as pesquisas em

sistemas de resposta automática a perguntas. Foram várias as publicações na década

de 1960. relacionadas dentre outros tópicos a modelos probabilísticos, sistemas

booleanos e ao modelo vetorial. por exemplo: Maron & Kuhns (1960). Becker &

Hayes (1963). Sparck Jones (1964). Salton (1968). Foi desenvolvido o sistema

M E D L A R Ss (Medicai IJterature Analysis and Rctricval System), o primeiro grande

http: www .tracfoundation.org mooers. mooers.htm

s_{Faia uma descrição a t u a l i / a d a de M F O F A R S . veja Parns (l WKV}