Aula05 IndexacaoeConstrucaodeIndice

(1)

Indexação e

Construção de Índice

(2)

Indexação de documentos

• Consiste de três passos:

1.

Definição do vocabulário de indexação

2.

Indexação - atribuição de termos de indexação a

cada documento

3.

Construção do índice – construção da estrutura de

(3)

1.Vocabulário de Indexação

• Definição:

■ Conjunto de termos usados para indexar e recuperar

documentos de uma base ou corpus

• Pode ser definido

previamente

por especialistas

humanos => vocabulário de indexação

controlado

■ Refletem diretamente os assuntos ou conceitos dos

documentos

• Pode ser definido

posteriormente

na indexação de

cada documento => vocabulário de indexação

(4)

• Definido pela linguagem de indexação adotada.

•

No uso de linguagem de indexação controlada, os termos vem de uma linguagem documentária como:

■ Lista de cabeçalho de assuntos - Lista simples de termos sem

hierarquia

■ Taxonomia - Lista de termos organizados com hierarquia ■ Tesauro - Hierarquia de termos com relações associativas

■ Ontologia - Hierarquia de conceitos organizados em classes e com

relações todo-parte e associativas tipificadas.

❑

O conjunto total de termos que podem ser atribuídos

aos documentos é determinado pela linguagem

documentária adotada, sendo controlado por esta.

Vocabulário de Indexação

Controlado

(5)

• Consiste basicamente no conjunto de

termos que aparecem no texto completo dos

documentos ou metadados dos documentos

após o processo de indexação manual ou o

processo de indexação automática

(aplicação de operadores de texto).

• No uso de linguagem de indexação livre =>

os termos vem da linguagem natural. O

vocabulário cresce na medida em que novos

documentos vão sendo indexados.

Vocabulário de Indexação

Livre

(6)

Visão Geral da definição de

vocabulário de indexação

(7)

7

Exercício

1) Qual a finalidade ou função das linguagens de

indexação?

2) Quais os tipos de linguagens de indexação

presentes nos SRIs?

3) De quais maneiras pode ser determinado o

vocabulário de indexação de um SRI?

(8)

2. Indexação

• É o processo de atribuição de termos ou códigos

de indexação a um documento na qual serão úteis

posteriormente na recuperação da informação.

• O processo de indexação consiste na tradução de

um documento em termos documentários, isto é,

em descritores, cabeçalhos de assunto,

termos-chave, que têm por função expressar o

conteúdo do documento (Cintra, 1983).

(9)

9

Indexação no contexto da Recuperação de

Informação

(10)

Processo de Indexação

• Segundo Baranow(1983), a indexação é vista como

um processo analítico decomposto em duas etapas:

– Descrição:refere-se a identificação, seleção e análise dos

conceitos ou assuntos que representam o conteúdo - o

indexador precisa fazer uma leitura analítica do documento e extrair conceitos em linguagem natural;

– Representação:refere-se a representação desses conceitos

através de descritores (termos) compatíveis com os do sistema de recuperação - o indexador precisa identificar e selecionar termos de indexação que representem de forma fidedigna os conceitos tratados no conteúdo do documento, presentes em uma linguagem de indexação.

(11)

11

Processo de Indexação

Linguagem de Indexação

(12)

Indexação

• Algumas considerações importantes durante a

realização do processo de indexação:

– Identificar termos dentro do texto que venham de encontro às necessidades dos usuários (Garantia de uso);

– Produzir termos com mesma terminologia do documento levando em conta sinônimos ou termos equivalentes

(Garantia literária);

• Por exemplo, indexação apropriada de:

– para um biólogo: Aedes aegypti; Aedes (Stegomyia) aegypti;

Culex aegypti; Culex excitans; Culex taeniatus.

(13)

13

Dimensões da indexação

• Exaustividade:

– Representação exaustiva do conteúdo temático;

– Tipos:

• Exaustiva(mais termos); • Seletiva (menos termos);

• Exemplo:

– Prédios históricos, ponto turístico,

praça, Recife, Recife Antigo,

(14)

Dimensões da indexação

• Especificidade:

– Termo mais específico que o abrange totalmente;

• Exemplos:

(15)

15

Indexação

• A seleção de termos de indexação pode ser

por

– Indexação manual (ou Intelectual)

• Realizado por um especialista

• Ex. um bibliotecário em sistema de bibliotecas

– Indexação Automática

• Os termos são automaticamente extraídos do texto do documento por softwares que aplicam operadores de texto sobre o conteúdo dos documentos.

(16)

• Vantagens:

■ É possível ter uma visão panorâmica dos assuntos dos documentos que compõem a base

■ É possível direcionar melhor a busca realizada pelo usuário

■ Aumenta a precisão na busca

• Desvantagens:

■ Cada documento é indexado por um humano (processo lento)

■ Nem sempre é possível construir uma boa estrutura de assuntos

■ O usuário pode realizar buscas com termos que não aparecem como descritores de documentos.

(17)

• Vantagens:

■ Maior cobertura de termos

■ Maior velocidade no processo de indexação

• Desvantagens

■ Pode gerar baixa precisão

Indexação Automática

(18)

Exercício

1) Em que consiste o processo de indexação de

documentos?

2) Qual o impacto das dimensões da indexação

na recuperação dos documentos?

3) Cite uma vantagem e desvantagem do uso da

indexação automática?

(19)

19

Indexação Automática

• Lista de termos do documento pode ser

reduzida através do uso de

operadores de

texto

,

investigados na área de pesquisa

denominada

Processamento de Linguagem

Natural.

• Cada fase de operação de texto pode utilizar

diferentes técnicas na sua implementação

• Cada sistema de RI implementa uma ou

mais dessas fases

(20)

Processamento de Linguagem Natural

• O que é?

– Conjunto de técnicas computacionais para a análise

de textos com o propósito de simular o

processamento humano da língua.

• Quais são as abordagens?

– Abordagem estatística –

de menor custo e adaptáveis a diversas línguas

– Abordagem linguística –

específicos de cada língua

• Razões para aplicar em RI?

– Documentos e expressões de busca são enunciados

(21)

21

Operadores de texto

• O objetivo é chegar à representação

computacional do documento, a ser

armazenada em estrutura de índice para

fins de recuperação.

“Se o desonesto soubesse a vantagem de ser honesto, ele seria honesto ao menos por desonestidade.” Sócrates Doc original desonesto / soubesse / vantagem / honesto / seria / honesto / menos/desonestidade/ socrates honesto 2 desonesto 1 soubesse 1 vantagem 1 seria 1 menos 1 desonestidade 1 socrates 1

Operações de Texto Representação

(22)

22

Preparação dos documentos

Operadores de texto

documento Análise Léxica Eliminar stopwords Grupos nominais Radicalização Vocabulário controlado • Operadores reduzem progressivamente a visão lógica do documento Texto completo Termos ou palavras-chave

(23)

23

Preparação dos documentos

Operadores de texto

(24)

24

Análise Léxica

• Identificação de cada palavra e conversão

de caracteres

“Se o desonesto soubesse a

vantagem de ser honesto, ele seria honesto ao menos por

desonestidade.” Sócrates Doc original se/o/desonesto/ soubesse /a/vantagem/ de/ser/honesto/ele/ seria/honesto/ao/menos/ por/desonestidade/ socrates/ Análise Léxica

(25)

25

Operações sobre o texto

Análise léxica

• Entrada

– O texto original

• uma cadeia de caracteres

• Objetivo

– Converter o texto original em uma lista de palavras – Identificando as palavras que ocorrem no texto

• Procedimento padrão

– Utilizar espaços como sendo separadores de palavras – Tratar pontuação, hífens, dígitos, e letras maiúsculas e

minúsculas

(26)

26

Operações sobre o texto

Análise léxica

• Delimitação do início e fim das palavras:

– Espaço em branco, tabulações, enters

– Pontuação e hífens: . , ! ? : ; -

– Caracteres numéricos

• Eliminação de dígitos

– Geralmente, dígitos são removidos por serem

vagos

• Não terem uma semântica associada quando aparecem isolados

(27)

27

Operações sobre o texto

Análise léxica

• Substituição de letras maiúsculas

– Objetivo principal

• Tornar a representação das palavras ou termos homogênea

• Facilitar a recuperação do documento a partir de consultas

• Exceções

– Carneiro

• Animal ou nome próprio?

– Banco – instituição financeira

– banco - assento

(28)

28

Operações sobre o texto

Análise léxica

• Como visto, existem diversas exceções a

tratar

– Isso depende da aplicação, do domínio do

sistema, etc...

• Sugestão

– Preparar lista de exceções e tratar caso a caso

• Engenhos de busca

– Geralmente, não eliminam nada

• Funcionam em todos os domínios...

– Indexam o texto completo com sua pontuação,

dígitos, etc...

(29)

29

Preparação dos documentos

Operadores de texto

(30)

30

Eliminação de Palavras Vazias de significado

• Elimina palavras de uma lista (geralmente

palavras muito frequentes na coleção ou

conectivos)

se/o/desonesto/ soubesse /a/vantagem/ de/ser/honesto/ele/ seria/honesto/ao/menos/ por/desonestidade/ socrates/ Análise Léxica desonesto / soubesse / vantagem / honesto / honesto / menos/ desonestidade/ socrates Eliminar stopwords

(31)

31

Operações sobre o texto

Eliminação de stopwords

• Algumas palavras não são bons

discriminadores

– Palavras muito freqüentes na base de documentos

– Palavras sem semântica associada

• artigos, preposições, conjunções, pronomes, alguns advérbios e adjetivos

• Aqui também há exceções a considerar

– Na extração de termos compostos ou grupos

nominais, podemos precisar manter algumas

dessas palavras

(32)

32

Operações sobre o texto

Eliminação de stopwords

• Vantagens

– Diminuir a representação do texto

– Melhorar a ordenação na recuperação

• Tf-idf

• Desvantagens

– Diminuição da cobertura na recuperação

– Ex., “ser ou não ser”

• Somente o termo “ser” será usado na indexação documento

• Mais uma razão para os engenhos de busca utilizarem representação do texto completo

(33)

33

Preparação dos documentos

Operadores de texto

(34)

34

Radicalização

• Utiliza um software que reduz a palavra a

uma aproximação do radical removendo

sufixos

desonesto / soubesse / vantagem / honesto / honesto / menos/ desonestidade/ socrates Eliminar stopwords desonest / soub / vantag / honest / honest / men/desonest/ socrat Radicalização

(35)

35

Operações sobre o texto

Radicalização (Stemming)

• Problema

– Freqüentemente, o usuário especifica uma palavra na

consulta, mas apenas uma variação dessa palavra aparece nos documentos relevantes

– Ex., plural, gênero, gerúndio, verbos flexionados, aumentativo...

• Objetivo dessa operação:

– Substituir a palavra por seu radical (stem)

• Porção da palavra que resta após a remoção de prefixos e sufixos

– Possibilitar casamento entre variações de uma mesma palavra

(36)

36

Operações sobre o texto

Stemming

• Snowball

– Uma linguagem para processamento de strings

especifica para criar algoritmos de stemming

para RI

–

http://snowball.tartarus.org/

– Veja algoritmo disponível para Português em

• http://snowball.tartarus.org/algorithms/portuguese/st emmer.html

• O site também traz exemplo de stoplist para Português

(37)

37

Stemming

Exemplo do Snowball para Português

word stem quilo quilométricas quilométricos quilômetro quilômetros quilos química químicas químico químicos quimioterapia quimioterápicos => quil quilométr quilométr quilômetr quilômetr quil químic químic químic químic quimioterap quimioteráp

(38)

38

Operações sobre o texto

Radicalização

• Vantagens

– Diminui a dispersão terminológica

– Permite o casamento das variações de uma

palavra entre si.

• Desvantagens

– Pode gerar redução demais (over stemming) ou

redução de menos (under stemming) para certas

palavras o que leva a um erro no casamento.

– Se aplica a todas as palavras do texto, incluindo

nomes próprios e siglas.

(39)

39

Preparação dos documentos

Operadores de texto

documento Análise Léxica Eliminar stopwords Grupos nominais Radicalização Vocabulário controlado Termos ou palavras-chave • Operadores reduzem progressivamente a visão lógica do documento Texto completo

(40)

40

Identificação de Grupos Nominais

• Utiliza um software que extrai os

substantivos e termos compostos formados

por substantivos do texto.

– Exemplos: recuperação da informação,

indexação automática.

se/o/desonesto/ soubesse /a/vantagem/ de/ser/honesto/ele/ seria/honesto/ao/menos/ por/desonestidade/ socrates/ Análise Léxica desonesto / vantagem / honesto / honesto /desonestidade/ socrates/

Detecção de grupos nominais

(41)

41

Operações sobre o texto

Identificação de Grupos Nominais

• Objetivo

– Identificar grupos nominais (termos compostos) para indexar o documento

• Ex., Recuperação de Informação, Inteligência Artificial

• Procedimentos

– Selecionar substantivos do texto, eliminando sistematicamente palavras de outras classes gramaticais

• Usando uma stoplist ou

• usando um etiquetador morfossintático (part-of-speech tagger) para determinar a classe das palavras e/ou

• usando um thesaurus da língua ou do domínio

(42)

42

Operações sobre o texto

Identificação de Grupos Nominais

• Como agrupar substantivos para formar termos compostos

– Considerando os grupos nominais identificados pelo tagger – Considerando a distância entre os termos no texto

• Número de palavras entre os dois substantivos

– Ex., Recuperação de Informação » Apenas uma palavra (de)

– Extraindo esses termos de um tesauro do domínio

• Pode conter um vocabulário controlado de termos em vez de palavras isoladas

(43)

43

Operações sobre o texto

Identificação de Grupos Nominais

• Vantagens

– Grupos nominais carregam a maior parte da semântica de um texto

– O significado de um grupo nominal é mais preciso que as palavras tomadas isoladamente, diminuindo a

ambiguidade, sinonímia e polissemia dos termos.

• Desvantagens

– Depende da taxa de acerto dos taggers, que é superior a 90%, mas não é 100%.

– O agrupamento de substantivos também pode gerar erros.

– Um grupo nominal identificado não necessariamente é palavra-chave do documento.

(44)

44

Preparação dos documentos

Operadores de texto

(45)

45

Operações sobre o texto

Uso de Vocabulário Controlado

• Objetivo

– Identificar termos normalizados que representam conceitos para indexar o documento

• Ex., Indexação, Recuperação de Informação, Inteligência Artificial

• Procedimentos

– Registrar a ocorrência e posição de ocorrência de termos ou variações linguísticas de termos do tesauro no documento

– Selecionar termos candidatos com base na ocorrência de termos e nas relações entre termos do tesauro

(46)

46

Vocabulário Controlado

• Linguagens documentárias podem ser utilizadas para

orientar a atribuição de termos a documentos no

processo de indexação manual ou automática.

• Contribuem para Indexação automática por atribuição:

– A ocorrência de variações linguísticas dos termos do vocabulário controlado ou dos termos não autorizados equivalentes (Relações USE e UF) no documento.

– A ocorrência de variações linguísticas de um termo mais específico no documento (Relações TG e TE)

• A relação de termo relacionado (TR) tem sido mais

explorada na expansão de termos na consulta, por ter

natureza contextual.

(47)

47

Operações sobre o texto

Vocabulário controlado

• Vantagens

– Termos de especialidade encontrados no texto são candidatos a palavras-chave

– O significado de um termo é mais preciso que as palavras tomadas isoladamente, diminuindo a ambiguidade, sinonímia e polissemia.

• Desvantagens

– Depende do vocabulário controlado.

– Depende do casamento entre os termos do vocabulário com as expressões em linguagem natural do

documento.

– Um termo que ocorre em um documento não necessariamente é palavra-chave do mesmo.

(48)

Exercício

1) Sobre o processamento dos textos (operações sobre o texto),

tomando a frase “Na conexão dos saberes e práticas está o

aprendizado, fruto de um processo de aprendizagem contínua.”: a) mostre o resultado de cada uma das operações de

processamento:

– análise léxica (extrair palavras, transformá-las em minúsculo, remover pontuação)

– remoção de stopword (remover na, dos, e, está, o, de, um),

– radicalização (remover os sufixos ão, o, os, es, as, ado, agem, ua).

b) A ordem destas operações sobre o texto pode ser alterada? Justifique.

(49)

49

Resolução do Exercício

1) “Na conexão dos saberes e práticas está o aprendizado, fruto

de um processo de aprendizagem contínua.”: a)

– análise léxica (extrair palavras, transformá-las em minúsculo, remover pontuação):

“/na/conexão/dos/saberes/e/práticas/está/o/aprendizado/fruto/de/um/ processo/de/aprendizagem/contínua/”

– remoção de stopword (remover na, dos, e, está, o, de, um):

“/conexão/saberes/práticas/aprendizado/fruto/processo/aprendizagem/ contínua/”

– radicalização (remover os sufixos ão, o, os, es, as, ado, agem, ua): “/conex/saber/prátic/aprendiz/frut/process/aprendiz/contín/”

b) Não. A análise léxica deve ser sempre a primeira pois identifica as palavras, a remoção de stopword a segunda pois compara palavras e radicalização a

(50)

3. Construção da Estrutura de dados do índice

• Arquivo de índices invertidos

■ é um “mecanismo” para acelerar a busca em uma base

de documentos já indexados

■ Armazena a representação computacional de cada

documento (visão lógica do documento)

• Estrutura de um arquivo invertido

■ Vocabulário

⬥ Termos em ordem alfabética (geralmente palavras isoladas ou unitermos)

■ Ocorrências de cada termo

⬥ Documentos onde o termo aparece, sua posição no texto,

(51)

Arquivos Invertidos

Listas de Ocorrência

• Para cada ocorrência armazena-se informações que

dependem do tipo de consulta permitida pelo sistema

■ Não armazena as não ocorrências

• Exemplos de listas de ocorrência:

■ para a consulta booleana e probabilista, é necessário

armazenar apenas a lista de documentos onde o termo aparece

■ para consultas no modelo espaço vetorial, a ocorrência

deve armazenar a frequência do termo nos documentos

■ para consultas por proximidade, a ocorrência deve

armazenar as posições dos termos nos documentos

(52)

Arquivos Invertidos - Exemplo 1

• Considere os seguintes documentos:

• Realize a Análise léxica, elimine as stopwords e

construa o arquivo invertido para os documentos

Ciência da Informação Doc A: Dados, Informação e Conhecimento Doc B: Informação em Ciência e Tecnologia Doc C: Bancos de Dados Doc D: Ciência e Conhecimento Doc E: Ciência da Computação Doc F: 52

(53)

Arquivos Invertidos

Exemplo 1

A B C D E F Ciência da Informação

Dados, Informação e Conhecimento Informação em Ciência e Tecnologia Bancos de Dados Ciência e Conhecimento Ciência da Computação Documento Texto stopwords da e em de 53

(54)

Arquivo Invertido

Exemplo 1 - Modelo Booleano e Probabilista

Ciência da Informação

Dados, Informação e Conhecimento Informação em Ciência e Tecnologia Bancos de Dados Ciência e Conhecimento Ciência da Computação Documento Texto 1 2 3 4 5 6 7 bancos ciência computação conhecimento dados informação tecnologia Termo D A, C, E, F F B, E B, D A, B, C C Docs No Vocabulário Listas de documentos onde termo aparece

Arquivo Invertido A B C D E F

(55)

Arquivo Invertido

Exemplo 1 - Modelo Espaço Vetorial (TF)

Dados, Informação e Conhecimento Informação em Ciência e Tecnologia Bancos de Dados Ciência e Conhecimento Ciência da Computação Documento Texto 1 2 3 4 5 6 7 bancos ciência computação conhecimento dados informação tecnologia Termo D(1) A(1), C(1), E(1), F(1) F(1) B(1), E(1) B(1), D(1) A(1), B(1), C(1) C(1) Docs No Vocabulário Listas de documentos onde o termo ocorre e a frequência

Arquivo Invertido A B C D E F 55

(56)

Arquivo Invertido

Exemplo 1 - Busca por Proximidade

Dados, Informação e Conhecimento Informação em Ciência e Tecnologia Bancos de Dados Ciência e Conhecimento Ciência da Computação Documento Texto 1 2 3 4 5 6 7 bancos ciência computação conhecimento dados informação tecnologia Termo (D,1) (A,1),(C,3), (E,1),(F,1) (F,3) (B,4), (E,3) (B,1), (D,3) (A,3), (B,2), (C,1) (C,5) Docs No Vocabulário Listas de documentos onde o