Indexação e
Construção de Índice
Indexação de documentos
•
Consiste de três passos:
1.
Definição do vocabulário de indexação
2.
Indexação - atribuição de termos de indexação a
cada documento
3.
Construção do índice – construção da estrutura de
1.Vocabulário de Indexação
•
Definição:
■ Conjunto de termos usados para indexar e recuperar
documentos de uma base ou corpus
•
Pode ser definido
previamente
por especialistas
humanos => vocabulário de indexação
controlado
■ Refletem diretamente os assuntos ou conceitos dos
documentos
•
Pode ser definido
posteriormente
na indexação de
cada documento => vocabulário de indexação
•
Definido pela linguagem de indexação adotada.
•
No uso de linguagem de indexação controlada, os termos vem de uma linguagem documentária como:■ Lista de cabeçalho de assuntos - Lista simples de termos sem
hierarquia
■ Taxonomia - Lista de termos organizados com hierarquia ■ Tesauro - Hierarquia de termos com relações associativas
■ Ontologia - Hierarquia de conceitos organizados em classes e com
relações todo-parte e associativas tipificadas.
❑
O conjunto total de termos que podem ser atribuídos
aos documentos é determinado pela linguagem
documentária adotada, sendo controlado por esta.
Vocabulário de Indexação
Controlado
•
Consiste basicamente no conjunto de
termos que aparecem no texto completo dos
documentos ou metadados dos documentos
após o processo de indexação manual ou o
processo de indexação automática
(aplicação de operadores de texto).
•
No uso de linguagem de indexação livre =>
os termos vem da linguagem natural. O
vocabulário cresce na medida em que novos
documentos vão sendo indexados.
Vocabulário de Indexação
Livre
Visão Geral da definição de
vocabulário de indexação
7
Exercício
1) Qual a finalidade ou função das linguagens de
indexação?
2) Quais os tipos de linguagens de indexação
presentes nos SRIs?
3) De quais maneiras pode ser determinado o
vocabulário de indexação de um SRI?
2. Indexação
• É o processo de atribuição de termos ou códigos
de indexação a um documento na qual serão úteis
posteriormente na recuperação da informação.
• O processo de indexação consiste na tradução de
um documento em termos documentários, isto é,
em descritores, cabeçalhos de assunto,
termos-chave, que têm por função expressar o
conteúdo do documento (Cintra, 1983).
9
Indexação no contexto da Recuperação de
Informação
Processo de Indexação
• Segundo Baranow(1983), a indexação é vista como
um processo analítico decomposto em duas etapas:
– Descrição:refere-se a identificação, seleção e análise dos
conceitos ou assuntos que representam o conteúdo - o
indexador precisa fazer uma leitura analítica do documento e extrair conceitos em linguagem natural;
– Representação:refere-se a representação desses conceitos
através de descritores (termos) compatíveis com os do sistema de recuperação - o indexador precisa identificar e selecionar termos de indexação que representem de forma fidedigna os conceitos tratados no conteúdo do documento, presentes em uma linguagem de indexação.
11
Processo de Indexação
Linguagem de Indexação
Indexação
• Algumas considerações importantes durante a
realização do processo de indexação:
– Identificar termos dentro do texto que venham de encontro às necessidades dos usuários (Garantia de uso);
– Produzir termos com mesma terminologia do documento levando em conta sinônimos ou termos equivalentes
(Garantia literária);
• Por exemplo, indexação apropriada de:
– para um biólogo: Aedes aegypti; Aedes (Stegomyia) aegypti;
Culex aegypti; Culex excitans; Culex taeniatus.
13
Dimensões da indexação
• Exaustividade:
– Representação exaustiva do conteúdo temático;
– Tipos:
• Exaustiva(mais termos); • Seletiva (menos termos);
• Exemplo:
– Prédios históricos, ponto turístico,
praça, Recife, Recife Antigo,
Dimensões da indexação
• Especificidade:
– Termo mais específico que o abrange totalmente;
• Exemplos:
15
Indexação
• A seleção de termos de indexação pode ser
por
– Indexação manual (ou Intelectual)
• Realizado por um especialista
• Ex. um bibliotecário em sistema de bibliotecas
– Indexação Automática
• Os termos são automaticamente extraídos do texto do documento por softwares que aplicam operadores de texto sobre o conteúdo dos documentos.
•
Vantagens:
■ É possível ter uma visão panorâmica dos assuntos dos documentos que compõem a base
■ É possível direcionar melhor a busca realizada pelo usuário
■ Aumenta a precisão na busca
•
Desvantagens:
■ Cada documento é indexado por um humano (processo lento)
■ Nem sempre é possível construir uma boa estrutura de assuntos
■ O usuário pode realizar buscas com termos que não aparecem como descritores de documentos.
•
Vantagens:
■ Maior cobertura de termos
■ Maior velocidade no processo de indexação
•
Desvantagens
■ Pode gerar baixa precisão
Indexação Automática
Exercício
1) Em que consiste o processo de indexação de
documentos?
2) Qual o impacto das dimensões da indexação
na recuperação dos documentos?
3) Cite uma vantagem e desvantagem do uso da
indexação automática?
19
Indexação Automática
• Lista de termos do documento pode ser
reduzida através do uso de
operadores de
texto
,
investigados na área de pesquisa
denominada
Processamento de Linguagem
Natural.
• Cada fase de operação de texto pode utilizar
diferentes técnicas na sua implementação
• Cada sistema de RI implementa uma ou
mais dessas fases
Processamento de Linguagem Natural
• O que é?
– Conjunto de técnicas computacionais para a análise
de textos com o propósito de simular o
processamento humano da língua.
• Quais são as abordagens?
– Abordagem estatística –
de menor custo e adaptáveis a diversas línguas– Abordagem linguística –
específicos de cada língua• Razões para aplicar em RI?
– Documentos e expressões de busca são enunciados
21
Operadores de texto
• O objetivo é chegar à representação
computacional do documento, a ser
armazenada em estrutura de índice para
fins de recuperação.
“Se o desonesto soubesse a vantagem de ser honesto, ele seria honesto ao menos por desonestidade.” Sócrates Doc original desonesto / soubesse / vantagem / honesto / seria / honesto / menos/desonestidade/ socrates honesto 2 desonesto 1 soubesse 1 vantagem 1 seria 1 menos 1 desonestidade 1 socrates 1
Operações de Texto Representação
22
Preparação dos documentos
Operadores de texto
documento Análise Léxica Eliminar stopwords Grupos nominais Radicalização Vocabulário controlado • Operadores reduzem progressivamente a visão lógica do documento Texto completo Termos ou palavras-chave23
Preparação dos documentos
Operadores de texto
documento Análise Léxica Eliminar stopwords Grupos nominais Radicalização Vocabulário controlado • Operadores reduzem progressivamente a visão lógica do documento Texto completo Termos ou palavras-chave24
Análise Léxica
• Identificação de cada palavra e conversão
de caracteres
“Se o desonesto soubesse a
vantagem de ser honesto, ele seria honesto ao menos por
desonestidade.” Sócrates Doc original se/o/desonesto/ soubesse /a/vantagem/ de/ser/honesto/ele/ seria/honesto/ao/menos/ por/desonestidade/ socrates/ Análise Léxica
25
Operações sobre o texto
Análise léxica
• Entrada
– O texto original
• uma cadeia de caracteres
• Objetivo
– Converter o texto original em uma lista de palavras – Identificando as palavras que ocorrem no texto
• Procedimento padrão
– Utilizar espaços como sendo separadores de palavras – Tratar pontuação, hífens, dígitos, e letras maiúsculas e
minúsculas
26
Operações sobre o texto
Análise léxica
• Delimitação do início e fim das palavras:
– Espaço em branco, tabulações, enters
– Pontuação e hífens: . , ! ? : ; -
– Caracteres numéricos
• Eliminação de dígitos
– Geralmente, dígitos são removidos por serem
vagos
• Não terem uma semântica associada quando aparecem isolados
27
Operações sobre o texto
Análise léxica
• Substituição de letras maiúsculas
– Objetivo principal
• Tornar a representação das palavras ou termos homogênea
• Facilitar a recuperação do documento a partir de consultas
• Exceções
– Carneiro
• Animal ou nome próprio?
– Banco – instituição financeira
– banco - assento
28
Operações sobre o texto
Análise léxica
• Como visto, existem diversas exceções a
tratar
– Isso depende da aplicação, do domínio do
sistema, etc...
• Sugestão
– Preparar lista de exceções e tratar caso a caso
• Engenhos de busca
– Geralmente, não eliminam nada
• Funcionam em todos os domínios...
– Indexam o texto completo com sua pontuação,
dígitos, etc...
29
Preparação dos documentos
Operadores de texto
documento Análise Léxica Eliminar stopwords Grupos nominais Radicalização Vocabulário controlado • Operadores reduzem progressivamente a visão lógica do documento Texto completo Termos ou palavras-chave30
Eliminação de Palavras Vazias de significado
• Elimina palavras de uma lista (geralmente
palavras muito frequentes na coleção ou
conectivos)
se/o/desonesto/ soubesse /a/vantagem/ de/ser/honesto/ele/ seria/honesto/ao/menos/ por/desonestidade/ socrates/ Análise Léxica desonesto / soubesse / vantagem / honesto / honesto / menos/ desonestidade/ socrates Eliminar stopwords31
Operações sobre o texto
Eliminação de stopwords
• Algumas palavras não são bons
discriminadores
– Palavras muito freqüentes na base de documentos
– Palavras sem semântica associada
• artigos, preposições, conjunções, pronomes, alguns advérbios e adjetivos
• Aqui também há exceções a considerar
– Na extração de termos compostos ou grupos
nominais, podemos precisar manter algumas
dessas palavras
32
Operações sobre o texto
Eliminação de stopwords
• Vantagens
– Diminuir a representação do texto
– Melhorar a ordenação na recuperação
• Tf-idf
• Desvantagens
– Diminuição da cobertura na recuperação
– Ex., “ser ou não ser”
• Somente o termo “ser” será usado na indexação documento
• Mais uma razão para os engenhos de busca utilizarem representação do texto completo
33
Preparação dos documentos
Operadores de texto
documento Análise Léxica Eliminar stopwords Grupos nominais Radicalização Vocabulário controlado • Operadores reduzem progressivamente a visão lógica do documento Texto completo Termos ou palavras-chave34
Radicalização
• Utiliza um software que reduz a palavra a
uma aproximação do radical removendo
sufixos
desonesto / soubesse / vantagem / honesto / honesto / menos/ desonestidade/ socrates Eliminar stopwords desonest / soub / vantag / honest / honest / men/desonest/ socrat Radicalização35
Operações sobre o texto
Radicalização (Stemming)
• Problema
– Freqüentemente, o usuário especifica uma palavra na
consulta, mas apenas uma variação dessa palavra aparece nos documentos relevantes
– Ex., plural, gênero, gerúndio, verbos flexionados, aumentativo...
• Objetivo dessa operação:
– Substituir a palavra por seu radical (stem)
• Porção da palavra que resta após a remoção de prefixos e sufixos
– Possibilitar casamento entre variações de uma mesma palavra
36
Operações sobre o texto
Stemming
• Snowball
– Uma linguagem para processamento de strings
especifica para criar algoritmos de stemming
para RI
–
http://snowball.tartarus.org/
– Veja algoritmo disponível para Português em
• http://snowball.tartarus.org/algorithms/portuguese/st emmer.html
• O site também traz exemplo de stoplist para Português
37
Stemming
Exemplo do Snowball para Português
word stem quilo quilométricas quilométricos quilômetro quilômetros quilos química químicas químico químicos quimioterapia quimioterápicos => quil quilométr quilométr quilômetr quilômetr quil químic químic químic químic quimioterap quimioteráp
38
Operações sobre o texto
Radicalização
• Vantagens
– Diminui a dispersão terminológica
– Permite o casamento das variações de uma
palavra entre si.
• Desvantagens
– Pode gerar redução demais (over stemming) ou
redução de menos (under stemming) para certas
palavras o que leva a um erro no casamento.
– Se aplica a todas as palavras do texto, incluindo
nomes próprios e siglas.
39
Preparação dos documentos
Operadores de texto
documento Análise Léxica Eliminar stopwords Grupos nominais Radicalização Vocabulário controlado Termos ou palavras-chave • Operadores reduzem progressivamente a visão lógica do documento Texto completo40
Identificação de Grupos Nominais
• Utiliza um software que extrai os
substantivos e termos compostos formados
por substantivos do texto.
– Exemplos: recuperação da informação,
indexação automática.
se/o/desonesto/ soubesse /a/vantagem/ de/ser/honesto/ele/ seria/honesto/ao/menos/ por/desonestidade/ socrates/ Análise Léxica desonesto / vantagem / honesto / honesto /desonestidade/ socrates/Detecção de grupos nominais
41
Operações sobre o texto
Identificação de Grupos Nominais
• Objetivo
– Identificar grupos nominais (termos compostos) para indexar o documento
• Ex., Recuperação de Informação, Inteligência Artificial
• Procedimentos
– Selecionar substantivos do texto, eliminando sistematicamente palavras de outras classes gramaticais
• Usando uma stoplist ou
• usando um etiquetador morfossintático (part-of-speech tagger) para determinar a classe das palavras e/ou
• usando um thesaurus da língua ou do domínio
42
Operações sobre o texto
Identificação de Grupos Nominais
• Como agrupar substantivos para formar termos compostos
– Considerando os grupos nominais identificados pelo tagger – Considerando a distância entre os termos no texto
• Número de palavras entre os dois substantivos
– Ex., Recuperação de Informação » Apenas uma palavra (de)
– Extraindo esses termos de um tesauro do domínio
• Pode conter um vocabulário controlado de termos em vez de palavras isoladas
43
Operações sobre o texto
Identificação de Grupos Nominais
• Vantagens
– Grupos nominais carregam a maior parte da semântica de um texto
– O significado de um grupo nominal é mais preciso que as palavras tomadas isoladamente, diminuindo a
ambiguidade, sinonímia e polissemia dos termos.
• Desvantagens
– Depende da taxa de acerto dos taggers, que é superior a 90%, mas não é 100%.
– O agrupamento de substantivos também pode gerar erros.
– Um grupo nominal identificado não necessariamente é palavra-chave do documento.
44
Preparação dos documentos
Operadores de texto
documento Análise Léxica Eliminar stopwords Grupos nominais Radicalização Vocabulário controlado • Operadores reduzem progressivamente a visão lógica do documento Texto completo Termos ou palavras-chave45
Operações sobre o texto
Uso de Vocabulário Controlado
• Objetivo
– Identificar termos normalizados que representam conceitos para indexar o documento
• Ex., Indexação, Recuperação de Informação, Inteligência Artificial
• Procedimentos
– Registrar a ocorrência e posição de ocorrência de termos ou variações linguísticas de termos do tesauro no documento
– Selecionar termos candidatos com base na ocorrência de termos e nas relações entre termos do tesauro
46
Vocabulário Controlado
• Linguagens documentárias podem ser utilizadas para
orientar a atribuição de termos a documentos no
processo de indexação manual ou automática.
• Contribuem para Indexação automática por atribuição:
– A ocorrência de variações linguísticas dos termos do vocabulário controlado ou dos termos não autorizados equivalentes (Relações USE e UF) no documento.
– A ocorrência de variações linguísticas de um termo mais específico no documento (Relações TG e TE)
• A relação de termo relacionado (TR) tem sido mais
explorada na expansão de termos na consulta, por ter
natureza contextual.
47
Operações sobre o texto
Vocabulário controlado
• Vantagens
– Termos de especialidade encontrados no texto são candidatos a palavras-chave
– O significado de um termo é mais preciso que as palavras tomadas isoladamente, diminuindo a ambiguidade, sinonímia e polissemia.
• Desvantagens
– Depende do vocabulário controlado.
– Depende do casamento entre os termos do vocabulário com as expressões em linguagem natural do
documento.
– Um termo que ocorre em um documento não necessariamente é palavra-chave do mesmo.
Exercício
1) Sobre o processamento dos textos (operações sobre o texto),
tomando a frase “Na conexão dos saberes e práticas está o
aprendizado, fruto de um processo de aprendizagem contínua.”: a) mostre o resultado de cada uma das operações de
processamento:
– análise léxica (extrair palavras, transformá-las em minúsculo, remover pontuação)
– remoção de stopword (remover na, dos, e, está, o, de, um),
– radicalização (remover os sufixos ão, o, os, es, as, ado, agem, ua).
b) A ordem destas operações sobre o texto pode ser alterada? Justifique.
49
Resolução do Exercício
1) “Na conexão dos saberes e práticas está o aprendizado, fruto
de um processo de aprendizagem contínua.”: a)
– análise léxica (extrair palavras, transformá-las em minúsculo, remover pontuação):
“/na/conexão/dos/saberes/e/práticas/está/o/aprendizado/fruto/de/um/ processo/de/aprendizagem/contínua/”
– remoção de stopword (remover na, dos, e, está, o, de, um):
“/conexão/saberes/práticas/aprendizado/fruto/processo/aprendizagem/ contínua/”
– radicalização (remover os sufixos ão, o, os, es, as, ado, agem, ua): “/conex/saber/prátic/aprendiz/frut/process/aprendiz/contín/”
b) Não. A análise léxica deve ser sempre a primeira pois identifica as palavras, a remoção de stopword a segunda pois compara palavras e radicalização a
3. Construção da Estrutura de dados do índice
•
Arquivo de índices invertidos
■ é um “mecanismo” para acelerar a busca em uma base
de documentos já indexados
■ Armazena a representação computacional de cada
documento (visão lógica do documento)
•
Estrutura de um arquivo invertido
■ Vocabulário
⬥ Termos em ordem alfabética (geralmente palavras isoladas ou unitermos)
■ Ocorrências de cada termo
⬥ Documentos onde o termo aparece, sua posição no texto,
Arquivos Invertidos
Listas de Ocorrência
•
Para cada ocorrência armazena-se informações que
dependem do tipo de consulta permitida pelo sistema
■ Não armazena as não ocorrências
•
Exemplos de listas de ocorrência:
■ para a consulta booleana e probabilista, é necessário
armazenar apenas a lista de documentos onde o termo aparece
■ para consultas no modelo espaço vetorial, a ocorrência
deve armazenar a frequência do termo nos documentos
■ para consultas por proximidade, a ocorrência deve
armazenar as posições dos termos nos documentos
Arquivos Invertidos - Exemplo 1
•
Considere os seguintes documentos:
•
Realize a Análise léxica, elimine as stopwords e
construa o arquivo invertido para os documentos
Ciência da Informação Doc A: Dados, Informação e Conhecimento Doc B: Informação em Ciência e Tecnologia Doc C: Bancos de Dados Doc D: Ciência e Conhecimento Doc E: Ciência da Computação Doc F: 52
Arquivos Invertidos
Exemplo 1
A B C D E F Ciência da InformaçãoDados, Informação e Conhecimento Informação em Ciência e Tecnologia Bancos de Dados Ciência e Conhecimento Ciência da Computação Documento Texto stopwords da e em de 53
Arquivo Invertido
Exemplo 1 - Modelo Booleano e Probabilista
Ciência da Informação
Dados, Informação e Conhecimento Informação em Ciência e Tecnologia Bancos de Dados Ciência e Conhecimento Ciência da Computação Documento Texto 1 2 3 4 5 6 7 bancos ciência computação conhecimento dados informação tecnologia Termo D A, C, E, F F B, E B, D A, B, C C Docs No Vocabulário Listas de documentos onde termo aparece
Arquivo Invertido A B C D E F
Arquivo Invertido
Exemplo 1 - Modelo Espaço Vetorial (TF)
Ciência da Informação
Dados, Informação e Conhecimento Informação em Ciência e Tecnologia Bancos de Dados Ciência e Conhecimento Ciência da Computação Documento Texto 1 2 3 4 5 6 7 bancos ciência computação conhecimento dados informação tecnologia Termo D(1) A(1), C(1), E(1), F(1) F(1) B(1), E(1) B(1), D(1) A(1), B(1), C(1) C(1) Docs No Vocabulário Listas de documentos onde o termo ocorre e a frequência
Arquivo Invertido A B C D E F 55
Arquivo Invertido
Exemplo 1 - Busca por Proximidade
Ciência da Informação
Dados, Informação e Conhecimento Informação em Ciência e Tecnologia Bancos de Dados Ciência e Conhecimento Ciência da Computação Documento Texto 1 2 3 4 5 6 7 bancos ciência computação conhecimento dados informação tecnologia Termo (D,1) (A,1),(C,3), (E,1),(F,1) (F,3) (B,4), (E,3) (B,1), (D,3) (A,3), (B,2), (C,1) (C,5) Docs No Vocabulário Listas de documentos onde o
termo ocorre e as posições
Arquivo Invertido A B C D E F 56
57