Indexação Automática
A automatização da indexação apresenta três
conceitos diferentes:
Indexação assistida por computador durante o armazenamento: sistemas que auxiliam o processo de armazenamento dos termos de indexação extraídos pelo indexador na etapa de análise
conceitual.
Indexação semi-automática: sistemas indexam automaticamente o documento e dão a possibilidade de edição e validação dos
termos pelo documentalista antes de serem armazenados como descritores do documento.
Indexação automática: sistemas indexam automaticamente o documento sem nenhuma validação por parte do documentalista; os termos de indexação são armazenados diretamente como
descritores do documento.
Indexação Automática
De acordo com Lancaster (2004),
indexação automática é o processo que ocorre quando o computador é utilizado para substituir, em certa medida, a
indexação manual realizada por um indexador.
Indexação Automática
• Indexação Automática por Extração - adota critérios de freqüência, posição e contexto com que as palavras aparecem no decorrer do texto para então extraí-las como descritores.
• Parte do processamento do documento para extrair termos de indexação.
• Indexação Automática por Atribuição - desenvolve, para cada termo a ser indexado, um “perfil” de palavras ou expressões que costumam ocorrer freqüentemente nos documentos.
• Este perfil de palavras geralmente é obtido através do
processamento de uma linguagem documentária, como um tesauro para o domínio.
• Parte do processamento da linguagem documentária para
atribuir termos de indexação ao documento.
Tipos de Indexação
Automática
Vocabulário de Indexação Automático
Consiste no conjunto de termos extraídos
ou atribuídos ao texto completo e/ou
metadados dos documentos após aplicação
de
operadores de texto
.
Sem utilização de vocabulário
controlado - usa a linguagem natural
como linguagem de indexação =>
vocabulário de indexação livre
.
Com uso de vocabulário controlado
-usa linguagem controlada como
linguagem de indexação =>
Indexação Manual vs Indexação Automática
Vantagens: Contempla os conceitos em evidência nos documentos Indexação seletiva Aumenta a precisão na busca Desvantagens: Cada documento é indexado por umhumano (processo lento)
Pode gerar baixa
revocação Vantagens: Contempla os termos em evidência no texto dos documentos Maior cobertura de termos Maior velocidade no processo de indexação Desvantagens
Pode gerar baixa
precisão
Indexação Automática
Lista de termos do documento pode ser reduzida
através do uso de operadores de texto, investigados
na área de pesquisa denominada Processamento de
Linguagem Natural.
Cada fase de operação de texto pode utilizar
diferentes técnicas na sua implementação
Cada sistema de RI implementa uma ou mais dessas
fases
A escolha depende do tipo de sistema desejado
Processamento de Linguagem Natural
O que é?
Conjunto de técnicas computacionais para a análise
de textos com o propósito de simular o processamento humano da língua.
Quais são as abordagens?
Abordagem estatística – de menor custo e adaptáveis
a diversas línguas
Abordagem linguística – específicos de cada língua
Razões para aplicar em RI?
Documentos e expressões de busca são enunciados
Processamento de Linguagem
Natural
Principais usos em RI:
Indexação automática
Normalização de variações linguísticas
Normalização morfológica ou Conflação de termos (radicalização,
lematização)
Normalização léxico-semântica de termos através das relações
semânticas de sinonímia, hiponímia, hiperonímia
Identificação de termos compostos
Sintagmas nominais, termos complexos, unidades lexicais complexas,
expressões multi-palavras
Resolução de ambiguidade
Sintática (causa estrutural) ou semântica (causa lexical – homonímia,
polissemia)
• Listas de Stopwords (Palavras Irrelevantes ou Vazias de
significado) – lista de palavras que não são boas como discriminantes
dos documentos por serem muito frequentes.
• Stemmer (Radicalizador) – software que atua nas palavras
congêneres de um documento substituindo-as por uma representação única através do seu radical.
• Lemmatizer (Lematizador) - software que atua nas palavras
congêneres de um documento substituindo-as por uma representação única através do seu lema.
• Tagger (Etiquetador) – software que serve para identificar a
categoria gramatical de cada item lexical do texto analisado.
• Parser – gera a representação arbórea sintática de uma frase.
• Tesauro ou léxico – Fonte de termos candidatos a descritores e
relações entre termos
Ferramentas e recursos de
PLN
• Listas de Stopwords (Palavras Irrelevantes ou Vazias de significado) • http://snowball.tartarus.org/algorithms/portuguese/stop.txt • Stemmer (Radicalizador) • http://snowball.tartarus.org/algorithms/portuguese/stemmer.html • Lemmatizer (Lematizador) • http://lxcenter.di.fc.ul.pt/services/en/LXServicesInflector.html • Tagger (Etiquetador) • LXTagger:http://lxcenter.di.fc.ul.pt/services/en/LXServicesSuite.html • Parser • PALAVRAS: http://beta.visl.sdu.dk/visl/pt/parsing/automatic/trees.php • Tesauro ou léxico • OpenWordnet-PT: http://wnpt.brlcloud.com/wn/
Exemplos de Ferramentas ou
recursos de PLN
11Operadores de texto
O objetivo é chegar à representação
computacional do documento, a ser armazenada em estrutura de índice para fins de recuperação.
12 “Se o desonesto soubesse a
vantagem de ser honesto, ele seria honesto ao menos por desonestidade.” Sócrates Doc original desonesto / soubesse / vantagem / honesto / seria / honesto / menos/desonestidade/ socrates honesto 2 desonesto 1 soubesse 1 vantagem 1 seria 1 menos 1 desonestidade 1 socrates 1
Operações de Texto Representação
Fonte: Adaptada de (Baeza-Yates, Ribeiro-Neto 1999)
Indexação Automática via
aplicação de Operadores de
texto
Full-text Reconhecimento da estrutura Estrutura Análise Léxica Documento Stopwords Stemming Grupos nominais Vocabulário Controlado Termos de índice 13Preparação dos documentos
Operadores de texto
14 documento Análise Léxica Eliminar stopwords Grupos nominais Radicalização Vocabulário controlado • Operadores reduzem progressivamente a visão lógica do documento Texto completo Termos ou palavras-chavePreparação dos documentos
Operadores de texto
15 documento Análise Léxica Eliminar stopwords Grupos nominais Radicalização Vocabulário controlado • Operadores reduzem progressivamente a visão lógica do documento Texto completo Termos ou palavras-chaveAnálise Léxica
Identificação de cada palavra e conversão de
caracteres
16
“Se o desonesto soubesse a
vantagem de ser honesto, ele seria honesto ao menos por
desonestidade.” Sócrates Doc original se/o/desonesto/ soubesse /a/vantagem/ de/ser/honesto/ele/ seria/honesto/ao/menos/ por/desonestidade/ socrates/ Análise Léxica
Operações sobre o texto
Análise léxica
Entrada
O texto original
uma cadeia de caracteres
Objetivo
Converter o texto original em uma lista de palavras Identificando as palavras que ocorrem no texto
Procedimento padrão
Utilizar espaços como sendo separadores de palavras Tratar pontuação, hífens, dígitos, e letras maiúsculas
e minúsculas
Cada caso pode requerer tratamentos diferenciados 17
Operações sobre o texto
Análise léxica
Delimitação do início e fim das palavras:
Espaço em branco, tabulações, enters
Pontuação e hífens: . , ! ? : ;
- Caracteres numéricos
Eliminação de dígitos
Geralmente, dígitos são removidos por serem
vagos
Não terem uma semântica associada quando aparecem isolados
Ex. 1910 (ano, peso, tamanho???)
Operações sobre o texto
Análise léxica
Substituição de letras maiúsculas
Objetivo principal
Tornar a representação das palavras ou termos homogênea Facilitar a recuperação do documento a partir de consultas
Exceções
Carneiro
Animal ou nome próprio?
Banco – instituição financeira banco - assento
Operações sobre o texto
Análise léxica
Como visto, existem diversas exceções a tratar
Isso depende da aplicação, do domínio do sistema, etc...
Sugestão
Preparar lista de exceções e tratar caso a caso
Engenhos de busca
Geralmente, não eliminam nada
Funcionam em todos os domínios...
Indexam o texto completo com sua pontuação, dígitos, etc...
Preparação dos documentos
Operadores de texto
21 documento Análise Léxica Eliminar stopwords Grupos nominais Radicalização Vocabulário controlado • Operadores reduzem progressivamente a visão lógica do documento Texto completo Termos ou palavras-chaveEliminação de Palavras Vazias de
significado
Elimina palavras de uma lista (geralmente palavras
muito frequentes na coleção ou conectivos)
22 se/o/desonesto/ soubesse /a/vantagem/ de/ser/honesto/ele/ seria/honesto/ao/menos/ por/desonestidade/ socrates/ Análise Léxica desonesto / soubesse / vantagem / honesto / honesto / menos/ desonestidade/ socrates Eliminar stopwords
Operações sobre o texto
Eliminação de stopwords
Algumas palavras não são bons
discriminadores
Palavras muito freqüentes na base de documentos
Palavras sem semântica associada
artigos, preposições, conjunções, pronomes, alguns advérbios e adjetivos
Aqui também há exceções a considerar
Na extração de termos compostos ou grupos
nominais, podemos precisar manter algumas dessas palavras
Recuperação de informação
Operações sobre o texto
Eliminação de stopwords
Vantagens
Diminuir a representação do texto
Melhorar a ordenação na recuperação
Tf-idf
Desvantagens
Diminuição da cobertura na recuperação
Ex., “ser ou não ser”
Somente o termo “ser” será usado na indexação documento
Mais uma razão para os engenhos de busca utilizarem representação do texto completo
Preparação dos documentos
Operadores de texto
25 documento Análise Léxica Eliminar stopwords Grupos nominais Radicalização Vocabulário controlado • Operadores reduzem progressivamente a visão lógica do documento Texto completo Termos ou palavras-chaveRadicalização
Utiliza um software que reduz a palavra a uma
aproximação do radical removendo sufixos
26 desonesto / soubesse / vantagem / honesto / honesto / menos/ desonestidade/ socrates Eliminar stopwords desonest / soub / vantag / honest / honest / men/desonest/ socrat Radicalização
Operações sobre o texto
Radicalização (Stemming)
Problema
Freqüentemente, o usuário especifica uma palavra na consulta, mas apenas uma variação dessa palavra
aparece nos documentos relevantes
Ex., plural, gênero, gerúndio, verbos flexionados, aumentativo...
Objetivo dessa operação:
Substituir a palavra por seu radical (stem)
Porção da palavra que resta após a remoção de prefixos e sufixos
Possibilitar casamento entre variações de uma mesma palavra
Ex.: engenheiro, engenharia,...
Operações sobre o texto
Radicalização
Vantagens
Diminui a dispersão terminológica
Permite o casamento das variações de uma palavra entre si.
Desvantagens
Pode gerar redução demais (over stemming) ou redução de menos (under stemming) para certas palavras o que leva a um erro no casamento.
Se aplica a todas as palavras do texto, incluindo nomes próprios e siglas.
Preparação dos documentos
Operadores de texto
29 documento Análise Léxica Eliminar stopwords Grupos nominais Radicalização Vocabulário controlado Termos ou palavras-chave • Operadores reduzem progressivamente a visão lógica do documento Texto completoIdentificação de Grupos Nominais
Utiliza um software que extrai os substantivos e
termos compostos formados por substantivos do texto.
Exemplos: recuperação da informação, indexação
automática. 30 se/o/desonesto/ soubesse /a/vantagem/ de/ser/honesto/ele/ seria/honesto/ao/menos/ por/desonestidade/ socrates/ Análise Léxica desonesto / vantagem / honesto / honesto /desonestidade/ socrates/
Detecção de grupos nominais
Operações sobre o texto
Identificação de Grupos Nominais
Objetivo
Identificar grupos nominais (termos compostos) para indexar o documento
Ex., Recuperação de Informação, Inteligência Artificial
Procedimentos
Selecionar substantivos do texto, eliminando
sistematicamente palavras de outras classes gramaticais
Usando uma stoplist ou
usando um etiquetador morfossintático (part-of-speech
tagger) para determinar a classe das palavras e/ou
usando um thesaurus da língua ou do domínio
Operações sobre o texto
Identificação de Grupos Nominais
Como agrupar substantivos para formar termos
compostos
Considerando os grupos nominais identificados pelo
tagger
Considerando a distância entre os termos no texto Número de palavras entre os dois substantivos
Ex., Recuperação de Informação Apenas uma palavra (de)
Comparar com termos presentes em um tesauro do domínio
Pode conter termos compostos e termos simples(palavras
Operações sobre o texto
Identificação de Grupos Nominais
Vantagens
Grupos nominais carregam a maior parte da semântica de um texto
O significado de um grupo nominal é mais preciso que as palavras tomadas isoladamente, diminuindo a
ambiguidade, sinonímia e polissemia dos termos.
Desvantagens
Depende da taxa de acerto dos taggers, que é superior a 90%, mas não é 100%.
O agrupamento de substantivos também pode gerar erros.
Um grupo nominal identificado não necessariamente é palavra-chave do documento.
Preparação dos documentos
Operadores de texto
34 documento Análise Léxica Eliminar stopwords Grupos nominais Radicalização Vocabulário controlado • Operadores reduzem progressivamente a visão lógica do documento Texto completo Termos ou palavras-chaveOperações sobre o texto
Uso de Vocabulário Controlado
Objetivo
Identificar termos normalizados que representam conceitos para indexar o documento
Ex., Indexação, Recuperação de Informação, Inteligência Artificial
Procedimentos
Registrar a ocorrência e posição de ocorrência de
termos ou variações linguísticas de termos do tesauro no documento
Selecionar termos candidatos com base na ocorrência de termos e nas relações entre termos do tesauro
36
Vocabulário Controlado
Linguagens documentárias podem ser utilizadas
para orientar a atribuição de termos a documentos
no processo de indexação manual ou automática.
Contribuem para Indexação automática por
atribuição:
A ocorrência de variações linguísticas dos termos do vocabulário controlado ou dos termos não autorizados equivalentes (Relações USE e UF) no documento.
A ocorrência de variações linguísticas de um termo mais específico no documento (Relações TG e TE)
A relação de termo relacionado (TR) tem sido mais
explorada na expansão de termos na consulta, por
ter natureza contextual.
37
Uso de vocabulário controlado - Exemplo
Uso de tesauro de valores éticos e morais:
Desonestidade NE Antônimo de honestidade TE corrupção TR desonesto Honestidade ... TR honesto se/o/desonesto/ soubesse /a/vantagem/ de/ser/honesto/ele/ seria/honesto/ao/menos/ por/desonestidade/ socrates/ Análise Léxica desonesto/honesto/ honesto/desonestidade/ Uso de tesauro
Operações sobre o texto
Vocabulário controlado
Vantagens
Termos de especialidade encontrados no texto
são candidatos a palavras-chave
O significado de um termo é mais preciso que as
palavras tomadas isoladamente, diminuindo a ambiguidade, sinonímia e polissemia.
Desvantagens
Depende do vocabulário controlado.
Depende do casamento entre os termos do
vocabulário com as expressões em linguagem natural do documento.
Um termo que ocorre em um documento não
39
Exercício
1) Sobre o processamento dos textos (operações sobre o texto),
tomando a frase “Na conexão dos saberes e práticas está o
aprendizado, fruto de um processo de aprendizagem contínua.”: a) mostre o resultado de cada uma das operações de
processamento:
análise léxica (extrair palavras, transformá-las em minúsculo,
remover pontuação)
remoção de stopword (remover na, dos, e, está, o, de, um),
radicalização (remover os sufixos ão, o, os, es, as, ado, agem, ua).
b) A ordem destas operações sobre o texto pode ser alterada? Justifique.
40
Resolução do Exercício
1) “Na conexão dos saberes e práticas está o aprendizado,
fruto de um processo de aprendizagem contínua.”: a)
análise léxica (extrair palavras, transformá-las em minúsculo,
remover pontuação):
“na/conexão/dos/saberes/e/práticas/está/o/aprendizado/fruto/ de/um/processo/de/aprendizagem/contínua”
remoção de stopword (remover na, dos, e, está, o, de, um):
“conexão/saberes/práticas/aprendizado/fruto/processo/ aprendizagem/contínua”
radicalização (remover os sufixos ão, o, os, es, as, ado, agem, ua):
“conex/saber/prátic/aprendiz/frut/process/aprendiz/contín”
b) Não. A análise léxica deve ser sempre a primeira pois identifica as
palavras, a remoção de stopword a segunda pois compara palavras e radicalização a última por alterar a forma como as palavras serão representadas no sistema.
41
Referências