• Nenhum resultado encontrado

slides04-IndexacaoAutomatica

N/A
N/A
Protected

Academic year: 2021

Share "slides04-IndexacaoAutomatica"

Copied!
41
0
0

Texto

(1)

Indexação Automática

(2)

A automatização da indexação apresenta três

conceitos diferentes:

Indexação assistida por computador durante o armazenamento: sistemas que auxiliam o processo de armazenamento dos termos de indexação extraídos pelo indexador na etapa de análise

conceitual.

Indexação semi-automática: sistemas indexam automaticamente o documento e dão a possibilidade de edição e validação dos

termos pelo documentalista antes de serem armazenados como descritores do documento.

Indexação automática: sistemas indexam automaticamente o documento sem nenhuma validação por parte do documentalista; os termos de indexação são armazenados diretamente como

descritores do documento.

Indexação Automática

(3)

 De acordo com Lancaster (2004),

indexação automática é o processo que ocorre quando o computador é utilizado para substituir, em certa medida, a

indexação manual realizada por um indexador.

Indexação Automática

(4)

Indexação Automática por Extração - adota critérios de freqüência, posição e contexto com que as palavras aparecem no decorrer do texto para então extraí-las como descritores.

Parte do processamento do documento para extrair termos de indexação.

Indexação Automática por Atribuição - desenvolve, para cada termo a ser indexado, um “perfil” de palavras ou expressões que costumam ocorrer freqüentemente nos documentos.

• Este perfil de palavras geralmente é obtido através do

processamento de uma linguagem documentária, como um tesauro para o domínio.

• Parte do processamento da linguagem documentária para

atribuir termos de indexação ao documento.

Tipos de Indexação

Automática

(5)

Vocabulário de Indexação Automático

Consiste no conjunto de termos extraídos

ou atribuídos ao texto completo e/ou

metadados dos documentos após aplicação

de

operadores de texto

.

Sem utilização de vocabulário

controlado - usa a linguagem natural

como linguagem de indexação =>

vocabulário de indexação livre

.

Com uso de vocabulário controlado

-usa linguagem controlada como

linguagem de indexação =>

(6)

Indexação Manual vs Indexação Automática

Vantagens:  Contempla os conceitos em evidência nos documentos  Indexação seletiva  Aumenta a precisão na busca Desvantagens:  Cada documento é indexado por um

humano (processo lento)

 Pode gerar baixa

revocação Vantagens:  Contempla os termos em evidência no texto dos documentos  Maior cobertura de termos  Maior velocidade no processo de indexação Desvantagens

 Pode gerar baixa

precisão

(7)

Indexação Automática

 Lista de termos do documento pode ser reduzida

através do uso de operadores de texto, investigados

na área de pesquisa denominada Processamento de

Linguagem Natural.

 Cada fase de operação de texto pode utilizar

diferentes técnicas na sua implementação

 Cada sistema de RI implementa uma ou mais dessas

fases

 A escolha depende do tipo de sistema desejado

(8)

Processamento de Linguagem Natural

 O que é?

 Conjunto de técnicas computacionais para a análise

de textos com o propósito de simular o processamento humano da língua.

 Quais são as abordagens?

 Abordagem estatística – de menor custo e adaptáveis

a diversas línguas

 Abordagem linguística – específicos de cada língua

 Razões para aplicar em RI?

 Documentos e expressões de busca são enunciados

(9)

Processamento de Linguagem

Natural

 Principais usos em RI:

 Indexação automática

 Normalização de variações linguísticas

 Normalização morfológica ou Conflação de termos (radicalização,

lematização)

 Normalização léxico-semântica de termos através das relações

semânticas de sinonímia, hiponímia, hiperonímia

 Identificação de termos compostos

 Sintagmas nominais, termos complexos, unidades lexicais complexas,

expressões multi-palavras

 Resolução de ambiguidade

 Sintática (causa estrutural) ou semântica (causa lexical – homonímia,

polissemia)

(10)

Listas de Stopwords (Palavras Irrelevantes ou Vazias de

significado) – lista de palavras que não são boas como discriminantes

dos documentos por serem muito frequentes.

Stemmer (Radicalizador) – software que atua nas palavras

congêneres de um documento substituindo-as por uma representação única através do seu radical.

Lemmatizer (Lematizador) - software que atua nas palavras

congêneres de um documento substituindo-as por uma representação única através do seu lema.

Tagger (Etiquetador) – software que serve para identificar a

categoria gramatical de cada item lexical do texto analisado.

Parser – gera a representação arbórea sintática de uma frase.

Tesauro ou léxico – Fonte de termos candidatos a descritores e

relações entre termos

Ferramentas e recursos de

PLN

(11)

Listas de Stopwords (Palavras Irrelevantes ou Vazias de significado) • http://snowball.tartarus.org/algorithms/portuguese/stop.txt • Stemmer (Radicalizador) • http://snowball.tartarus.org/algorithms/portuguese/stemmer.html • Lemmatizer (Lematizador) • http://lxcenter.di.fc.ul.pt/services/en/LXServicesInflector.html • Tagger (Etiquetador) • LXTagger:http://lxcenter.di.fc.ul.pt/services/en/LXServicesSuite.html • Parser • PALAVRAS: http://beta.visl.sdu.dk/visl/pt/parsing/automatic/trees.php • Tesauro ou léxico • OpenWordnet-PT: http://wnpt.brlcloud.com/wn/

Exemplos de Ferramentas ou

recursos de PLN

11

(12)

Operadores de texto

 O objetivo é chegar à representação

computacional do documento, a ser armazenada em estrutura de índice para fins de recuperação.

12 “Se o desonesto soubesse a

vantagem de ser honesto, ele seria honesto ao menos por desonestidade.” Sócrates Doc original desonesto / soubesse / vantagem / honesto / seria / honesto / menos/desonestidade/ socrates honesto 2 desonesto 1 soubesse 1 vantagem 1 seria 1 menos 1 desonestidade 1 socrates 1

Operações de Texto Representação

(13)

Fonte: Adaptada de (Baeza-Yates, Ribeiro-Neto 1999)

Indexação Automática via

aplicação de Operadores de

texto

Full-text Reconhecimento da estrutura Estrutura Análise Léxica Documento Stopwords Stemming Grupos nominais Vocabulário Controlado Termos de índice 13

(14)

Preparação dos documentos

Operadores de texto

14 documento Análise Léxica Eliminar stopwords Grupos nominais Radicalização Vocabulário controlado • Operadores reduzem progressivamente a visão lógica do documento Texto completo Termos ou palavras-chave

(15)

Preparação dos documentos

Operadores de texto

15 documento Análise Léxica Eliminar stopwords Grupos nominais Radicalização Vocabulário controlado • Operadores reduzem progressivamente a visão lógica do documento Texto completo Termos ou palavras-chave

(16)

Análise Léxica

 Identificação de cada palavra e conversão de

caracteres

16

“Se o desonesto soubesse a

vantagem de ser honesto, ele seria honesto ao menos por

desonestidade.” Sócrates Doc original se/o/desonesto/ soubesse /a/vantagem/ de/ser/honesto/ele/ seria/honesto/ao/menos/ por/desonestidade/ socrates/ Análise Léxica

(17)

Operações sobre o texto

Análise léxica

Entrada

 O texto original

 uma cadeia de caracteres

Objetivo

 Converter o texto original em uma lista de palavras  Identificando as palavras que ocorrem no texto

Procedimento padrão

 Utilizar espaços como sendo separadores de palavras  Tratar pontuação, hífens, dígitos, e letras maiúsculas

e minúsculas

 Cada caso pode requerer tratamentos diferenciados 17

(18)

Operações sobre o texto

Análise léxica

Delimitação do início e fim das palavras:

 Espaço em branco, tabulações, enters

 Pontuação e hífens: . , ! ? : ;

- Caracteres numéricos

Eliminação de dígitos

 Geralmente, dígitos são removidos por serem

vagos

 Não terem uma semântica associada quando aparecem isolados

 Ex. 1910 (ano, peso, tamanho???)

(19)

Operações sobre o texto

Análise léxica

 Substituição de letras maiúsculas

 Objetivo principal

 Tornar a representação das palavras ou termos homogênea  Facilitar a recuperação do documento a partir de consultas

 Exceções

 Carneiro

 Animal ou nome próprio?

 Banco – instituição financeira  banco - assento

(20)

Operações sobre o texto

Análise léxica

 Como visto, existem diversas exceções a tratar

 Isso depende da aplicação, do domínio do sistema, etc...

 Sugestão

 Preparar lista de exceções e tratar caso a caso

 Engenhos de busca

 Geralmente, não eliminam nada

 Funcionam em todos os domínios...

 Indexam o texto completo com sua pontuação, dígitos, etc...

(21)

Preparação dos documentos

Operadores de texto

21 documento Análise Léxica Eliminar stopwords Grupos nominais Radicalização Vocabulário controlado • Operadores reduzem progressivamente a visão lógica do documento Texto completo Termos ou palavras-chave

(22)

Eliminação de Palavras Vazias de

significado

 Elimina palavras de uma lista (geralmente palavras

muito frequentes na coleção ou conectivos)

22 se/o/desonesto/ soubesse /a/vantagem/ de/ser/honesto/ele/ seria/honesto/ao/menos/ por/desonestidade/ socrates/ Análise Léxica desonesto / soubesse / vantagem / honesto / honesto / menos/ desonestidade/ socrates Eliminar stopwords

(23)

Operações sobre o texto

Eliminação de stopwords

Algumas palavras não são bons

discriminadores

 Palavras muito freqüentes na base de documentos

 Palavras sem semântica associada

 artigos, preposições, conjunções, pronomes, alguns advérbios e adjetivos

Aqui também há exceções a considerar

 Na extração de termos compostos ou grupos

nominais, podemos precisar manter algumas dessas palavras

 Recuperação de informação

(24)

Operações sobre o texto

Eliminação de stopwords

Vantagens

 Diminuir a representação do texto

 Melhorar a ordenação na recuperação

 Tf-idf

Desvantagens

 Diminuição da cobertura na recuperação

 Ex., “ser ou não ser”

 Somente o termo “ser” será usado na indexação documento

 Mais uma razão para os engenhos de busca utilizarem representação do texto completo

(25)

Preparação dos documentos

Operadores de texto

25 documento Análise Léxica Eliminar stopwords Grupos nominais Radicalização Vocabulário controlado • Operadores reduzem progressivamente a visão lógica do documento Texto completo Termos ou palavras-chave

(26)

Radicalização

 Utiliza um software que reduz a palavra a uma

aproximação do radical removendo sufixos

26 desonesto / soubesse / vantagem / honesto / honesto / menos/ desonestidade/ socrates Eliminar stopwords desonest / soub / vantag / honest / honest / men/desonest/ socrat Radicalização

(27)

Operações sobre o texto

Radicalização (Stemming)

 Problema

 Freqüentemente, o usuário especifica uma palavra na consulta, mas apenas uma variação dessa palavra

aparece nos documentos relevantes

 Ex., plural, gênero, gerúndio, verbos flexionados, aumentativo...

 Objetivo dessa operação:

Substituir a palavra por seu radical (stem)

 Porção da palavra que resta após a remoção de prefixos e sufixos

 Possibilitar casamento entre variações de uma mesma palavra

 Ex.: engenheiro, engenharia,...

(28)

Operações sobre o texto

Radicalização

 Vantagens

 Diminui a dispersão terminológica

 Permite o casamento das variações de uma palavra entre si.

 Desvantagens

Pode gerar redução demais (over stemming) ou redução de menos (under stemming) para certas palavras o que leva a um erro no casamento.

 Se aplica a todas as palavras do texto, incluindo nomes próprios e siglas.

(29)

Preparação dos documentos

Operadores de texto

29 documento Análise Léxica Eliminar stopwords Grupos nominais Radicalização Vocabulário controlado Termos ou palavras-chave • Operadores reduzem progressivamente a visão lógica do documento Texto completo

(30)

Identificação de Grupos Nominais

 Utiliza um software que extrai os substantivos e

termos compostos formados por substantivos do texto.

Exemplos: recuperação da informação, indexação

automática. 30 se/o/desonesto/ soubesse /a/vantagem/ de/ser/honesto/ele/ seria/honesto/ao/menos/ por/desonestidade/ socrates/ Análise Léxica desonesto / vantagem / honesto / honesto /desonestidade/ socrates/

Detecção de grupos nominais

(31)

Operações sobre o texto

Identificação de Grupos Nominais

 Objetivo

 Identificar grupos nominais (termos compostos) para indexar o documento

 Ex., Recuperação de Informação, Inteligência Artificial

 Procedimentos

 Selecionar substantivos do texto, eliminando

sistematicamente palavras de outras classes gramaticais

 Usando uma stoplist ou

usando um etiquetador morfossintático (part-of-speech

tagger) para determinar a classe das palavras e/ou

 usando um thesaurus da língua ou do domínio

(32)

Operações sobre o texto

Identificação de Grupos Nominais

 Como agrupar substantivos para formar termos

compostos

 Considerando os grupos nominais identificados pelo

tagger

 Considerando a distância entre os termos no texto  Número de palavras entre os dois substantivos

 Ex., Recuperação de Informação  Apenas uma palavra (de)

 Comparar com termos presentes em um tesauro do domínio

 Pode conter termos compostos e termos simples(palavras

(33)

Operações sobre o texto

Identificação de Grupos Nominais

Vantagens

 Grupos nominais carregam a maior parte da semântica de um texto

 O significado de um grupo nominal é mais preciso que as palavras tomadas isoladamente, diminuindo a

ambiguidade, sinonímia e polissemia dos termos. 

Desvantagens

 Depende da taxa de acerto dos taggers, que é superior a 90%, mas não é 100%.

 O agrupamento de substantivos também pode gerar erros.

 Um grupo nominal identificado não necessariamente é palavra-chave do documento.

(34)

Preparação dos documentos

Operadores de texto

34 documento Análise Léxica Eliminar stopwords Grupos nominais Radicalização Vocabulário controlado • Operadores reduzem progressivamente a visão lógica do documento Texto completo Termos ou palavras-chave

(35)

Operações sobre o texto

Uso de Vocabulário Controlado

 Objetivo

 Identificar termos normalizados que representam conceitos para indexar o documento

 Ex., Indexação, Recuperação de Informação, Inteligência Artificial

 Procedimentos

 Registrar a ocorrência e posição de ocorrência de

termos ou variações linguísticas de termos do tesauro no documento

 Selecionar termos candidatos com base na ocorrência de termos e nas relações entre termos do tesauro

(36)

36

Vocabulário Controlado

Linguagens documentárias podem ser utilizadas

para orientar a atribuição de termos a documentos

no processo de indexação manual ou automática.

Contribuem para Indexação automática por

atribuição:

 A ocorrência de variações linguísticas dos termos do vocabulário controlado ou dos termos não autorizados equivalentes (Relações USE e UF) no documento.

 A ocorrência de variações linguísticas de um termo mais específico no documento (Relações TG e TE)

A relação de termo relacionado (TR) tem sido mais

explorada na expansão de termos na consulta, por

ter natureza contextual.

(37)

37

Uso de vocabulário controlado - Exemplo

 Uso de tesauro de valores éticos e morais:

Desonestidade NE Antônimo de honestidade TE corrupção TR desonestoHonestidade ... TR honesto se/o/desonesto/ soubesse /a/vantagem/ de/ser/honesto/ele/ seria/honesto/ao/menos/ por/desonestidade/ socrates/ Análise Léxica desonesto/honesto/ honesto/desonestidade/ Uso de tesauro

(38)

Operações sobre o texto

Vocabulário controlado

Vantagens

 Termos de especialidade encontrados no texto

são candidatos a palavras-chave

 O significado de um termo é mais preciso que as

palavras tomadas isoladamente, diminuindo a ambiguidade, sinonímia e polissemia.

Desvantagens

 Depende do vocabulário controlado.

 Depende do casamento entre os termos do

vocabulário com as expressões em linguagem natural do documento.

 Um termo que ocorre em um documento não

(39)

39

Exercício

1) Sobre o processamento dos textos (operações sobre o texto),

tomando a frase “Na conexão dos saberes e práticas está o

aprendizado, fruto de um processo de aprendizagem contínua.”: a) mostre o resultado de cada uma das operações de

processamento:

 análise léxica (extrair palavras, transformá-las em minúsculo,

remover pontuação)

 remoção de stopword (remover na, dos, e, está, o, de, um),

 radicalização (remover os sufixos ão, o, os, es, as, ado, agem, ua).

b) A ordem destas operações sobre o texto pode ser alterada? Justifique.

(40)

40

Resolução do Exercício

1) “Na conexão dos saberes e práticas está o aprendizado,

fruto de um processo de aprendizagem contínua.”: a)

 análise léxica (extrair palavras, transformá-las em minúsculo,

remover pontuação):

“na/conexão/dos/saberes/e/práticas/está/o/aprendizado/fruto/ de/um/processo/de/aprendizagem/contínua”

 remoção de stopword (remover na, dos, e, está, o, de, um):

“conexão/saberes/práticas/aprendizado/fruto/processo/ aprendizagem/contínua”

 radicalização (remover os sufixos ão, o, os, es, as, ado, agem, ua):

“conex/saber/prátic/aprendiz/frut/process/aprendiz/contín”

b) Não. A análise léxica deve ser sempre a primeira pois identifica as

palavras, a remoção de stopword a segunda pois compara palavras e radicalização a última por alterar a forma como as palavras serão representadas no sistema.

(41)

41

Referências

(BAEZA-YATES, RIBEIRO-NETO, 2013)

Referências

Documentos relacionados

543, parágrafo 2º, da CLT, os dirigentes sindicais, não afastados de suas funções na empresa, poderão ausentar-se do serviço até 15(quinze) dias pôr ano, sem

Se você apresentar qualquer tipo de irritação ocular ou qualquer novo problema nos olhos, como vermelhidão dos olhos ou inchaço das pálpebras, entre em contato com seu

Em 2019 ou 2020 não fui contemplado com o Auxílio Livros, com algum outro Auxílio (por exemplo: Auxílio Alimentação) ou ainda com as Bolsas Afinal (disponível apenas para alunos

Participaram do julgamento o Excelentíssimo Senhor Conselheiro Presidente Carlos Thompson Costa Fernandes e os Conselheiros Tarcísio Costa, Paulo Roberto Chaves

4.1.2.6 Índices de absorção em água IAA e solubilidade em água ISA Na Tabela 10 estão apresentados os valores de IAA e ISA dos grânulos dos amidos, diferenciados conforme o teor

Assim, surge o termo letramento, que é “o resultado da ação de ensinar ou de aprender a ler e escrever, bem como o resultado da ação de usar essas habilidades em práticas

De acordo com a Embrapa (2012) estão entre as principais perspectivas sobre o dinâmico agronegócio da soja brasileira, tendo como base a realidade atual: o crescimento do

O INSTITUTO MANTENEDOR DE ENSINO SUPERIOR DA BAHIA LTDA - IMES, Instituição Educacional constituída como pessoa Jurídica de Direito Privado, com observância do Artigo 44,