Multi-termos - Análise de Proximidade entre Investigadores de Alguns Centros de I&D da Universi

Segundo Weiss et al. (2005), apesar de na maioria das vezes ser razoável gerar

tokens a partir de palavras singulares, nalguns casos é preferível que os tokens

contenham um grupo de palavras. O caso mais simples são os pares de palavras mas, muitas vezes, certos conceitos são descritos por ainda mais palavras.

Os autores referem entidades como “Don Smith” ou “Estados Unidos da América” como exemplo de multi-termos. E estas palavras podem ou não ser seguidas – no exemplo do nome próprio “Don Smith”, o nome do meio “Leroy” pode também aparecer, não afectando o reconhecimento desta entidade. Outro exemplo poderá ser, para a língua portuguesa, um substantivo seguido por um adjectivo como “vaso partido”. Mais uma vez, as palavras poderão não se encontrar contíguas, isto é, ter outro adjectivo antes, e, no caso da língua portuguesa, nem sequer estarem pela ordem mencionada anteriormente.

Mas ainda se pode dar o caso em que as palavras não têm necessariamentede ser contiguas, podendo ser mais correlaccionadas num determinado intervalo de palavras. Weiss et al. (2005) referem o caso de um boicote da Alemanha a um determinado produto, em que, em língua inglesa, o radical “german” estaria altamente correlacionado com o radical “boycott” num determinado (por exemplo cinco) intervalo de palavras.

Se para a extracção de entidades se utilizam métodos específicos, para outros atributos multi-termos a sua identificação baseia-se na correlação de palavras em

dk_D

m₁, m₂=1−K_0.5,1r₁k_{, r}

potenciais combinações multi-termo, utilizando-se para tal medidas de informação

mútua e de rácios de máxima verosimelhança.

Weiss et al. (2005) fornecem uma equação da medida de associação (MA) para a expressão multi-termo t, utilizada para avaliar as construções multi-termo em que a

amp(t) representa o número de palavras na frase t e freq(t) a frequência da frase t no

corpus.

Segundo Weiss et al. (2005), apesar de as construções multi-termo não serem em geral abundantes, podem ter um grande poder predictivo, ampliando a interpretabilidade dos resultados.

2.8.1. Extracção de palavras e frases-chave

Weiss et al. (2005) referem a necessidade de encontrar descritores ou palavras- chave de agrupamentos como uma forma de permitir uma melhor interpretação humana até para validar o seu sentido ou significado. Para a geração dessas palavras-chave, os autores recorrem à composição de dicionários locais para cada agrupamento, como se fossem categorias geradas de uma forma supervisionada, seleccionando posteriormente as palavras com maior valor de tf-idf.

Weiss et al. (2005) referem ainda casos de selecção de atributos de um dicionário global ou local como meio para encontrar o conjunto de palavras mais representativo de cada agrupamento.

Witten et al. (2005) desenvolveram a aplicação KEA para extracção automática de frases-chave de documentos, isto é, metadados semânticos que sumarizam e caracterizam os documentos. Esta a aplicação é acessível no pacote R através do pacote RKEA.

Os autores distinguem duas abordagens na geração de frases-chave para um documento – a atribuição e a extracção. Ambos os métodos recorrem à aprendizagem automática e necessitam de um conjunto de documentos com palavras-chave definidas para o treino.

Segundo Witten et al. (2005), a atribuição de frases-chave selecciona frases a partir de vocabulário controlado que melhor descreve um documento. Os dados de

MA T =amp T ×log10[ freqT ]× freqT 

treino associam um conjunto de documentos com cada frase do vocabulário e constrói um classificador para cada frase. Um novo documento é processado por cada classificador e atribuído à frase-chave de qualquer modelo que a classifique positivamente. As únicas frases-chave que podem ser atribuídas são as que se encontram nos dados de treino.

A abordagem de extracção de frases-chave utilizada por Witten et al. (2005) no KEA, não utiliza um vocabulário controlado, escolhendo frases-chave do próprio texto. Recorre a técnicas de recolha de informação e recolha lexical para extrair frases que o caracterizam. O conjunto de treino é utilizado aqui para aperfeiçoar os parâmetros do modelo de extracção.

O KEA identifica as frases candidatas, depois de limpar o texto de pontuação, numerais e outros caracteres que não são letras. As frases candidatas são delimitadas por um tamanho máximo, normalmente três palavras, não podendo ser nomes próprios (palavras isoladas que aparecem sempre com letra maiúscula) e não podem começar ou finalizar com stopwords. Apesar do algoritmo do KEA ser independente da língua, necessitará de recursos próprios de cada língua para supressão dos afixos das palavras e redução ao seu radical (stem), podendo resultar no agrupamento de frases-chave à partida diferentes sem esta operação.

O treino e extracção de frases-chave recorre ao cálculo de dois atributos das frases candidatas – o indicador tf-idf, já descrito, e a distância da primeira ocorrência da frase candidata no documento.

Os autores assumem ser difícil igualar o desempenho das frases de sumarização geradas por humanos que lhes servem de referência, mas trata-se de um bom auxiliar para os utilizadores de bibliotecas digitais.

2.8.2. Identificação de entidades referenciadas

Segundo Poibeau e Kosseim (2001), o reconhecimento de entidades nomeadas em jornais foi uma das preocupações das Message Understanding Conferences (MUC4 – 1992, MUC5 – 1993, MUC6 – 1995), compreendendo três tipos de expressões. O primeiro grupo trata de nomes próprios, incluindo nomes de pessoas, localizações e organizações, como o que se faz no sistema ENAMEX. O segundo cuida de expressões temporais, nomeadamente datas e horas, como o que compreende o sistema TIMEX. O

terceiro identifica expressões numéricas como dinheiro e percentagens, como o que se faz no sistema NUMEX.

Concentrando-se no ENAMEX, Poibeau e Kosseim (2001) distiguem duas abordagens. A abordagem probabilística utiliza um modelo de linguagem treinado em extensas colecções de texto para aprender padrões de reconhecimento. A abordagem linguística baseia-se numa descrição sintáctica e lexical das expressões procuradas, recorrendo para isso à geração de tokens com respectivas etiquetas gramaticais através de várias ferramentas. Entre essas ferramentas contam-se dicionários geográficos, dicionários genéricos da língua e as listas de marcadores, em que se incluem títulos e palavras gatilho como “presidente” ou “deputado”.

No documento Análise de Proximidade entre Investigadores de Alguns Centros de I&D da Universidade do Porto usando Text Mining sobre Bases de Dados Bibliográficas (páginas 55-58)