Latent Semantic Indexing - Modelagem de tópicos

3.2. Modelagem de tópicos

3.2.1. Latent Semantic Indexing

O modelo Latent Semantic Analysis (LSA) - Análise Semântica Latente foi o marco inicial para desenvolvimento de modelos de extração de tópicos aplicada para Information Retrieval (IR) - Recuperação da Informação de documentos e termos, antecedendo à extração automática de assunto num espaço semântico latente (LANDAUER; DUMAIS, 1997; HOFMANN, 1999b; CHANG et al., 2009; AGGARWAL; ZHAI, 2012). Em IR, o LSA recebe também o nome Latent Semantic Indexing (LSI) - Indexação Semântica Latente é utilizado para recuperar e categorizar documentos e generalizar resultados.

Trata-se de um conjunto de procedimentos automatizados que busca medir, por meio quantitativo, a semelhança de significado entre duas palavras ou grupos de palavras. O modelo LSI é uma técnica utilizada para reduzir o tamanho dos descritores contidos em um determinado corpus de dados e amplamente utilizada na área da recuperação da informação baseada em modelo vetorial introduzido (DEERWESTER et al., 1990; BERRY; DUMAIS; O’BRIEN, 1995) a partir de 1988 (DEERWESTER et al., 1988) e obtendo bons resultados, apesar de sua simplicidade (GRAESSER et al., 2000).

A recuperação dos documentos ocorre por meio de buscas por palavras- chave enquanto a categorização é realizada por especialistas de acordo com a área de domínio. Além disso, o modelo generaliza os resultados por meio de documentos próximos em diversas línguas (CHANG et al., 2009). Dessa forma, assume-se que nos documentos contenham alguma estrutura subjacente ou latente no padrão de uso das palavras, utilizando, assim, técnicas estatísticas para estimar a estrutura latente do conteúdo semântico dos documentos na coleção (DEERWESTER et al., 1990; DUMAIS, 1995). Para representar e recuperar informações, ao invés de utilizar palavras em nível de superfície, utiliza-se uma descrição dos termos, documentos e consultas de usuários com base na estrutura subjacente semântica latente. (DUMAIS, 1995).

A semelhança entre documentos ou documentos e consultas podem possuir uma maior confiabilidade em sua representação quando reduzida no espaço latente do que em sua representação original. Além disso, os documentos que compartilham de termos coocorrentes terão representação semelhantes no espaço latente. Dessa forma, o modelo apresenta uma redução de ruídos e potencializa a detecção de sinônimos de palavras que se referem ao mesmo tópico (HOFMANN, 1999b).

O modelo LSI, utilizado de um método de indexação automática que projeta intencionalmente os documentos de alta dimensão e seus termos com base em suas frequências em um espaço de baixa dimensionalidade, representa o conceito semântico no documento. Com isso, o modelo LSI permite realizar a análise de documentos puramente baseada em termos e de maneira conceitual, quando projetados os documentos num espaço semântico (DEERWESTER et al., 1990; AGGARWAL; ZHAI, 2012). As dependências entre os termos dos documentos de um determinado corpus possuem relevância em sua representação e é simultaneamente explorada na recuperação por meio de suas inter-relações entre termos e documentos. Destaca-se como vantagem na utilização do método referente a representação LSI que uma consulta pode possuir similaridade aos documentos, mesmos quando não compartilham de palavras (DUMAIS, 1995).

O LSI utilizou-se do ferramental da álgebra linear para decompor um corpus nos seus temas constituintes e reduzir os efeitos adversos gerados pela sinonímia e polissemia por meio da identificação de associações estatísticas entre os termos. Dessa forma, aplica-se mais especificamente à decomposição Singular Value Decomposition (SVD) - Decomposição de Valor Singular em uma matriz com que realiza a contagem de frequência dos termos contidos nos documentos de todo o corpus ou de apenas fragmentos desses documentos (HOFMANN, 1999a; CHANG et al., 2009; AGGARWAL; ZHAI, 2012). O princípio dessa técnica é que o espaço original formado pelos termos W é rotacionado de maneira que: i) o primeiro eixo aponte para a direção de maior variância dos documentos; e ii) o segundo eixo aponte para a direção de segunda maior variância e assim sucessivamente (AGGARWAL; ZHAI, 2012).

O modelo LSI refere-se a palavras utilizadas em um mesmo contexto e que tendem a ter significados semelhantes. Desenvolve-se utilizando um

conjunto de procedimentos estatísticos e automatizados que possibilita aferir, de forma quantitativa, a semelhança de significados entre duas palavras ou um grupo de palavras utilizadas no mesmo contexto, o que possibilita a extração de tal conteúdo conceitual de um determinado corpus e estabelece a associação entre os termos (WITTER; BERRY, 1998).

O LSI permite realizar associações desconhecidas entre as palavras de forma que possam ser induzidas a partir de uma grande análise, ao identificar como as palavras contidas em documentos ocorrem em combinação com as outras palavras por meio da língua natural. Além disso, o modelo LSI também pode ser utilizado para determinar a similaridade entre palavras ou documentos do corpus com documentos externos (MARTIN; BERRY, 2011).

O LSI utiliza a SVD de uma matriz de termos por documentos responsável por identificar um subespaço linear que apresenta uma maior variação no espaço de características. O SVD está relacionado à análise fatorial para modelar as relações associativas e a decomposição de autovalores (DUMAIS, 1995; WITTER; BERRY, 1998; HOFMANN, 1999b). Os vetores singulares produzem um espaço-k e os vetores singulares correspondentes são utilizados para codificar os termos e os documentos em um espaço vetorial de dimensão k juntamente com uma consulta de usuário. Dessa forma, por meio do modelo LSI, termos e/ou documentos de importância podem ser recuperados e correspondidos até mesmo quando não houver palavras em comum com os documentos relevantes (WITTER; BERRY, 1998).

Em uma matriz de documentos de termos acontece a decomposição em um conjunto de k, onde a matriz original pode se aproximar de uma cominação linear por meio dos fatores ortogonais. A representação de documentos e consultas – que seriam realizadas por um conjunto de palavras independentes – são representados como valores contínuos em cada uma das dimensões k de indexação ortogonais. Com isso, as palavras não serão independentes, uma vez que os números de fatores e dimensões são menores em relação ao número de termos exclusivos. Dessa forma, se dois ou mais termos foram utilizados em contextos semelhantes em documentos, acabaram por ter vetores semelhantes na representação LSI de dimensão reduzida. Faz-se necessário destacar que a SVD pode capturar melhor essa estrutura do que realizar uma simples correlação de termos ou documento-documento e clusters (DUMAIS, 1995).

A SVD é uma forma geral de análise fatorial no qual condensa uma grande matriz de dados word-by-context para uma consideravelmente menor. Mesmo assim, ainda contém informações de relevância sobre os dados. Essa técnica consiste em quatro etapas: i) construir uma matriz de documentos a partir de um corpus ou corpora de documentos; ii) realizar a decomposição SVD da matriz; iii) escolher n componentes principais; e iv) utilizar uma métrica de semelhança como cosseno para encontrar o documento mais semelhante (SCARPA, 2017).

A Principal Components Analysis (PCA) - Análise de Componentes Principais está relacionada ao conceito de SVD e trata-se de um método de redução de dimensionalidade que permite encontrar uma projeção dos pontos alocados em um subespaço de dimensão k. Dessa forma, acaba por preservar dois pontos fundamentais: características genéticas e clustering dos pontos originais (SCARPA, 2017). Trata-se de um dos métodos de extração de características que trabalha com projeção linear por meio de aprendizagem não supervisionada. A PCA assemelha-se a Factor Analysis (FA) – Análise Fatorial e a Multidimensional Scale (MDS) - Escala Multidimensional (ALPAYDIN, 2010).

No documento O comportamento de termos da Ciência da Informação por meio da modelagem de tópicos (páginas 92-95)