Latent Dirichlet Allocation - Modelagem de tópicos

3.2. Modelagem de tópicos

3.2.2. Latent Dirichlet Allocation

Um dos modelos probabilísticos generativos mais utilizados é o Latent Dirichlet Allocation (LDA) - Alocação de Dirichlet Latente. O modelo utiliza uma abordagem bayesiana e parte do princípio de que os documentos contidos em um determinado corpus sejam representados como misturas aleatórias de tópicos latentes. Posteriormente, cada tópico passa a ser caracterizado por uma distribuição de palavras que compreendem a cada um dos documentos (BLEI, 2012).

No que diz respeito à modelagem probabilística de tópicos, as estruturas- base referentes ao modelo LDA foram baseadas por meio do trabalho seminal dos modelos Latent Semantic Analysis (LSA) - Análise Semântica Latente e Probabilistic Latent Semantic Indexing (pLSI) - Indexação Semântica Latente Probabilística que, consequentemente, destacaram-se pela criação de outros modelos probabilísticos de tópicos. O LDA refere-se a uma evolução do modelo LSA com o uso de fórmulas probabilísticas (STEYVERS; GRIFFITHS, 2007; BLEI; LAFFERTY, 2007; 2009) e uma extensão do modelo Probabilistic Latent Semantic Analysis (pLSA) - Análise Semântica Latente Probabilística, permitindo

assim propor um modelo generativo probabilístico com base no vocabulário fixo de termos. Dessa forma, os tópicos são definidos por meio de uma distribuição de probabilidades (SANTOS, 2015). Trata-se de uma técnica que possui aplicações na recuperação e filtragem da informação, Processamento de Linguagem Natural (PLN) e Machine Learning a partir de texto e suas áreas de relacionamento, levando em consideração a técnica estatística para análise de modo e coocorrência de dados (HOFMANN, 1999a).

A modelagem de tópicos induz a relação entre tópicos e documentos de um ou mais corpus. Dessa forma, o LDA é uma técnica de modelagem de tópicos considerada mais simples e utilizada para extrair tópicos de dados textuais (BLEI; NG; JORDAN, 2003; BLEI, 2012; GRUS, 2016). Com isso, os modelos de tópicos aprendem tópicos representados por um conjunto de palavras importantes extraídas automaticamente de documentos não marcados e de maneira não supervisionada. Os algoritmos não possuem informações sobre os assuntos e os documentos não são rotulados por palavras-chave ou tópicos, entretanto, faz-se necessário medidas de coerência para diferenciar os tópicos bons dos ruins, uma vez que pode existir ou não a garantia da interpretação dos dados (BLEI; NG; JORDAN, 2003; BLEI, 2012).

Trata-se de um modelo estatístico descrito pelo seu processo generativo de indexação semântica probabilística – aleatório imaginário, que quando aplicado coleções de documentos, resulta em distribuições tópicas de probabilidade multinominal interpretáveis sobre os termos gerados pelo agrupamento flexível de palavras (BLEI, 2012; BLEI; NG; JORDAN, 2003). O modelo LDA é um modelo bayesiano hierárquico que possui três níveis: i) cada item de uma coleção é moldado como uma mistura finita sobre um conjunto subjacente de tópicos; ii) cada tópico é modelado como uma mistura infinita sobre um conjunto subjacente de probabilidade de tópico; e iii) as probabilidades dos tópicos fornecem uma representação explícita de um documento (BLEI; NG; JORDAN, 2003; NOLASCO; OLIVEIRA, 2016b).

O modelo LDA presume que existe um número fixo K de tópicos e uma variável aleatória responsável por atribuir a cada tópico uma probabilidade de distribuição associada às palavras. Essa distribuição pode ser pensada como a probabilidade de ver a palavra w para o tópico K. Existe também outra distribuição aleatória: para cada documento é atribuída a probabilidade de

distribuição do tópico, podendo ser considerado como uma mistura de tópicos no documento d. Dessa forma, as palavras são geradas inicialmente pela escolha aleatória de um tópico, sendo da distribuição do tópico dos documentos para depois ser gerada a palavra referente à distribuição das palavras dos tópicos (BLEI, 2012; GRUS, 2016).

O modelo define um tópico por meio da distribuição de probabilidade sobre o vocabulário fixo, antes mesmo dos documentos. Em um tópico de “genética” por exemplo, será constituído por palavras relacionadas aos termos que possuam maior probabilidade de ocorrência. Probabilidade de baixa ocorrência ou zero poderá ocorrer em tópicos que se relacionam com quaisquer outros assuntos diferente de “genética”. Todos os tópicos contêm distribuição de palavras com probabilidades sobre o vocabulário fixo (NOLASCO; OLIVEIRA, 2016b).

A Figura 02 ilustra o processo generativo do modelo LDA de Blei (2012). Inicialmente, assume-se um certo número de tópicos constituídos por uma distribuição de palavras com os respectivos percentuais de representatividade para todo o corpus de dados, representado à esquerda da ilustração. Os documentos são gerados a partir da escolha da distribuição sobre os tópicos representados pelo histograma à direita. Posteriormente, para cada palavra há uma atribuição de tópico, representada pelas moedas coloridas. Por fim, a escolha da palavra que será associada ao tópico correspondente, representada pelos retângulos coloridos (BLEI, 2012).

Fonte: (BLEI, 2012).

Ao aplicar o modelo estatístico LDA em um conjunto de documentos, os tópicos são interpretáveis como temas na coleção e as representações do documento remetem aos temas de cada documento. Destacam-se três pontos importantes: variáveis aleatórias ocultas codificam a estrutura temática; os tópicos aprendidos resumem a coleção e as representações dos documentos; e os corpora em grupos sobrepostos são organizados pela representação do documento (CHANEY; BLEI, 2012). Cada documento contido em um corpus possui sua destruição própria de tópicos. Dessa forma, cada documento pode conter vários tópicos e cada um deles contém a sua proporção de relevância. Tal distribuição de tópicos para cada documento está relacionada à distribuição multivariada de Direchlet (SANTOS, 2015).

A Figura 03 ilustra o modelo LDA, configurado para identificar 100 tópicos em um corpus de dados formado por 17.000 artigos científicos da revista científica Science. À esquerda da imagem são representadas as proporções dos tópicos inferidos e, à direita, as proporções dos tópicos mais frequentes com as 15 palavras de maior frequência para cada tópico (BLEI, 2012).

Figura 03 – Tópicos extraídos do modelo LDA

Fonte: (BLEI, 2012).

O modelo LDA é descrito por meio da notação:

1. Dado os tópicos _: , onde cada vocabulário V.

2. As proporções dos tópicos para o d-ésimo documento são , onde é a proporção do tópico n no documento d.

3. As atribuições de tópicos para o d-ésimo documento são , onde

, é a atribuição do tópico para a i-ésima palavra no documento

4. Por fim, as palavras observadas para o documento d são , onde

, é a i-ésima palavra no documento d, a qual é um elemento do

vocabulário V.

O processo generativo em LDA corresponde à distribuição conjunta das variáveis observadas e ocultas representada pela expressão:

( _: , : , : , : ) =

= 1

= 1 ( ) = 1 ( ) = 1 , , : , :

Os modelos de tópicos são considerados de suma importância para a exploração de dados onde os tópicos acabam por apresentar um resumo do corpus de dados. A análise de um modelo de tópico pode revelar conexões e concorrências entre documentos, o que seria impossível ou não estariam óbvias quando realizadas de forma manual. Importa ressaltar que os modelos de extração de tópicos não são definitivos, sendo necessário realizar ajustes do modelo ao corpus. Dessa forma, é preciso utilizar outros métodos que evidenciem os assuntos contidos na coleção de documentos (BLEI; LAFFERTY, 2009).

No documento O comportamento de termos da Ciência da Informação por meio da modelagem de tópicos (páginas 95-99)