Gabriel Serrão Seabra

(1)

Gabriel Serrão Seabra

Análise de Artigos Científicos Através de

Processamento de Linguagem Natural:

Identificação de Tópicos através de LDA (Latent

Dirichlet Allocation)

Monografia de Final de Curso

28/06/2020

Monografia apresentada ao Departamento de Engenharia Elétrica da PUC/Rio como parte dos requisitos para a obtenção do título de Especialização em Business Intelligence.

(2)

Orientador: Leonardo Alfredo Forero Mendoza

AGRADECIMENTOS

Agradeço à toda equipe da PUC-Rio caminhou de mãos dadas com todos os alunos na busca por conhecimento durante o curso BI Masters. Todos, coordenadores, professores, monitores e assistentes se empenharam para dar todo apoio necessário para a conclusão do curso com o máximo aproveitamento.

Ao meu orientador desta monografia, Leonardo Mendonza. Por toda a compreensão e ensinamentos.

Aos meus amigos e colegas que estiveram presentes nesta trajetória, peço desculpas por não citar todas pessoas que fizeram parte deste momento.

Agradeço à minha namorada, Rina. Por me apoiar em todos os momentos, sempre me motivando a melhorar.

Por fim, agradeço à minha família, por me apoiar em todas as jornadas da vida. Em especial, meus pais Maurício e Sandra, que apesar de todas as dificuldades, sempre colocaram minha educação em primeiro plano.

(3)

Meus filhos terão computadores, sim, mas antes terão livros. Sem livros, sem leitura, os nossos filhos serão incapazes de escrever – inclusive a sua própria história...” Bill Gates

(4)

RESUMO

Uma das vertentes da inteligência artificial é o processamento de linguagem natural (NLP – Natural Language Processing), que consiste em algoritmos desenvolvidos com o objetivos de fazer a máquina compreender a linguagem dos seres humanos. Esta ferramenta possibilita a extração automática de informações de grandes quantidades de textos, auxiliando especialistas de diferentes áreas. Neste contexto, a LDA (Latent Dirichlet Allocation - Alocação Latente de Dirichlet) é um algoritmo capaz de identificar tópicos relevantes em documentos, facilitando a busca de informações e o agrupamento de textos similares. Em resposta a pandemia do COVID-19, o governo dos Estados Unidos preparou uma base de dados de textos científicos com mais de 29 mil artigos com estudos sobre o novo coronavírus e vírus semelhantes, chamado de CORD-19 (COVID-19 Open Research Dataset). A aplicação de técnicas de NLP sobre essa massa de dados pode auxiliar a comunidade médica no combate a pandemia, acelerando a extração de conhecimento destes documentos e ajudando a responder questões ainda em aberto sobre a doença. O objetivo principal do presente trabalho é aplicar sob parte dos dados do CORD-19 algoritmos de NLP para facilitar a identificação de similaridade entre os textos. Os textos foram pré-processados e, posteriormente, foi utilizado o LDA para identificar tópicos relevantes. Neste processo, com base em métricas estatísticas de qualidade, foi feita análise de sensibilidade para avaliar quais os melhores parâmetros do algoritmo a serem utilizados. Após este processo, foi possível sugerir tópicos para novos textos (que não participaram do processamento inicial).

(5)

ABSTRACT

One of the areas of artificial intelligence is the natural language processing (NLP) which consists of algorithms developed with the objective of making the machine understand the language of human beings. This tool allows the automatic extraction of information from large amounts of datasets, assisting specialists from different areas. In this context, the LDA (Latent Dirichlet Allocation) is an algorithm capable of identifying relevant topics in documents, facilitating the search for information and clustering of similar texts. In response to the COVID-19 pandemic, the United States government prepared a database of scientific articles with more than 29,000 texts with studies about the new coronavirus and similar viruses, called CORD-19 (COVID-19 Open Research Dataset). The application of NLP techniques on this data can assist the medical community facing the pandemic, accelerating the extraction of insights from these documents and helping to answer questions that remains open. The main objective of this work is to apply NLP algorithms on the CORD-19 data to facilitate the identification of similarity between articles. The texts were pre-processed and LDA was used to identify relevant topics. In this process, based on quality statistical metrics, a sensitivity analysis was performed to indentify the best parameters of the LDA algorithm. Furthermore, it was possible to suggest topics for new texts.

Sumário

(6)

1.1. MOTIVAÇÃO ... 7 1.2. OBJETIVOS DO TRABALHO ... 9 1.3. DESCRIÇÃO DO TRABALHO ... 9 1.4. ORGANIZAÇÃO DA MONOGRAFIA ... 10 2. FUNDAMENTAÇÃO TEÓRICA ... 10 3. METODOLOGIAS ... 14

3.1. PRÉ PROCESSAMENTO DOS DADOS ... 14

3.2. TREINAMENTO DO MODELO LDA ... 16

4. RESULTADOS ... 17

5. CONCLUSÕES E TRABALHOS FUTUROS ... 21

(7)

1. INTRODUÇÃO

1.1. MOTIVAÇÃO

O Processamento de Linguagem Natural (NLP – Natural Language Processing) é a área da inteligência artificial que consiste no desenvolvimento de modelos computacionais que permitem a máquina processar e compreender automaticamente linguagens dos seres humanos, faladas e escritas [1].

O processamento de linguagem natural vem sendo aplicado em diferentes áreas com diferentes objetivos, a extração automática de informações de grandes quantidades de artigos, geração automática de textos, tradução assistida por máquinas, além de outras. Abaixo podem ser verificados alguns exemplos [2].

• Predição de doenças com base no processamento na fala de pacientes. • Análise de sentimentos de postagens em mídias sociais com o objetivo de

avaliar a percepção de consumidores sobre diferentes produtos. • Filtragens automáticas de spam em serviços de e-mail.

• Identificação automática de notícias falsas (fake news).

• Monitoramento automático de notícias para avaliação de impacto no mercado financeiro.

• Extração automática de temas relevantes em documentos

Dentre as diferentes técnicas utilizadas em NLP, a Alocação Latente de Dirichlet (LDA - Latent Dirichlet Allocation) é um algoritmo não supervisionado de aprendizado de máquina que tem a função de identificar tópicos que melhor descrevem documentos. A LDA considera uma quantidade fixa de tópicos representados por palavras que são extraídas automaticamente dos textos. Por fim, o objetivo do algoritmo é mapear os documentos melhor representados por cada tópico. Desta forma, é possível agrupar documentos similares utilizando seus tópicos representativos como base [3]. Outros algoritmos de aprendizado de máquina especializados em agrupamentos como, por exemplo, o KMeans também podem auxiliar neste processo. Figura 1 ajuda na compreensão do produto do algoritmo LDA.

(8)

Figura 1 - Exemplo de extração de tópicos após a aplicação de LDA em um texto [3]. Em um esforço conjunto para combater a pandemia do novo coronavírus [4], O governo dos Estados Unidos, institutos de pesquisas e universidades prepararam uma base de dados de textos científicos com mais de 29 mil artigos com estudos sobre o novo coronavírus e vírus semelhantes, chamado de CORD-19 (COVID-19 Open Research Dataset), a maior base de dados disponível para análise de dados a respeito da doença e suas causas [5]. Esta base está disponível para a comunidade científica no site Kaggle [6], em conjunto com exemplos de questões que a aplicação de NLP sobre a grande massa de artigos pode ajudar a responder:

• O que se sabe sobre transmissão, incubação e estabilidade ambiental? • O que foi publicado sobre cuidados médicos?

• O que sabemos sobre genética, origens e evolução do vírus? • Quais informações temos sobre vacinas e terapias?

• O que sabemos sobre vigilância e diagnóstico?

• O que foi publicado sobre compartilhamento de informações e colaboração intersetorial?

(9)

• O que se sabe sobre fatores de risco de Covid-19? • Quais as intervenções não farmacêuticas?

Uma das formas possíveis para buscar as respostas para tais questões utilizando NLP é através da identificação de tópicos relevantes nos documentos disponíveis, bem como agrupando estes textos para que o processo de extração de conhecimento desse material seja acelerado. Pensando nisso, neste trabalho foi aplicada a técnica de LDA sobre uma parte do conjunto de dados do CORD-19 tópicos relevantes nestes documentos, possibilitar sugerir tópicos para novos documentos e, também, agrupar textos com base na similaridade dos tópicos que os representa.

1.2. OBJETIVOS DO TRABALHO

O objetivo principal do presente trabalho é aplicar sob parte dos dados do CORD-19 algoritmos de NLP para facilitar a identificação de similaridade entre os textos através da extração de tópicos relevantes com o algoritmo LDA.

Além disso, com este conjunto de artigos foi feita análise de sensibilidade para avaliar quais os melhores parâmetros do algoritmo a serem utilizados e, posteriormente, feita sugestão de tópicos para novos textos.

Também faz parte do escopo do presente trabalho, o agrupamento de documentos com base nos tópicos mais relevantes.

1.3. DESCRIÇÃO DO TRABALHO

O desenvolvimento dessa monografia envolveu 4 etapas: Carregamento e pré processamento de parte dos artigos científicos disponíveis no CORD-19; Aplicação da técnica de LDA nos artigos de interesse com análise de otimização dos parâmetros do algoritmo; Sugestão de tópicos relevantes para novos textos.

Para todo o desenvolvimento do trabalho um código em Python foi utilizado para o carregamento e processamento dos dados. Uma parte dos artigos disponíveis no CORD-19 foram carregados diretamente do site Kaggle [6]. Posteriormente, foram aplicadas técnicas de pré-processamento dos textos para que eles pudessem ser utilizados no algoritmo LDA. Os documentos passaram por processos de tokenização, lematização, remoção de stopwords, cada documento foi representando como um

(10)

vetor de contagem de termos, a partir de uma técnica de bag of words [7] e, finalmente, obtida uma matriz de termos e documentos para o conjunto de dados utilizado.

A aplicação do algoritmo LDA para remoção de tópicos relevantes iniciou com o treinamento do algoritmo utilizando a matriz de termos e documentos. A qualidade do modelo foi avaliada a perplexidade do modelo [3] e, posteriormente, com o mesmo conjunto de dados, foi realizada análise de sensibilidade para obter os melhores parâmetros do modelo.

Foram extraídos os tópicos dominantes em cada um dos documentos com o modelo otimizado, os quais foram visualizados utilizando a ferramenta pyLDAvis. Desta forma também foi possível avaliar que palavras representavam cada tópico.

O mesmo modelo foi utilizado para sugerir tópicos relevantes para um novo documento sintético.

A versão final do algoritmo aplicado sobre os artigos selecionados mostrou potencial para a identificação de documentos similares em uma grande massa de dados.

1.4. ORGANIZAÇÃO DA MONOGRAFIA

Esta monografia está dividida em 5 capítulos adicionais, descritos a seguir: O capítulo 2 apresenta a fundamentação teórica referente aos métodos selecionados para serem empregados no trabalho.

O capítulo 3 apresenta as metodologias aplicadas, explicando o macro algoritmo utilizado no trabalho.

O capítulo 4 apresenta a aplicação do algoritmo a base de documentos CORD-19 selecionados.

O capítulo 5 descreve as conclusões do trabalho e identifica possíveis trabalhos futuros.

(11)

A extração de tópicos relevantes em textos é uma das várias funcionalidades de algoritmos de NLP [1]. Esta técnica tem como objetivo identificar, em uma grande base de textos, automaticamente temas que representam os documentos analisados, mas que não estão explicitamente identificados a priori. A LDA é um algoritmo não supervisionado de aprendizado de máquina com foco na extração de tópicos [3].

O algoritmo pode ser aplicado a textos como, por exemplo, notícias, postagens em redes sociais e artigos científicos. Estes documentos são submetidos a um framework de análise que pode ser resumido pela Figura 2. Após passarem por uma etapa de pré-processamento, os dados são submetidos a algoritmos específicos, em que o LDA é um destes métodos e como saída são obtidos conjuntos de palavras (tópicos) que melhor representam aqueles algoritmos.

Figura 2 - Framework de análise de textos para extração de tópicos [9]

Como a maior parte dos textos são informações não estruturadas, é necessário pré-processar estes dados para que possam ser aplicados em algoritmos de aprendizado de máquina.

Desta forma, a primeira etapa é a tokenização dos documentos, quem que os textos são divididos em seus termos (palavras). Por exemplo, o texto “A empresa revelou seu novo produto” passa a assumir o formato de uma lista de palavras: [A, empresa, revelou, seu, novo, produto].

Para simplificar estes vetores, removendo palavras que não tem grande importância para o texto, podem ser aplicados vários procedimentos como, por exemplo, remoção de stop words, lematização, remoção de palavras com freqûencia abaixo de um valor mínimo pré-definido. Detalhes sobre estas técnicas podem ser encontradas em [1].

Para evoluir de uma lista de palavras para dados numéricos que podem ser consumidos por algoritmo, são aplicados outros algoritmos. Por exemplo, o algoritmo Bag of Words [7] assume que cada documento pode ser representado por um vetor

(12)

de dimensão m, onde m é a quantidade de termos únicos naquele documento. Após este processo, é obtido O vetor é preenchido com a contagem daqueles termos no documento. A Figura 3 ilustra a matriz de termos e documentos que é o resultado do algoritmo aplicado a um conjunto de 3 documentos em inglês. O primeiro documento é “Forecasts cut as IMF issues warning”, o segundo “IMF and WBG meet to discuss economy” e o terceiro “2016: WBG issues 2016 growth warning” [9].

Figura 3 - Resultado do algoritmo Bag of Words [3]

Após este processo, o conjunto de dados está pronto para servir de entrada para o algoritmo de extração de tópicos relevantes. Neste trabalho, foi aplicada a Alocação Latente de Dirichlet (LDA - Latent Dirichlet Allocation). Este algoritmo considera que documentos são criados a partir de tópicos, que por sua vez são compostos por palavras. Logo, ao aplicar o algoritmo em um conjunto de textos, o processo inverso é testado para cada documento (m), como descrito abaixo [10] e ilustrado na Figura 4.

i. Supondo que existem k tópicos em todos os documentos da base de dados

ii. Esses k tópicos são distribuídos no documento m (essa distribuição é conhecida como α), atribuindo um tópico a cada palavra.

iii. Para cada palavra w no documento m, é suposto que seu tópico esteja errado, mas a todas as demais palavras é atribuído o tópico correto.

iv. É atribuído, probabilisticamente a palavra w a um tópico com base em duas coisas:

(13)

2. quantas vezes a palavra w foi atribuída a um tópico específico em todos os documentos (essa distribuição é chamada β)

v. O processo é repetido para cada documento até que haja convergência.

Figura 4 - Representação do modelo LDA [3]

Na Figura 4, os símbolos representam parâmetros do modelo LDA, onde α é a distribuição de tópicos por documento; β é a distribuição de palavras por tópico; θ é a distribuição de tópicos para o documento m; φ é a distribuição de palavras para o tópico k; z é o tópico da n-ésima palavra no documento m e w é a palavra testada [3]. Ainda de acordo com [3], os parâmetros do modelo como, α e β podem ser relacionados a quantidade de tópicos utilizados. Portanto, ao final do processo é possível extrair os principais tópicos representativos de um documento e também de uma base de documentos.

Para avaliar a qualidade dos modelos, é utilizada a perplexidade. Esta é uma métrica que captura o grau de incerteza que um modelo possui ao prever textos. Quanto menor o valor da perplexidade, melhor o a previsão realizada e, consequentemente, a qualidade do modelo. Mais detalhes referentes a métrica podem ser obtidos em [3].

Após a aplicação de modelos satisfatórios de identificação de tópicos sobre a base de dados, o resultado é uma matriz que contem a relevância de cada tópico nos respectivos documentos. Logo, o peso de cada tópico pode ser considerado como um atributo do documento e, posteriormente, pode ser aplicado algum algoritmo de agrupamento para facilitar a identificação de similaridades entre os documentos.

(14)

Por fim, quando se busca identificar similaridade em uma grande base de textos, as ferramentas descritas têm o potencial de auxiliar sobremaneira o trabalho dos especialistas.

Frente a grande quantidade de artigos científicos publicados no projeto CORD-19, fica evidente que aplicar estes algoritmos sobre esta massa de dados pode trazer informações importantes e ajudar a agrupar artigos semelhantes [5]. Processar manualmente estes textos para extrair informações relevantes seria um trabalho extremamente árduo e pouco produtivo. Portanto, neste trabalho foram feitas análises destes documentos para avaliar a possibilidade de identificação de artigos similares utilizando as ferramentas descritas.

3. METODOLOGIAS

3.1. PRÉ PROCESSAMENTO DOS DADOS

Parte dos dados disponíveis no CORD-19 foram carregados para a análise no presente trabalho. A metodologia do trabalho considerou uma quantidade reduzida de textos para facilitar e agilizar as análises. Esta premissa não foi considerada prejudicial ao estudo, dado que o objetivo do trabalho é avaliar a possibilidade de identificação de similaridade entre os artigos do CORD-19 e, logo, validar a metodologia. Não faz parte do escopo do trabalho utilizar seus resultados para outros fins. Utilizando a linguagem Python, foi possível importar os textos diretamente do site Kaggle. Os dados foram carregados e armazenados em um único dataframe contendo sua identificação, o título dos artigos, o abstract e o conteúdo integral do artigo científico. A Figura 5 ilustra alguns artigos da base de dados do CORD-19 carregados para análise.

(15)

Figura 5 – Exemplos de artigos da base de dados do CORD-19 carregados para análise. Após o carregamento, foi feita a remoção de stopwords com a biblioteca NLTK (Natural Language Toolkit) e na sequência, extraídos os tokens do documento. Um dos exemplos de texto processados está resumido a seguir.

[mosquito, vector, can, transmit, array, pathogen, often, cause, devastating, human, disease, traditionally, consider, problem,

tropical, region, mosquito, increasingly, become, global, public, health, challenge…]

Após este processo ser aplicado a todos os documentos, a matriz documentos-palavras foi obtida utilizando a metodologia bag of words. Esta matriz é do tipo 253 x 5074. Ou seja, existe um total de 5074 palavras que representam os 253 documentos da base de dados.

Uma noção inicial da heterogeneidade da base de dados é a medida da esparcidade da matriz obtida. Por exemplo, neste caso o valor é 14 %, ou seja, a matriz é preenchida prioritariamente por zeros, o que indica que os documentos não possuem muitas palavras em comum.

(16)

3.2. TREINAMENTO DO MODELO LDA

A matriz de documentos e palavras obtida no pré-processamento dos 253 textos foi utilizada para treinar o algoritmo LDA. A biblioteca para análise de dados scikit learn [9] desenvolvida na linguagem Python possui um modelo de LDA implementado e de fácil uso. Para este modelo, é preciso informar alguns parâmetros como a matriz que será utilizada para treinar o modelo, o número de tópicos que se deseja considerar, além de outros que podem ser encontrados em [9].

Dada a grande quantidade de palavras que compõe a matriz de documentos-palavras e a incerteza a respeito da quantidade de tópicos a ser definida a priori, foi feita uma análise de sensibilidade para verificar o valor da perplexidade para diferentes quantidades de tópicos: 5, 10, 15, 20 e 30. Neste caso, o resultado com melhor perplexidade foi para 5 parâmetros, com o valor de 1714. Na Figura 6 é possível ver um gráfico da quantidade de tópicos (eixo x) pela probabilidade logarítmica (eixo y), que representa o exponencial natural do negativo da perplexidade (mean_test_score na biblioteca scikit learn). Neste caso, quanto maior este valor, melhor o modelo.

Figura 6 – Análise de sensibilidade do modelo LDA quanto ao número de tópicos utilizados.

Portanto, pelo gráfico fica claro que pelo universo de tópicos considerados, o melhor valor a ser considerado é de 5 tópicos.

(17)

4. RESULTADOS

Após o pré-processamento dos documentos do CORD-19 e da avaliação da quantidade de tópicos adequados a serem considerados no algoritmo, foi avaliado o resultado da extração de tópicos nos textos. Para classificar um documento como pertencente a um tópico específico, uma abordagem lógica é ver qual tópico tem a maior contribuição para esse documento e atribuí-lo. A Tabela 1 apresenta esta análise para 10 documentos da base. A última coluna representa qual tópico melhor representa aquele determinado texto.

Tabela 1- Tópicos dominantes em 10 documentos analisados

Docs Topic1 Topic2 Topic3 Topic4 Topic5 dominant_topic

Doc0 0.050000 0.000000 0.320000 0.000000 0.630000 5 Doc1 0.400000 0.000000 0.430000 0.000000 0.160000 3 Doc2 0.190000 0.000000 0.800000 0.010000 0.000000 3 Doc3 0.330000 0.110000 0.540000 0.000000 0.020000 3 Doc4 0.440000 0.000000 0.320000 0.240000 0.000000 1 Doc5 0.000000 0.870000 0.000000 0.070000 0.060000 2 Doc6 1.000000 0.000000 0.000000 0.000000 0.000000 1 Doc7 0.160000 0.000000 0.530000 0.000000 0.310000 3 Doc8 0.940000 0.000000 0.000000 0.060000 0.000000 1 Doc9 0.130000 0.080000 0.260000 0.000000 0.530000 5

Também é possível avaliar a quantidade de documentos que melhor se relaciona a cada documento. A Figura 7 apresenta estes resultados, destacando que houve maior concentração de documentos representados pelo tópico 0 e menos pelo tópico 4.

Figura 7 – Quantidade de documentos melhor representados por cada tópico

Também é possível verificar quais são as palavras que melhor representam cada tópico. Na Figura 8, estão apresentadas as 15 palavras que melhor caracterizam cada tópico. Vale destacar que, por se tratar de uma análise probabilística, as palavras podem se repetir em diferentes tópicos.

(18)

Figura 8 – 15 palavras que melhor representam cada tópico

A biblioteca desenvolvida em Python chamada pyLDAvis possibilita a análise

visual dos resultados da extração de tópicos. A Figura 9 ilustra estes resultados para o tópico 1. Esta visão possibilita verificar que os tópicos ficaram bem separados entre si. Este aspecto facilita a identificação de similaridade entre documentos que são melhor representados pelo mesmo tópico. Na mesma figura também é possível avaliar as 30 palavras mais relevantes para o tópico em ordem de relevância. As Figuras 10, 11, 12 e 13 apresentam a mesma análise para os tópicos 2, 3, 4 e 5, respectivamente.

(19)

Figura 10 - Aplicação do pyLDAvis para o tópico 2

(20)

Portanto, o framework de processamento dos textos do CORD-19 possibilitou, mesmo com uma quantidade reduzida de documentos, encontrar tópicos que os

(21)

represente e também proporcionou a separação dos documentos em tópicos, o que facilita a identificação de documentos similares.

Com o modelo treinado, também é possível sugerir que tópico melhor representaria um novo texto que não fez parte da base de dados inicial de treinamento.

Ao aplicar o modelo treinado em um texto sintético é possível verificar este resultado. O texto utilizado foi "Some text about mices and bats" . Para este texto,

o tópico que melhor representa é caracterizado pelas palavras:'cells', 'protein',

'virus', 'infection', 'viral', 'mice', 'cell', 'also', 'expression', 'infected', 'ifn', 'human', 'proteins', 'autophagy', 'rna'.

Além disso, é possível buscar que documento da base de treinamento mais se assemelha ao novo texto. Depois de conhecer a probabilidade de tópicos para um determinado documento, é calculada a distância euclidiana com as pontuações de probabilidade de todos os outros documentos. Os documentos mais semelhantes são aqueles com a menor distância.

No caso do texto acima, o documento que retornou como sendo o mais semelhante foi o seguinte, o que está representado através de seu trecho inicial:

“Alzheimer's disease (AD) is the most common fatal neurodegenerative disease (ND), and is characterized by the structural and functional loss of neurons. During the last few decades, AD and its associated risk factors have become major healthcare concerns in most developed countries. Furthermore, it has been reported AD is the fifth-leading cause of death among those aged more than 65 years, and that its incidence exceeds five million cases per year in the United States…”

A avaliação da coerência do resultado deve ser feita por um especialista da área de conhecimento e também deve considerar a totalidade do artigo, algo que foge do escopo deste trabalho.

Portanto, utilizando o conjunto de algoritmos desenvolvidos neste trabalho foi possível identificar tópicos relevantes em documentos da base da dados do CORD-19, identificar similaridade entre documentos representados pelos mesmos tópicos e, por fim, analisar um texto sintético que não fez parte da base de treinamento do modelo LDA. Este tipo de processamento de linguagem natural pode acelerar sobremaneira o estudo sobre uma base de dados tão extensa como a CORD-19.

(22)

Neste trabalho, a análise dos resultados foi focada em avaliar se determinado framework de processamento de linguagem natural, baseado em LDA seria capaz de auxiliar a identificação de similaridade entre documentos de uma grande base de artigos científicos sobre o novo coronavírus e outros vírus similares. Estes artigos foram distribuídos recentemente pelo governo dos Estados Unidos como forma de acelerar o combate a pandemia do novo coronavírus.

Os artigos foram submetidos a um pré-processamento e, posteriormente, identificados tópicos relevantes para cada documento. Este processo envolveu análise de sensibilidade dos parâmetros considerados na modelagem, avaliando que quantidade de tópicos resultou em valores mais baixos de perplexidade. O valor ótimo de tópicos considerado foi 5.

Documentos mais similares apresentaram o tópico mais relevante em comum. Utilizando uma ferramenta visual (pyLDAvis), ficou claro que os tópicos obtidos possuem boa separação, logo o agrupamento entre os documentos se torna mais fácil.

Além disso, para avaliar a coerência dos tópicos definidos, foram apresentadas palavras que melhor representavam cada um dos 5 tópicos resultantes do treinamento do modelo de LDA.

Para avaliar a aplicação do modelo em um documento não utilizado em seu treinamento, foi considerado um texto sintético. Para esse novo documento foi avaliado que tópico melhor o representa e também que artigo científico da base mais se assemelha a ele. A análise de coerência desta resposta depende de especialistas.

Portanto, com os resultados apresentados, cada um dos objetivos propostos inicialmente no trabalho foram alcançados.

Pretende-se, para trabalhos futuros, realizar análises com maior quantidade de textos da base de dados (CORD-19), realizar análise de sensibilidade do modelo considerando outros hiperparâmetros e comparar os resultados com outros modelos

de NLP que possibilitam a extração de tópicos de textos.

REFERÊNCIAS BIBLIOGRÁFICAS

(23)

2. Yse, Diego Lopez. Your Guide to Natural Language Processing (NLP), 2019. Disponível em:<https://towardsdatascience.com/your-guide-to-natural-language-processing-nlp-

48ea2511f6e1/>. Acessado em: 20 de Abril de 2020.

3. Blei, David M.; Ng, Andrew Y.; Jordan, Michael I. Latent Dirichlet Allocation, Journal of Machine Learning Research, 3(Jan):993-1022, 2003.

4. OMS decreta pandemia do novo coronavírus, 2020. Disponível em: <https://saude.abril.com.br/medicina/oms-decreta-pandemia-do-novo-coronavirus-saiba-o-que-isso-significa >. Acessado em: 20 de Abril de 2020.

5. Call to Action to the Tech Community on New Machine Readable COVID-19 Dataset, 2020. Disponível em: < https://www.whitehouse.gov/briefings-statements/call-action-tech-community-new-machine-readable-covid-19-dataset/ >. Acessado em: 20 de Abril de 2020

6. COVID-19 Open Research Dataset Challenge (CORD-19), 2020. Disponível em: < https://www.kaggle.com/allen-institute-for-ai/CORD-19-research-challenge/ >. Acessado em: 20 de Abril de 2020.

7. BROWNLEE, JASON. A Gentle Introduction to the Bag-of-Words Model. Machine

Learning Mastery, 2017. Disponível em: <

https://machinelearningmastery.com/gentle-introduction-bag-words-model/>. Acessado em: 26 de Dezembro de 2019.

8. G. James et al., An Introduction to Statistical Learning: with Applications in R, Springer

Texts in Statistics, 2017

9. G. Derek., Topic Modelling with Scikit-learn, 2017. Disponível em:

http://derekgreene.com/slides/topic-modelling-with-scikitlearn.pdf >. Acessado em: 30 de Março de 2020

10. Doll. T., LDA Topic Modeling: An Explanation, 2018. Disponível em:

https://towardsdatascience.com/lda-topic-modeling-an-explanation-e184c90aadcd>. Acessado em: 2 de Abril de 2020