RESUMO DE TENTATIVAS COM RESULTADO INSATISFATÓRIO

Além da metodologia e resultados exibidos anteriormente, deram-se outras tentativas de uso de técnicas sem resultado satisfatório.

4.8.1 Detecção automática de palavras de parada

Foram efetivadas tentativas de detectar palavras de parada de forma automatizada. O atrativo foi a eliminação do uso de listas de palavras de parada pré-criadas manualmente e também a redução de viés cognitivo vindo dos autores dessas mesmas listas.

Em duas tentativas foram utilizadas as métricas de TF-IDF (MANNING; RAGHAVAN; SCHÜTZE, 2009) e PWI (AIZAWA, 2003) para pontuação e reordenação de termos dentro de um tópico. Essas métricas têm a propriedade de dar pontuações baixas para palavras de parada; e, pontuações altas para palavras específicas com alta contagem. Se as palavras em um tópico forem ordenadas em ordem decrescente pela pontuação dessas métricas, é esperado que as palavras de parada não apareçam entre as palavras mais relevantes de cada tópico.

O resultado no uso dessas duas técnicas é que a maioria das palavras de parada não aparecem em uma listagem semelhante ao do quadro 4, com as 10 palavras de cada tópico com maior pontuação nessas métricas. Todavia cerca de 20% das palavras ranqueadas no topo com a métrica TF-IDF e 40% com a métrica PWI ainda eram palavras de parada e os resultados foram considerados insatisfatórios como substitutos para listas de palavras de parada. Estes resultados estão exibidos nos quadros 55 e 56. O quadro 54 contém as palavras de maior contagem, sem nenhum tipo de filtragem de palavras de parada, para comparação com as outras duas tabelas. Nesse quadro, cerca de 80% das palavras ranqueadas no topo são palavras de parada.

Uma terceira tentativa envolveu o uso da técnica de Topic Model hierárquico, mais especificamente o Hierarchical Latent Dirichlet Allocation (HLDA) (BLEI et al., 2003), que está disponível na ferramenta Mallet (MCCALLUM, 2019a). Essa técnica calcula tópicos organizados em uma hierarquia na forma de árvore. As palavras comuns a vários tópicos são agrupadas em um tópico raiz; e palavras específicas são agrupadas em tópicos folha. O atrativo da técnica é que as palavras de parada, que são as palavras comuns a vários tópicos, devem ser todas agrupadas em tópicos próximos a raiz de forma automática.

Elaborou-se uma geração de tópicos hierárquicos com um subconjunto reduzido de 1.000 documentos escolhidos aleatoriamente dentre os 126.637 documentos, utilizando todos os hiperparâmetros na configuração padrão, com a mesma expressão regular de tokenização exibida na metodologia e sem pré-filtragem de palavras de parada. O resultado foi muito bom.

Dos três níveis da configuração padrão, 100% das palavras de parada foram agrupadas nos dois primeiros níveis.

Contudo o mesmo cálculo foi repetido para todos os 126.637 documentos utilizados na pesquisa. O resultado foi que, depois de 5 horas de cálculo, apenas três iterações de Gibbs

Sampling tinham sido concluídas, sendo que a quantidade padrão de iterações da ferramenta

era 1.000. Com uma projeção de tempo de cálculo acima de 1.000 horas, a tentativa foi abortada e considerada insatisfatória. O teste foi executado com processador Intel Xeon Platinum 8175 de 3.1 GHz, em uma instância EC2 da plataforma de nuvem Amazon Web

Services (AWS).

A otimização do algoritmo utilizado na técnica HLDA permitiria o seu uso em volumes grandes de dados, porém essa otimização estava fora do escopo desta pesquisa.

4.8.2 Detecção automática de quantidade ótima de tópicos

Foram executadas duas tentativas de definir a quantidade de tópicos de forma metódica. O atrativo foi a eliminação do ajuste manual do hiperparâmetro mais arbitrário da técnica de Topic Model e também a redução de viés cognitivo vindo do pesquisador.

A primeira tentativa envolveu o uso da métrica de coerência de tópico (MCCALLUM, 2018a; KAPADIA, 2019), sendo que a ideia era que tópicos bem-criados apresentariam coerência de tópico com pontuações altas. Fazem-se, para tanto, várias gerações de tópicos com quantidades de tópicos k distintas e mede-se a coerência de cada geração, utilizando a quantidade k com maior coerência no final.

Foram testadas várias quantidades entre 2 e 400 tópicos, o resultado esperado seria um gráfico quantidade x coerência com pontuações em forma de parábola e um único ponto de máximo local. O resultado experimental foi que a coerência se mostrou errática para quantidades de tópicos k diferentes, com diversos máximos locais.

A alta quantidade de máximos locais entre as coerências de tópicos foi considerada um resultado insatisfatório.

Uma segunda tentativa envolveu o uso da técnica HLDA, e empregou o uso da técnica do Processo do Restaurante Chinês (CRP) (BLEI et al., 2003). Ela automatiza a estimativa do hiperparâmetro de quantidade de tópicos substituindo-o por outro, o hiperparâmetro de coeficiente de suavização CRP, chamado na ferramenta Mallet de gama. Uma quantidade de

tópicos ótima pode ser estimada automaticamente, mesmo deixando este hiperparâmetro na configuração padrão.

Mas, como já dito anteriormente, o uso da técnica HLDA se mostrou insatisfatório devido ao tempo de cálculo excessivo.

4.8.3 Sondagem de tokens com valor numérico

Além dos resultados exibidos anteriormente, outra tentativa de tokenização e Modelagem de Tópicos foi feita utilizando outra expressão regular:

(\p{L}\p{M}\p{N})+

Esta tokenização visava incluir os números presentes nos relatórios como se fossem mais palavras. Junto com esse tokenizador, também foram utilizados bigramas e trigramas (n- gramas de dois e três termos).

O motivo foi tentar detectar diretamente indicadores quantitativos como o valor do lucro líquido antecedido das próprias palavras “lucro líquido”. Na figura 4, a expressão “lucro líquido de 819 milhões” é um n-grama de cinco termos. Se a palavra de parada “de” for filtrada, em teoria, é possível detectar o trigrama “lucro líquido 819”; e o número 819 é detectado diretamente pelas técnicas empregadas. Entretanto, como o resultado de cada relatório possui números diferentes entre si, a contagem de cada indicador acaba sendo sempre baixa, comumente, com a contagem de 1. Em uma visualização de palavras mais relevantes, esses indicadores nunca aparecem. Os únicos indicadores numéricos que apareceram repetidamente e tiveram relevância estatística foram os números “31”, “2017”, “2018” e “2019”. E isso ocorreu devido às expressões “31 dezembro 2017”, “31 dezembro 2018” e “31 dezembro 2019”, que são as datas de fechamento contábil anuais da maioria das empresas.

5 DISCUSSÃO

Nesta seção concentram-se as análises e interpretações que foram desenvolvidas mediante os resultados da seção anterior. E começa-se com a validação ou não das hipóteses listadas na seção de teoria. Depois, segue-se com outras interpretações e correlações que foram estabelecidas conforme os resultados.

No documento FUNDAÇÃO GETULIO VARGAS ESCOLA DE ADMINISTRAÇÃO DE EMPRESAS DE SÃO PAULO MAURICIO NODA (páginas 54-58)