MÉTODO PARA REPRESENTAÇÃO DE CONCEITOS POR MEIO DE TÉCNICAS DE ANÁLISE DE TEXTOS EM SEQUENCIA TEMPORAL
Miguel Angelo Zaccur de Figueiredo
Tese de Doutorado apresentada ao
Programa de Pós-graduação em Engenharia Civil, COPPE, da Universidade Federal do Rio de Janeiro, como parte dos requisitos necessários à obtenção do título de Doutor em Engenharia Civil.
Orientador: Alexandre Gonçalves Evsukoff
Rio de Janeiro Março de 2017
MÉTODO PARA REPRESENTAÇÃO DE CONCEITOS POR MEIO DE TÉCNICAS DE ANÁLISE DE TEXTOS EM SEQUENCIA TEMPORAL
Miguel Angelo Zaccur de Figueiredo
TESE SUBMETIDA AO CORPO DOCENTE DO INSTITUTO ALBERTO LUIZ COIMBRA DE PÓS-GRADUAÇÃO E PESQUISA DE ENGENHARIA (COPPE) DA UNIVERSIDADE FEDERAL DO RIO DE JANEIRO COMO PARTE DOS REQUISITOS NECESSÁRIOS PARA A OBTENÇÃO DO GRAU DE DOUTOR EM CIÊNCIAS EM ENGENHARIA CIVIL.
Examinada por:
________________________________________________ Prof. Alexandre Gonçalves Evsukoff, D.Sc.
________________________________________________ Prof. Nelson Francisco Favila Ebecken, D.Sc.
________________________________________________ Prof. Beatriz de Souza Leite Pires de Lima, D.Sc.
________________________________________________ Prof.Edmar Luiz Fagundes de Almeida, D.Sc.
________________________________________________ Prof.Eduardo Raul Hruschka, Ph.D.
RIO DE JANEIRO, RJ - BRASIL MARÇO DE 2017
iii
Figueiredo, Miguel Angelo Zaccur de
Método para representação de conceitos por meio de técnicas de análise de textos em sequencia temporal / Miguel Angelo Zaccur de Figueiredo. – Rio de Janeiro: UFRJ/COPPE, 2017.
XV, 113 p.: il.; 29,7 cm.
Orientador: Alexandre Gonçalves Evsukoff
Tese (doutorado) – UFRJ/ COPPE/ Programa de Engenharia Civil, 2017.
Referências Bibliográficas: p. 76-79.
1. Mineração de Textos. 2. Séries Numéricas. 3. Sistemas Computacionais. I. Evsukoff, Alexandre Gonçalves II. Universidade Federal do Rio de Janeiro, COPPE, Programa de Engenharia Civil. III. Título.
iv
Dedicatória
Aos meus pais Luiz e Ceny, Sem eles eu nada seria.
v
Agradecimentos
Agradeço ao meu pai Luiz Alberto e minha mãe Ceny pelo cuidado e amor que têm por mim.
Aos meus irmãos Luiz Alberto (Ije) e Felippe, com quem cresci e sempre estão por perto nos diversos momentos da minha vida.
Minha companheira Marcele, pelo seu carinho e olhar crítico.
Meu filho Mateus, que além de toda inspiração de amor, humor, inteligência e criatividade, continua me motivando por ser meu melhor amigo.
Aos professores e amigos Lemos, Jobson e Ivan, pela ajuda, incentivo e apoio durante essa jornada.
Ao meu orientador Alexandre pela atenção, paciência e por acreditar e apoiar as minhas ideias.
vi
Resumo da Tese apresentada à COPPE/UFRJ como parte dos requisitos necessários para a obtenção do grau de Doutor em Ciências (D.Sc.)
MÉTODO PARA REPRESENTAÇÃO DE CONCEITOS POR MEIO DE TÉCNICAS DE ANÁLISE DE TEXTOS EM SEQUENCIA TEMPORAL
Miguel Angelo Zaccur de Figueiredo
Março/2017
Orientador: Alexandre Gonçalves Evsukoff
Programa: Engenharia Civil
Esta tese apresenta um método para representação de conceitos baseado em técnicas de mineração de textos em sequências temporais de documentos. O método apresentado resulta num modelo computacional que identifica determinadas expressões chave em um texto que, de alguma forma, estejam relacionadas a um conceito. O objetivo principal de elaborar um método para representação de conceitos de qualquer natureza, a partir de um conjunto de termos linguísticos selecionados, foi alcançado. Foram realizados vinte e cinco experimentos sobre três áreas distintas. Após análise dos resultados, em 80% dos casos onde há uma série original de referência, as séries geradas acompanharam a comportamento da original, em 13% dos casos as séries geradas anteciparam o comportamento e em 7% as séries geradas refletiram o comportamento posteriormente. Nos experimentos onde não havia uma série original de referência, em 90% dos casos houve indicação de sucesso do método, e em 66% desses casos essa indicação pode ser verificada.
vii
Abstract of Thesis presented to COPPE/UFRJ as a partial fulfillment of the requirements for the degree of Doctor of Science (D.Sc.)
METHOD FOR REPRESENTING CONCEPTS THROUGH TECHNIQUES OF ANALYSIS OF TEXT IN TEMPORAL SEQUENCE
Miguel Angelo Zaccur de Figueiredo
March/2017
Advisor: Alexandre Gonçalves Evsukoff
Department: Civil Engineering
This thesis consists of a method for representing concepts based on techniques of text mining in temporal sequences of documents. The presented method results in a computational model that identifies certain key expressions in a text, that somehow, are related to a concept. The main objective of elaborating a method for representing concepts of any nature, from a set of selected linguistic terms, has been reached. Twenty-five experiments were carried out on three distinct areas. After analyzing the results, in 80% of cases where there is an original reference series, the series generated followed the behavior of the original; in 13% of the cases the series generated anticipated the behavior and in 7% the series generated reflected the behavior later. In the experiments where there was no original reference series, in 90% of cases there was indication of success of the method, and in 66% of these cases this indication can be verified.
viii
Sumário
1 Introdução ... 1 1.1 Objetivos ... 4 1.2 Contribuições ... 4 1.3 Estrutura do Trabalho ... 5 2 Revisão da Literatura ... 6 2.1 Análise Temporal ... 92.2 Modelos Híbridos e o Subjetivismo ... 13
2.3 Classificação de Documentos e Páginas da Web ... 13
2.4 Análise de Tendências ... 14
2.5 Análise de Focos e Tópicos ... 15
2.6 Aplicações na Área Financeira ... 18
2.7 Redes e Estruturas de Conhecimento ... 19
2.8 Outras Áreas de Estudo ... 20
2.9 Comentários Sobre a Revisão Bibliográfica ... 21
3 Metodologia ... 22
3.1 Representação do Conceito ... 24
3.2 Seleção do Grupo de Termos mais Relevantes ... 30
3.3 Processamento Temporal ... 31
3.4 Crawling ... 31
3.5 Cálculo do Índice de Representação do Conceito ... 34
3.6 Comentários Sobre a Metodologia ... 37
4 Experimentos e Resultados ... 39
ix
4.2 Análise de Séries Macroeconômicas ... 46
4.2.1 Objetivo do modelo ... 46
4.2.2 Resultados ... 49
4.3 Análise Histórica de Conformidade e Desvios Empresariais ... 56
4.3.1 Objetivo do modelo ... 56
4.3.2 Resultados ... 58
4.4 Análise Histórica das Sensações Populacionais ... 66
4.4.1 Objetivo e Modelo ... 66
4.4.2 Resultados ... 68
4.5 Discussão ... 72
5 Conclusões ... 73
x
Lista de Figuras
Figura 1 – Relação de subsequências Trend e documentos textuais ... 10
Figura 2 – Seqüência de dados textuais... 11
Figura 3 – Exemplo de padrões sequenciais ... 11
Figura 4 – Esquema hierárquico do dicionário de conceitos chave (KCD) ... 12
Figura 5 – Linguagem Fundamental: primitivas (MAURYA, 2007) ... 15
Figura 6 - Rede de tópicos obtida a partir de fóruns de discussão de uma disciplina acadêmica (TOBARRA, 2013) ... 18
Figura 7 - As etapas do processo de Análise de informações não estruturadas. ... 24
Figura 8 - Algoritmo de Busca Heurística Orientada por Agenda: princípio da Representação de um Conceito ... 25
Figura 9 - Conceito “Inflação está em Alta” pode ser representado pelos termos mais frequentes entre três conjuntos de documentos cujos assuntos estão relacionados ao aumento da inflação. 26 Figura 10 - Pré-processamento típico de documentos: representação final estruturada... 27
Figura 11 - Representação de um Conceito... 28
Figura 12 - Quantidade de termos e percentual de documentos em cada grupo de termos candidato ... 29
Figura 13 - Processamento Temporal Off-line e On-line. ... 31
Figura 14 - O Algoritmo para geração de população de sementes URLs para rastreamento do website da Thomson Reuters ... 33
Figura 15 – Evolução Índice de Representação do Conceito “Comportamento da Inflação” ao longo do mês de setembro de 2012 ... 35
Figura 16 - Análise da presença de ruídos nos dados de saída do modelo durante um dos experimentos ... 36
Figura 17 - Quantidade de termos e percentual de documentos em cada grupo de termos candidato dos documentos dos 4 especialistas, para o conceito “Aumento do PIB” ... 41
xi Figura 18 – Gráficos comparativos entre Ruído Branco (linha sólida) e conceito não aleatório I
(linha tracejada) ... 45
Figura 19 - Gráficos comparativos entre Ruído Branco (linha sólida) e conceito não aleatório II (linha tracejada) ... 45
Figura 20 - Análise da Tendência na Série Formal de Consumo de Energia Elétrica (Fonte: Eletrobrás). ... 47
Figura 21- Esquerda: séries Geradas pelo Modelo (vermelho) x Consumo de Energia Elétrica (azul). Direita: análise gráfica da correlação. ... 52
Figura 22 - Esquerda: séries Geradas pelo Modelo (vermelho) x Preço do Petróleo (azul). Direita: análise gráfica da correlação. ... 52
Figura 23 - Esquerda: séries Geradas pelo Modelo (vermelho) x Taxa de Juros (azul). Direita: análise gráfica da correlação. ... 52
Figura 24 - Esquerda: séries Geradas pelo Modelo (vermelho) x Exportações Brasileiras (azul). Direita: análise gráfica da correlação. ... 53
Figura 25 - Esquerda: séries Geradas pelo Modelo (vermelho) x Taxa de Desemprego (azul). Direita: análise gráfica da correlação. ... 53
Figura 26 - Esquerda: séries Geradas pelo Modelo (vermelho) x Minério de Ferro (azul). Direita: análise gráfica da correlação. ... 53
Figura 27 - Esquerda: séries Geradas pelo Modelo (vermelho) x Setor de Serviços (azul). Direita: análise gráfica da correlação. ... 54
Figura 28 - Esquerda: séries Geradas pelo Modelo (vermelho) x Produção Agrícola (azul). Direita: análise gráfica da correlação. ... 54
Figura 29 - Esquerda: séries Geradas pelo Modelo (vermelho) x Produção de Veículos (azul). Direita: análise gráfica da correlação. ... 54
Figura 30 - Esquerda: séries Geradas pelo Modelo (vermelho) x Inflação (azul). Direita: análise gráfica da correlação. ... 55
Figura 31 - Esquerda: séries Geradas pelo Modelo (vermelho) x PIB Mundial (azul). Direita: análise gráfica da correlação. ... 55
Figura 32 - Séries Geradas pelo Modelo em relação à empresa Offshore I. ... 59
Figura 33 - Séries Geradas pelo Modelo em relação à empresa Offshore II. ... 59
Figura 34 - Séries Geradas pelo Modelo em relação à empresa Offshore III. ... 60
Figura 35 - Séries Geradas pelo Modelo em relação à empresa Offshore IV. ... 61
Figura 36 - Séries Geradas pelo Modelo em relação a empresa Offshore V. ... 62
Figura 37 - Séries Geradas pelo Modelo em relação à empresa Offshore VI. ... 62
Figura 38 - Séries Geradas pelo Modelo em relação à empresa Offshore VII. ... 63
Figura 39 - Séries Geradas pelo Modelo em relação à empresa Offshore VIII... 64
Figura 40 - Séries Geradas pelo Modelo em relação à empresa Offshore IX. ... 64
Figura 41 - Séries Geradas pelo Modelo em relação à empresa Offshore X. ... 65
Figura 42 - Questionário IBOPE para Eleições Gerais Brasileiras em 2014. ... 66
Figura 43 - Esquerda: séries Geradas pelo Modelo (vermelho) x Satisfação das Pessoas no Trabalho (azul). Direita: análise gráfica da correlação. Acima: com a utilização de regressão linear. Abaixo: Sem a utilização de regressão linear. ... 70
Figura 44 - Esquerda: séries Geradas pelo Modelo (vermelho) x Sensação de Insegurança Pública (azul). Direita: análise gráfica da correlação. ... 70
Figura 45 - Esquerda: séries Geradas pelo Modelo (vermelho) x Confiança da População no Governo (azul). Direita: análise gráfica da correlação. ... 71
Figura 46 - Esquerda: séries Geradas pelo Modelo (vermelho) x Felicidade das Famílias Brasileiras (azul). Direita: análise gráfica da correlação. ... 71
xii
Lista de Tabelas
Tabela 1 - Artigos Utilizados Na Pesquisa: Artigos, Autores e Assunto ... 7
Tabela 2 - Opções e descrições da linha de comando do GNU Wget. ... 32
Tabela 3 – Relação de termos do conceito “Comportamento da Inflação” - C e o conjunto de palavras frequentes no dia 17/09/2012 - St ... 34
Tabela 4 - Conjuntos de termos relacionados ao conceito Produto Interno Bruto – corte fixo de 80% dos termos do conjunto com maior frequência em documentos ... 40
Tabela 5 – Conjuntos de termos relacionados ao conceito Produto Interno Bruto ... 42
Tabela 6 – Conjuntos de termos relacionados ao conceito Retenção de Pessoas ... 43
Tabela 7 – Conjuntos de termos relacionados ao conceito Aleatório ... 44
Tabela 8 – Análise da correlação ao conceito Aleatório ... 44
Tabela 9 - Séries numéricas formais obtidas do IPEADATA relacionadas aos conceitos modelados. ... 46
Tabela 10 - Quantidade de termos antes e após o pré-processamento sobre o conjunto de documentos diários de notícias publicadas pela agência Thomson Reuters. ... 48
Tabela 11 - Quantidade de termos antes e após o pré-processamento sobre o conjunto de documentos selecionados por especialista das áreas de conhecimento dos conceitos. ... 49
Tabela 12 – Descrição séries numéricas geradas baseadas nos conceitos e as séries numéricas formais... 50
Tabela 13 - Resultados obtidos na análise da correlação entre as séries numéricas geradas baseadas nos conceitos e as séries numéricas formais. ... 51
Tabela 14 - Quantidade de termos antes e após o pré-processamento sobre o conjunto de documentos selecionados por especialista das áreas de conhecimento dos conceitos. ... 57
Tabela 15 - Resultados obtidos na análise da correlação entre as séries numéricas geradas baseadas nos conceitos e as séries numéricas formais. ... 58
xiii Tabela 16 - Datas nas quais as notícias apresentaram maiores índices de representação do conceito de Não Conformidade na Empresa Offshore I ... 59 Tabela 17 - Datas nas quais as notícias apresentaram maiores índices de representação do conceito de Não Conformidade na Empresa Offshore II ... 60 Tabela 18 - Datas nas quais as notícias apresentaram maiores índices de representação do conceito de Não Conformidade na Empresa Offshore III ... 60 Tabela 19 - Datas nas quais as notícias apresentaram maiores índices de representação do conceito de Não Conformidade na Empresa Offshore IV ... 61 Tabela 20 - Datas nas quais as notícias apresentaram maiores índices de representação do conceito de Não Conformidade na Empresa Offshore V ... 62 Tabela 21 - Datas nas quais as notícias apresentaram maiores índices de representação do conceito de Não Conformidade na Empresa Offshore VI ... 63 Tabela 22 - Datas nas quais as notícias apresentaram maiores índices de representação do conceito de Não Conformidade na Empresa Offshore VII ... 63 Tabela 23 - Datas nas quais as notícias apresentaram maiores índices de representação do conceito de Não Conformidade na Empresa Offshore VIII ... 64 Tabela 24 - Datas nas quais as notícias apresentaram maiores índices de representação do conceito de Não Conformidade na Empresa Offshore IX ... 65 Tabela 25 - Datas nas quais as notícias apresentaram maiores índices de representação do conceito de Não Conformidade na Empresa Offshore X ... 65 Tabela 26 - Séries numéricas formais obtidas relacionadas aos conceitos modelados. ... 67 Tabela 27 - Quantidade de termos antes e após o pré-processamento sobre o conjunto de
documentos selecionados por especialista das áreas de conhecimento dos conceitos. ... 67 Tabela 28 – Descrição séries numéricas geradas baseadas nos conceitos e as séries formais mais próximas do conceito. ... 68 Tabela 29 - Resultados obtidos na análise da correlação entre as séries numéricas geradas baseadas nos conceitos e as séries numéricas formais. ... 69 Tabela 30 - Ações mitigadoras dos riscos relacionados aos experimentos. ... 72
xiv
Lista de Símbolos
= , … , : Conjunto dos documentos de uma coleção
( ) : Conjunto de documentos de uma amostragem constante, tipicamente de um dia .
( ) = ( ), … , ( ) : Conjunto de palavras que representam os conceitos encontrados na amostra extraída para cada dia .
= , … , : Universo de discurso ou dicionário.
= ( ), = 1 … : conjunto de documentos transformado. : número total de documentos.
( ) ∈ 0,1 : Representação vetorial de um documento. : Número total de palavras.
!"( ) : Componente do vetor ( ) que indica a presença da palavra " no documento #.
$ = % , … , %& : Conceito definida pela seleção de um conjunto de termos, onde %"∈ .
'($, ) : índice numérico de um determinado conceito $ para um instante de tempo . '(($, ) : índice numérico de um determinado conceito $ para um instante de tempo ,
xv
')($, ) : índice numérico de um determinado conceito $ para um instante de tempo ,
obtido pelo coeficiente de Jaccard.
*+,( ) : índice numérico de um determinado conceito $ para um instante de tempo
corrigido após regressão linear.
*( ) : índice numérico formal ou esperado de um determinado conceito $ para um instante de tempo .
-#: parâmetros da regressão linear com elementos.
.(/): número de documentos de uma coleção em que o termo / aparece (definido no intervalo [0; 1]).
0 : conjunto formado por todas as document-frequency dos termos encontrados em uma coleção.
1
Capitulo 1
1
Introdução
O advento da Internet e das redes sociais reacende as discussões sobre a forma pela qual, e o quanto, a divulgação de fatos pela mídia influencia as pessoas. A teoria denominada agenda-setting desenvolvida por McCombs e Shaw (1972) em seu estudo sobre a cidade de Chapel Hill, durante as eleições presidenciais americanas, mostrou uma forte correlação entre o que cem residentes da cidade pensavam ser a questão eleitoral mais importante e o que a mídia de notícias local e nacional reportava como mais importante, a ponto de determinar o grau de influência na opinião pública. Desde então, diversos novos estudos semelhantes têm sido feitos, e a teoria da agenda-setting continua sendo considerada relevante. Roberts (2002) percebeu que a regra por trás da teoria se propagava na Internet, em especial, nos fóruns de discussão e notícias (ing. Bulletin Board Systems). Com as formas mais recentes disponíveis para comunicação em tempo real, alguns autores divergem sobre os efeitos causados atualmente no público pela divulgação de notícias. Meraz (2011) e Wallsten (2007) alegam que o poder da mídia tradicional foi enfraquecido. Segundo eles, os meios de comunicação tradicionais, como os jornais e a televisão de radiodifusão, são "meios verticais" nos
2
quais a autoridade, o poder e a influência provêm do "topo" e fluem "para baixo" para o público. Os autores enfatizam que hoje em dia, a mídia vertical está em rápido declínio com o crescimento da "mídia horizontal", pois os novos meios permitem que todos se tornem uma fonte de informação e influência.
Entende-se por notícia um fato ou evento socialmente relevante publicado pela mídia. Fatos, por sua vez, podem ser de quaisquer naturezas políticas, sociais, econômicas, culturais, naturais entre outras. Segundo Silva (2014), a notícia pode ser definida como um produto socialmente construído, pois é resultado das posições sociais de indivíduos e grupos envolvidos com a produção jornalística, e pelas próprias fontes que atuam como definidores primários dos eventos.
Independentemente de haver uma agenda prévia do que deve ou não ser publicado e do meio em que ocorre a divulgação, pode-se definir um processo geral para descrever a produção de uma notícia em 3 etapas sequenciais, na qual cada etapa gera insumos para a seguinte, a saber: ações do público, identificação de fatos ou eventos e publicação da notícia. Esse processo pode ser observado como um ciclo, dado que as publicações geram novas ações ou reações. Percebe-se que a relação entre as etapas do processo não é uma a uma, pois um conjunto de notícias publicadas pode abordar vários fatos ocorridos em intensidades diferentes. É plausível também que um fato esteja associado a um ou mais conceitos (i.e. Fato: "Colisão do voo 175", Conceitos: acidente aéreo, terrorismo, transporte aéreo e etc.). A possibilidade de identificar conceitos mais importantes presentes nas notícias anteriormente ou de forma muito próxima das reações decorrentes das suas divulgações, permitiria prever acontecimentos relevantes, e contribuir para tomada de decisão.
Diversos estudos na área de mineração de textos elegem a frequência das palavras (TF – Term Frequency) como forma de evidenciar os elementos mais importantes em um documento. Tal abordagem parte do princípio de que as palavras mais frequentes representam as ideias centrais contidas em um documento. Entretanto, na identificação de expressões chave em um texto, a frequência das palavras não se mostrou adequada, pois a simples menção de um termo apenas uma vez pode mudar o sentido de uma frase, ou expressar um novo conceito. Na abordagem baseada em TF, essas palavras teriam uma frequência baixa e seriam desconsideradas. Diante disso, escolheu-se a frequência nos documentos (DF – Document Frequency) valorizando assim os termos quanto à ocorrência deles nos elementos que compõe a coleção.
3
Técnicas ainda em estudo, e que demandam bastante esforço computacional, é a da construção de sumarizadores automáticos que tentam modelar as técnicas linguísticas para confecção de resumos (Feldman, 2007). Tais técnicas levam em conta aspectos formais da língua como as análises semânticas, sintáticas, e léxicas das frases e palavras. Em geral, a sumarização automática de documentos quanto ao tipo de sumário se expressam por duas linhas de estudo: baseadas em extratos e baseados em resumo. A primeira, mais fácil de modelar, fundamenta-se na cópia de trechos relevantes do documento original para um segundo documento, em função de um critério de seleção geralmente heurístico. A segunda abordagem, mais complexa computacionalmente, concentra-se na questão interpretativa dos conceitos do texto, para que eles possam ser reescritos de forma resumida. No fim, o extrato tem mais semelhança com o documento original e o resumo assemelha-se a um novo texto que expressa em seu corpo os mesmos conceitos do documento original, porém ambos possuem coerência com as regras gramaticais da linguagem natural.
As técnicas de sumarização são complexas, por serem modelos computacionais que devem produzir saídas coerentes com a linguagem natural. Para abordagens, nas quais a etapa de comparação ou similaridade será feita internamente por um sistema computacional e não por um linguista, pode-se abrir mão da precisão gramatical em detrimento de uma solução mais simples.
Esta tese é motivada pela possibilidade de identificar conceitos presentes nos fatos publicados ao longo do tempo, por meio de um método próprio baseado em técnicas de mineração de textos. O método consiste, inicialmente, na representação dos conceitos, a partir da seleção dos termos mais relevantes de uma coleção de documentos especializados, que mesmo contendo fatos diferentes, abordam de alguma forma os mesmos conceitos. Em seguida, é realizada uma busca pelos conceitos em uma coleção de documentos contendo notícias de um período determinado, e em função do grau de similaridade, é gerada uma série temporal que mostra o comportamento desse conceito ao longo do tempo. A partir da análise do comportamento de alguns desses conceitos, pode-se obter conclusões interessantes para contribuir na solução de problemas.
4
1.1
Objetivo Geral
O presente trabalho tem como objetivo geral elaborar um método para representação de conceitos de qualquer natureza, a partir de um conjunto de termos linguísticos selecionados.
1.2
Objetivos Específicos
• Avaliar a coerência dos conceitos representados pelo método.
• Representar numericamente o comportamento dos conceitos no conteúdo das notícias ao longo do tempo.
• Construir um mecanismo para captura e armazenamento local do conteúdo jornalístico dos sites das agências de notícias.
• Desenvolver um sistema computacional capaz de automatizar os processos representacionais temporais do método.
• Elaborar uma técnica para seleção do grupo de termos relevantes para um conceito.
1.3
Contribuições
A tese tem como principais contribuições:
a) Definição de um método, baseado nos conceitos da busca heurística por agenda, para representação não semântica de conceitos de qualquer natureza, em função da seleção dos termos mais relevantes presentes nas coleções de documentos textuais especializados;
b) Elaboração de um método para seleção de termos mais relevantes de um grupo total de termos, baseado na busca de uma frequência mínima de aceitação que determine a criação de um subgrupo com a maior quantidade possível de termos com document-frequency altos;
c) Um método para cálculo de um índice de representatividade de conceitos ao longo do tempo, baseado em medidas de similaridade, para geração e modelagem de séries numéricas temporais quantitativas e qualitativas;
d) Desenvolvimento de um sistema computacional para mineração temporal de textos, que integra as atividades de captura de documentos, definição de conceitos, pré-processamento, processamento, armazenamento e
5
visualização em um ambiente integrado, para análise do comportamento de indicadores macroeconômicos, não conformidades organizacionais, e de indicadores de sensação populacional;
e) Resultados que mostram, apesar de todas as incertezas envolvidas, que os índices obtidos representam satisfatoriamente o comportamento geral das séries formais utilizadas como referência.
1.4
Estrutura do Trabalho
Para apresentação dos assuntos abordados este trabalho está dividido nos seguintes capítulos. No Capítulo 2 é feita uma revisão sistemática da literatura com o objetivo de mostrar aspectos comuns ao processo tradicional de mineração de textos temporais. No capítulo 3 são mostradas as metodologias desenvolvidas para representação dos conceitos e para análise temporal comparativa com as notícias. No capítulo 4 os resultados obtidos são mostrados e analisados. O capítulo 5 apresenta a conclusão do trabalho e a descrição dos trabalhos futuros. No apêndice A são detalhados a arquitetura do sistema e o framework desenvolvido. No apêndice B é listado o código fonte dos componentes das classes desenvolvidas.
6
Capitulo 2
2
Revisão da Literatura
A revisão da literatura foi realizada na base de catálogos do periódico CAPES, em especial as bases de documentos Science Direct, Scopus e ACM1, selecionando-se artigos relacionados aos termos dos assuntos chave: mineração de textos temporais e descoberta de informações em listas de notícias públicas. A busca foi realizada a partir do ano de 2010, mas alguns artigos que fazem parte da fundamentação teórica e do ferramental computacional utilizado foram considerados, em especial: técnicas de análise, tratamento e aplicações de filtros sobre ruídos, análise de tendências de séries, medidas de similaridade, detecção de degraus, e criação de dicionários de conceitos.
Para a seleção dos artigos que fariam parte da revisão bibliográfica foi verificada, em cada resumo correspondente, a forma e a relevância pelo qual os assuntos chave estavam relacionados ao tema do artigo. Além disso, outros assuntos, que não faziam inicialmente parte desta pesquisa, mas foram observados durante a revisão, ganharam importância e contribuíram para categorização das publicações, pois
1 ACM -
7
promoviam de alguma maneira uma nova forma de pensar sobre o universo em que os assuntos chave estavam inseridos. Quando o conteúdo dos resumos não era suficiente para a compreensão, optou-se por realizar a leitura completa do trabalho. Evitou-se utilizar artigos com conteúdo similar, exceto aqueles que aprofundaram conceitos gerais primeiramente mostrados por outros.
Na Tabela 1 são apresentados os resultados da pesquisa bibliográfica, categorizados por assuntos que foram definidos após a análise das 77 palavras chaves únicas presentes nos 21 artigos selecionados.
Tabela 1 - Artigos Utilizados Na Pesquisa: Artigos, Autores e Assunto
Nome Autores Assunto
A novel text mining approach to financial time series forecasting
WANG, B., HUANG, H., WANG, X. Séries Temporais Financeiras, Detecção de Sentimento. A time-varying propagation model
of hot topic on BBS sites and Blog networks
ZHANG, B., et al. Detecção de
Comportamento, Detecção de Picos. Analyzing the students' behavior
and relevant topics in virtual learning communities
Tobarra, L., et al. Aprendizagem
Analítica, Detecção de Comportamento. Extracting hot spots of topics from
time-stamped documents
Chen, W., Chundi, P. Hot Spot, Detecção de Tópicos.
Fuzzy Data Mining for Time-Series Data Chen C.-H., Hong, T.-P., Tseng, V.S. Regras de Associação, Séries Temporais, Janelas de Análise Móveis. Google's PageRank and Beyond
The Science of Search Engine Rankings
LANGVILLE, A. N., MEYER, C. D.
Classificação de Páginas da Web
Indices of novelty for emerging topic detection
Tu, Y-N., Seng, J-L. Detecção de
Tópicos,
8
Nome Autores Assunto
Tópicos. Information Retrieval and
Visualization of Geographic Places coming from Online Newspapers
Abascal-Mena, R., López-Ornelas, E. Extração de Informação, Visualização Semântica, Georeferenciamento .
Inside PageRank Bianchini, M., Gori, M.,
Scarselli, F. Extração de Informação, Cadeias de Markov, Classificação de Páginas da Web, Máquinas de Busca. Intraday Stock Price Prediction
Using News Text Mining
Beckmann, M., Ebecken, N. F. F., Lima, B. P. Detecção de Sentimento do Mercado, Análise de Ações.
Intrinsically dynamic network communities Mitra, B., Tabourier, L., Roth, C. Redes Dinâmicas, Detecção de Comunidades. Knowledge flows Analyzing the
core literature of innovation, entrepreneurship and science and technology studies Bhupatirajua, S., Nomalerb, Ö., Triulzi, G., Verspagena, B. Análise de Redes, Redes de Conhecimento.
Mapping Change in Large Networks Rosvall, M., Bergstrom, C.T. Redes de Conhecimentos, Mudanças Temporais. Método de Detecção de Hot Spot
Aplicado à uma Base de Notícias
Silva, G. L. B. Hotspot, Detecção
de Tópicos. Mineração de Texto e o Processamento de linguagem Bulegon, H., Moro, C. M. C. Processamento de linguagem Natural.
9
Nome Autores Assunto
Natural em sumários de alta hospitalar
Mineração de Texto e Suas
Aplicações na Literatura Científica
Xavier B. M., et al. Indexação da
Informação. Mineração de Opiniões aplicada à
Análise de Investimentos
Lopes, T. J. P. et al. Mineração de Opiniões, Fatores Humanos.
Mining temporal patterns in popularity of web items
Loh, W-K., Mane, S., Srivastava, J. Agrupamentos por Densidade, Padrões Temporais, Popularidade de Tendências. Uma Metodologia para a Previsão
do Índice Bovespa utilizando Mineração de Textos
Faria, E. L. Modelos de
Previsão Financeiros. Fault diagnosis using dynamic trend
analysis A review and recent developments Maurya, M. R., Rengaswamyb, R., Venkatasubramaniana, V. Análise Qualitativa de Tendências, Diagnóstico de Falha, Busca por Similaridade, Wavelets.
Nos itens a seguir desse capítulo serão mostrados os principais aspectos encontrados durante a revisão bibliográfica, agrupados pelos assuntos principais identificados durante as análises dos trabalhos publicados.
2.1
Análise Temporal
Iniciativas para desenvolvimento de modelos de análise de dados com informações temporais existem há muito tempo, e ainda recebem atenção de áreas não relacionadas à mineração de textos.
O método descrito Lavrenko (2000) propõe a divisão de uma sequência de dados numéricos em subsequências, chamadas TRENDS conforme Figura 1. Em seguida, cada
10
subsequência é de alguma forma relacionada com documentos com a informação do tempo em que foram publicados. Essa informação do tempo é o elo das séries temporais (e.g. PIB, Consumo, Cotação do US$) com os documentos. Percebeu-se, entretanto, que o cálculo das taxas de frequência das palavras não era suficiente para caracterizar a importância de um documento com uma subsequência. A ordem das palavras presentes em um documento, e pertencentes a um mesmo conjunto característico, influenciava na captação semântica.
Figura 1 – Relação de subsequências Trend e documentos textuais
Em relação à estrutura das informações textuais, Sakurai (2004) sugere um formato padrão composto por informação do tempo (ing. time stamp), atributos descritores (e.g. autor, título, escopo) e o texto em linguagem natural, denominado Item de Dados Textuais – TDI (ing. textual data item) de forma semelhante aos arquivos do padrão XML para documentos. Uma sequência de dados, segundo o autor, é um conjunto de informações TDI, ordenado pelo atributo tempo, onde cada item possui conceitos relacionados ao texto. O conceito pode ser referenciado com um evento que ocorre em uma data específica. Ou seja, cada sequência é composta por conjuntos ordenados de eventos conforme a Figura 2.
Trend a Trend b Trend c Informações(t ) Estrturadas t1 t2 t3 Dados Textuais Subseqüências Informação do Tempo
11
Figura 2 – Seqüência de dados textuais
Considerando um caso em que existem muitas sequências de dados textuais, se um sistema pode prever eventos futuros ou pode propor eventos em função de eventos que se quer alcançar, então este sistema pode ser útil na ajuda de usuários nas tomadas de decisão. Para isso, é necessário extrair padrões sequenciais característicos a partir de dados textuais sequenciais. O método para isso consiste no descobrimento de padrões, no qual eventos ou conjuntos de eventos (eventos de mesmo tempo) ocorrem na ordem do tempo, e um sub-padrão é definido como a representação de um padrão que pode ser aglutinado ou desmembrado em outros padrões ou sub-padrões conforme Figura 3.
Figura 3 – Exemplo de padrões sequenciais
O estudo de Sakurai (2004) propõe um método composto por três tarefas distintas: Extração de Eventos, Geração de Dados Sequenciais e Descoberta de Padrões Sequenciais.
Na Extração de Eventos, é mostrado que apesar das palavras serem as menores unidades de caracterização de dados textuais, documentos diferentes podem expressar conceitos e ideias iguais, mesmo utilizando palavras diferentes. Mesmo textos
Tempo Dados Textuais evento a11 evento a21 evento a31 evento a41 evento a21 evento a21 evento a24 evento a32 evento a11 evento a21 evento a41 evento a22 A2
12
diferentes com mesmas palavras em ordens diferentes podem ter o seu sentido alterado e, por isso, as palavras não são eventos apropriados, apesar das técnicas de mineração de textos serem usadas na extração de eventos.
O método proposto utiliza uma estrutura hierárquica de três níveis, chamada de Dicionário de Conceitos Chave, conforme Figura 4, no auxílio na extração de eventos, são eles: Classe Conceito, Conceito Chave e Expressão.
O método proposto utiliza uma estrutura hierárquica de três níveis, chamada de Dicionário de Conceitos Chave, conforme Figura 4, no auxílio na extração de eventos, são eles: Classe Conceito, Conceito Chave e Expressão.
Figura 4 – Esquema hierárquico do dicionário de conceitos chave (KCD)
Um olhar sobre trabalhos recentes em séries temporais mostra uma tendência dos modelos computacionais em utilizar abordagens híbridas que combinem o melhor dos mundos estruturados e não estruturados. Os autores CHEN, HONG e TSENG (2010) que já utilizavam a abordagem Fuzzy em trabalhos anteriores em séries temporais, pelo aspecto quantitativo dos valores, propõem a extensão do seu modelo para capturar regras de associação linguísticas. Primeiramente, é utilizada uma janela móvel para gerar subsequências contínuas de uma determinada série temporal, em seguida são analisados os conjuntos de itens Fuzzy dentro dessas subsequências, e finalmente, em um pós-processamento, remove-se as partes redundantes. Os resultados obtidos, por serem representados por regras linguísticas, tornam-se mais amigáveis a compreensão humana do que a representação quantitativa.
CC1 KC1 Exp1 Exp2 Exp3 Exp4 KC2 Classe Conceitual Conceito Chave Expressão
13
2.2
Modelos Híbridos e o Subjetivismo
Fica claro nas publicações recentes que modelos de previsão nos quais há variáveis relacionadas à percepção e interpretação humana sobre o ambiente em que o problema está imerso necessitam associar de alguma forma essa subjetividade a modelos numéricos tradicionais. E ainda, que esse cenário pode ganhar dimensões intratáveis se diversas forças internas e externas atuarem no problema. A descoberta e mineração da informação em textos temporais estão dentro desse cenário, e estudos recentes como o de Beckman (2017), sugerem modelos híbridos que combinam abordagens numéricas preditivas tradicionais com as obtidas de forma não estruturada. Wang e Huang (2012) definem essa subjetividade como “sentimento”. E afirmam que, especialmente na previsão de séries temporais financeiras, por serem ruidosas, não estacionárias e caóticas, a maioria dos modelos matemáticos fracassam, pois não consideram o sentimento do mercado nas suas previsões, e sugerem uma abordagem em mineração de textos que combina ARIMA (Autoregressive Integrated Moving Average) e SVR (Support Vector Regression) para previsão de séries financeiras temporais em 3 etapas: representação dos dados textuais em vetores de características, uso do ARIMA para analisar a parte linear do problema, e desenvolvimento de uma modelo SVR baseado somente no vetor de características textual para modelar a parte não linear. Dividindo o problema e atribuindo formas diferentes de tratar os trechos de comportamento linear dos não lineares, sendo esse último por meio de uma forma sistemática de representação do sentimento do mercado, verificaram-se resultados superiores em comparação a alguns modelos de previsão existentes.
2.3
Classificação de Documentos e Páginas da Web
Classificação de documentos de acordo com sua relação a um determinado conceito é o foco de quase todo trabalho relacionado à busca na Web. Bianchini (2005) e Langville (2008) estudaram formas criteriosas de qualificar páginas, não só pela frequência deles, mas pelo entendimento das estruturas gráficas e das ligações em que os termos aparecem na web. Tal abordagem denominada PageRank, é usada pelo buscador Google em conjunto com inúmeras outras técnicas, tais como: medidas padrão de Captura de Informações (ing IR – Information Retrieval), proximidade, e textos âncora ou de ligação, com o intuito de encontrar as respostas mais relevantes para uma dada pergunta (Query). O sucesso do PageRank é frequentemente explicado por ser
14
embasado na teoria das cadeias de Markov, mas isso só é verificado se não forem consideradas no universo de análise as páginas relacionadas por ligações em hipertexto (ing. Hyperlinks). Além do PageRank, o autor descreve outros algoritmos, em especial o denominado HITS, proposto por Kleiberg, no qual dois valores são atribuídos às páginas, um indicando o grau de importância e outro o grau de inutilidade da página, para atuarem como ponto inicial na navegação por documentos importantes. Como em outros artigos, também é sugerida a utilização de abordagens híbridas para melhorar a qualidade dos resultados.
2.4
Análise de Tendências
Na área de análise dinâmica de tendências, Maurya, Rengaswamyb, e Venkatasubramaniana (2007) revisitaram modelos representativos de sinais com o intuito de diagnosticar e detectar falhas, e propuseram um novo método com redução intervalar (Interval-Halving) para extrair tendências e um método baseado em correspondência fuzzy para estimativa e inferência de similaridades. Segundo os autores, a análise de tendências envolve uma representação hierárquica dos sinais das tendências, extração das tendências, e suas comparações (estimativa de similaridade), para inferir o estado de um processo (e.g. industrial químico). A representação e extração das tendências do processo são feitas com base em uma linguagem formal fundamental, cujos elementos básicos, denominados como episódios triangulares, são caracterizados por sete formas de onda básicas sobre as quais a primeiras e segundas derivadas não trocam de sinal. As sete formas de ondas básicas unicamente caracterizadas por valores constantes da primeira e segunda derivadas estão apresentadas na Figura 5. Além da Linguagem Fundamental, o autor menciona que a extração de primitivas lineares pode ser feitas por meio de Wavelets.
15
Figura 5 – Linguagem Fundamental: primitivas (MAURYA, 2007)
Minerar por padrões de popularidade de elementos da web é um problema importante e útil para várias aplicações. Tratando a popularidade como uma série temporal, Loh e Mane (2011) propõe uma nova medida, medida de desvio (gap measure), para quantificar a dissimilaridade entre dois itens da web, com base na Transformada Discreta de Fourier, considerando a densidade dos agrupamentos encontrados, e assumindo que a popularidade desses itens não é necessariamente periódica.
2.5
Análise de Focos e Tópicos
Chen (2011) foca na análise e descoberta de tópicos importantes, e denomina como Foco-Quente (ing. Hotspot) o período em que um determinado tópico é concentradamente frequente. Para ele, tópicos podem ser básicos, contendo uma lista simples de palavras chaves, ou complexo, onde relações lógicas fundamentais com E, OU e NEGAÇÃO podem ser usadas para sua construção a partir de tópicos básicos. O autor introduz o conceito de medida de presença de um tópico, a partir da teoria de conjuntos fuzzy, para computar a quantidade de informação relacionada ao tópico em um conjunto de documentos. Cada intervalo no período de tempo de um conjunto de documentos é associado a um número denominado valor de discrepância. Um alto valor de discrepância indica que os documentos no intervalo de tempo são mais focados em um tópico do que em outros fora do intervalo de tempo. Um Hotspot de um dado tópico
16
é definido como o intervalo de tempo onde há maior valor de discrepância. Para ilustrar os conceitos abordados, primeiramente é descrita uma técnica simples para extração de Hotspots e em seguida é mostrado um algoritmo mais eficiente, utilizando diversas estratégias, e ilustrado por diversos experimentos em subconjuntos de documentos contendo notícias. O algoritmo desenvolvido por Silva (2012) é uma instância do modelo de Chen e mostrou que conclusões interessantes podem ser tiradas quando aplicados a uma base de notícias. Em seus experimentos, a partir de cinco tópicos de interesse previamente selecionados, e definindo um tópico como um conjunto de palavras chaves, foram encontrados subintervalos, dentro de um período pré-definido, que continham significativamente mais documentos que abordavam um determinado tópico do que outros.
Zhang (2012) propõe um modelo variável no tempo, para predição de determinados “Tópicos Quentes” (ing. Hot Topic) nas discussões que ocorrem on-line, a partir do comportamento coletivo dos usuários que estão em diferentes subgrupos das redes de blogs e se utilizam de sites do tipo Bulletin Board System (BBS). Na análise da estabilidade do modelo, o autor procurou identificar o ponto divisor de águas da tendência de um tópico quente, e então generalizar sobre dois teoremas a partir dos resultados dessa análise. Tais teoremas expõem duas condições suficientes sob as quais a tendência de um tópico quente iria morrer ou, de forma uniforme, permaneceria fracamente persistente. Em seguida propõe dois métodos: uma forma de pesquisa teórica para detectar longas tendências de só um pico de tópicos quentes a partir dos limiares obtidos dos teoremas; e como aplicação, outro método para previsão do número de usuários que estejam escrevendo ou comentando sobre um assunto publicado, em relação a um ou vários picos de um tópico quente, em dois dias subsequentes, com a ajuda do primeiro método.
Tu e Seng (2012) entendem que a atividade de detecção de tópicos emergentes, aqueles que ainda não são Hot Topic, é fundamental para quem quer buscar e acompanhar novas pesquisas sobre tendências, pois os métodos atuais de mineração de textos e de dados estruturados, usados para esse propósito, focam somente na frequência em que os assuntos são mencionados, e ignoram o quão novos são esses assuntos. Esse teor de novidade também é crítico, e está além do escopo de um estudo da frequência. Diante disso, os autores propõem um novo conjunto de índices mais precisos para detecção de temas emergentes para compor uma nova solução: NI - índice de novidade (ing. Novelty Index) e o PVI - índice de volume publicado (ing. Published Volume
17
Index), baseados no tempo, no volume e na frequência. Tais índices são utilizados para determinar o ponto de detecção (DP) de novos tópicos emergentes candidatos. O conjunto interseção entre os diversos tópicos emergentes candidatos detectados decide o mérito de um tópico ser novo ou não. Em seus experimentos com os algoritmos desenvolvidos, as aplicações dos índices NI e PVI sobre a biblioteca digital da ACM, proporcionaram uma indicação promissora de tópicos emergentes nos documentos relacionados a congressos e publicações. Percebe-se nesse estudo, uma forte similaridade com métodos de obtenção de índices de similaridade baseados na frequência de termos em documentos.
Tobarra (2013) afirma que as plataformas tecnológicas estão mudando o papel dos usuários de espectadores para atores principais, e que na área educacional à distância, é possível tirar proveito dessas novas tecnologias para superar a ausência da observação comportamental presencial, pelo monitoramento da pertinência dos temas abordados nas discussões online, aos objetivos do curso. Isso é feito através da análise do padrão de comportamento da grande quantidade de interações dos alunos que ocorrem nos fóruns de discussão das disciplinas à distância, e por meio de uma caracterização e organização em rede, dos tópicos e subtópicos relevantes, de forma semelhante a Chen (2011), obtidos a partir de mensagens armazenadas ao longo do tempo (Figura 6). O autor sugere também que a base de termos que fundamentam os tópicos e subtópicos seja obtida durante o pré-processamento dos textos, em especial, na etapa de radicalização (Stemming).
18
Figura 6 - Rede de tópicos obtida a partir de fóruns de discussão de uma disciplina acadêmica (TOBARRA, 2013)
2.6
Aplicações na Área Financeira
Também com foco o na área financeira, em especial a análise de investimentos, Lopes (2008) utilizou técnicas de mineração de textos, cujas aplicações se baseavam na Mineração de Opiniões obtidas a partir de fontes de notícias disseminadas pela web. O objetivo era extrair a parte mais relevante dessa grande massa de dados não estruturada.
Ainda na área das aplicações financeiras baseadas em mineração de textos, em especial mercado de ações, Faria (2012) analisou diversos modelos de previsão do índice Bovespa, a partir do processamento de notícias macroeconômicas e financeiras, divulgadas nos principais sites brasileiros, juntamente com as séries temporais das cotações do indicador, e sugere uma estratégia de negociação baseada nos resultados das análises.
Também focando na utilização de modelos híbridos que combinam em seu processamento análise de dados estruturados e não estruturados, Beckmann (2017), foca em prever as mudanças nos valores das ações das empresas listadas no índice Dow Jones, em função das notícias relacionadas a elas, por meio de um sistema que combina algoritmos já conhecidos de aprendizagem de máquina, em conjunto com técnicas de mineração de textos. Além disso, propõe uma nova técnica de alinhamento entre dados
19
de mercado e notícias. Os resultados da classificação obtidos, por métricas de precisão, foram similares a outros resultados publicados recentemente. Porém, foi constatado que as métricas usadas em tais pesquisas têm pouco a contribuir em termos de recomendação de investimento para o mercado financeiro, e o uso bem sucedido de mineração de textos para esse propósito deve seguir determinados preceitos.
2.7
Redes e Estruturas de Conhecimento
Além do trabalho de Tobarra (2013), outros autores também focam no uso de estruturas de redes para representação de conhecimento. Rosval (2010) propõe, em seu estudo sobre um banco de dados de citações, formas de mapear mudanças em instâncias de estruturas de larga escala sobre redes de conhecimento complexas, atribuindo significância às partições mais simples dessa rede.
Mitra (2012) percebeu que quando se trata de redes, os algoritmos que abordam comunidades vêm sendo estendidos de forma a englobar dados dinâmicos. A maior parte desses métodos recentes visa à exibição das partições referentes às comunidades, inicialmente, como fotografias sucessivas de grafos, e depois, a conexão ou suavização dessas partições usando recursos temporais inteligentes ou técnicas de amostragem. Essas abordagens estão, no entanto, alcançando de forma longitudinal, ao invés de dinâmica, a detecção dessas comunidades. O autor assume que as comunidades são, fundamentalmente, repetidas interações entre um conjunto de nós ao longo do tempo. De acordo com essa definição, analisar dados a partir de sucessivas fotografias, segundo Mitra, induz a uma significante perda de informação e ainda sugere que isso obscurece essencialmente o fenômeno dinâmico, como por exemplo: as comunidades baseadas em repetidas interações intertemporais; nós movendo-se de uma partição para outra ao longo do tempo; ou a possibilidade de que uma comunidade sobreviva enquanto seus membros estão sendo integralmente substituídos durante um período de tempo mais longo. Diante disso, é proposto um método formal que aborda a questão no contexto de um conjunto de dados temporais (e.g. redes de citações), e o exemplifica por meio de redes dinâmicas empíricas e sintéticas. O autor também introduz métricas, intrinsicamente dinâmicas, para qualificar a estrutura temporal da comunidade e enfatizar o possível papel delas como estimadora da qualidade da detecção da comunidade - levando em conta que vários contextos empíricos possam mencionar definições e critérios de detecção de “comunidade” de forma distinta. Os pesquisadores
20
Bhupatirajua e Nomalerb (2012) aplicam análise de redes, sobre uma base de dados de citações, combinando as referências chaves presentes nas publicações nas áreas de Empreendedorismo, Estudos sobre Inovação e Estudos sobre Ciência e Tecnologia, e comparando os agrupamentos (clusters) formados pelas três áreas com os formados dentro de cada área isoladamente.
2.8
Outras Áreas de Estudo
Diversos estudos utilizando mineração de textos, em diferentes áreas da ciência, e não só nas áreas tecnológicas e afins, vêm sendo realizados e publicados em função da vasta quantidade de aplicações e dados disponíveis na forma de texto. Selecionar e analisar esses trabalhos se tornou um desafio, e em função disso, há estudos como o de Xavier (2012) que visam especificamente facilitar a seleção das publicações pela relevância que elas possuem quando relacionadas a um aspecto específico da mineração de textos, como por exemplo, a indexação de artigos científicos. Na área da Saúde, laudos e sumários de alta hospitalar, constituem uma base documental interessante para descoberta de informações. Em função da grande quantidade de publicações a respeito desses estudos, Bulegon e Moro (2010) analisaram os trabalhos mais relevantes aos temas PLN - Processamento de Linguagem Natural e Mineração de Textos, contidos na base de dados PUBMED, e concluíram que ambas as abordagens apresentam resultados expressivos, como métodos efetivos, para auxiliar o processo de extração de informação de narrativas clínicas.
Com um olhar unificador de informações de natureza diferenciadas, Abascal-Mena (2011) percebeu que, nos últimos anos, a quantidade de jornais online vem alcançando dimensões consideráveis em muitas cidades pelo mundo, e que tal informação, por ser rica, permitiria análise semântica do espaço, particularmente no que diz respeito à quais lugares, por todo o mundo, são cobertos por notícias e o que acontece lá. Como ferramenta para análise dessas informações, o autor apresenta um sistema computacional que extrai localidades das capas dos jornais mais importantes, para visualizá-las em uma projeção mundial. O sistema utiliza um Webservice com Parser Geográfico para extrair coordenadas geográficas das capas online. Em seguida, por meio da linguagem XML (eXtensible Markup Language), as geoposições são desenhadas e os documentos originais são ligados a imagem de um mapa que permite a
21
visualização dos lugares e as notícias relacionadas a cada um deles. Também é possível, procurar o título das notícias de acordo com um conceito selecionado pelo usuário.
2.9
Comentários Sobre a Revisão Bibliográfica
Pela análise dos trabalhos publicados, fica evidente que a busca pela essência dos assuntos abordados pelos documentos pode ser feita por atributos descritores ou pela estruturação de todo o conteúdo textual. E ainda, que trechos importantes dos documentos podem conter a maior parte das informações interessantes e, por isso, deve-se investir em uma repredeve-sentação interna simplificada dos assuntos, onde poucos termos expressões mais relevantes devem ser usados.
Cabe destacar a proposta do Dicionário de Conceitos Chaves - KDC, onde se percebe a possibilidade de utilização de uma abordagem semelhante para se obter termos logo após o pré-processamento dos textos, o que facilita a construção da representação dos conceitos, mesmo que eles estejam estruturados em termos e expressões semanticamente incorretos. Cabe ainda, uma reflexão sobre a utilização de um especialista na construção do Dicionário de Conceitos Chave, pois não sabemos até que ponto o conhecimento dele é suficiente para preencher as informações na estrutura desejada.
Por fim, é importante mencionar a ampla adoção de métodos de mineração de textos em conjunto com técnicas de outras áreas da inteligência computacional como detecção de comunidades e análise de redes para dar suporte e convergência aos modelos, além da utilização de atributos associados direta ou indiretamente às publicações, como datas ou posição georeferenciada dos documentos, na tentativa de qualificar e agrupar as informações originais.
22
Capitulo 3
3
Metodologia
O processo de mineração de textos, também conhecido como mineração de dados não estruturados, refere-se à extração de informações ou padrões interessantes e não triviais em documentos textuais não-estruturados (Tan, 1999). É uma das disciplinas que compõem a Tecnologia para Linguagem Humana - HLT (Human Language Technology), da mesma forma que o Processamento de Linguagem Natural – NLP (Natural Language Processing). Destina-se a verificar, analisar, classificar e inferir informações sobre documentos ou coleções de textos e propiciar os meios para a utilização de técnicas inteligentes na descoberta de conhecimento. Tais documentos podem ser analisados de forma individual ou coletiva, com o intuito de inferir padrões entre eles ou classificá-los em grupos de interesse comum.
A descoberta de conhecimento a partir de base de dados de documentos – KDT (Knowledge Discovery from Textual databases), é inspirado no processo de descoberta de conhecimento em base de dados estruturados – KDD (Knowledge Discovery from Databases), que utiliza um conjunto de técnicas inteligentes para extração de
23
informações não disponíveis diretamente. Uma das etapas, denominada como mineração de dados estruturados (Data Mining), tem como objetivo encontrar padrões, regras de associação, sequências temporais, classificar e agrupar dados.
Comparativamente, a mineração de textos é possuidora de “um potencial comercial maior que a mineração de dados estruturados” uma vez que “a forma mais natural de se armazenar informação seria através de textos” e que 80% das informações de uma companhia estão presentes em documentos textuais.
Todavia, a descoberta de conhecimento em textos não estruturados apresenta-se como uma tarefa mais complexa do que a KDD. Analisar textos envolve o tratamento de informações ambíguas e imprecisas, e por este motivo muitas vezes é abordada através de um paradigma multidisciplinar, e por modelos computacionais com grande intervenção humana.
Feldman e Sanger (2007) o caracterizam como um processo intensivo em conhecimento no qual um usuário interage com uma coleção de documentos ao longo do tempo, usando um conjunto de ferramentas de análise. De acordo com Weiss (2010), a finalidade da mineração de texto é o processamento de informações não estruturadas e extração de dados numéricos significativos a partir do texto, para tornar a informação contida no texto mais acessível à técnicas tradicionais de mineração de dados estruturados.
Em geral, pode-se dividir o processo de análise de informações não estruturadas em três etapas: pré-processamento, processamento e pós-processamento, conforme Figura 7.
Percebe-se, portanto que por meio da mineração de textos, podem-se derivar resumos de documentos em uma coleção e obter conceitos-chave relacionados ao conjunto de documentos como um todo. Os documentos podem ser analisados a fim de determinar semelhanças entre eles, o que pode auxiliar na classificação e estruturação de dados. Em geral, o text mining transforma o texto em números, o que permite serem posteriormente incorporadas em outras análises de dados para revelar resultados estatísticos interessantes.
24
Figura 7 - As etapas do processo de Análise de informações não estruturadas.
A metodologia descrita nesta etapa do trabalho é formada por um conjunto de princípios e definições subjacentes estruturadas em um modelo geral e em modelos específicos, para cada tipo de problema, e está dividido em duas grandes fases: representação do conceito e processamento temporal. A representação do conceito é a escolha de um conjunto de termos representativos do conceito e o processamento temporal é a avaliação deste conceito em uma stream de textos para o cálculo do índice.
A verificação da metodologia será feita na etapa seguinte do trabalho na qual experimentos e resultados alcançados serão mostrados.
3.1
Representação do Conceito
Em função da complexidade e da ambiguidade inerente às linguagens naturais, há diversas formas de descrever um conceito, que pode ser definido como uma ideia, juízo ou opinião sobre algo. A frequente presença de determinadas palavras em muitos documentos de uma coleção pode determinar um conjunto de termos associados aos conceitos presentes nessa mesma coleção. Tu e Seng (2014) propõem esta abordagem em seus trabalhos para detecção de tópicos.
Percebe-se que o princípio dessa representação é semelhante ao do Algoritmo de Busca Orientado por Agenda abordado por Rich, Knight e Nair (2009), que menciona que diversas indicações sobre uma mesma ideia vindas de origens diferentes devem ser levadas em consideração em uma busca heurística. E ainda, que pesos devem ser
25
computados quando é notória a importância de uma fonte pelo qual a ideia foi transmitida.
Algoritmo 1 : Algoritmo de Busca Heurística Orientada por Agenda.
Entradas : Estado Inicial (opcional) – Elemento inicial a ser avaliado; Agenda – Lista de Tarefas onde uma Tarefa é composta por {Ação – Sequencia de Instruções e Tarefas Adicionais; Lista de Razões; Importância}.
Saída : Estado Final. Repita
Execute Ação de Tarefa de Agenda Onde máximo(Importância) Para Cada Tarefa Adicional de Ação Faça:
Se Tarefa é nova Então
Se Razão é nova Então
Adicione Razão na Lista de Razões Senão
Adicione Tarefa na Agenda E Razão na Lista de Razões Fim do se
Fim do se
Importância <- tamanho(Lista de Razões) Fim do Para
Até Estado Meta OU vazia(Agenda)
Figura 8 - Algoritmo de Busca Heurística Orientada por Agenda: princípio da Representação de um Conceito
A representação do conceito “Inflação está em Alta” é exemplificada na Figura 9. Pode-se considerar que este conceito é determinado a partir de três conjuntos de documentos cujos assuntos estão relacionados ao aumento da inflação (Cecchetti, 2007): Modelos Econômicos Inflacionários; Aumento na Oferta de Crédito; e Aumento do Consumo de Bens Duráveis, como mostra a Figura 9(a). Deste modo, a representação do conceito é definida por termos que são frequentes, simultaneamente, nos três conjuntos de documentos, como mostra a Figura 9(b).
26
Figura 9 - Conceito “Inflação está em Alta” pode ser representado pelos termos mais frequentes entre três conjuntos de documentos cujos assuntos estão relacionados ao
aumento da inflação.
A geração do conceito é uma fase chave na metodologia, pois a escolha dos termos que compõem o conceito tem grande influência sobre os resultados do modelo. A melhor forma de se escolher os conceitos chave é a partir de especialistas no assunto. Entretanto, mesmo um especialista pode não ser capaz de descrever quais as palavras são mais importantes na definição de um conceito. Desta forma, a obtenção dos termos para definição do conceito deve poder ser realizada de forma automática (sem intervenção).
A extração automática de termos base para o conceito é feita a partir de uma amostra de documentos que faça menção aos assuntos correlatos. Para isso, é necessário realizar a etapa de pré-processamento, comum em aplicações de mineração de textos, que inclui a retirada dos termos desnecessários (stopwords), flexionar os termos remanescentes até o seu radical linguístico (stemmization), identificação de entidades nomeadas, e representação final estruturada (bag of words). (Feldman, 2007) (Figura 10).
27
Figura 10 - Pré-processamento típico de documentos: representação final estruturada Considere o conjunto de documentos = , … , , no qual cada documento é um conjunto de palavras do universo de discurso ou dicionário = , … , . Neste trabalho utiliza-se o modelo de representação de espaço vetorial em que cada documento é representado por um vetor, cujos elementos representam as palavras. Na representação de espaço vetorial, após o pré-processamento, cada documento é representado como um vetor em que os componentes representam os termos presentes na coleção. O conjunto de documentos é assim transformado no conjunto =
( ), = 1 … , onde é o número total de documentos e cada documento é representado pelo vetor ( ) ∈ 0,1 , onde é o número total de palavras. A componente !"( ) do vetor ( ) indica a presença da palavra " no documento # como:
!"( ) = 11,0, 2 2 ""∉∈ ## (1)
Conforme demonstraram Nassitourssi (2014) e Feldman (2007), os termos com maior representatividade em todo o conjunto de documentos são calculados pela “frequência em documentos” (ing document-frequency) do termo, que representa o número de documentos em que o termo / aparece, calculado como:
.(/) = 14 !"( ) #5
/ = 1, … , (2)
Um termo que aparece em todos os documentos tem .(/) = 1, e representa a relevância máxima no conjunto de documentos. Define-se por 0 = .(1), … , .( ) , o conjunto formado por todas as frequências observadas dos termos do universo.