Classificação e previsão de séries temporais através de redes complexas

Texto

(1)UNIVERSIDADE DE SÃO PAULO FFCLRP - DEPARTAMENTO DE COMPUTAÇÃO E MATEMÁTICA PROGRAMA DE PÓS-GRADUAÇÃO EM COMPUTAÇÃO APLICADA. Classificação e previsão de séries temporais através de redes complexas. Leandro Anghinoni. Dissertação apresentada à Faculdade de Filosofia, Ciências e Letras de Ribeirão Preto da USP, como parte das exigências para a obtenção do título de Mestre em Ciências, Área: Computação Aplicada.. Ribeirão Preto - SP 2018.

(2)

(3) Classificação e previsão de séries temporais através de redes complexas Leandro Anghinoni. ORIENTADOR: PROF. DR. ZHAO LIANG CO-ORIENTADOR: PROF. DR. THIAGO CHRISTIANO SILVA Versão Revisada. Ribeirão Preto - SP 2018.

(4) Autorizo a reprodução e divulgação total ou parcial deste trabalho, por qualquer meio convencional ou eletrônico, para fins de estudo e pesquisa, desde que citada a fonte.. Anghinoni, Leandro Classificação e previsão de séries temporais através de redes complexas. Ribeirão Preto, 2018. 89 p. : il. ; 30 cm Dissertação de Mestrado, apresentada à Faculdade de Filosofia, Ciências e Letras de Ribeirão Preto/USP. Área de concentração: Computação Aplicada. Orientador: Liang, Zhao. 1. Séries temporais. 2. Redes complexas. 3. Detecção de comunidades. 4. Classificação de tendência. 5. Previsão de tendência. 6. Aprendizado de máquina.

(5) Time series trend classification and forecasting using complex network analysis. Leandro Anghinoni. ADVISOR: PROF. DR. ZHAO LIANG CO-ADVISOR: DR. THIAGO CHRISTIANO SILVA. Revised Version. Ribeirão Preto - SP 2018.

(6) iv.

(7) Leandro Anghinoni Classificação e previsão de séries temporais através de redes complexas Dissertação apresentada à Faculdade de Filosofia, Ciências e Letras de Ribeirão Preto da USP, como parte das exigências para a obtenção do título de Mestre em Ciências, Área: Computação Aplicada. Aprovado em: 06 de novembro de 2018 Banca Examinadora. Prof. Dr. Zhao Liang Orientador. Prof. Dr. Renato Tinós. Prof. Dr. Tabajara Pimenta Junior. Prof. Dr. Elbert Einstein Nehrer Macau. Ribeirão Preto - SP 2018.

(8) vi.

(9) À minha esposa Tais..

(10) viii.

(11) AGRADECIMENTOS Agradeço à minha família pelo apoio incondicional a qualquer iniciativa que busque novos conhecimentos e ao Prof. Dr. Zhao Liang, meu orientador, pela oportunidade, incentivo e confiança durante o desenvolvimento do trabalho..

(12) x.

(13) “Those who can imagine anything, can create the impossible.” Alan Turing.

(14) xii.

(15) RESUMO O estudo de séries temporais para a geração de conhecimento é uma área que vem crescendo em importância e complexidade ao longo da última década, à medida que a quantidade de dados armazenados cresce exponencialmente. Considerando este cenário, novas técnicas de mineração de dados têm sido constantemente desenvolvidas para lidar com esta situação. Neste trabalho é proposto o estudo de séries temporais baseado em suas características topológicas, observadas em uma rede complexa gerada com os dados da série temporal. Especificamente, o objetivo do modelo proposto é criar um algoritmo de detecção de tendências para séries temporais estocásticas baseado em detecção de comunidades e caminhadas nesta mesma rede. O modelo proposto apresenta algumas vantagens em relação à métodos tradicionais, como o número adaptativo de classes, com força mensurável, e uma melhor absorção de ruídos. Resultados experimentais em bases artificiais e reais mostram que o método proposto é capaz de classificar as séries temporais em padrões locais e globais, melhorando a previsibilidade das séries ao se utilizar métodos de aprendizado de máquina para a previsão das classes.. Palavras-chave: séries temporais, redes complexas, detecção de comunidades, classificação de tendência, previsão de tendência, aprendizado de máquina..

(16) xiv.

(17) ABSTRACT Extracting knowledge from time series analysis has been growing in importance and complexity over the last decade as the amount of stored data has increased exponentially. Considering this scenario, new data mining techniques have continuously developed to deal with such a situation. In this work, we propose to study time series based on its topological characteristics, observed on a complex network generated from the time series data. Specifically, the aim of the proposed model is to create a trend detection algorithm for stochastic time series based on community detection and network metrics. The proposed model presents some advantages over traditional time series analysis, such as adaptive number of classes with measurable strength and better noise absorption. Experimental results on artificial and real datasets shows that the proposed method is able to classify the time series into local and global patterns, improving the predictability of the series when using machine-learning methods.. Keywords: time series, complex networks, community detection, trend classification, trend forecasting, machine learning..

(18) xvi.

(19) LISTA DE FIGURAS Figura 1. Exemplo de rede neural (MLP) feed-forward. Fonte: Adaptado de (KOTSIANTIS; ZHARAKIS; PINTELAS, 2007). ............................................................... 35 Figura 2. Separação de duas classes utilizando o algoritmo SVM. Note que o hiperplano ótimo maximiza a distância de separação entre as duas classes e utiliza os pontos sobre as bordas como pontos de suporte. Fonte: Adaptado de (KOTSIANTIS; ZHARAKIS; PINTELAS, 2007). ............................................................... 37 Figura 3. Exemplo de árvore decisão gerada a partir da base de treinamento apresentada na Tabela 1. Fonte: Adaptado de (KOTSIANTIS; ZHARAKIS; PINTELAS, 2007). ............................................................................................................... 38 Figura 4. Exemplo de redes com comunidades destacadas. Na rede à esquerda nota-se a presença de três comunidades, definidas por áreas de maior densidade de conexão. Na rede à direita observam-se duas comunidades. Fonte: (BARABÁSI, 2016).41 Figura 5. Série temporal exemplo e sua rede de transição de estados discretos .................... 43 Figura 6. Conjunto de séries temporais e sua rede de transição derivada ............................ 43 Figura 7. Fluxograma das etapas do modelo proposto de classificação da série temporal ..... 48 Figura 8. Fluxograma das etapas do modelo proposto de previsão de tendência da série temporal ............................................................................................................... 49 Figura 9. Série temporal composta do preço de fechamento do índice Bovespa de 02/01/1996 a 08/05/2018. .............................................................................................. 50 Figura 10. Série temporal artificial utilizada no trabalho. A figura ilustrada aqui não possui ruído. ....................................................................................................... 51 Figura 11. (a) Série temporal original correspondente a 50 dias do preço de fechamento do índice Bovespa; (b) Características de curto prazo normalizadas (ruído em vermelho, gradiente em azul e posição relativa máximo-mínimo em verde; (c) Características de curto prazo normalizadas e discretizadas (mesmo padrão de cores)....................................................................................................... 54 Figura 12. Representação ilustrativa da rede clusterizada em duas classes. Fonte: (BARABÁSI, 2016) ....................................................................................................... 56 Figura 13. Exemplo de classificação de comunidade identificada no processo de detecção de comunidades. Neste caso a comunidade 2741 está destacada e algumas ocorrências podem ser vistas no período plotado. A comunidade 2741 se trata de uma comunidade de baixa. ......................................................................... 59 Figura 14. Exemplo de dados inseridos nos classificadores utilizados nos experimentos. ..... 60.

(20) xviii. Figura 15. Série temporal interpolada em intervalos simétricos. Os dados da série são classificados de acordo com o ponto inicial e final de cada segmento de reta. Nesta figura as tendências de alta estão marcadas em azul e as tendências de baixa em vermelho. ................................................................................................ 62 Figura 16. Desvio padrão da curva real - índice Bovespa ................................................. 66 Figura 17. Histograma do grau (𝒌) dos vértices da rede gerada pela curva artificial ............ 67 Figura 18. Rede gerada a partir da curva artificial ........................................................... 67 Figura 19. Histograma do grau (𝒌) dos vértices da rede gerada pela curva artificial ............ 69 Figura 20. Rede gerada a partir da curva real .................................................................. 69 Figura 21. Curva sinusoidal classificada pelo modelo proposto em diferentes níveis de ruído. Em (a) 𝝈𝟐 = 𝟎, 𝟎𝟎, em (b) 𝝈𝟐 = 𝟎, 𝟎𝟏, em (c) 𝝈𝟐 = 𝟎, 𝟎𝟐 e em (d) 𝝈𝟐 = 𝟎, 𝟎𝟑. ............................................................................................................... 70 Figura 22. (a) Acurácia de classificação em função do ruído presente na curva sinusoidal. (b) Modularidade da rede com base no ruído presente na curva sinusoidal. .......... 71 Figura 23. Performance de classificação do modelo proposto e do método de particionamento da base e interpolação dos intervalos. ......................................................... 72 Figura 24. Últimos 1000 pontos da série temporal real classificados de acordo com as comunidades identificadas na rede gerada. .................................................. 73 Figura 25. Últimos 1000 pontos da série temporal real classificados de acordo com a tendência de alta (‘UP’) ou baixa (‘DW’). ................................................................. 76 Figura 26. Rede gerada a partir da curva real e classificada nas tendências de alta (azul) e baixa (vermelho). .............................................................................................. 76 Figura 27. Acurácia de previsão para a curva artificial utilizando como regra de classificação a interpolação dos dados com particionamento da base em períodos de 25 dias. . 78 Figura 28. Acurácia de previsão para a curva artificial utilizando como regra de classificação a interpolação dos dados com particionamento da base em períodos de 125 dias.78 Figura 29. Acurácia de previsão para a curva artificial utilizando como regra de classificação o modelo proposto baseado na topologia da rede. ........................................... 79 Figura 30. Acurácia de previsão combinada para a curva artificial. ................................... 79 Figura 31. Acurácia de classificação para o método de referência utilizando um tamanho de partição variável. ...................................................................................... 80 Figura 32. Acurácia de classificação para o modelo proposto utilizando um período de curto prazo variável e uma relação longo prazo/curto prazo fixa. ........................... 81 Figura 33. Acurácia de classificação combinada. ............................................................ 81.

(21) LISTA DE TABELAS Tabela 1. Exemplo de dados de treinamento para a construção da arvore de decisão. Fonte: Adaptado de (KOTSIANTIS; ZHARAKIS; PINTELAS, 2007). .................... 38 Tabela 2. Dados da rede criada a partir da curva artificial ................................................. 66 Tabela 3. Dados da rede criada a partir da curva real........................................................ 68 Tabela 4. Dados da rede gerada com detalhes sobre as comunidades ................................. 74.

(22) xx. LISTA DE SÍMBOLOS Notação. Descrição. 𝒔𝒓𝒕. Tamanho, em dias, do período de curto prazo. 𝒍𝒏𝒈. Tamanho, em dias, do período de longo prazo. 𝑵𝒃. Tamanho do bin utilizado. 𝒕. Período de tempo da observação do processo estudado. 𝑻. Espaço de tempo total do processo estudado. 𝑮. Grafo. 𝒏. Vértice. 𝒍. Aresta. 𝒌. Grau do vértice. 𝒌𝒐𝒖𝒕. Grau do vértice considerando apenas arestas que partem do vértice. 𝑴. Matriz de adjacência. 𝑸. Modularidade da rede. 𝑺. Série característica. 𝒗. Vetor característico. 𝒄𝒑. Série temporal do preço de fechamento do índice Bovespa.

(23) SUMÁRIO CAPÍTULO 1 - INTRODUÇÃO.................................................................................. 23 1.1 Séries Temporais .................................................................................................... 23 1.2 O Índice Bovespa e os Mercados Eficientes............................................................... 25 1.3 Motivação.............................................................................................................. 26 1.4 Definição do Problema e Objetivos .......................................................................... 27 1.5 Organização do Trabalho......................................................................................... 29 CAPÍTULO 2 - FUNDAMENTAÇÃO TEÓRICA........................................................ 31 2.1 Séries Temporais e o Modelo ARIMA ...................................................................... 31 2.2 Algoritmos de Aprendizado de Máquina ou Classificadores ........................................ 34 2.2.1 Naive Bayes (NB) ................................................................................................ 34 2.2.2 Multilayer Perceptron (MLP)................................................................................ 35 2.2.3 Support Vector Machine (SVM) ............................................................................ 36 2.2.4 Decision Tree (DT) .............................................................................................. 37 2.2.5 k-Nearest Neighbors (k-NN) ................................................................................. 39 2.3 Redes Complexas ................................................................................................... 39 2.3.1 Redes Reais e suas Propriedades............................................................................ 40 2.3.2 Redes Artificiais e Modelos de Formação ............................................................... 41 2.3.3 Estrutura da Rede – Comunidades ......................................................................... 44 2.4 Considerações Gerais .............................................................................................. 45 CAPÍTULO 3 - CLASSIFICAÇÃO E PREVISÃO DE SÉRIES TEMPORAIS ATRAVÉS DE REDES COMPLEXAS ...................................................................... 47 3.1 Considerações Iniciais............................................................................................. 47 3.2 Obtenção e Tratamento dos Dados ........................................................................... 49 3.3 Extração das Características da Série Original ........................................................... 51 3.4 Conversão da Série Temporal em Rede ..................................................................... 55 3.5 Detecção de Comunidades ....................................................................................... 55 3.6 Classificação da Tendência da Série Temporal .......................................................... 58 3.7 Previsão de Tendência de uma Nova Observação ....................................................... 60 3.8 Análise dos Resultados............................................................................................ 61.

(24) xxii. 3.9 Comparação com Métodos Existentes ...................................................................... 61 3.10 Considerações Finais ............................................................................................ 63 CAPÍTULO 4 - RESULTADOS EXPERIMENTAIS .................................................. 65 4.1 Métricas da Rede Gerada ........................................................................................ 65 4.1.1 Métricas da Rede Gerada – Curva Artificial ........................................................... 65 4.1.2 Métricas da Rede Gerada – Curva Real (Índice Bovespa) ........................................ 68 4.2 Classificação da Tendência com o Modelo Proposto .................................................. 69 4.2.1 Classificação da Tendência com o Modelo Proposto – Curva Artificial ..................... 70 4.2.2 Classificação da Tendência com o Modelo Proposto – Curva Real ........................... 71 4.3 Previsão da Tendência com o Modelo Proposto ......................................................... 77 4.3.1 Previsão da Tendência com o Modelo Proposto – Curva Artificial ............................ 77 4.3.2 Previsão da Tendência com o Modelo Proposto – Curva Real .................................. 80 CAPÍTULO 5 - CONCLUSÕES ................................................................................ 83 5.1 Publicações ........................................................................................................... 84 5.2 Trabalhos Futuros .................................................................................................. 85 REFERÊNCIAS......................................................................................................... 87.

(25) Capítulo 1 CAPÍTULO 1 -. INTRODUÇÃO. O presente capítulo apresentará uma breve introdução sobre séries temporais e o índice Bovespa, cobrindo a importância do estudo deste tipo de série temporal. Em seguida será apresentada a motivação deste trabalho e a definição do problema e objetivos.. 1.1 Séries Temporais. A análise de séries temporais faz parte do dia a dia da maioria das áreas de estudos e dos negócios atuais (BAHETI; TOSHNIWAL, 2014). Sua aplicação abrange os mais variados campos de pesquisa, como por exemplo: . Economia: evolução de dados como PIB, juros, taxa de cambio e cotações de ativos;. . Industria: consumo energético, produtividade e taxa de qualidade;. . Meteorologia: evolução de variáveis climáticas, como temperatura e humidade;. . Medicina: evolução de contaminação de uma doença, batimentos cardíacos e temperatura corporal.. Uma série temporal pode ser definida como uma sequência de medidas coletadas ao longo do tempo, normalmente em intervalos regulares (RANI et. al., 2014). Na série temporal a ordem dos dados é importante para que a análise tenha significado. O estudo de dados históricos tem a seguinte relevância: . Descrição: as séries temporais descrevem o comportamento de uma variável ao longo do tempo;. 23.

(26) 24. Capítulo 1 - Introdução. . Entendimento: através desta descrição é possível estudar características como sazonalidade, ciclos, tendência, previsibilidade, correlação entre séries, volatilidade, dados coletados errados, entre outras;. . Previsão: através do entendimento da série pode-se propor um modelo de previsão do fenômeno observado.. Estima-se que mais dados foram gerados nos últimos dois anos do que em toda a história anterior da humanidade e que, apesar disso, apenas 0,5% de todos os dados é analisado de alguma forma. O trabalho de data-mining ou mineração de dados pode ser definido como o processo de extração de modelos e padrões de grandes bases de dados. Este trabalho em séries temporais pode ser abordado de diversas formas e o desenvolvimento de novas técnicas se torna cada vez mais importante neste contexto. (RANI et. al., 2014) descreve várias técnicas para o tratamento de séries temporais compostas de um grande número de dados. O modelo geral para a análise de séries temporais pode ser divido em quatro passos: definição do problema, préprocessamento dos dados, criação do modelo e, por fim, análise e predição do modelo. Ainda segundo (RANI et. al., 2014), a análise da tendência da série temporal (direção na qual os dados evoluem) possui alguns componentes que podem ajudar na análise e no estudo das séries temporais: . Movimentos de longo prazo: mostram a direção (ou tendência) em que os dados estão indo. Normalmente é obtida pela média móvel dos dados ou pela soma dos mínimos quadrados (regressão polinomial);. . Movimentos sazonais: incluem padrões que estão relacionados ao calendário anual, ou seja, padrões que se repetem em determinados dias, semanas ou meses. Um exemplo disto seria um aumento de vendas em dezembro, em decorrência do Natal;. . Movimentos aleatórios: são comportamentos da curva não previsíveis, como enchentes e greves, ou seja, eventos que tem um impacto na série, mas que não possuem uma previsibilidade histórica;. . Movimentos cíclicos: são padrões que se repetem tem tempos em tempos, mesmo que escalas diferentes e não relacionadas ao calendário.. Desta forma, a série temporal poderia ser simplificada como a soma ou produto de cada componente, representado na Equação (1): 𝑌 = 𝑇 + 𝑆 + 𝑅 + 𝐶 𝑜𝑢 𝑌 = 𝑇 ∗ 𝑆 ∗ 𝑅 ∗ 𝐶. (1).

(27) 1.2 - O Índice Bovespa e os Mercados Eficientes. 25. Onde 𝑌 é a função que representa a série temporal, 𝑇 é componente do movimento de longo prazo (trend), 𝑆 é a componente dos movimentos sazonais (seasonal), 𝑅 é a componente aleatória (random) e 𝐶 é a componente cíclica (cyclic). O objetivo final de um sistema de data-mining é encontrar padrões contidos na série original ou transformada. O processo de mineração dos dados envolve diversas atividades, como o agrupamento de dados, a classificação, a mineração por regras, a sumarização, entre outras. Este trabalho fará o uso de várias dessas técnicas para a formulação do modelo proposto.. 1.2 O Índice Bovespa e os Mercados Eficientes. A principal base de dados de estudo deste trabalho será o preço de fechamento do índice Bovespa ao longo dos últimos 22 anos. O índice Bovespa tem sido o indicador mais importante para medir a performance das empresas de capital aberto brasileiras ao longo dos últimos 50 anos. Sua metodologia foi criada em 1962 e, após passar por ajustes em 1966 e 1967, o índice foi adotado pela bolsa de valores de São Paulo em 1968. Desde então, o índice passou por momentos de estabilidade, mas também por fortes altas e depressões (LEITE; SANVINCENTE, 1995). Do ponto de vista de um investidor ou de um analista de mercado, entender e prever esses momentos de alta e baixa do índice são de grande valor. No entanto, a hipótese dos mercados eficientes afirma que os mercados são eficientes em relação à informação, ou seja, um agente não pode ter um retorno maior que o mercado no longo prazo utilizando apenas a informação pública disponível (MALKIEL; FAMA, 1970). Do ponto de vista da análise de séries temporais, isso significa que não seria possível um modelo gerar previsões futuras apenas com dados passados, mesmo sendo um passado de curtíssimo prazo. Existem três versões da hipótese dos mercados eficientes: . Hipótese fraca: considera que o preço reflete toda a informação histórica disponível sobre o ativo;. . Hipótese semiforte: considera que o preço reflete toda a informação histórica disponível sobre o ativo e que qualquer nova informação pública é refletida instantaneamente nos preços do ativo;.

(28) 26. Capítulo 1 - Introdução. . Hipótese forte: considera que parte do mercado (como investidores institucionais) possui acesso à informação privilegiada, que interfere na formação do preço do ativo.. Desde que a hipótese foi formulada e, especialmente, depois da depressão das bolsas mundiais de 2008, muitos argumentos têm sido levantados em relação à esta teoria, principalmente em relação à quantidade de informação privilegiada existente no mercado e o impacto disto no conceito de retorno esperado ou fair game. O conceito de retorno esperado ou fair game considera que, em um mercado em equilíbrio (com todas as informações refletidas nos preços), não é possível que um modelo que considere apenas dados passados tenha um retorno maior do que o do próprio ativo no longo prazo (MALKIEL; FAMA, 1970). Desta forma, este trabalho pode ser visto também como um teste empírico desta hipótese. Neste trabalho o índice Bovespa será tratado como uma série temporal estocástica, sem uma componente determinística conhecida. Esta abordagem traz alguns desafios para a criação de um modelo de classificação e previsão, especialmente em relação ao tratamento do ruído presente nas tendências e ao conceito de curto, médio e longo prazo.. 1.3 Motivação. Compreender o mercado financeiro não é uma tarefa simples. Muitos modelos tradicionais, propostos nas últimas décadas, consideram o mercado como racional, no sentido que o valor dos ativos é definido por um modelo lógico (MALKIEL; FAMA, 1970). Na prática, flutuações e ruídos nestes tipos de séries temporais mostram que o valor atribuído à um ativo é bastante volátil e que o comportamento, ou até mesmo as emoções, dos agentes envolvidos geram uma grande imprevisibilidade quando analisamos os dados. Considerando essa premissa, o estudo da série temporal através de redes complexas pode gerar um melhor entendimento destes estados ao longo do tempo, permitindo uma classificação mais assertiva do momento em que o mercado se encontra, já que as redes podem absorver características recorrentes de um processo de uma forma mais objetiva, como será descrito mais adiante. Desde o início da análise técnica dos mercados financeiros, é comum a classificação do mercado em três estados: (i) alta, quando a curva dos dados possui um gradiente positivo; (ii) baixa, quando a curva dos dados possui um gradiente negativo ou (iii) consolidação, quando a curva dos dados possui um gradiente próximo de zero, ou seja, os.

(29) 1.4 - Definição do Problema e Objetivos. 27. valores variam em torno de uma constante. No entanto, através do estudo da série pela topologia da rede construída a partir dela, espera-se que seja possível classificar a tendência de cada ponto da curva em um número maior de classes, de acordo com o número de comunidades presentes na rede. Além disso, as tendências baseadas em comunidades poderão ser avaliadas em relação à sua intensidade e probabilidade de reversão, já que cada ponto da série temporal será representado por um vértice e diversas medidas da rede poderão ser avaliadas. Espera-se, por exemplo, que a intensidade de conexão dos vértices gere informação sobre como os ciclos de alta e baixa se repetem e como eles iniciam e terminam. Com isto, além da classificação histórica dos dados, um modelo de previsão será proposto com base em modelos de aprendizado de máquina.. 1.4 Definição do Problema e Objetivos. A classificação e previsão de séries temporais podem ser divididas de duas formas: (i) classificação e previsão de valores ou (ii) classificação e previsão de classes ou tendências (LI; LIAO, 2017). A previsão de valores usualmente trata de uma tarefa de regressão, onde o seu modelo mais conhecido para o estudo de séries estocásticas é o modelo ARIMA (detalhado no Capítulo 2). Os modelos de regressão normalmente se ajustam aos dados históricos e fazem a previsão em forma de um valor e uma margem de erro. Diversos trabalhos foram publicados utilizando o modelo ARIMA, ou alguma variante dele, para o estudo de séries estocásticas, como em (TSENG et. al., 2001), (CHEN et al., 2010) e (HILLMER; TIAO, 1982). No entanto, o modelo ARIMA não captura padrões não lineares facilmente e, por isto, alguns trabalhos mais recentes propõe o uso do ARIMA combinado com técnicas como SVM (PAI; LIN, 2005) e redes neurais (ZHANG, 2003). Já a previsão de tendências (ou classes) é uma tarefa de classificação e, portanto, algoritmos de classificação como o Naive Bayes, o Multilayer Perceptron, as Árvores de Decisão e assim por diante podem ser selecionados para resolver o problema. No entanto, para que esses classificadores tenham uma boa performance é necessário que a base esteja classificada corretamente. Isto por si só é um grande desafio quando se trata de uma série estocástica, já que o horizonte de tempo de cada classe e o ruído inerente de séries estocásticas.

(30) 28. Capítulo 1 - Introdução. tornam o processo de classificação da base algo bastante subjetivo, o que impacta diretamente nos resultados de previsão. Em (LI; LIAO, 2017), por exemplo, o autor utiliza seis classificadores (Árvore de Decisão, Naive Bayes, Support Vector Machine, Multilayer Perceptron, Redes Neurais Recorrentes e Long Short-Term Memory) para prever a tendência de um ativo da bolsa de valores na China. Os resultados são apresentados e, apesar dos classificadores terem performances diferentes (com uma melhor performance de acurácia para os modelos de aprendizagem profunda MLP, RNN e LSTM), os melhores resultados ainda ficam abaixo de 50% para a acurácia. No exemplo citado acima, a base é rotulada utilizando uma regra pré-definida e é passado para os classificadores uma base com diversos indicadores diários e o rótulo. Os indicadores são gerados com base nos dados históricos (são utilizados indicadores de análise técnica de mercado financeiro). O rótulo (que representa a tendência do dia) é gerado com base na variação diária do ativo, ou seja, se o preço de fechamento do dia é maior que o dia anterior o dia é classificado como “alta”, se for menor como “baixa” e se for igual como “consolidação”. Desta forma, a classificação da série não absorve nenhum ruído, já que considera todas as variações diárias e torna o trabalho de previsão muito difícil já que é preciso que a previsão da classe seja precisa para o movimento diário. A utilização de janelas maiores, apesar de resolver o problema de absorção de ruídos, não resolve o problema de forma completa por dois motivos: (i) o tamanho da janela fica a critério do usuário e (ii) os dados contidos em cada janela não possuem correlação com os dados dos indicadores históricos. Diante dos problemas expostos, o objetivo deste trabalho é desenvolver um modelo de conversão de séries temporais em redes complexas que capture caraterísticas subjacentes dos dados e classifique os mesmos através da detecção de comunidades. A análise da série temporal através de suas características topológicas gera um melhor entendimento do comportamento do mercado, uma vez que cada vértice concentra conhecimento de um mesmo estado ao longo do tempo. Esta nova proposta buscará resolver algumas das dificuldades dos métodos tradicionais, que em sua maioria, têm dificuldade em reagir rápido à uma inversão de tendência ou desconsiderar ruídos que não alteram a tendência futura. Mais especificamente, serão buscadas as seguintes propriedades no modelo proposto: . Número de classes (ou tendências): o modelo não deve se restringir a três classes (alta, baixa e consolidação) e sim ter um número de classes correspondente ao número de comunidades presente na rede que representa a série temporal;.

(31) 1.5 - Organização do Trabalho. . 29. Classificação da série temporal: a classificação não deve ser feita com base em um horizonte de tempo definido, mas sim com base nas comunidades presentes na rede. Assim, as tendências serão atribuídas após a formação das comunidades e as tendências poderão ter duração e intensidade variáveis e mensuráveis;. . Previsão da série temporal: as classes deverão ser agrupadas de acordo com padrões históricos da série estudada, com isso as características diárias dos dados terão relação com a classe atribuída ao dia. Desta forma espera-se que a previsão através do uso de algoritmos de aprendizado de máquina tenha um resultado superior ao da previsão de classes atribuídas manualmente (o processo de classificação manual será explicado na Seção 3.9).. 1.5 Organização do Trabalho. O Capítulo 2, intitulado “Fundamentação Teórica”, apresenta uma revisão sobre os conceitos de séries temporais e o modelo ARIMA, um modelo de regressão muito utilizado. Em seguida é feita uma revisão sobre alguns classificadores que serão utilizados neste trabalho e por fim são apresentados os conceitos de redes complexas e sua estrutura. No Capítulo 3, intitulado “Classificação e Previsão de Séries Temporais através de Redes Complexas”, é apresentado o modelo proposto. Este capítulo é divido em cada etapa do modelo proposto, desde a fase de tratamento dos dados, até a metodologia de análise dos resultados obtidos. Já no Capítulo 4, intitulado “Resultados”, serão apresentados os resultados experimentais obtidos com o modelo proposto. Como será explicado ao longo do trabalho, o modelo proposto será comparado com um método de referência. Por fim, o Capítulo 5, intitulado “Conclusões”, apresenta as conclusões com base nos resultados obtidos e contribuições do trabalho. Além disso, é feito um pequeno resumo sobre possíveis trabalhos futuros..

(32) 30. Capítulo 1 - Introdução.

(33) Capítulo 2 CAPÍTULO 2 -. FUNDAMENTAÇÃO TEÓRICA. O presente capítulo apresentará a fundamentação teórica do trabalho desenvolvido. Neste capítulo são apresentados os principais conceitos utilizados na formulação do modelo proposto para abordar o problema apresentado no Capítulo 1.. 2.1 Séries Temporais e o Modelo ARIMA. Além da forma conceitual apresentada na equação (1), uma série temporal pode ser generalizada pela Equação (2), onde 𝑦(𝑡) é o valor do processo observado ao longo do tempo, 𝛼𝑥(𝑡) é a componente determinística do processo, representado por um polinômio de ordem 𝑛 e 𝜑(𝑡) é o ruído do processo, ou componente estocástica (EHLERS, 2009). O processo 𝑦(𝑡) varia de acordo com o tempo 𝑡 e dentro do espaço de tempo total observado 𝑇. 𝑦(𝑡) = 𝛼𝑥(𝑡) + 𝜑(𝑡),. 𝑡 ∈𝑇. (2). Um processo pode ser regido por uma função totalmente determinística (𝜑(𝑡) = 0, ∀ 𝑡 ∈ 𝑇) e neste caso a análise e previsão do processo se dá com base nesta função (neste caso o método dos mínimos quadrados encontrará um polinômio com erro próximo de zero e que se ajustará a observações futuras com o mesmo nível de erro). No entanto, os processos reais costumam se apresentar na forma mista, ou seja, possuem uma função que rege o processo, com algum tipo de ruído aleatório. Em alguns casos mais particulares, o processo possui apenas a componente estocástica. Este último caso pode ser visto de duas formas: (i) o processo realmente é aleatório ou (ii) o processo possui uma função determinística desconhecida ou muito complexa para ser captada pelos métodos atuais. 31.

(34) 32. Capítulo 2 - Fundamentação Teórica. Os processos estocásticos podem ser divididos em estacionários ou divergentes. Nos processos estocásticos estacionários, de sentido amplo, o processo possui uma média constante e uma distribuição característica, como por exemplo a distribuição normal. No exemplo apresentado na Equação (3) a função possui um ruído com média constante 𝜇 e distribuição normal 𝜎 2 em torno da média. 𝜑~𝑁(𝜇, 𝜎 2 ). (3). Uma série temporal de preços de uma ação pode ser vista como uma série estocástica não estacionária, sem componente determinística. A princípio, a melhor estimativa de um valor futuro seria o valor atual, ou seja, uma abordagem ingênua (naive). No entanto, diversos métodos foram criados para tentar tornar este tipo de série estacionária, permitindo algum tipo de previsão dos dados. Um método muito popular utilizado para a previsão de valores deste tipo de série é o modelo auto regressivo integrado de médias móveis (Autoregressive Integrated Moving Average ou ARIMA). Diversos trabalhos utilizam este modelo ou alguma variante dele, como em (TSENG et al., 2001), (CHEN et al., 2010) e (HILLMER; TIAO, 1982). O modelo ARIMA é uma evolução dos modelos AR e MA. Em um modelo auto regressivo (AR) a função 𝑦(𝑡) é aproximada por valores passados da série, ou seja, o valor atual é uma consequência das observações passadas do processo ponderadas por coeficientes 𝛽𝑡 e um ruído residual 𝜑. O número de termos passados utilizados na função é chamado de ordem do processo (𝑝). Assim, o processo AR é denotado como AR(𝑝) (EHLERS, 2009), conforme mostrado na Equação (4). 𝑦(𝑡) = 𝛽0 + 𝛽1 𝑦(𝑡 − 1) + 𝛽2 𝑦(𝑡 − 2) + ⋯ + 𝛽𝑝 𝑦(𝑡 − 𝑝) + 𝜑. (4). Em um modelo de médias móveis (MA) a função 𝑦(𝑡) é aproximada pela soma dos ruídos passados do processo ponderados por coeficientes 𝜃𝑡 . Novamente, o número de termos passados utilizados é a ordem do processo, neste caso (𝑞), e o processo é denotado como MA(𝑞) (EHLERS, 2009), conforme mostrado na Equação (5). 𝑦(𝑡) = 𝜃0 + 𝜃1 𝜑(𝑡 − 1) + 𝜃2 𝜑(𝑡 − 2) + ⋯ + 𝜃𝑞 𝜑(𝑡 − 𝑞). (5).

(35) 2.1 - Séries Temporais e o Modelo ARIMA. 33. A combinação dos processos AR(𝑝) e MA(𝑞) gera um processo ARMA (𝑝, 𝑞) definido pela soma das funções (EHLERS, 2009), mostrado na Equação (6). 𝑦(𝑡) = 𝛽0 + 𝛽1 𝑦(𝑡 − 1) + ⋯ + 𝛽𝑝 𝑦(𝑡 − 𝑝) + 𝜑 + 𝜃0 + 𝜃1 𝜑(𝑡 − 1) + ⋯ + 𝜃𝑞 𝜑(𝑡 − 𝑞). (6). Um modelo ARMA(𝑝, 𝑞), no entanto, é adequado apenas para o estudo de séries temporais estocásticas estacionárias. Uma série divergente (como o caso dos preços de uma ação) pode ser transformada em uma série estacionária através da diferenciação dos dados. Deve-se notar que nem toda série pode ser transformada em uma série estacionária. Para alguns casos a série não se tornar estacionária, independentemente do número de diferenciações. A diferenciação consiste em considerar a diferença entre uma observação e outra (Equação (7)).. 𝑦(𝑡) =. 𝑑𝑦𝑦 𝑑𝑥. 𝑜𝑢 𝑦𝑡 = 𝑦(𝑡) − 𝑦(𝑡 − 1). (7). Uma série que já se encontra na forma estacionária é da ordem 𝑑 = 0, uma série que se torna estacionária após uma diferenciação é da ordem 𝑑 = 1 e assim por diante. A série se torna estacionária quando os dados assumem uma distribuição característica , como a distribuição normal (3). Portanto, o processo ARIMA é denotado como ARIMA(𝑝, 𝑑, 𝑞), onde 𝑑 é a ordem de diferenciação do processo estudado (EHLERS, 2009). No caso do índice Bovespa, por exemplo, a série dos preços das ações é divergente, porém com 𝑑 = 1 ela se torna estacionária. Diferenciar uma vez esta série corresponde a considerar a variação diária dos preços e não o preço do índice. Para a previsão de dados futuro utilizando o modelo ARIMA, o método mais conhecido é o Box-Jenkins que consiste em avaliar todos os parâmetros do processo ARIMA para o processo estudado e com base na função aproximada estimar os valores futuros. A previsão neste formato possui uma faixa de erro e um intervalo de confiança e o dado previsto é o valor da função. No entanto, o modelo ARIMA não captura padrões não lineares facilmente e, em virtude disto, alguns trabalhos mais recentes propuseram a combinação do processo ARIMA com técnicas modernas de aprendizado de máquina, como o Support Vector Machine (PAI; LIN, 2005) e redes neurais (ZHANG, 2003)..

(36) 34. Capítulo 2 - Fundamentação Teórica. Além disto, a previsão de valores com uma margem de erro, apesar de ser de muito valor para muitos tipos de processo, no caso do índice Bovespa acaba sendo menos relevante do que a previsão da classe de tendência, já que esta não assume uma margem de erro.. 2.2 Algoritmos de Aprendizado de Máquina ou Classificadores. A classificação de tendências pode ser abordada como uma classificação discreta de um conjunto de dados em 𝑛 classes. Os classificadores, diferentemente dos processos de regressão, exigem que a base esteja previamente agrupada em classes. A partir de características e a classe de cada observação é possível criar um modelo de previsão. Os algoritmos de classificação supervisionados também são conhecidos como algoritmos de indução, pois a previsão de um novo dado é induzida com base na classificação dos dados conhecidos. Cada instância, neste caso, é representada pelo mesmo conjunto de características, sejam elas contínuas, categóricas ou binárias (KOTSIANTIS; ZHARAKIS; PINTELAS, 2007). Neste trabalho cinco modelos serão utilizados na fase de previsão das classes do modelo proposto. Estes cinco modelos são descritos a seguir. Dado que o foco deste trabalho é o estudo de séries temporais através de redes complexas, diversos aspectos dos algoritmos de aprendizado de máquina não serão cobertos em detalhes, como seleção da base, overfitting, seleção dos algoritmos, ensambles, etc. Os cinco algoritmos foram selecionados por serem conceitualmente diferentes entre si e por serem muito utilizados em trabalhos semelhantes na fase de avaliação da capacidade de previsão de uma base de dados rotulada. A revisão dos cinco algoritmos escolhidos foi feita com base em (KOTSIANTIS; ZHARAKIS; PINTELAS, 2007).. 2.2.1 Naive Bayes (NB) Redes Bayesianas ingênuas são modelos simples de redes Bayesianas, que são compostas por grafos acíclicos, direcionados, com um nó pai (representando o nó não observado) e diversos nós filhos (nós observados), onde se assume a independência entre os nós filhos. Desta forma, a classe do nó não observado é dada pela Equação (8), onde 𝑖 e 𝑗 são, respectivamente, as classes do problema:.

(37) 2.2 - Algoritmos de Aprendizado de Máquina ou Classificadores 𝑃(𝑖|𝑋). 𝑃(𝑖)𝑃(𝑋|𝑖). 𝑅 = 𝑃(𝑗|𝑋) = 𝑃(𝑗)𝑃(𝑋|𝑗). 35. (8). Se 𝑅 > 1, a classe é prevista como 𝑖, caso contrário a classe é prevista como 𝑗. A maior vantagem deste método é o tempo computacional baixo para treinamento com grandes bases de dados. Por outro lado, a premissa de não dependência entre os atributos impõe uma grande restrição para diversos problemas.. 2.2.2 Multilayer Perceptron (MLP) O Multilayer Perceptron, um tipo de rede neural artificial, foi criado para tentar resolver problemas que não são separáveis linearmente no espaço. Uma rede neural multicamadas consiste em um grande número de unidades (neurônios) conectados em um certo padrão. As unidades são geralmente separadas em três tipos: unidades de entradas, que recebem a informação a ser processada; unidades de saída, que mostram o resultado computado; e as camadas intermediárias, também conhecidas como camadas ocultas. A Figura 1 mostra um exemplo simples de uma rede neural feed-foward, onde o sinal é propagado em apenas uma direção, da unidade de entrada para a unidade de saída.. Figura 1. Exemplo de rede neural (MLP) feed-forward. Fonte: Adaptado de (KOTSIANTIS; ZHARAKIS; PINTELAS, 2007).. Este tipo de rede é treinada utilizando um conjunto de dados para determinar o mapeamento entre a entrada e a saída. Os pesos das arestas entre os neurônios são fixados e a rede é usada para determinar a classificação de um novo conjunto de dados..

(38) 36. Capítulo 2 - Fundamentação Teórica. Durante a classificação o sinal é propagado das unidades de entrada até as unidades de saída para determinar os valores de ativação das unidades de saída. Cada unidade de entrada tem um valor de ativação que representa uma característica externa da rede (ou uma característica do problema estudado). Cada unidade de entrada envia o seu valor de ativação para a unidade oculta à qual está conectada e cada unidade oculta calcula seu valor de ativação e o envia à unidade de saída (ou à unidade oculta à que estiver conectada). O valor de ativação é calculado usando uma função de ativação que soma a contribuição de todas as unidades que enviam algum sinal (a contribuição e o valor de ativação da unidade multiplicado pelo peso da aresta por qual o sinal passa). Esta soma é normalmente modificada para ficar entre 0 e 1 ou para ser 0, a não ser que um certo limite seja atingido. As redes neurais dependem de três aspectos fundamentais: a entrada e a função de ativação da unidade, a arquitetura da rede e o peso de cada conexão. Como os dois primeiros parâmetros são fixos, o comportamento da rede será determinado pelo ajuste dos pesos das conexões. Desta forma a rede normalmente é iniciada com valores aleatórios de pesos, que são ajustados através de sucessivas iterações e medidas de erro resultante. Para ajustar os pesos (e assim reduzir o erro) o método mais conhecido é o backpropagation, que retorna o erro final para a rede a ajusta os pesos até que o erro final seja otimizado conforme o objetivo do usuário.. 2.2.3 Support Vector Machine (SVM) Os SVMs se baseiam na noção da maximização de uma margem a partir de um hiperplano que separa linearmente duas classes. Maximizar a distância entre o hiperplano e os dados de cada classe tem se provado uma boa estratégia para diminuir o erro durante o processo de generalização do modelo. No caso de as classes estudadas serem linearmente separáveis, uma vez que o hiperplano ótimo é encontrado, os pontos que se encontram sobre as margens são conhecidos como pontos de suporte (support vector points) e a solução é apresentada como uma combinação somente destes pontos. Isso faz com que a complexidade dos SVMs não seja impactada pela quantidade de classes da base de treinamento, já que a quantidade de vetores de suporte encontrados normalmente é baixa. O conceito simplificado (duas classes separáveis linearmente) pode ser visto na Figura 2 e, por se tratar de um modelo matematicamente extenso, sugere-se a leitura de.

(39) 2.2 - Algoritmos de Aprendizado de Máquina ou Classificadores. 37. (KOTSIANTIS; ZHARAKIS; PINTELAS, 2007) para detalhes de implementação e formulação matemática.. Figura 2. Separação de duas classes utilizando o algoritmo SVM. Note que o hiperplano ótimo maximiza a distância de separação entre as duas classes e utiliza os pontos sobre as bordas como pontos de suporte. Fonte: Adaptado de (KOTSIANTIS; ZHARAKIS; PINTELAS, 2007).. 2.2.4 Decision Tree (DT) As árvores de decisão são algoritmos que, assim como todos os demais, classificam as instâncias separando-as pelos valores de suas características. No entanto, as árvores de decisão fazem isto de forma explícita, produzindo como resultado final uma classificação possível de ser entendida passo a passo. Cada nó da árvore representa uma divisão em uma das características da instância a ser classificada e cada ramificação representa qual valor a instância pode assumir. Cada nó gera, portanto, um hiperplano no espaço, que separa as instâncias em dois grupos a cada decisão (KOTSIANTIS; ZHARAKIS; PINTELAS, 2007). Construir uma árvore binária de decisão ótima é um problema NP-completo e, portanto, os métodos desenvolvidos se utilizam da heurística para desenvolver árvores quase-ótimas. Uma das técnicas é escolher como raiz da árvore o nó que melhor divide a base de treinamento.

(40) 38. Capítulo 2 - Fundamentação Teórica. e fazer isso sucessivamente nos nós subsequentes, até que toda a base tenha sido classificada. Alguns indicadores foram desenvolvidos para medir a qualidade da divisão, como o ganho de informação e o índice Gini. O uso desses indicadores permite também a poda da árvore, ou seja, uma generalização do modelo sem que a capacidade de classificação seja perdida. A Tabela 1 representa um exemplo simples de uma base de treinamento e Figura 3 a árvore de decisão gerada a partir desta base de treinamento.. Tabela 1. Exemplo de dados de treinamento para a construção da arvore de decisão. Atrib. 1. Atrib. 2. Atrib. 3. Atrib. 4. Classe. A1. A2. A3. A4. Sim. A1. A2. A3. B4. Sim. A1. B2. A3. A4. Sim. A1. B2. B3. B4. Não. A1. C2. A3. A4. Não. A1. C2. A3. B4. Não. B1. B2. B3. B4. Não. C1. B2. B3. B4. Não. Fonte: Adaptado de (KOTSIANTIS; ZHARAKIS; PINTELAS, 2007).. Os algoritmos de árvore de decisão mais conhecidos da literatura são o ID3, o C4.5, o C5.0 e o CART. Este trabalho usará uma implementação do CART na fase de testes, contida na biblioteca Sci-Kit Learn do Python.. Figura 3. Exemplo de árvore decisão gerada a partir da base de treinamento apresentada na Tabela 1. Fonte: Adaptado de (KOTSIANTIS; ZHARAKIS; PINTELAS, 2007)..

(41) 2.3 - Redes Complexas. 39. 2.2.5 k-Nearest Neighbors (k-NN) O algoritmo k-Nearest Neighbor é baseado no princípio que instâncias com propriedades similares estarão localizadas próximas no espaço 𝑛 dimensional. Se uma instância não está classificada, mas possui instâncias classificadas nas proximidades, então a classe da instância não classificada pode ser induzida pela classe dos 𝑘 vizinhos mais próximos. Este algoritmo é de fácil implementação e requer pouco tempo computacional para a fase de treinamento, porém mais tempo para a fase de classificação. O nível de generalização do algoritmo pode ser ajustado através do valor de 𝑘 (número de vizinhos) e, de acordo com o problema estudado, diversas medidas de distâncias podem ser testadas, como a Manhattan, Euclideana, Camberra, Minkowsky, entre outras.. 2.3 Redes Complexas. Segundo (BARABÁSI, 2016) as redes se encontram no coração dos sistemas complexos por sua natureza interdisciplinar, quantitativa, matemática e computacional. Desta forma, as redes complexas têm um papel importante no mundo atual, pois permitem o estudo de sistemas onde a relação entre os componentes era anteriormente desconhecida ou difícil de captar. Diferentemente de sistemas determinísticos, regidos por funções onde as correlações podem ser obtidas por métodos de análise linear, os sistemas complexos são representados através de redes onde as relações se dão através de vértices e arestas. Uma rede ou grafo 𝐺 possui três parâmetros básicos, dos quais derivam a maioria das métricas que caracterizam a rede (BARABÁSI, 2016): . Número de vértices, denotado por 𝑛. Esses vértices são normalmente rotulados e determinam o tamanho da rede.. . Número de arestas, denotado por 𝑙. As arestas representam as interações entre os vértices. Elas raramente são rotuladas, mas podem conter direção e peso.. . Grau de um vértice, denotado por 𝑘. O grau mede a quantidade de arestas que chegam ou partem de um determinado vértice.. A descrição de uma rede pode ser feita de algumas formas, como uma representação visual ou uma lista de vértices e arestas. No entanto, a forma mais usual é através de uma matriz.

(42) 40. Capítulo 2 - Fundamentação Teórica. de adjacência 𝑀. Uma matriz com 𝑛 vértices possui 𝑛 linhas e 𝑛 colunas, sendo que para o caso de uma rede direcionada e sem peso: 𝑀𝑖𝑗 = 1 𝑠𝑒 𝑒𝑥𝑖𝑠𝑡𝑒 𝑢𝑚𝑎 𝑎𝑟𝑒𝑠𝑡𝑎 𝑎𝑝𝑜𝑛𝑡𝑎𝑛𝑑𝑜 𝑑𝑒 𝑖 𝑝𝑎𝑟𝑎 𝑗 𝑀𝑖𝑗 = 0 𝑠𝑒 𝑜𝑠 𝑣é𝑟𝑡𝑖𝑐𝑒𝑠 𝑖 𝑒 𝑗 𝑛ã𝑜 𝑒𝑠𝑡ã𝑜 𝑐𝑜𝑛𝑒𝑐𝑡𝑎𝑑𝑜𝑠. (9) (10). Como base nos três parâmetros citados e na matriz de adjacência da rede, diversas medidas de uma rede aleatória podem ser inferidas, como o grau médio da rede, a probabilidade de uma rede com 𝑛 vértices ter exatamente 𝑙 arestas e o caminho médio entre todos os pares de vértices. (BARABÁSI, 2016) detalha todas estas medidas de uma rede aleatória. As redes reais, no entanto, possuem algumas particularidades.. 2.3.1 Redes Reais e suas Propriedades As redes reais, conforme descreve (BARABÁSI, 2016), geralmente possuem uma distribuição de arestas que não segue uma distribuição binomial pois em redes reais existe uma preferência de conexão para novas arestas, mesmo que ela seja desconhecida a priori. Se considerarmos o caso clássico de uma rede social, vemos que regiões mais densas da rede tendem a se tornar cada vez mais densas, ou seja, as novas arestas possuem uma probabilidade maior de ocorrer em regiões especificas. Essa característica leva ao surgimento de hubs (vértices com grau 𝑘 ≫ 1), que por sua vez faz com que as redes reais apresentem a característica de livre de escala, ou seja, a distribuição de grau dos vértices da rede segue uma distribuição da lei de potência. Neste tipo de distribuição muitos vértices apresentarão poucas arestas e alguns vértices apresentarão um grandes número de arestas (os hubs). Outra característica importante das redes reais que este trabalho irá explorar é o fato de que muitas redes reais, diferentemente de redes aleatórias, possuem comunidades estruturadas e essas comunidades tendem a conter elementos com alguma semelhança entre si (Figura 4). Uma comunidade pode ser definida como uma região densa da rede, onde o número de conexões entre os vértices da mesma comunidade é maior que o número de conexões com vértices de comunidades diferentes. Com base nessa premissa, alguns métodos são capazes de detectar comunidades em redes com grande complexidade, como será detalhado mais adiante..

(43) 2.3 - Redes Complexas. 41. Figura 4. Exemplo de redes com comunidades destacadas. Na rede à esquerda nota-se a presença de três comunidades, definidas por áreas de maior densidade de conexão. Na rede à direita observam-se duas comunidades. Fonte: (BARABÁSI, 2016).. Tendo isto em vista, a análise de séries temporais através de redes complexas pode ser uma nova alternativa, abrindo um novo horizonte no entendimento de comportamentos que se repetem ao longo de décadas, já que as redes complexas estão no centro do estudo de problemas que envolvem grande quantidade de dados e interconexões (BARABÁSI, 2016). As métricas próprias do estudo de redes não só podem facilitar o entendimento destes tipos de problema como podem revelar características apenas notáveis a partir da análise da topologia dos dados.. 2.3.2 Redes Artificiais e Modelos de Formação Alguns problemas se apresentam já na forma de redes, como por exemplo, a análise de redes sociais, problemas de caminhos logísticos, entre outros. No entanto uma nova aplicação para o estudo das redes é a conversão de problemas lineares multidimensionais em redes complexas e o subsequente estudo sob esta ótica. Na última década diversos métodos para conversão de séries temporais em redes foram propostos. (DONNER et al., 2011) analisa alguns desses métodos e os diferencia em três diferentes classes: . Redes de proximidade: leva em consideração a proximidade mútua entre diferentes segmentos de uma mesma série temporal;. . Gráficos de visibilidade: considera a convexidade de observações consecutivas;.

(44) 42. Capítulo 2 - Fundamentação Teórica. . Redes de transição: considera a probabilidade de transição entre estados discretos do processo.. Estas estruturas são normalmente representadas por matrizes binárias que podem ser utilizadas para o estudo das características topológicas. Este trabalho se baseia no modelo de redes de transição, assumindo que os estados podem ser representados por dias similares da série temporal e que as probabilidades de transição podem ser capturadas pelo estudo das comunidades da rede. Ainda segundo (DONNER et al., 2011), em uma rede de transição os dados são compartimentados em conjunto de classes {𝑆1 , … , 𝑆𝑘 }, o que permite a análise da probabilidade de transição entre estes estados a partir de uma rede direcionada e com peso. Esta abordagem é equivalente a fazer uma discretização dos dados, o que acaba os agrupando de forma estática. Este método faz uso explicito da ordem temporal das observações, o que faz com que as conexões da rede representem a casualidade das relações do sistema estudado. Este método também limita o número de vértices da rede, ao limitar o número de estados possíveis durante a discretização dos dados e criação dos estados. Isto implica na presença de estados recorrentes na rede. Este tipo de rede é especialmente útil em sistemas onde existe uma relação causal entre a sequência de dados pois o processo pode ser estudado com base em medidas como a centralidade dos vértices e medidas relacionadas. No entanto, esta rede tende a perder informação durante o processo de discretização, já que dados similares são agrupados em uma mesma classe. Por outro lado, em sistemas onde o ruído atrapalha o entendimento da informação principal ela pode ser de muita utilidade, já que a informação relevante se mantém no agrupamento dos dados. Por fim, outro ponto a se destacar é que os parâmetros escolhidos durante o processo de discretização interferem diretamente na topologia da rede resultante, ou seja, o número de classes definidos neste processo tornam a rede mais ou menos detalhadas em relação à informação contida na série original. Para exemplificar o conceito das redes de transição, considere uma série temporal artificial univariada 𝑦(𝑡) = [𝑦(0), 𝑦(1), 𝑦(2), … , 𝑦(𝑇)], 𝑇 ∈ ℕ| 𝑇 ≤ 40 (Figura 5.a). Dado um intervalo de discretização de 𝑦(𝑡) de 0,2, é possível classificar os dados em cinco classes diferentes, isto é, 𝑆 = {0.2,0.4,0.6,0.8,1.0}. Cada classe está marcada em uma cor na figura e a rede construída a partir da série pode ser visualizada na Figura 5.b. A direção da aresta é sinalizada na rede por uma linha mais espessa..

(45) 2.3 - Redes Complexas. 43. Figura 5. Série temporal exemplo e sua rede de transição de estados discretos. Note que o conceito exposto acima pode ser expandido para um conjunto de séries, sendo necessário apenas um ajuste no processo de discretização dos dados. Considere agora duas séries 𝑦(𝑡) = [𝑦1 , 𝑦2 , 𝑦3 , … , 𝑦𝑇 ], 𝑦𝑡 ∈ [0,1] e 𝑇 = 40 e 𝑧(𝑡) = [𝑧1 , 𝑧2 , 𝑧3 , … , 𝑧𝑇 ], 𝑧𝑡 ∈ [0,1] e 𝑇 = 40. Neste caso, cada classe pode ser considerada como o conjunto das combinações possíveis. entre. as. séries. analisadas,. ou. {(0.2,0.4), (0.4,0.6), (0.6,0.8), (0.8,0.6), (1.0,0.8), (0.4,0.2), (0.8,1.0)}.. 𝑆=. seja, Cada. classe. é. representada por um ponto bidimensional ao absorver informações de duas séries que acontecem no mesmo intervalo de tempo 𝑇. A Figura 6 representa o conceito exposto. Como será visto mais adiante, o modelo proposto utiliza estados de seis dimensões.. Figura 6. Conjunto de séries temporais e sua rede de transição derivada.

(46) 44. Capítulo 2 - Fundamentação Teórica. 2.3.3 Estrutura da Rede – Comunidades Assim como os métodos de conversão dos dados para redes complexas, diversas propostas para a detecção de comunidades surgiram nos últimos anos. Estes métodos podem ser divididos entre aglomerativos (bottom-up) ou divisivos (top-down). O conceito fundamental por traz de todos os métodos é de que o número de ligações entre os vértices participantes de uma comunidade deve ser maior do que o número de ligações entre as comunidades, ou seja, pode-se dizer que os vértices pertencentes à mesma comunidade estão mais densamente relacionados do que vértices pertencentes a comunidades diferentes. Nos métodos divisivos, o processo inicia considerando que toda a rede forma apenas uma comunidade. São então calculados os caminhos mínimos entre todos os vértices e feitos cortes em ligações específicas, normalmente os caminhos mais usados (NEWMAN; GIRVAN, 2004) Nos métodos aglomerativos, cada vértice da rede é uma comunidade no início do processo e eles são agrupados entre si de maneira que os vértices possuam mais conexões com os vértices da comunidade que pertence do que com outras comunidades. Os métodos tradicionais, como a maximização da modularidade (CLAUSET; NEWMAN; MOORE, 2004), atribuem uma comunidade a cada vértice, enquanto métodos mais recentes, como o de competição de partículas, possuem uma classificação fuzzy das comunidades, o que permite que cada vértice tenha um grau de comprometimento específico com cada comunidade. Podemos citar, por exemplo, o método baseado em cliques (PALLA et al., 2005) e a competição de partículas (QUILES et al., 2008). Este projeto irá focar no método da maximização da modularidade 𝑄 proposto em (CLAUSET; NEWMAN; MOORE, 2004). Em (NEWMAN; GIRVAN, 2004) os autores introduzem o índice de modularidade 𝑄, que mede a qualidade de divisão de uma rede. Este índice tem como valor máximo 1, no caso de todos os vértices da rede fazerem parte de uma mesma comunidade. Utilizar este índice em um método aglomerativo é inviável, já que o melhor valor se dará após todos os vértices serem aglomerados em uma única comunidade. Com isso, é proposto em (CLAUSET; NEWMAN; MOORE, 2004) um método de aglomeração hierárquica dos vértices baseado no índice 𝑄 da rede estudada, mas que o compara com o valor esperado em uma rede aleatória com o mesmo tamanho da rede estudada. A rede aleatória não possui comunidades estruturadas (BARABÁSI, 2016) e, portanto, a diferença da modularidade ∆𝑄 entre a rede estudada e a rede aleatória teórica atinge um valor máximo antes.

(47) 2.4 - Considerações Gerais. 45. que todos os vértices sejam aglomerados. Tipicamente, valores acima de 0,3 mostram que a rede estudada possui uma estrutura significante de comunidades. O método proposto utiliza o algoritmo detalhado por (FERREIRA; PINTO; LIANG, 2012) e obtido em (CLAUSET; NEWMAN; MOORE, 2004). No entanto algumas alterações foram feitas para a consideração de uma rede direcionada e com peso. Estas alterações estão explicitadas no modelo proposto. Já o método de competição de partículas, proposto em (QUILES et al., 2008), considera que várias partículas caminham na rede e competem pela dominância de cada vértice. A medida que caminham, as partículas marcam seus territórios e rejeitam partículas invasoras. Esta abordagem possui uma heurística interessante, pois simula diversos processos naturais, como a competição por recursos por animais ou ganhos de território em campanhas eleitorais. Uma característica desse processo é que é necessário que se defina o número de comunidades esperada a priori, já que o processo atinge equilíbrio quando cada comunidade tem a dominância de uma partícula. Outra característica do modelo é que as partículas caminham de forma aleatória, porém é proposto uma forma de controlar esta aleatoriedade, definindo um nível exploratório e de defesa de território durante o processo de caminhada.. 2.4 Considerações Gerais. Em função das características de cada método, este trabalho irá utilizar apenas o método da maximização da modularidade proposto em (CLAUSET; NEWMAN; MOORE, 2004). Espera-se que este método mostre se a rede gerada na etapa de conversão da série temporal para rede complexa possui uma estrutura de comunidades útil para a classificação que se pretende, já que este método faz uma comparação direta com uma rede aleatória. Após aplicar este método já se terá uma ideia se a rede apresenta uma modularidade aceitável e o número de comunidades existentes. O método proposto em (QUILES et al., 2008) foi testado na base de dados utilizada, porém não foi utilizado nas avaliações experimentais por apresentar um tempo de convergência maior que o método de (CLAUSET; NEWMAN; MOORE, 2004) nas fases iniciais de teste. Possivelmente isso ocorreu pois foram utilizadas apenas duas comunidades para o modelo de (QUILES et al., 2008), uma comunidade de alta e uma de baixa, e neste cenário existem regiões com alta sobreposição de comunidades na rede, onde a competição por dominância é muito alta. Futuramente pode-se utilizar este método com o numero de.

(48) 46. Capítulo 2 - Fundamentação Teórica. comunidades gerado pelo método de (CLAUSET; NEWMAN; MOORE, 2004) para analisar a sobreposição das comunidades..