CLAUDIO VASCONCELOS RIBEIRO UM AMBIENTE PARA PREVISÃO DE SÉRIES TEMPORAIS UTILIZANDO COMITÊS DE APRENDIZADO

(1)

MINISTÉRIO DA DEFESA EXÉRCITO BRASILEIRO

DEPARTAMENTO DE CIÊNCIA E TECNOLOGIA INSTITUTO MILITAR DE ENGENHARIA

CURSO DE MESTRADO EM SISTEMAS E COMPUTAÇÃO

CLAUDIO VASCONCELOS RIBEIRO

UM AMBIENTE PARA PREVISÃO DE SÉRIES TEMPORAIS UTILIZANDO COMITÊS DE APRENDIZADO

Rio de Janeiro 2009

(2)

INSTITUTO MILITAR DE ENGENHARIA

UM AMBIENTE PARA PREVISÃO DE SÉRIES TEMPORAIS

UTILIZANDO COMITÊS DE APRENDIZADO

Dissertação de Mestrado apresentada ao Curso de Mestrado em Sistemas e Computação do Instituto Militar de Engenharia, como requisito parcial para a obtenção do título de Mestre em Ciências em Sistemas e Computação.

Orientador: Prof. Ricardo Choren Noya – D.Sc. Co-orientador: Prof. Ronaldo R. Goldschmidt – D.Sc

Rio de Janeiro 2009

(3)

c2009

INSTITUTO MILITAR DE ENGENHARIA Praça General Tibúrcio, 80 – Praia Vermelha Rio de Janeiro – RJ CEP: 22290-270

Este exemplar é de propriedade do Instituto Militar de Engenharia, que poderá incluí-lo em base de dados, armazenar em computador, microfilmar ou adotar qualquer forma de arquivamento.

É permitida a menção, reprodução parcial ou integral e a transmissão entre bibliotecas deste trabalho, sem modificação de seu texto, em qualquer meio que esteja ou venha a ser fixado, para pesquisa acadêmica, comentários e citações, desde que sem finalidade comercial e que seja feita a referência bibliográfica completa.

Os conceitos expressos neste trabalho são de responsabilidade do autor e dos orientadores.

R484a Ribeiro, Claudio Vasconcelos

Um ambiente para previsão de séries temporais utilizando comitês de aprendizado/ Claudio Vasconcelos Ribeiro. – Rio de Janeiro: Instituto Militar de Engenharia, 2009.

92 p.: il.

Dissertação (mestrado) – Instituto Militar de Engenharia – Rio de Janeiro, 2009.

1. Inteligência artificial. 2. Séries temporais. I. Título. II. Instituto Militar de Engenharia.

(4)

INSTITUTO MILITAR DE ENGENHARIA

UM AMBIENTE PARA PREVISÃO DE SÉRIES TEMPORAIS

UTILIZANDO COMITÊS DE APRENDIZADO

Dissertação de Mestrado apresentada ao Curso de Mestrado em Sistemas e Computação do Instituto Militar de Engenharia, como requisito parcial para a obtenção do título de Mestre em Ciências em Sistemas e Computação.

Orientador: Prof. Ricardo Choren Noya – D.Sc.

Co-orientador: Prof. Ronaldo Ribeiro Goldschmidt – D.Sc

Aprovada em 24 de junho de 2009 pela seguinte Banca Examinadora:

Prof. Ricardo Choren Noya – D.Sc. do IME – Presidente

Prof. Ronaldo Ribeiro Goldschmidt – D.Sc. do IST-Rio/FAETEC

Profa_{Claudia Marcela Justel – D.Sc. do IME}

Prof. Luís Alfredo Vidal de Carvalho – D.Sc. da UFRJ

Rio de Janeiro 2009

(5)

Dedico esta à minha querida esposa Renata e aos meus adoráveis filhos, Lucas e Thiago. A conclusão deste trabalho foi possível somente pela compreensão de vocês nas inúmeras vezes em que necessitei estar ausente.

(6)

AGRADECIMENTOS

Agradeço a todas as pessoas que me incentivaram, apoiaram e possibilitaram esta oportunidade de ampliar meus horizontes.

Aos meus pais, pelo carinho e educação que têm-me proporcionado ao longo da minha vida.

À minha amada esposa Renata, cujo apoio incondicional muito contribuiu para a conclusão deste trabalho, suportando um amargo distanciamento meu.

Aos meus orientadores, Professores Ricardo Choren e Ronaldo Goldschmidt, por suas atenções, opiniões, conselhos e ensinamentos que tornaram-me capaz de realizar este trabalho.

A todos os colegas de turma do IME, pelos seus incentivos e auxílios durante todo o curso.

Por fim, a todos os professores e funcionários do Departamento de Engenharia de Computação (SE/8) do Instituto Militar de Engenharia.

(7)

SUMÁRIO

LISTA DE ILUSTRAÇÕES...09

LISTA DE TABELAS...12

LISTA DE ABREVIATURAS E SÍMBOLOS...14

1 INTRODUÇÃO...17 1.1 Caracterização do Problema...19 1.2 Objetivos...19 1.3. Contribuições Esperadas...20 1.4 Organização da Dissertação...20 2 FUNDAMENTOS...21

2.1 Previsão de Séries Temporais...21

2.2 Métodos de Previsão de Séries Temporais...23

2.2.1 Média Móvel Simples...24

2.2.2 Suavização Exponencial Simples...24

2.2.3 Algoritmo de Wang-Mendel...25

2.2.3.1 Adaptações no Algoritmo de Wang-Mendel...28

2.2.4 Algoritmo Backpropagation...28

2.2.5 Considerações sobre os Métodos de Previsão...31

2.3 Comitês de Aprendizado...32

2.3.1 Combinação Linear...35

2.3.2 Combinação Não-Linear...35

2.3.3 Bagging...36

2.3.4 Boosting...36

2.3.5 Mistura de Especialistas (ME)...36

2.3.6 Mistura Hierárquica de Especialistas (MHE)...37

2.3.7 Considerações Finais...38

(8)

3 O AMBIENTE PROPOSTO...42

3.1 Considerações Iniciais...42

3.2 Descrição Conceitual do Ambiente...43

3.2.1 Obter Série Temporal e Particioná-la em Conjuntos...44

3.2.2 Executar Métodos de Nível Base...46

3.2.3 Selecionar Métodos de Nível Base para Compor o Comitê...46

3.2.4 Escolher Forma e Método de Conjugação/Combinação de Resultados...48

3.2.5 Executar Método de Conjugação/Combinação de Resultados...51

3.2.6 Avaliar Resultados...54

3.2.7 Remover os Métodos Base e a Série Temporal...54

3.3 Protótipo...54

3.3.1 Plataforma de Software...54

3.3.2 Obtenção da Série Temporal e seu Particionamento...55

3.3.3 Métodos de Nível Base... ...58

3.3.4 Seleção de Métodos de Nível Base para Compor o Comitê...63

3.3.5 Escolha da Forma e do Método de Conjugação/Combinação de Resultados...63

3.3.6 Execução de Método de Conjugação/Combinação de Resultados...64

3.3.7 Remoção dos Métodos Base e da Série Temporal...65

4 EXPERIMENTOS E RESULTADOS...66

4.1 Série Temporal Utilizada...66

4.2 A Experimentação do Ambiente...66

4.3 Resultados das Previsões...69

4.3.1 Resultados dos Métodos Base...70

4.3.2 Resultados dos Comitês...73

5 TRABALHOS RELACIONADOS...79 5.1 Autobox...79 5.2 DTREG...79 5.3 XLSTAT...81 5.4 MATLAB...81 5.5 Considerações Finais...82

(9)

6 CONCLUSÕES...84

6.1 Principais Contribuições...85

6.2 Sugestões de Trabalhos Futuros...86

(10)

LISTA DE ILUSTRAÇÕES

FIG.1.1 (a) Série Dow Jones (WESSA, 2006).

(b) Série Laser (WAN, 2006)...17 FIG. 2.1 Observações de uma série temporal com previsões de origem t

e horizontes de previsão iguais a um, dois e h

(adaptado de (MORETTIN e TOLOI, 2006))...21

FIG. 2.2 Exemplo de uma janela de previsão com cinco entradas e horizonte...22 de previsão igual a um

FIG. 2.3 Divisão dos Intervalos de domínio em conjuntos fuzzy...26 FIG. 2.4 Mapeamento das Variáveis de Entrada e Saída para uma Janela

de Previsão igual a 4...27 FIG. 2.5 Aplicação do treinamento de um simples neurônio localizado na

camada de saída de uma rede MLP

(extraída de (PALIT e POPOVIC, 2005)...31 FIG. 2.6 . Estrutura de um comitê de previsores, considerando 4

componentes (adaptada de (Leone Filho, 2006))...33 FIG. 2.7 Arquitetura de um Comitê de Aprendizado na Abordagem Mistura de

Especialistas. fonte: (TRESP, 2001)...37 FIG. 2.8 Arquitetura de um Comitê de Aprendizado na Abordagem Mistura

Hierárquica de Especialistas (MHE) ilustrada para dois níveis de

hierarquia. fonte: (LIMA, 2004)...38 FIG. 3.1 Ambiente Proposto...43 FIG. 3.2 Visão geral do funcionamento do ambiente...44

(11)

FIG. 3.3 Particionamento dos elementos da série temporal...45 FIG. 3.4 Alinhamento das janelas de previsão...52 FIG. 3.5 Seleção da base de dados...56 FIG. 3.6 Exemplo de seleção do atributo que será previsto e do atributo

utilizado como índice para a base de dados Mackey-Glass

(WAN, 2006)...56 FIG. 3.7 Apresentação gráfica de uma série temporal a partir da seleção

dos atributos de previsão e de índice

(série Mackey-Glass (WAN, 2006)...57 FIG. 3.8 Exemplo da definição dos conjuntos para treinamento, validação e

teste (previsão) para a série temporal Mackey-Glass...57 FIG. 3.9 Exemplo de configuração do método da Média Móvel Simples...58 FIG. 3.10 Exemplo de configuração do método da Suavização

Exponencial Simples...59 FIG. 3.11 Exemplo de configuração do método de Wang-Mendel e suas adaptações. (a) definição dos conjuntos nebulosos.

(b) geração das regras nebulosas.

(c) opções para uso das adaptações descritas em

(SILVA et al., 2007) e (RIBEIRO et al., 2008)...60 FIG. 3.12 Exemplo de configuração do algoritmo backpropagation em

uma rede MLP...61 FIG. 3.13 Tela de opções de seleção dos métodos base. (a) Seleção pelo Índice

(12)

FIG. 3.14 Tela de escolha e configuração do tipo de combinação. (a) Combinação

Linear por meio da média simples. (b) Combinação Não-Linear...64

FIG. 3.15 Tela de configuração do treinamento para o aprendizado da rede neural que atua como combinador (método no nível meta)...65

FIG.4.1 Série Mackey-Glass...66

FIG. 4.2 Gráfico do resultado da combinação número 3 da TAB. 4.7...74

FIG. 4.3 Gráfico do resultado da combinação número 3 da TAB. 4.7 (ampliação das últimas 20 previsões)...74

FIG. 5.1 Tela ilustrativa do software Autobox...80

FIG. 5.2 Tela do software DTREG...80

FIG. 5.3 Tela inicial do software XLSTAT...81

(13)

LISTA DE TABELAS

TAB. 2.1 Regra gerada a partir da escolha dos maiores graus de pertinência

para o exemplo proposto na FIG. 2.4...27

TAB.3.1 Exemplo do cálculo dos pesos na combinação linear pela média ponderada usando-se a métrica U-Theil...49

TAB.3.2 Resumo das possibilidades de combinação dos comitês de aprendizado...50

TAB.3.3 Exemplo de um conjunto de dados de entrada do combinador formado apenas pelas saídas de três previsores (métodos base)...53

TAB.3.4 Exemplo de um conjunto de dados de entrada do combinador formado por uma janela de previsão com oito elementos históricos e pelas saídas de três métodos base...53

TAB.3.5 Exemplo de um conjunto de dados de entrada do combinador formado por uma janela de previsão com doze elementos históricos e pelas saídas individuais de métodos base...53

TAB. 4.1 Detalhes da Série Mackey-Glass...66

TAB. 4.2 Exemplos de configurações de métodos para uso nas tabelas de resultados…...68

TAB. 4.3 Tipos de Experimentos (métodos no nível base e meta)...69

TAB. 4.4 Experimento TIPO A – Série Mackey-Glass …...70

TAB. 4.5 Experimento TIPO B – Série Mackey-Glass …...71

(14)

TAB. 4.7 Experimento TIPO B – Série Mackey-Glass …...72

TAB 4.8 Experimento TIPO B – Série Mackey-Glass...73

TAB 4.9 Experimento TIPO E.3 – Série Mackey-Glass...74

TAB. 4.10 Experimento TIPO C – Série Mackey-Glass...75

TAB 4.11 Experimento TIPO D – Série Mackey-Glass...76

TAB 4.12 Experimento TIPO E.2 – Série Mackey-Glass...76

TAB. 4.13 Experimento TIPO E.1 – Série Mackey-Glass...77

(15)

LISTA DE ABREVIATURAS E SÍMBOLOS

ABREVIATURAS

IA - inteligência artificial

MLP - perceptron de multicamadas (multilayer perceptron). RBF - função de base radial (radial basis function)

RNA - rede neural artificial

SÍMBOLOS

abs - valor absoluto

bk - bias aplicado ao neurônio k

e_j(n) - sinal de erro na saída do neurônio j na iteração n

U - universo de discurso

v_k - potencial de ativação ou campo local induzido do neurônio k

v_k(n) - potencial de ativação do neurônio k na iteração n

α - termo de momento aplicado no algoritmo BackPropagation; fração do erro de previsão na Suavização Exponencial Simples

w_ij(n) - peso sináptico que conectada o neurônio i ao neurônio j na iteração n ∂E/∂wji - derivada parcial do erro E em relação ao peso wji

Ẑt(h) - previsão no instante t e horizonte h

δ_j(n) - gradiente local do neurônio j

Δw - pequena variação aplicada ao peso w

ƞ

- taxa de aprendizagem

µ_A(x) - grau de pertinência do elemento x ao conjunto A

φ_k(.) - função de ativação do neurônio k

(16)

RESUMO

Previsão de séries temporais é um desafio da área de Mineração de Dados. Prever valores futuros, em função de valores passados, tem se tornado um assunto de especial interesse na academia e na indústria, com aplicações em planejamento de produção, matriz energética e mercado de ações, dentre outras. No entanto, não existe um método de previsão que possa ser aplicado com eficiência a todos os tipos de séries. Neste sentido, o uso de Comitês de Máquinas de Aprendizado busca um melhor aproveitamento das potencialidades individuais de cada método ao procurar combiná-las. Contudo, a utilização de tais comitês requer do pesquisador o desenvolvimento de sistemas computacionais dedicados para integrar diversos métodos de previsão, que poderão ser modelados a partir de diferentes paradigmas. Este trabalho apresenta um ambiente para criação e uso de comitês de máquinas de aprendizado. Tal ambiente permite a adição, seleção, e avaliação de métodos de previsão de séries temporais de forma isolada ou combinada em comitês de máquinas de aprendizado. Alguns experimentos foram realizados para analisar o ambiente proposto. Estes experimentos também serviram para verificar o desempenho do uso de alguns comitês de máquinas de aprendizado na previsão de séries temporais.

(17)

ABSTRACT

Time series forecasting is a challenge in the area of Data Mining. Predicting future values, based on past values, has become a subject of particular interest in academy and industry, with applications in production planning, electricity demand prediction and stock market price estimative, among others. However, there is no single model that may be suitable for all types of time series. In this subject, the use of committees of learning machines aims for a better use of each method´s potentialities when combined. However, the use of such committees requires the development of dedicated computational systems to integrate different methods of forecasting, which can be modeled by different paradigms. This work presents an environment for creating and using the committees of learning machines. The environment allows the addition, selection and evaluation of methods used for forecasting time series, both individually and in committees. Some experiments were performed to validate the proposed environment. These experiments were also useful to analyse the performance of various committees of learning machines in forecasting time series.

(18)

1 INTRODUÇÃO

A importância da análise e previsão de séries temporais na ciência, engenharia, e negócios tem crescido e continua como interesse atual de engenheiros e cientistas (PALIT e POPOVIC, 2005). Uma série temporal pode ser descrita como sendo um conjunto de observações discretas, realizadas em períodos eqüidistantes e que apresentam uma dependência serial entre essas observações (SILVA et al, 2007). De forma ilustrativa, a FIG. 1.1 exibe exemplos de séries temporais.

(a) (b)

FIG.1.1 (a) Série Dow Jones (WESSA, 2006). (b) Série Laser (WAN, 2006)

Conhecer previamente um valor futuro pode significar a diferença entre o sucesso e o fracasso em determinadas ocasiões. Diversos Sistemas de Apoio à Decisão (SAD) empregam métodos que envolvem previsões de fatos e situações futuras (RIBEIRO et al., 2008). Dentre eles, podem ser citados: previsão de vendas para planejamento de produção industrial, demandas de energia elétrica, previsões de temperaturas médias e da altura das marés, estimativa de preços de ações na bolsa de valores (SILVA et al., 2007).

Para que seja possível prever os valores futuros com base em valores passados, é necessário que se disponha de uma memória histórica de dados ocorridos anteriormente. Todavia, o conjunto de dados, por si só, não permite a previsão dos valores futuros. Para isso, é necessária a utilização de algoritmos, técnicas ou métodos de previsão de séries temporais, que podem envolver cálculos simples ou procedimentos complexos (RIBEIRO et al., 2008).

Existem diversos métodos para auxiliar na tarefa de previsão de séries temporais, como por exemplo (MORETTIN e TOLOI, 2006): modelos de Suavização Exponencial,

(19)

modelos auto-regressivos (AR), de médias móveis (MA) e Modelos ARIMA. Tecnologias de inteligência computacional, tais como redes neurais, lógica nebulosa e algoritmos genéticos, proporcionaram a criação de metodologias avançadas de previsão (PALIT e POPOVIC, 2005). A execução de métodos individuais de previsão permite a obtenção de resultados, até certo ponto, adequados. No entanto, seu emprego possui algumas limitações: o uso de técnicas do tipo dividir-e-conquistar torna-se restrito; mudanças no comportamento da série podem alterar significativamente o desempenho (LEONE FILHO, 2006); o erro na previsão de um valor pode ser elevado apesar de apresentar, em média, erros reduzidos.

Assim, alternativas para combinação de métodos de previsão vêm sendo pesquisadas. Entre elas existe a abordagem de combinação pela criação de comitês de máquinas de aprendizado. Comitê de máquinas de aprendizado é uma abordagem que trata da fusão do conhecimento adquirido por especialistas (métodos de previsão ou simplesmente previsores) para atingir uma decisão global que visa ser superior àquela alcançável por qualquer um deles atuando isoladamente (HAYKIN, 2001). Para essa abordagem a literatura utiliza uma gama de termos, tais como, comitê, ensembles, combinador, classifier fusion, agregação e outros para denominar conjuntos de máquinas de aprendizado que trabalham acoplados para solucionar um problema de aprendizado de máquina (VALENTINI e MASULLI, 2002). No intuito de englobar as variações de nomenclaturas e conceitos referentes aos citados métodos de combinação, este trabalho adotará a expressão comitê de aprendizado.

Um conjunto de procedimentos são executados para a criação de um comitê de aprendizado. A partir da seleção da série temporal, o comitê gerencia a execução de métodos individuais, chamados de métodos-base (ou de nível base), proporcionando um conjunto de elementos da série para que estes façam a abstração do conhecimento individualmente. Em seguida tal conhecimento é aplicado em um conjunto de elementos que podem ser os mesmos usados anteriormente ou novos elementos são usados ou adicionados, de forma que o comitê avalie o desempenho ou a resposta de cada um desses métodos-base. Dessa avaliação seguem duas etapas: uma para seleção dos métodos-base julgados aptos a integrar o comitê e a outra para definição da estratégia de combinação destes. Esta combinação é provida por um segundo nível de abstração do conhecimento (meta-aprendizado) gerado por um método no nível meta (método-meta) e será aplicada sobre um novo conjunto de elementos destinados à previsão (ou teste).

(20)

Como vantagens do uso de comitês de aprendizado para previsão de séries podem-se destacar: os erros dos membros individuais do comitê são contrabalançados em certo grau quando suas previsões são combinadas (TRESP, 2001), e; uma maior quantidade de informação e de opiniões de especialistas podem ser consideradas para julgar qual deve ser a solução final (PALIT e POPOVIC, 2000).

1.1 CARACTERIZAÇÃO DO PROBLEMA

O que se espera de um comitê de aprendizado é que este produza respostas superiores àquelas alcançadas individualmente por um método. No entanto, o desempenho do comitê é susceptível à escolha de seus parâmetros e dos seus integrantes. Muitas vezes são requeridos diversos ajustes de parâmetros no comitê até a obtenção de um bom desempenho.

As configurações em um ambiente de comitê incluem a divisão dos elementos da série em conjuntos, os quais se destinam às etapas de obtenção do conhecimento, validação e teste. Isto se reflete no desempenho dos métodos-base e na forma de selecioná-los e combiná-los. A dificuldade reside no fato de que além da persistência dos desempenhos dos métodos-base, também devem ser mantidas as suas configurações que proporcionaram tais desempenhos, visando permitir a compatibilização de suas combinações no nível meta. Até mesmo a ordem de execução dos métodos-base pode influenciar no resultado final dado pelo comitê.

Atualmente, algumas soluções comerciais (MATLAB, 2009) (DTREG, 2009) oferecem ferramentas que disponibilizam algoritmos individuais e híbridos que podem ser estruturados para gerar previsões de séries temporais. No entanto, a integração destes algoritmos para o desenvolvimento de um comitê não é direta, necessitando que o analista tenha que desenvolvê-la. Isto gera um conjunto de dificuldades, tais como: gerenciar todas as soluções geradas individualmente; agregar ou excluir novos membros; gerar diversas combinações a partir de um repositório de desempenhos de métodos-base, e; avaliar um conjunto de desempenhos nos níveis base e meta.

1.2 OBJETIVOS

Neste sentido, o objetivo principal deste trabalho é apresentar um ambiente que permita a configuração e a execução de comitês de aprendizado a partir de um conjunto

(21)

de métodos-base de previsão. O ambiente deve possibilitar a incorporação (importação) destes métodos, a configuração do comitê, e o armazenamento de dados sobre os resultados gerados tanto pelas técnicas individuais quanto pelo comitê.

Desta forma, o ambiente deve facilitar o uso de diversas estratégias de comitês, permitir uma análise de desempenho dos métodos-base e dos comitês, e possibilitar o uso de mecanismos para a seleção de métodos-base a compor comitês. O ambiente também deve flexibilizar essas configurações, combinações e avaliações, viabilizando diversas formas de experimentos em busca da melhor solução.

1.3 CONTRIBUIÇÕES ESPERADAS

As principais contribuições esperadas para este trabalho são:

 Desenvolver um ambiente para a aplicação de comitês de aprendizado na previsão de séries temporais. Este ambiente deve ser capaz de integrar diferentes métodos-base de previsão, flexibilizando a criação, os testes e as avaliações de comitês de aprendizado;

 Apresentar uma forma de unificar, alinhar e persistir os dados usados na execução de métodos-base para uso em comitês; e

 Realizar uma análise comparativa dos desempenhos de vários métodos de previsão aplicados individualmente e combinados na forma de comitês. Tal análise será decorrente da experimentação realizada a fim de testar e validar o funcionamento do ambiente proposto.

1.4 ORGANIZAÇÃO DA DISSERTAÇÃO

Esta dissertação está organizada em mais cinco capítulos. O Capítulo 2 descreve as bases teóricas referentes à previsão de séries temporais. No Capítulo 3 é apresentado o ambiente proposto para a previsão de séries temporais utilizando comitês de aprendizado. Os experimentos realizados e os resultados obtidos estão relatados no Capítulo 4. O Capítulo 5 trata dos trabalhos relacionados, onde outras abordagens são apresentadas. Finalizando o trabalho, o Capítulo 6 contém as conclusões e a sugestão de trabalhos futuros.

(22)

2 FUNDAMENTOS

Este capítulo descreve os conceitos básicos sobre previsão de séries temporais. Este capítulo também apresenta alguns métodos utilizados na tarefa de previsão e introduz o conceito de comitê de aprendizado.

2.1 PREVISÃO DE SÉRIES TEMPORAIS

Uma série temporal é conceituada como qualquer conjunto de observações ordenadas no tempo (MORETTIN e TOLOI, 2006). Pode-se expressar uma série temporal por (NETO et al., 2007):

1,2,3...N} t

| {Z

Z_t  _t  (2.1)

Onde t é um índice temporal, e N é o número de observações. Considerando a existência de observações de uma série temporal até o instante t, a previsão no instante t+h é denotada por Ẑt(h), cuja origem é t e o horizonte é h (MORETTIN e TOLOI, 2006).

As previsões em Z(t+1), Z(t+2), ... Z(t+h) podem ser ilustradas por meio do exemplo contido na FIG. 2.1.

...

x x x t t+1 t+2 ... t+h _{Tempo (t)} Z(t) ^ ^ Z(1) Z(2) Z(h) ^ ^

FIG. 2.1 Observações de uma série temporal com previsões de origem t e horizontes de previsão iguais a um, dois e h (adaptado de (MORETTIN e TOLOI, 2006))

(23)

Além do horizonte de previsão, outro parâmetro usado pelo processo de previsão é o número de elementos históricos anteriores ao horizonte de previsão. Ele é chamado de janela de previsão e está presente em boa parte dos métodos de previsão de séries temporais (SILVA et al., 2007). A janela de previsão é utilizada para formar o exemplos (padrões) nos quais alguns métodos de previsão realizam a extração do conhecimento (aprendizado) para aplicação na previsão de valores futuros. O elemento que segue imediatamente à janela de previsão constitui o alvo, ou seja, o elemento que se deseja prever. A série temporal é normalmente dividida em dois conjuntos de elementos: o primeiro é destinado ao método de previsão para a obtenção do aprendizado (conjunto de treino) e o segundo é usado para verificação de seu desempenho na previsão de valores futuros (conjunto de teste). A FIG 2.2 mostra um exemplo da definição desses componentes para previsão de uma série temporal: a divisão da série em conjuntos para treinamento e teste, uma janela de previsão que possui cinco elementos e o horizonte de previsão de um elemento (o alvo).

FIG. 2.2 Exemplo de uma janela de previsão com cinco entradas e horizonte de previsão igual a um

Algumas características (ou propriedades) importantes das séries temporais são: estacionariedade, sazonalidade e tendência. As séries são denominadas estacionárias quando estas se mantém ao redor de uma média constante ao longo do tempo, refletindo alguma forma um equilíbrio estável (MORETTIN e TOLOI, 2006). A sazonalidade é mais uma característica, demonstrada através de seu periódico padrão de flutuação, sendo mais comum em séries temporais econômicas e em séries temporais nas quais as observações são extraídas da vida real, onde o padrão pode se

(24)

repetir a cada hora, dia, semana, mês, ano etc (PALIT e POPOVIC, 2005). Outra característica importante é a tendência, representada quando a série se desenvolve ao redor de uma reta, no caso mais simples. Ela é apresentada geralmente em séries econômicas e financeiras, com uma inclinação positiva ou negativa, chamada de tendência linear (MORETTIN e TOLOI, 2006). Pode-se notar que a FIG. 1.1a exibe uma série temporal com tendência linear positiva enquanto a FIG. 1.1b demonstra outra série contendo ciclos repetitivos. Na prática, as séries temporais podem ter duas ou mais propriedades conforme listadas anteriormente (PALIT e POPOVIC, 2005).

Como passo inicial na análise da série temporal é recomendado a construção do gráfico da série, pois pode revelar características importantes como tendência, sazonalidade e observações atípicas (“outliers”) (MORETTIN e TOLOI, 2006). Outliers são ruídos que se destoam do padrão da série.

Essa abordagem auxiliará na seleção dos procedimentos mais apropriados para previsão, que levam em conta a sua aplicação, a precisão esperada, os recursos computacionais disponíveis e a quantidade de dados existentes (PALIT e POPOVIC, 2005).

2.2 MÉTODOS DE PREVISÃO DE SÉRIES TEMPORAIS

A escolha dos algoritmos e modelagens aqui descritas teve como escopo principal a diversidade de técnicas de inteligência artificial, tais como lógica nebulosa e redes neurais artificiais, e de métodos estatísticos que permitissem tratar o problema por diferentes abordagens. Além disso, em função da extensa teoria sobre tais assuntos, buscou-se concentrar a escolha entre métodos populares e de relativa facilidade de compreensão e de implementação. Um desses exemplos é o caso dos métodos de suavização, que possuem razoável precisão (MORETTIN e TOLOI, 2006).

Na análise de séries temporais, suavização é uma técnica estatística focalizada na redução de irregularidades ou flutuações randômicas nos dados das séries temporais de forma a prover uma limpeza no padrão dos dados das séries fruto de observações contaminadas (PALIT e POPOVIC, 2005). Duas técnicas de suavização usadas para previsão são descritas: Média Móvel Simples e Suavização Exponencial Simples.

Como exemplos de métodos que utilizam técnicas de inteligencia artificial são descritos o algoritmo de Wang-Mendel (WANG e MENDEL, 1992), que provê um meio de obtenção de regras lingüísticas a partir de pares de dados numéricos, gerando uma

(25)

base de conhecimento para mapear o espaço de entrada no espaço de saída e um método baseado no algoritmo de aprendizado Backpropagation (RUMELHART e MCCLELLAND, 1986), que é empregado para a previsão de séries a partir da utilização de janelas de previsão como exemplos para a etapa de treinamento da rede neural (PALIT e POPOVIC, 2005).

Para aplicação dos métodos descritos nesta seção, devem-se observar três condições quanto aos dados de uma série temporal (SILVA, 2003): a existência de informações históricas; as informações históricas podem ser transformadas em dados numéricos, e; padrões passados podem ser repetidos no futuro. A seguir, os métodos citados são apresentados com mais detalhe.

2.2.1 MÉDIA MÓVEL SIMPLES

Esse método realiza a previsão de um novo elemento da série através da extração da média aritmética de uma seqüência de n elementos (janela) observados anteriormente. Considerando que o valor de um dado elemento i é observado em um instante t, a previsão de um elemento em t+1 é dada por:

n

i

MMS

t n t i



 



1 _(2.2)

Para o caso específico de n=1, a previsão do elemento em t+1 será igual ao valor observado no instante t, ou seja, o cálculo do novo elemento é o valor real do elemento corrente da série. Esse caso particular é denominado “método ingênuo” (MORETTIN e TOLOI, 2006).

Algumas vantagens desse método são: fácil aplicação e a possibilidade de ser empregado quando se tem um número pequeno de observações (MORETTIN e TOLOI, 2006). A principal desvantagem é que as observações mais antigas recebem o mesmo peso que as observações mais recentes (NOGUEIRA, 2005).

2.2.2 SUAVIZAÇÃO EXPONENCIAL SIMPLES

Esse método também apresenta um cálculo simples, todavia com um comportamento diferente do método de médias móveis. O método da suavização exponencial simples calcula o valor a ser previsto com base apenas no valor corrente da

(26)

série e na previsão anteriormente efetuada para este. A fórmula que descreve tal método é definida por:



t t



t

P

R

P

VP

1









(2.3)

Onde VPt+1 é o valor a ser previsto, Pt_{é a previsão de valor do elemento corrente,}

Rt é o valor real do elemento corrente e α é uma fração do erro de previsão, sendo α Є [0;1]. Como condição de inicialização, assume-se que VP₁ = R₁ (NOGUEIRA, 2005).

O termo α(Rt-Pt) contido na EQ. 2.3 demonstra que a variável α é utilizada como um ponderador, estabelecendo uma parcela de contribuição (acréscimo ou decréscimo) associada ao erro de previsão (R_t – P_t) para o elemento corrente da série. Cabe salientar que um valor de α adequado para uma determinada série poderá produzir resultados aquém do esperado em outras séries, tornando crucial uma escolha apropriada desse valor. Um procedimento objetivo para essa escolha é seleção do valor α que fornece a “melhor previsão” das observações já obtidas (MORETTIN e TOLOI, 2006).

2.2.3 ALGORITMO DE WANG-MENDEL

O algoritmo original de Wang-Mendel (WANG e MENDEL, 1992) provê um método genérico de geração de regras nebulosas (fuzzy) que combina informações numéricas e lingüísticas para uso, inclusive, em previsão de séries temporais.

O método sugere uma seqüência de 5 passos para geração de regras fuzzy: 1) Divisão dos dados de entrada e de saída em conjuntos fuzzy; 2) Geração das Regras Fuzzy; 3) Definição de um grau para cada regra gerada; 4) Composição da Base de Conhecimento; e 5) Defuzzificação (Previsão de valores futuros). Os quatro primeiros passos são responsáveis pela geração da base de conhecimento e compõem a chamada etapa de treinamento. O quinto passo realiza, a partir da base de conhecimento gerada, a previsão dos dados propriamente dita.

Considerando-se como exemplo um vetor de entrada (X1, X2, ..., Xn) que representa dados de uma série temporal, a FIG. 2.3 ilustra a divisão do domínio em intervalos de mesmo tamanho para realização do primeiro passo do método. Os intervalos são divididos em 2N+1 conjuntos fuzzy. N é definido pelo usuário para cada variável. O conjunto CE (Center) representa o intervalo de valores que situa-se no ponto

(27)

médio do domínio da variável do vetor de entrada. Os conjuntos denominados SN (Small N) referem-se aos elementos que estão abaixo do conjunto CE e BN (Big N) para aqueles que estão acima. Cada conjunto é associado a uma função de pertinência, nesse caso triangular, e tem por função mapear o vetor de entrada. Desse mapeamento serão definidos, posteriormente, os pares de dados que representarão a entrada (janela de previsão) e a saída (alvo). Os conjuntos citados são sobrepostos, como ilustrado na FIG. 2.3. CE

{

S1 B1 B2 S2 B3

{

S3 U+ U-X U+ U-S3 S2 S1 CE B1 B2 B3 X µ(X) t Série Temporal 7 regiões (N = 3)

FIG. 2.3 Divisão dos Intervalos de domínio em conjuntos fuzzy

Para cada variável de entrada e saída, o método calcula o grau de ativação da função de pertinência correspondente e seleciona a maior delas. A geração de regras nebulosas (passo 2) é realizada por meio de sentenças do tipo “Se <antecedentes> Então <conseqüente>”, onde as variáveis de entrada são designadas como antecedentes e a variável de saída como conseqüente. Para o exemplo proposto na FIG. 2.4, a TAB. 2.1 mostra a regra gerada a partir da escolha dos maiores graus de pertinência.

(28)

CE

{

S1 B1 B2 S2 B3

{

S3 U+ U-X U+ U-S3 S2 S1 CE B1 B2 B3 X µ(X) t Registros de Treino (antecedentes) Janela = 4 Registro de Treino (conseqüente) t1 t2t3t4 t5 x1 x2 x3 x4 0,1 0,3 0,4 0,6 0,9 0,7 0,8 0,2 x5

FIG. 2.4 Mapeamento das Variáveis de Entrada e Saída para uma Janela de Previsão igual a 4

TAB. 2.1 Regra gerada a partir da escolha dos maiores graus de pertinência para o exemplo proposto na FIG. 2.4 ANTECEDENTES CONSEQUENTE X1=

{

B1= 0,4 X2=

{

B2= 0,3 X5=

{

B2= 0,2 B2= 0,6 B1= 0,7 B1= 0,8 X3=

{

B1= 0,1 X4=

{

CE= 0,4 CE= 0,9 B1= 0,6 Regra: SE X1 = B2 E X2 = B1 E X3 = CE E X4 = B1 ENTÃO X5 = B1

Todas as regras geradas são armazenadas em uma base de conhecimento de onde as regras conflitantes (mesmos antecedentes) são excluídas, sendo preservadas aquelas que possuem maior grau (gerado pelo produto de todos os antecedentes e do respectivo conseqüente), concluindo-se, assim, o terceiro e quarto passo. Para a previsão de valores futuros (quinto passo), os dados de entrada são recebidos e a base de conhecimento previamente construída é aplicada, onde um processo de

defuzzificação combina as saídas das regras ativadas e calcula o valor previsto pelo

método do Centro de Massa (ou Gravidade). Maiores detalhes sobre o algoritmo de Wang-Mendel podem ser obtidos em (WANG e MENDEL, 1992) (SILVA et al., 2007), (RIBEIRO et al., 2008) (GOLDSCHMIDT e PASSOS, 2005).

(29)

2.2.3.1 ADAPTAÇÕES NO ALGORITMO DE WANG-MENDEL

Em determinadas situações, o método de Wang-Mendel é incapaz de prever um dado futuro, produzindo uma saída nula (zero). Esse fato ocorre nas situações em que o conjunto de dados de entrada (que compõe a janela de previsão utilizada pelo método) não ocasiona a ativação de pelo menos uma das regras existentes (SILVA et al., 2007) (RIBEIRO et al., 2008). Tal fato ocorre principalmente quando se utiliza uma grande quantidade de conjuntos fuzzy (acima de 25, por exemplo) e/ou um tamanho de janela de previsão com número de entradas superior a 10 (RIBEIRO et al., 2008).

Uma solução para esse problema é a redução paulatina dos antecedentes das regras da base de conhecimento até que pelo menos uma das regras seja ativada (SILVA et al., 2007). Esta solução melhora bastante o desempenho do método mantendo parte de suas características, entretanto não elimina totalmente o problema. Em uma solução híbrida, os métodos da média móvel simples ou da suavização exponencial simples são empregados para prover uma resposta alternativa diferente de zero e próxima do valor real (RIBEIRO et al., 2008).

2.2.4 ALGORITMO BACKPROPAGATION

O algoritmo de treinamento backpropagation emergiu como o algoritmo padrão para o treinamento de perceptrons de múltiplas camadas (redes neurais MLP), com o qual outros algoritmos de aprendizagem são comparados (HAYKIN, 2001). O termo backpropagation surge do fato que o algoritmo se baseia na retropropagação dos erros para realizar os ajustes de pesos das camadas intermediárias (REZENDE, 2003).

De forma resumida, o algoritmo backpropagation deriva seu nome do fato de que as derivadas parciais da função custo (medida de desempenho) em relação aos parâmetros livres (pesos sinápticos e níveis de bias) da rede são determinados por retropropagação dos sinais de erro (calculados pelos neurônios de saída) através da rede, camada por camada (HAYKIN, 2001). A aprendizagem por retropropagação do erro pode ser descrita, basicamente, por dois passos computacionais:

 processamento para frente (propagação): o vetor de entrada é aplicado aos neurônios da rede e seu efeito se propaga através da rede, camada por camada, culminando com o cálculo do sinal de erro de cada neurônio na camada de saída. Durante este passo, os pesos da rede ficam fixos; e

(30)

 processamento para trás (retropropagação): os sinais de erro calculados são passados da camada de saída para as camadas antecessoras, e recursivamente são calculados os gradientes locais de cada neurônio, sendo os pesos ajustados de acordo com uma regra de correção de erro. A propagação destes sinais de erro para trás através da rede dá origem ao termo “retropropagação do erro”. Os pesos são ajustados para aproximar a saída da rede com a resposta desejada. No processamento para frente, os pesos sinápticos w permanecem fixos e o sinal funcional que aparece na saída do neurônio j é calculado como:

(2.4) onde φ(v_j(n)) é a função de ativação do neurônio j, sendo n o n-ésimo padrão de treinamento e v_j(n) o potencial de ativação do neurônio j. A função de ativação define a saída do neurônio. Os tipos básicos de funções de ativação são: Linear, Sigmóide e Tangente hiperbólica. Com relação ao potencial de ativação, este é representado por:





p i i ji j

n

w

n

y

n

v

0

)

(

)

(

)

(

(2.5)

onde p é o número total de entradas aplicadas ao neurônio j, w_ij(n) é o peso sináptico que conectada o neurônio i ao neurônio j, e y_i(n) é o sinal de entrada do

neurônio j (ou de forma equivalente, o sinal funcional na saída do neurônio i). O sinal de erro para o j-ésimo neurônio da camada de saída é definido por:

(2.6)

onde d_j(n) é a resposta desejada. O cálculo desses sinais de erro encerra a fase de

propagação do algoritmo.

No processamento realizado pela retropropagação, o ajuste dos pesos pelo método do gradiente pode ser descrito pela equação a seguir (REZENDE, 2003):

(2.7)

))

(

)

(

n

v

n

y

j





j

)

(

)

(

)

(

n

d

n

y

n

e

j



j



j

)

(

)

(

ji ji

w

E

n

w











(31)

Onde:

η é o parâmetro da taxa de aprendizado (que define a magnitude de atualização dos

pesos) e ∂E/∂wji é a derivada parcial do erro E em relação ao peso wji.

A EQ. 2.7 é conhecida como Regra Delta. Outra forma de representar esse ajuste dos pesos é expressa por:

(2.8) sendo o gradiente local δ_j(n) definido por:

))

(

'

)

(

)

(

n

e

j

n

j

v

j

n

j







(2.9)

A EQ. 2.9 demonstra que o gradiente local δ_j(n) para o neurônio de saída j é igual ao produto do respectivo sinal de erro pela derivada φ'_j(v_j(n)) da função de ativação relacionada. A FIG. 2.5 ilustra um diagrama da implementação desse treinamento para um neurônio de saída.

Para o caso de um neurônio j localizado em uma camada oculta, o sinal de erro e_j(n) não pode ser obtido diretamente, pois não existe uma resposta desejada especificada para aquele neurônio. Nessa situação o cálculo do citado sinal de erro deve ser determinado de forma recursiva, em termos dos sinais de erro de todos os neurônios ao quais o neurônio oculto está diretamente conectado (HAYKIN, 2001). Dessa forma, o cálculo do gradiente local é redefinido para:





k kj k j j j

(

n

)



'

(

v

(

n

))



(

n

)

w

(

n

)



_(2.10)

onde o índice k se refere a um neurônio que se encontra em uma camada à direita do neurônio j, quando este pertence a uma camada oculta.

Uma alternativa para aumentar a taxa de aprendizagem ƞ evitando causar a instabilidade da rede é a inclusão do termo de momento

α

na regra delta, estendendo-a como:

)

(

)

(

)

1 (

)

(

n

w

n

y

n

w

ji







ji







j i



(2.11)

(n)

(n)y

(n)

w

ji





j i



(32)

FIG. 2.5 Aplicação do treinamento de um simples neurônio localizado na camada de saída de uma rede MLP (extraída de (PALIT e POPOVIC, 2005)

A EQ. 2.11 é chamada de regra delta generalizada, pois inclui a regra delta como um caso especial onde α = 0. O termo de momento representa o valor memorizado do último incremento e, dessa forma, a próxima mudança no peso é mantida aproximadamente na mesma direção da última (PALIT e POPOVIC, 2005).

2.2.5 CONSIDERAÇÕES SOBRE OS MÉTODOS DE PREVISÃO

Existem diversos métodos para a previsão de séries temporais. Mesmo na utilização de uma técnica considerada eficiente para um problema específico, o seu bom desempenho estará atrelado também na habilidade do pesquisador em escolher a configuração adequada para sua aplicação.

Uma das justificativas para uso de um comitê de aprendizado é minimizar erros de previsão individuais além de tentar combinar opiniões de diversos especialistas com diferentes visões e interpretações sobre o problema. O paradigma (e o viés) de um método determina a “forma” deste método “enxergar” o problema.

Nesse contexto é totalmente incerto colocar a preferência em um método particular porque em certo cenário de previsão um método A pode oferecer uma previsão melhor e em outro cenário um método B poderá superá-lo (PALIT e POPOVIC, 2000).

Outra razão para o emprego de comitês é a possibilidade de obterem-se soluções modulares, onde um problema complexo poderá ser particionado em subtarefas que são modeladas pelos membros individuais do comitê (TRESP, 2001).

(33)

2.3 COMITÊS DE APRENDIZADO

Um comitê de aprendizado representa a agregação de mais de uma máquina de aprendizado na produção de uma única solução computacional para um determinado problema (LIMA, 2004). A hipótese de que tal comitê pode apresentar uma previsão melhor que um método individual se deve a fatores como a fusão do conhecimento de vários especialistas (previsores), a obtenção de soluções modulares, a utilização de diferentes conjuntos de treinamento, e foi relatada por diversos estudos, podendo ser citados aqueles contidos em (LEONE FILHO, 2006) (LIMA, 2004) (OZA, 2001) (PALIT e POPOVIC, 2005) (HAYKIN, 2001) (TRESP, 2001) (VALENTINI e MASULLI, 2002). Conforme exposto previamente na introdução deste trabalho, será adotado o termo comitê de aprendizado para denotar todo o conjunto de conceitos e nomenclaturas que tratam da combinação de máquinas de aprendizado. Estas máquinas se referem, basicamente, aos métodos de previsão provenientes de técnicas de inteligência artificial, mas pode incluir outras derivadas da estatística, por exemplo. Algumas destas técnicas foram apresentadas nas seções anteriores deste capítulo.

A FIG. 2.6 ilustra a estrutura de um comitê que combina a saída de 4 previsores (máquinas de aprendizado). Segue adiante uma descrição do processo global (LEONE FILHO, 2006):

 Cada previsor recebe os dados de entrada do problema, que podem não ser os mesmos para previsores distintos;

 Cada previsor faz um mapeamento f:Rm_{→R da saída a partir de m entradas;}

 Cada saída de cada previsor é multiplicada por um peso, onde o somatório de todos os pesos impostos às saídas deve ser igual a 1;

 As saídas normalmente são selecionadas para formar o comitê, de tal forma que nem todas as saídas dos previsores são combinadas, mas somente aquelas que melhoram o desempenho do comitê; e

 As saídas selecionadas e ponderadas são somadas para compor a solução do comitê.

(34)

Entradas Previsor 1

Entradas Entradas Entradas Previsor 2 Previsor 3 Previsor 4 (Saída 1)*W₁ (Saída 2)*W₂ (Saída 3)*W₃ (Saída 4)*W₄

COMITÊ





4 1

1

I i

W



 4 1 I i i

W

Saída

Saída Combinada

FIG. 2.6 Estrutura de um comitê de previsores, considerando 4 componentes (adaptada de (LEONE FILHO, 2006))

Após a etapa de seleção dos membros do comitê, a combinação dos resultados individuais de cada um destes pode ser feita por diversas maneiras. As mais comuns são votação múltipla ou votação majoritária para a tarefa de classificação de padrões e média aritmética ou média ponderada para a tarefa de regressão (LEONE FILHO, 2006). A classificação consiste na predição de um valor categórico como, por exemplo, predizer se o cliente é bom ou mau pagador. Na regressão, o atributo a ser previsto consiste em um valor contínuo, como por exemplo, predizer o lucro ou a perda em um empréstimo (REZENDE, 2003). Cabe ressaltar que a ênfase dada aos comitês de aprendizado corresponde à tarefa de classificação de padrões (VALENTINI e MASULLI, 2002) (OPITZ, 1999) (DIETTERICH, 2002) (HAYKIN, 2001). No entanto, os princípios que regem tais comitês também se aplicam às tarefas de previsão de séries.

A pesquisa tem mostrado que um comitê eficaz deve consistir de um conjunto de modelos que são não somente altamente corretos (taxas de erros de previsão reduzidas), mas aqueles que geram seus erros de previsão em diferentes partes do espaço de entrada também (OPITZ, 1999) (VALENTINI e MASULLI, 2002). Estas considerações são importantes na aplicação de um comitê de redes neurais, pois estão intimamente ligadas ao conhecido dilema bias-variância (BROWN, 2003).

(35)

Um aspecto importante trata das máquinas de aprendizado que formam o comitê. Os resultados mais expressivos presentes na literatura, relativos à geração de componentes para o comitê, empregam redes neurais artificiais como seus componentes (LIMA, 2004). Este fato é justificável porque as redes neurais podem modelar o comportamento de sistemas conhecidos sem que sejam dados quaisquer regras ou modelos, diferentemente de outras técnicas com regras explícitas para aprender o conhecimento (WANG, 1996). A geração de modelos diversos de redes neurais pode ser feito de quatro formas (LAI, 2006):

(i) diferente inicialização dos pesos iniciais para cada modelo de rede neural. (ii) treinamento das redes neurais com diferentes subconjuntos de treino.

(iii) variação da arquitetura da rede neural, tais como: mudança do número de camadas ou número diferente de neurônios em cada camada.

(iv) uso de diferentes algoritmos de treinamento, tais como o algoritmo backpropagation, o algoritmo função de base radial (RBF) e algoritmos de regressão Bayesianos.

Existem duas formas para a manipulação de um reservatório de candidatos a compor um comitê (LIMA, 2004): aplicar procedimentos de seleção a um conjunto de candidatos que foram gerados por meio do uso de métodos concebidos para promover diversidade, ou realizar um processo contínuo de geração e seleção até que um critério de parada seja alcançado.

Bagging (BREIMAN, 1994) e boosting (FREUND e SCHAPIRE, 1997) são métodos populares de comitês de aprendizado e podem ser usados como algoritmos de lote dentro de outros comitês. Estes métodos processam repetidamente o conjunto inteiro de exemplos de treinamento e requerem no mínimo uma passagem através dos dados para cada modelo base que será gerado (OZA, 2001).

Os comitês de aprendizado podem ser classificados em duas categorias (HAYKIN, 2001): estruturas estáticas e dinâmicas. Na primeira, as repostas de vários previsores são combinadas por meio de um mecanismo que não envolve as entradas. Por isso a designação estática, a qual inclui os seguintes métodos: média (mais conhecido como Combinação Linear ou “averaging”) e reforço (bagging e boosting são exemplos deste tipo). Na segunda estrutura, o termo dinâmica se refere ao envolvimento dos dados de entrada na atuação do mecanismo que integra as saídas dos previsores em um saída global, fato este que gera a designação “dinâmica”. Exemplos dessa última categoria são: Mistura de Especialistas (ME) e Mistura Hierárquica de Especialistas (HME).

(36)

2.3.1 COMBINAÇÃO LINEAR

A estratégia mais simples de combinação é aplicar um somatório ponderado das saídas individuais dos membros do comitê (BROWN, 2003). A EQ 2.12 representa essa estratégia definida como combinação linear:





M i i i c

w

f

1 (2.12)

Onde fc é a saída combinada, M é o número de métodos base, fi é a saída individual de cada método base e wi é um peso positivo associado a essa saída, sendo a soma destes pesos iguais a 1 (WICHARD e OGORZALEK, 2004) (BROWN, 200 ). Quando os pesos são idênticos, a combinação é referenciada como média simples (LIMA, 2004), sendo expressa por:





M i i c

f

M

f

1

(2.13)

Algumas abordagens para obtenção das ponderações contidas na EQ. 2.12, em busca de combinações lineares ótimas, são apresentadas em (PERRONE, 1993) (HASHEM, 1993).

2.3.2 COMBINAÇÃO NÃO-LINEAR

Nessa estratégia de combinação as saídas individuais dos métodos base são interrelacionadas de forma não-linear. Esse mapeamento não-linear pode ser realizado por meio de implementações isoladas de tecnologias de inteligência artificial, tais como redes neurais, lógica nebulosa e abordagem híbrida (PALIT e POPOVIC, 2000). A EQ. 2.14 exibe uma representação adaptada de (LAI, 2006):

)

...,

,

(

₁ ₂ ₃ _n c

f





(2.14)

Onde fc é a saída combinada, (f1, f2, f3,..., fn) é a saída individual de cada método base e Ψ(.) é uma função não-linear.

(37)

2.3.3 BAGGING

Bagging (BREIMAN, 1994) é um método para geração de versões múltiplas de previsores e usá-los para obter um previsão agregada. Essa agregação realiza a média dessas versões quando prevê um valor numérico e faz um voto majoritário quando prevê uma classe. As versões múltiplas são formadas pelo uso de técnicas de bootstrap (EFRON e TIBSHIRANI, 1993) que replica o conjunto de treinamento e os usa como novos conjuntos de treinamento. Esses conjuntos são gerados a partir de amostragem randômica do conjunto original de dados para treinamento, com reposição, contendo o mesmo número de amostras desse último, mas algumas delas podem aparecer mais de uma vez em um dado conjunto e outras podem nem aparecer. Bagging é eficiente em algoritmos de aprendizado “instáveis”, tais quais aqueles usados em redes neurais, onde pequenas mudanças no conjunto de treinamento resultam em grandes mudanças nas previsões (BREIMAN, 1994).

2.3.4 BOOSTING

Boosting (SHAPIRE, 1990) é uma abordagem diferente da anterior, onde os

conjuntos de treinamento da primeira não são gerados a partir de uma amostragem uniforme com reposição. Os membros do comitê são treinados seqüencialmente, e o treinamento de um membro em particular é dependente do treinamento e do desempenho dos membros treinados previamente.

Uma limitação prática dessa abordagem é que requer freqüentemente uma grande amostra de treinamento (HAYKIN, 2001). AdaBoost (FREUND e SCHAPIRE, 1996) é uma variante de boosting sendo provavelmente a mais difiundida (BROWN, 2003). Ela realiza uma combinação de idéias por trás de boosting e bagging e não demanda um grande conjunto de dados (TRESP, 2001), produzindo resultados melhores do que bagging, porém é mais susceptível a presença de ruídos nos dados (OPTIZ, 1999). 2.3.5 MISTURA DE ESPECIALISTAS (ME)

O princípio que rege a arquitetura de Mistura de Especialistas (JACOBS, 1991) é que vários previsores (redes neurais) estarão aptos a “especializar” partes específicas do espaço de entrada. Uma rede de passagem (gating network) recebe as mesmas entradas e é responsável por aprender a combinação apropriada de pesos para modular as saídas de

(38)

cada rede neural especialista. A FIG. 2.7 ilustra a arquitetura básica. A previsão final por essa abordagem é dada por (TRESP, 2001):





M i i i

x

f

x

g

x

t

1

)

(

)

(

)

(

ˆ

_(2.15)

Onde fi(x) é um membro especialista (rede neural) do comitê e o valores de gi(x), que são

positivos e cuja soma é igual a 1, correspondem às saídas geradas pela rede de passagem.

FIG. 2.7 Arquitetura de um Comitê de Aprendizado na Abordagem Mistura de Especialistas fonte: (TRESP, 2001)

2.3.6 MISTURA HIERÁRQUICA DE ESPECIALISTAS (MHE)

O modelo de mistura hierárquica de especialistas (JORDAN, 1994) é uma extensão natural da abordagem mistura de especialistas (ME). A FIG. 2.8 ilustra um modelo MHE de quatro especialistas e com dois níveis de hierarquia ou duas camadas de redes de passagem. Essa abordagem é similar a uma árvore, na qual as redes de passagem estão em vários pontos não-terminais da árvore e os especialistas se encontram nas folhas das árvores. Este modelo se diferencia na medida em que o espaço de entrada é dividido em conjuntos aninhados de subespaços, com a informação sendo combinada e redistribuída entre os especialistas sob o controle de várias redes de passagem arranjadas de forma hierárquica (HAYKIN, 2001).

(39)

FIG. 2.8 Arquitetura de um Comitê de Aprendizado na Abordagem Mistura Hierárquica de Especialistas (MHE) ilustrada para dois níveis de hierarquia.

fonte: (LIMA, 2004)

2.3.7 CONSIDERAÇÕES FINAIS

Em função da diversidade de estratégias existentes para a criação de comitês de aprendizado, a simples escolha por uma delas já promove dificuldades computacionais para lidar com vários métodos individuais. O emprego de distintas modelagens de métodos individuais e de diferentes abordagens de combinação transforma o uso de comitês de aprendizado em uma atividade complexa. Isto se deve ao fato de caber ao analista a tarefa de integrar e compatibilizar as respostas individuais para uso pelo comitê. Dependendo do tipo de combinação a ser executada, há necessidade de normalização dos dados de entrada no nível meta e do armazenamento das respostas individuais e a ordem de obtenção destas, assim como das configurações que proporcionaram tais respostas.

2.4 MÉTRICAS PARA AVALIAR RESULTADOS

Com o propósito de avaliar o desempenho dos métodos-base e dos comitês, no escopo da previsão de séries temporais, alguns critérios de avaliação devem ser definidos, de forma que se possa medir a qualidade das respostas obtidas. Essa

(40)

avaliação é realizada por meio de métricas, as quais quantificam os erros obtidos nas previsões, estabelecendo, assim, o nível de acurácia destas. Existem diversas métricas que podem ser aplicadas na previsão de séries temporais, sendo alguns dos mais importantes exemplos descritos adiante. Em função dessas métricas basearem seus cálculos sobre os erros obtidos nas previsões, os melhores resultados são gerados quando estes se aproximam ou tendem a zero.

 Coeficiente U-Theil (VEIGA, 2005)

Esse coeficiente avalia o desempenho da previsão com relação à previsão trivial ou ingênua, que indica que o valor atual é a melhor previsão para o valor seguinte. O cálculo do coeficiente se dá através da equação:



  





N k k k N k k k Theil

a

y

a

U

1 2 1 1 2

)

(

)

(

(2.16)

onde ak é o valor real da série na posição k e yk é o valor previsto na mesma

posição. Nessa equação aparece um termo comum utilizado nas métricas para avaliação do desempenho da previsão, denominado erro de previsão (ek), representado por:

k k

k

a

y

e





(2.17)

Nessa métrica quando o valor de U-Theil é maior do que um significa que o desempenho do algoritmo de previsão é pior do que o da previsão ingênua, ou seja, se na previsão de cada elemento fosse utilizado o valor anterior da série, o desempenho seria melhor. Quando o valor de U-Theil é menor do que um e mais próximo de zero, melhor o desempenho do algoritmo. A melhor previsão acontece quando o valor de U-Theil é igual a zero, ou seja, todos os valores previstos são iguais aos valores reais da série. Segundo (GAYNOR e KIRKPATRICK, 1995) apud (Castro, 2005), modelos de previsão com valores de U-Theil iguais ou menores a 0,55 são considerados confiáveis.

 Soma dos quadrados dos erros (SSE, do inglês squared sum error)

Esta métrica calcula a soma quadrática dos erros de previsão, expressa pela EQ. 2.18.

(41)





N k k

e

SSE

1 2

)

(

5 .

0

(2.18)

 Erro quadrático médio (MSE, do inglês mean squared error )

Nesta métrica a soma quadrática dos erros de previsão é dividido pela quantidade de amostras. Esta é uma das métricas mais utilizadas para previsão de séries e é formulada por:

N

e

MSE

N k k





1 2

)

(

(2.19)

 Raiz do erro quadrático médio (RMSE, do inglês root mean squared error)

Esta métrica extrai a raiz quadrática do valor obtido pela métrica MSE, conforme EQ. 2.20, sendo também bastante empregada em trabalhos acadêmicos.

N

e

RMSE

N k k





1 2

)

(

(2.20)

 Erro médio absoluto (MAE, do inglês mean absolute error)

Esta métrica calcula a média dos erros absolutos, dada pela EQ. 2.21 abaixo. Convém observar que os resultados obtidos por essa métrica devem ser analisados em função da faixa de valores da série, pois os resultados obtidos estão relacionados a essa faixa. A tendência é que valores elevados na série a ser prevista ocasionem erros relativamente elevados de previsão por essa métrica, sem que isso signifique um desempenho ruim do método. De forma inversa, mesmo que um valor reduzido seja obtido pela aplicação dessa métrica, poderá ser constatado um desempenho ruim de um método em uma série como a Mackey-Glass (WAN, 2006), que possui valores entre 0,21 e 1,38 e, conseqüentemente, produzirá erros de previsão muito inferiores a outras séries tais como a Dow Jones (WESSA, 2006), que possui faixa de valores entre 299,21 e 3833,97 e tenderá a gerar erros de maior magnitude por essa métrica.

N

e

abs

MAE

N k k





1

)

(

(2.21)

(42)

 Erro percentual médio absoluto (MAPE, do inglês mean absolute percentual

error)

Esta métrica é semelhante a MAE, sendo que a média é realizada por meio dos erros absolutos percentuais sobre o valor atual (índice k) da série, cuja descrição está contida na EQ. 2.22. Dessa forma, obtém-se um valor percentual que pode ser interpretado de forma independe da faixa de valores da série, ao contrário do que deve ser feito com a métrica MAE. No entanto, a métrica MAPE possui um deficiência prática: se existirem valores zero em uma série temporal, ocorrerá uma imprópria divisão por zero. Com a finalidade de aproveitar o potencial dessa métrica apesar da citada deficiência, propõe-se a seguinte estratégia: as parcelas do somatório relativas às situações em que existam valores zero na série original sejam descartadas e o número de amostras N corrigido, registrando-se o total dessas ocorrências para análise do aproveitamento ou não dessa métrica.

N

a

e

abs

MAPE

N k _k k



















1 (2.22)

(43)

3 O AMBIENTE PROPOSTO

Este capítulo apresenta um ambiente para geração, seleção, combinação e avaliação de métodos de previsão de séries temporais. O objetivo de tal ambiente é oferecer flexibilidade na construção, teste, avaliação e comparação de comitês de aprendizado para previsão de séries temporais.

3.1 CONSIDERAÇÕES INICIAIS

Existem métodos, técnicas e algoritmos que são aplicados para a previsão de séries temporais (BOX e JENKINS, 1976) (WANG e MENDEL, 1992) (RUMELHART e MCCLELLAND, 1986). Essa abordagens podem ser aplicadas de forma independente ou ser combinados em comitês de aprendizado. Uma das dificuldades do emprego de comitês de aprendizado é a análise dos seus resultados. Tendo em vista a possibilidade de utilização de diferentes abordagens, de diversas condições de treinamento e da não padronização das métricas empregadas para avaliação dos resultados, torna-se difícil a comparação de desempenhos individuais e de comitês.

Este trabalho propõe um ambiente para o uso e a análise de resultados de um comitê de aprendizado. Este ambiente provê recursos para o uso de métodos individuais de previsão (métodos base); para a seleção e combinação de métodos base em comitês de aprendizado, e; para a análise do desempenho obtido pelos métodos base e pelo comitê. A FIG. 3.1 ilustra o ambiente proposto.

O ambiente permite a seleção de uma série que terá valores previstos. Esta seleção deve ser realizada a partir de uma base de dados, de onde serão extraídos os atributos que serão utilizados para a composição da série temporal. O ambiente também permite definir que elementos da série serão utilizados nos conjuntos denominados como treinamento, validação e previsão.

Para permitir que o analista faça uso de diversos métodos de previsão de série temporal, o ambiente permite o acoplamento e a execução de métodos base. As saídas destes métodos base serão usadas pelo combinador no processo de formação do comitê de aprendizado. O combinador oferece, ao analista, diferentes maneiras de combinação de saídas dos métodos base em um único parecer. A saída do combinador