Seleção da técnica de modelagem

3 MATERIAL E MÉTODOS

4.4 FASE 4: MODELAGEM

4.4.1 Seleção da técnica de modelagem

Uma vez preparados os dados para a geração do modelo e, considerando que a técnica definida a ser utilizada são as RNA, partiu-se para a escolha da ferramenta mais adequada para a realização dos trabalhos. Nesta seção discutem-se três opções de ferramentas populares para a construção de modelos de séries tem- porais: EasyNN, MatLab e Weka.

EasyNN (2008) é uma ferramenta que implementa uma RNA do tipo multilayer

perceptron, algoritmo de treinamento com retropropagação e função de ativação lo-

gística. Possuí como características principais (i) opção para otimizar as taxas de aprendizado e de momento com base em uma estrutura de envoltório (Kohavi, 1995), (ii) opção para redução das taxas de aprendizado e de momento durante o

treinamento por meio de intervenções diretas durante o processo de aprendizado e

(iii) cálculo automático do número de neurônios das camadas intermediárias. O E-

asyNN oferece os seguintes critérios de parada:

• Quando a média quadrática dos erros calculados sobre o conjunto de treinamento for menor que um valor pré-determinado,

• Quando todos os valores dos erros forem menores que um valor determinado, em um determinado ciclo de treinamento, em um tempo decorrido determinado e

• Quando ocorre aumento da taxa de erros nos dados de validação da RNA.

A ferramenta possui três modos de operação: treinamento, validação e teste. A carga dos dados de treinamento é relativamente simples, permitindo arquivos no formato .txt ou .cvs. A primeira linha do arquivo deve conter o nome dos campos sendo que, para cada campo constante da tabela deve ser selecionado o seu tipo e especificado se o campo é de entrada, saída ou excluído no tratamento da RNA.

Uma vez carregado o arquivo, o passo seguinte será a definição dos campos que irão receber os valores estimados para as variáveis de saída, conforme apre- sentado na Figura 8. As linhas que receberão os valores previstos pela rede após o treinamento da RNA, são devidamente selecionadas através da opção de validating.

O próximo passo é a parametrização da RNA. Entre outros parâmetros, a fer- ramenta permite que se especifique (i) o tempo para a geração de cada RNA quan- do se optar pela otimização de algum parâmetro, (ii) parada por limite de erros e (iii) parada por número máximo de ciclos. Uma vez parametrizada a rede, o sistema exi- be a configuração completa e habilita o modo de treinamento.

Para iniciar o treinamento da RNA, deve-se selecionar a opção Action – Start

Learning, do menu principal. Com isso, o sistema disponiliza uma tela com os parâ-

metros de treinamento e o sistema inicia o seu aprendizado. A RNA construída pode ser visualizada a partir do acionamento de um ícone específico localizado na barra perpendicular direita do aplicativo [ ], conforme figura 9. É possível também visua- lizar, mesmo durante o treinamento: (i) a evolução da taxa de erro [ ], (ii) a impor- tância de cada um dos campos de entrada no treinamento da rede [ ], (iii) o esta- do da rede, ou seja, os valores associados a cada um dos nós da rede [ ] e (iv) as

linhas de dados que causam o maior valor de erro e que estão influenciando negati- vamente a aprendizagem [ ].

Ao final do treinamento da RNA para a obtenção dos valores previstos para as cotações, é possível visualizar os valores previstos na sequência dos valores de treinamento3.

É preciso atentar para um pequeno problema na ferramenta. Foi verificado que a existência de um espaço em branco logo após o último registro do arquivo pode ocasionar erro na carga dos dados.

O Weka (Waikato Environment Knowledge Analysis) (WAIKATO, 2007) é um produto de uso liberado, onde é possível realizar alterações em sua programação em função das necessidades detectadas. Seu manuseio, porém, não é intuitivo, ten- do como fator negativo a sua navegabilidade e usabilidade, levando em considera- ção a possível utilização por parte de usuários que não estão inseridos na área de TI.

A ferramenta oferece quatro modos de operação:

• Simple CLI apresenta uma janela para executar os algoritmos através de linha de comando. Isto porque a primeira versão do Weka não dispunha de uma interface gráfica e as classes de seus pacotes eram executadas por linhas de comando.

• Explorer oferece o módulo gráfico para execução dos algoritmos, com as seguintes abas:

• Preprocess permite as funções de abrir arquivo, abrir URL, abrir um ban- co de dados, editar o banco de dados aberto e salvar arquivos de dados. Oferece ainda alguns métodos para filtragem de dados e a visualização da distribuição das variáveis a seleção de variáveis a serem utilizadas no treinamento.

• Classify é destinada a configurar e executar tarefas de classificação e re- gressão, como a escolha de um dos algoritmos de classificação ofereci- dos, definição de opções de testes (conjunto próprio de treinamento, conjunto independente de treinamento, validação cruzada ou percentual de dados a ser utilizada no teste, entre outras funções) e execução dos algoritmos com visualização dos resultados.

3_{Isso é feito selecionando a linha definida para predição e pressionando a tecla <enter> no campo de}

• Cluster é voltada para a análise de agrupamentos, com a escolha entre um conjunto de algoritmos com essa finalidade, parametrização e execu- ção dos mesmo, com visualização dos resultados.

• Associate permite a escolha, configuração e execução de algoritmos para a geração de regras de associação.

• Select atributes oferece diversos algoritmos para a seleção de atributos, tais como busca exaustiva e algoritmos genéticos.

• Visualise permite a visualização dos dados em diversos tipos de gráficos bidimensionais.

• Experimenter permite definir experimentos mais complexos, visando exe- cutar um ou mais algoritmos sobre um ou vários conjuntos de dados de entrada, e comparar estatisticamente seus resultados.

• KnowledgeFlow permite executar as mesmas opções do Explorer, com uma configuração gráfica inspirada em ferramentas do tipo data-flow para selecionar componentes e conectá-los em projetos de MD. Por exemplo, poderia-se construir um projeto com as seguintes etapas: carga dos dados, aplicação de algoritmos de tratamento e análise, escolha do tipo de avaliação desejada, visualização dos resultados.

MatLab (Matrix Laboratory) é um programa interativo para cálculos numéricos e geração de gráficos científicos. Seu ponto forte está na manipulação e cálculos matriciais, por exemplo, resolução de sistema lineares, cálculo de autovalores e au- tovetores e fatoração de matrizes. Além disso, muitas funções especializadas já es- tão internamente implementadas. Em muitos casos, não há a necessidade de se escrever muito código adicional. Outros dois pontos fortes da ferramenta é a possibilidade de criação e manipulação de gráficos científicos e a possibilidade de extensão por meios de pacotes comerciais ou escritos pelo próprio usuário (TONINI, 2002).

MatLab oferece diversas opções de manipulação. Para a criação de um modelo, é possível ao usuário escolher o tipo de modelo desejado em função do tipo ou das características do assunto tratado. Por exemplo, a interface para a criação, pa- rametrização, visualização e execução de uma RNA é habilitada pelo comando nn-

toll. A Figura 10 apresenta essa interface.

As ferramentas foram analisadas em termos de tempo de aprendizagem e di- ficuldade de operação. Verificou-se que a ferramenta EasyNN atende os requisitos

necessários para a realização dos trabalhos, levando-se em conta a sua facilidade de operação e interação.

Cada uma das ferramentas analisadas possuem o seu diferencial específico. A escolha recaiu sobre o EasyNN pelo domínio dessa ferramenta pelo autor.

O hardware para o desenvolvimento dos trabalhos foi um notebook com pro- cessador AMD Sempron “Móbile 3000”, frequência de processamento de 1,8 giga- hertz, com 1,12 gigabytes de Random Access Memory (RAM).

Para a redundância de eventos de falhas ou sobrecarga de processamento no processo de treinamento das RNA foi utilizado um desktop Pentium IV, frequência de processamento de 2,8 GHz, com 1 GB de memória RAM. Ambos os hardwares possuem memória cache de 1 MB, que possibilita uma maior velocidade de processamento dos dados.

Servindo como equipamento complementar que, foi disponibilizado ainda um notebook com processador AMD Turion X2 Dual-Core, frequência de processamento de 2 GHz, com 4 GB de Random Access Memory (RAM), disco rígido de 250 GB e sistema operacional Windows Vista Home Premium 64 bits.

No documento Um estudo de caso sobre mineração de dados como instrumento de aprendizado para o investidor do mercado de ações (páginas 55-62)