• Nenhum resultado encontrado

Algoritmo do Morcego para Seleção de Variáveis em Calibração Multivariada

N/A
N/A
Protected

Academic year: 2021

Share "Algoritmo do Morcego para Seleção de Variáveis em Calibração Multivariada"

Copied!
5
0
0

Texto

(1)

Algoritmo do Morcego para Seleção de Variáveis

em Calibração Multivariada

Recebido em: 27/11/2018 Aprovado em: 01/04/2019

Silva, W. R.

1

, Paula, L. C. M.

2

, Soares, A. S.

2

, Coelho, C. J.

1

1Escola de Ciências Exatas e da Computação

Grupo de Pesquisa em Computação Científi ca, Pontifícia Universidade Católica de Goiás, Goiânia-GO-Brasil

2Instituto de Informática, Universidade Federal de Goiás, Goiânia-GO-Brasil Resumo: selecionar variáveis consiste em escolher um subconjunto de características, que

fornecem informações úteis, em um grande conjunto de dados. Nesse contexto, a cali-bração multivariada é um campo de estudo que utiliza técnicas estatísticas para construir modelos matemáticos, os quais estabelecem um aprendizado sobre os dados. Para construir tais modelos, muitas vezes torna-se necessário utilizar técnicas de seleção de variáveis. Algoritmos bioinspirados têm sido adaptados e utilizados como métodos de seleção por diversos trabalhos na literatura. O Algoritmo do Morcego (BA, do inglês Bat Algorithm) é uma meta-heurística inspirada na ecolocalização dos morcegos, no qual cada morcego pode ser considerado como uma possível solução para o espaço de busca. Com isso, este trabalho propõe uma implementação do BA para a seleção de variáveis em problemas de calibração multivariada. Os resultados demonstram que o nosso BA é até três vezes melhor que métodos tradicionais em relação à capacidade preditiva de modelos de calibração.

Palavras-chave: Algoritmo do Morcego. Seleção de Variáveis. Calibração Multivariada. Bat Algorithm for variable selection in Multivariable Calibration problems

Abstract: variable selection consists in choosing a subset of characteristics, which

provide useful information in a large dataset. In this context, multivariate calibration is a fi eld of study that uses statistical techniques to construct mathematical models, which allows for learningabout the data. To construct such models, it often necessary to use variable selection techniques. Bio-inspired algorithms were adapted and used as selection methods extensively in the literature. The Bat Algorithm (BA) is a metaheuristic inspired by echolocation of bats, in which each bat can be considered as a possible solution in the search space. In this paper, it is presented a BA implementation for variable selection in multivariate calibration problems. The results demonstrate that the BA is up to three times better than traditional methods in relation to the predictive ability of calibration models.

Keywords: Bat Algorithm. Variable Selection. Multivariate Calibration.

1 Introdução

A

seleção de variáveis é um procedimento usado para escolher um subconjun-to de características viáveis contido em um determinado conjunsubconjun-to de dados. Selecionar variáveis é importante quando o conjunto de dados contém muitas ca-racterísticas redundantes e irrelevantes que não fornecem informação útil e podem diminuir a capacidade preditiva dos modelos [1]. Nesse contexto, a calibração

mul-ISSN 2674-7863 Artigo / Articles

(2)

tivariada utiliza técnicas estatísticas para construir modelos matemáticos capazes de estabelecer um apren-dizado sobre os dados [2].

A calibração multivariada é uma subárea da quimiometria e visa construir um modelo matemático para estabelecer uma relação entre as variáveis. Em geral, o objetivo da calibração multivariada consiste em predizer uma propriedade de interesse de uma determinada amostra por meio de técnicas estatísticas e métodos de seleção. Dentre as diversas técnicas estatísticas existentes, a Regressão Linear Múltipla (MLR, do inglês Multiple Linear Regression) se destaca por estabelecer uma relação linear efi caz entre as variáveis do conjunto de dados.

Atualmente, os métodos instrumentais produzem um grande volume de dados complexos, o que requer o desenvolvimento de novas ferramentas para a seleção de subconjuntos de variáveis adequados para os modelos de calibração. Nesse sentido, diversos trabalhos têm proposto algoritmos para a seleção de variáveis em calibração multivariada. Xu e Qi [3] apresentaram um Algoritmo Genético (GA, do inglês Genetic Algorithm) para selecionar variáveis na determinação de açúcar em peras. Os autores demonstraram que o GA proposto pode ser utilizado para aplicações industriais. Paula et al. [4] propuse-ram uma implementação do Algoritmo do Vaga-lume (FA, do inglês Firefl y Algorithm)1 adaptado para a

seleção de variáveis. O FA foi aplicado para a seleção de variáveis para a determinação de proteína em amostras de trigo e foi capaz de superar métodos tradicionais de seleção. No entanto, o algoritmo não foi comparado com outras meta-heurísticas bioinspiradas.

Com base no sucesso de estudos que têm utilizado meta-heurísticas inspiradas na natureza, este trabalho tem como objetivo propor uma implementação do BA para a seleção de variáveis em proble-mas de calibração multivariada. Proposto por Yang, o BA é um método recente de otimização bioins-pirado na ecolocalização desempenhada pelos morcegos durante o voo [6]. Baseando-se nos resultados obtidos, é possível verifi car que o BA consegue superar métodos tradicionais de seleção em termos de erro de predição.

2 Materiais e Métodos

A calibração multivariada é um termo genérico utilizado para o desenvolvimento de um mo-delo matemático para a predição do valor de uma grandeza baseando-se em um subconjunto de variáveis explicativas (x1, x22, ..., xk ) [7]. Tal modelo pode ser obtido por meio da técnica MLR in-troduzida por Stemberg et al. [8]. Essa técnica busca estabelecer uma relação linear entre as variáveis independentes (variáveis explicativas) e variável dependente (concentração) aplicando o método dos mínimos quadrados. O modelo MLR pode ser obtido a partir de uma matriz X, denominada matriz de variáveis independentes, e um vetor y2, denominado vetor de variáveis dependentes. Cada variável

dependente de yé expressa como uma combinação linear das variáveis independentes da matriz , conforme a equação

(1) em que β0, β1 , ..., βk, são os coefi cientes de regressão a serem determinados e Ɛ uma parcela de erro alea-tório.

Os coefi cientes de regressão podem ser estimados a partir da pseudoinversa de

(2) 1 FA é uma meta-heurística inspirada no comportamento de vaga-lumes, a qual foi proposta por Yang [5].

(3)

Com o modelo determinado, as variáveis estimadas podem ser obtidas a partir da seguinte equação, (3) onde e representam, respectivamente, a matriz de variáveis independentes e o vetor de variável depen-dente estimado para novas amostras.

Com propósito de avaliar a capacidade preditiva ou acurácia de um modelo MLR, pode-se cal-cular a Raiz Quadrada do Erro Quadrático Médio de Predição (RMSEP, do inglês Root Mean Square Error of Prediction). O RMSEP expressa a exatidão do modelo, ou seja, a proximidade entre o valor real esperado obtido por outro método de análise e o valor estimado pelo modelo [9]. O RMSEP é uma medida de erro absoluta, expressa pela equação

(4) Com a fi nalidade de comparar os resultados obtidos pelo algoritmo proposto, utilizou-se as imple-mentações propostas em trabalhos anteriores, sendo APS-MLR proposto por Galvão Filho [10], GA-MLR proposto por de Soares et al. [12] e FA-MLR proposto por Paula et al. [4].

O conjunto de dados utilizados consiste de 775 espectros Vis-NIR3 de amostras integrais de trigo,

ob-tidos a partir de material vegetal de produtores canadenses. Os dados foram determinados no laboratório de pesquisa de grãos Grain Research Laboratory e utilizados na Conferência Internacional Refl ectância Difusa em 2008, onde o teor de proteína foi escolhido como a propriedade de interesse. As amostras foram divididas em subconjuntos de dados de calibração, validação e predição de 389, 193 e 193 amostras, respectivamente.

Para a execução do algoritmo proposto, utilizou-se o software Matlab R2016a version 9.0. Com a fi nalidade de reduzir o tempo computacional do cálculo da inversa de matrizes, optou-se por resolver o sistema linear por meio do operador \ (backslash) da linguagem Matlab, o qual possui um processamen-to otimizado [11]. Todos os resultados foram obtidos pela média de trinta execuções.

3 Resultados e Discussão

A Figura 1 mostra que o BA-MLR é capaz de reduzir o RMSEP médio em poucas iterações (Ma-xGen). Além disso, é possível observar pelos picos nas primeiras iterações que o algoritmo consegue escapar de mínimos locais e converge para uma solução ótima rapidamente.

Fig. 1. Comportamento entre a média RMSEP e MaxGen

(4)

A Figura 2 apresenta o espectro da primeira amostra do conjunto de dados e as variáveis seleciona-das utilizando o melhor morcego obtido. Este resultado indica que aquelas regiões são as mais promis-soras para serem utilizadas.

Fig. 2. Visualização de variáveis selecionadas

Uma comparação entre o APS-MLR, BA-MLR, GA-MLR e FA-MLR é apresentada na Tabela 1. Como pode-se observar, o APS-MLR4 seleciona o menor número de variáveis. Entretanto, o BA-MLR

apresenta o menor valor de erro. Embora utilize um número relativamente maior de variáveis, os resul-tados demonstram que o BA-MLR é quase 2,5x melhor que o FA-MLR em termos de RMSEP.

Tabela 1. Resultados do APS-MLR, GA-MLR, FA-MLR e BA-MLR

Comparação RMSEP Número de Variáveis

APS-MLR 0,20 13

GA-MLR 0,21 146

FA-MLR 0,07 57

BA-MLR 0,03 73

4 Conclusão

Este trabalho propôs uma implementação e adaptação do Algoritmo do Morcego (BA-MLR) para a seleção de variáveis em problemas de calibração multivariada utilizando regressão linear múltipla. O algoritmo proposto foi validado por meio de um estudo de caso utilizando-se um conjunto de dados de trigo obtido por espectroscopia, onde teor de proteína foi escolhido como propriedade de interesse. Tais resultados demonstram que o BA-MLR é um algoritmo promissor e que consegue superar, em termos de RMSEP, tanto métodos tradicionais de seleção quanto o FA [4]. Portanto, é possível concluir que o algoritmo proposto pode ser mais efi caz na construção de modelos com uma capacidade de predição mais adequada. A vantagem da implementação BA-MLR foi demonstrada em um exemplo que envolve um número relativamente grande de variáveis.

4 É importante ressaltar que o APS-MLR visa selecionar as variáveis que apresentam o maior grau de ortogonalidade entre si, o que implica na seleção de um número reduzido de variáveis.

(5)

Trabalhos futuros poderão envolver problemas de calibração multivariada ainda maiores, assim como a inclusão de estratégias multiobjetivo no BA-MLR com o intuito de reduzir também o número de variáveis selecionadas.

Referências

1. Hair, J. F.; Black, W. C.; Babin, B. J.; Anderson, R. E.; Tatham, R. L.: Análise multivariada de dados. 6. ed. Bookman Editora, 2009.

2. Scarminio, I. S.; Ishikawa, D. N.; Barreto, W. J.; Paczkowiski, E. L.; Arruda, I. C.: Calibração multivariada para sistemas com bandas sobrepostas através da análise de fatores do tipo Q. Química Nova, São Paulo, v. 21, n. 5, p. 590-596, 1998.

3. Xu, H.; Qi, B.: Variable selection in visible and near-infrared spectra: Application to on-line determination of sugar content in pears. Journal of Food Engineering, Elsevier, v. 109, n. 1, p. 142-147, 2012.

4. Paula, L. C. M.; Soares, A. S.; Lima, T. W.; Delbem, A. C.; Coelho, C. J.; Filho, A. R. G.: A GPU-based implementation of the fi refl y algorithm for variable selection in multivariate calibration problems. PLOS One, v. 9, n. 12, p. e114145, 2014.

5. Yang, X.: Nature-inspired metaheuristic algorithms. Luniver Press, 2008.

6. Yang, X.: A new metaheuristic bat-inspired algorithm. Springer Berlin Heidelberg, p. 65-74, 2010. 7. Burns, D. A.; Ciurczak, E. W.: Handbook of Near-Infrared Analysis. Third Edition. CRC Press, 2007. 8. Sternberg, J. C.; Stillo, H. S.; Schwendeman, R. H.: Spectrophotometric Analysis of

Multicomponent Systems Using Least Squares Method in Matrix Form. Anal. Chem., 32: 84, 1960.

9. Geraldi, P.; Kowalski, B. R.: Partial least-squares regression: a tutorial. Analytica Chimica Acta, v. 185, p. 1-17, 1986.

10. Filho, A. R. G.: Avaliação do uso de reamostragem e combinação de modelos em regressão linear múltipla empregando o algoritmo das projeções sucessivas. Dissertação (Mestrado), Instituto Tecnológico de Aeronáutica, 2010.

11. Paula, L. C. M.: Paralelização de algoritmos APS e Firefl y para seleção de variáveis em problemas de calibração multivariada. Dissertação (Mestrado), Universidade Federal de Goiás, 2014.

12. Soares, A. S.; Lima, T. W.; Soares, F. A. A. M. N.; Coelho, C. J.; Federson, F. M.; Delbem,

A. C. B., Van Baalen, J.: Mutation-based compact genetic algorithm for spectroscopy variable selection in determining protein concentration in wheat grain. Electronics Letters, v. 50, n. 13,

Imagem

Fig. 1. Comportamento entre a média RMSEP e MaxGen 3   Espectroscopia de refl ectância no visível e infravermelho próximo.
Tabela 1. Resultados do APS-MLR, GA-MLR, FA-MLR e BA-MLR Comparação RMSEP Número de Variáveis

Referências

Documentos relacionados

Several lines of evidence have indicated that the γ-tubulin-containing structures identified in HCT116 cells correspond to aberrant centrioles: (1) the fibers resemble

Na concepção que se vem defendendo nesta tese, educar e cuidar não podem ser vistas como ações opostas, pois, como destaca Matos (2018), cuidar é uma

Para alcançá-lo traçou-se como objetivos específicos apontar os atuais critérios de análise da produção científica brasileira utilizada na tomada de decisão e

(1984) para plantas aquáticas: a) flutuante livre: planta aquática que não se encontra enraizada, expandindo-se na superfície d’água, não apresenta raiz ou essas são pendentes;

Esta é uma vantagem que pode influenciar a produtividade das empresas, pois, para além de ser cada vez mais importante adotar métodos mais fáceis de comunicação entre os

Somados, os casos de cura, benção e feitiçaria representam 67,3% de todas as práticas mágicas denunciadas aos agentes episcopais e inquisitoriais, o que aponta a importância destas

We identified climatically stable areas of seasonally dry forests (SDFs) from Central Brazil through time and assessed the effectiveness of the current reserves network in

A consolidação da memória requer a ativação gênica para síntese de novas proteínas, sendo a tPA e o BDNF algumas das principais moléculas neuronais expressas no