• Nenhum resultado encontrado

3.2 QUIMIOMETRIA

3.2.3 Modelos de calibração

3.2.3.3 Redes neurais artificiais (RNA)

Uma rede neural artificial (RNA) é um modelo computacional baseado na arquitetura do cérebro humano, consistindo de unidades múltiplas de processamento (neurônios artificiais) conectadas por pesos adaptativos (AZEVEDO et al., 2000). Os pesos, quando treinados e ajustados, representam o aprendizado da rede. Esta ferramenta é especialmente útil em situações nas quais é difícil, ou mesmo impossível, a resolução explícita de um problema (BIGUS, 1996; HAYKIN, 2001; RUSSEL; NORVIG, 1995). As RNA são comumente utilizadas na resolução de problemas de mineração de dados, uma vez que possuem habilidade de aprender e de generalizar, gerando resultados para entradas que não existiam em seu conjunto de treinamento (BIGUS, 1996).

O primeiro modelo matemático (artificial) de neurônio foi proposto por McCulloch e Pitts (1943) (Figura 1), constituído de sete elementos básicos: 1) Sinais de entrada (x1,x2...xn); 2) Pesos sinápticos (w1, w2...wn); 3) Combinação linear (∑); 4) Limiar de ativação (θ); 5) Potencial de ativação (u); 6) Função de ativação (g(.)) e 7) Sinal de saída (y).

Figura 1 – Modelo matemático de neurônio artificial

Em 1947, Donald Hebb, desenvolveu a teoria do aprendizado neural, constatando que quanto mais correlacionadas estiverem as saídas de dois neurônios em cascata, maior deverá ser o nível ou intensidade da ligação entre eles (sinapses). Bernard Widrow (1959) desenvolveu o elemento linear Adaline, capaz de auto ajustar-se de forma a minimizar o erro entre resposta desejada e gerada pelo sistema. Em 1958, Franck Rosemblatt conclui o projeto Perceptron, que consistia numa rede formada por apenas uma camada de neurônios de saída, os quais estão conectados por pesos às entradas, sendo utilizado como um classificador de padrões (SILVA et al., 2010). Em 1969, Minsky e Papert analisaram matematicamente o Perceptron e demonstraram que redes de uma camada não são capazes de solucionar problemas que não sejam linearmente separáveis. Como não acreditavam na possibilidade de se construir um método de treinamento para redes com mais de uma camada, concluíram que as redes neurais seriam sempre suscetíveis a essa limitação (CARVALHO, 2014).

O reaquecimento das pesquisas em redes neurais surgiu com a publicação de McClelland e David Rumelhart (1986), criando as redes perceptron multicamadas (MLP, do inglês Multi Layer Perceptron) e o algoritmo de treinamento conhecido como

backpropagation (HORST, 2013). Esse algoritmo mostrou que é possível treinar

eficientemente redes com camadas intermediárias, resultando no modelo de redes neurais mais utilizado atualmente, a MLP treinadas com algoritmo backpropagation. Além das redes perceptron, Adaline e perceptron multicamadas, existe atualmente outras formas de estrutura a rede neural, como redes de funções de base radial, redes recorrentes de Hopfiedl, redes auto- organizáveis de Kohonen, entre outras.

O processo de treinamento da rede, também conhecido como aprendizado, consiste na modificação ordenada dos pesos, visando a minimização de uma medida de erro, também conhecida como função de custo (HAYKIN, 2001). Todo o conhecimento adquirido pela rede fica acumulado nos pesos sinápticos. Dentre as formas de treinamento, a utilizada em modelos NIR é o supervisionado, no qual são oferecidos à rede padrões de entrada e de saída desejada, oriunda do conhecimento prévio do ambiente. Esta comparação é feita por meio de uma medida de erro (GÖRGENS, 2006).

A rede neural mais popular é a backpropagation (BPNN- do inglês, Back Propagation

Neural Network), que tem sido utilizada para muitas aplicações, como método de calibração

para dados espectrais, com aprendizagem supervisionada obtendo bons resultados (LIU et al., 2008).

A entrada do BPNN pode ser componentes principais (CP) obtidos a partir a análise de componentes principais (PCA), ou ser variáveis latentes (VL) obtidas a partir de PLS. Adotar PC e VL como entrada do BPNN é uma forma eficaz de reduzir os recursos de computação e melhorar a robustez da calibração por redes neurais artificiais (JANIK et al., 2007). Comparando diferentes modelos de calibração para análise das propriedades do solo por espectroscopia no infravermelho proximal, Mouazen et al. (2010) concluíram que o modelo BPNN-VL (rede neural backpropagation – variável latente), foi mais eficiente que PCR, PLS e BPNN-PC.

Uma série de descrições da utilização de redes neurais artificiais especificamente para espectroscopia pode ser encontrada na literatura, como Liu et al. (1993), Meyer et al. (1993), Luinge et al. (1995) e Wu et al. (1996).

Para Sharda e Patil (1992), as formas funcionais dos modelos de previsão das redes neurais são mais flexíveis que os métodos estatísticos tradicionais, pois assumem que existe uma relação (conhecida ou desconhecida) subjacente entre as entradas e as saídas. Os

modelos estatísticos de previsão têm limitações na estimativa desta função subjacente devido a complexidade do sistema real, enquanto as redes neurais podem indicar métodos alternativos para identificar esta função (SOUZA; MENEZES, 2013).

A indústria de alimentos tem sido beneficiada com a utilização de redes neurais artificiais, tais como na classificação de amostras de carne bovina, possibilitando a identificação de sexo e raça dos animais através do processamento de sinais de ressonância magnética nuclear (SILVA, 2007b). Já em Nazário et al. (2009) foram utilizadas redes neurais artificiais associadas às técnicas de ultra-som objetivando a caracterização de leite líquido em termos de gordura e adulteração por adição de água.

Como desvantagem da utilização de RNA pode-se citar o maior tempo necessário para o treinamento da rede, algumas vezes são necessários milhares de ciclos para se chegar à níveis de erros aceitáveis, consumindo aproximadamente 10³ vezes mais tempo que os modelos PCR e PLS (BALADIN et al., 2011). Resultados satisfatórios tem forte dependência da quantidade e qualidade dos dados disponíveis (KHANMOHAMMADI et al., 2009) e dificuldade de interpretação do modelo (DESPAGNE; MASSART, 1998; SVOZIL et al., 1997). Redes neurais artificiais podem ser vistas como “caixas pretas”, na qual pouco se sabe por que a rede chega a um determinado resultado, uma vez que os modelos não apresentam justificativas para suas respostas. Neste sentido, muitas pesquisas vêm sendo realizadas visando a extração de conhecimento das RNA, e na criação de procedimentos explicativos, onde se tenta justificar o comportamento da rede em determinadas situações (CARVALHO, 2014).