• Nenhum resultado encontrado

3.8 Redes Neurais Recorrentes

3.8.2 Redes Long-Short Term Memory LSTMs

As redes Long-Short Term Memory - LSTM são um tipo de rede recorrente capaz de lidar dependências de longo prazo. A LSTM foi proposta por Hochreiter & Schmidhuber (1997). Sua arquitetura LSTM foi idealizada para evitar o problema da dependência de longo prazo que provoca o conhecido vanish ou explode gradientes que ocorre quando uma rede recorrente lida com uma sequência significativa de dados.

A maneira que as LSTMs lidam com isso é buscando preservar o erro a ser retropropagado através do tempo e das camadas. Ao manter a infamação do erro mais constante, permitem que redes recorrentes continuem aprendendo ao longo de muitos passos de tempo (acima de 1000), mesmo na em caso de sequências ruidosas (Hochreiter & Schmidhuber,1997).

O controle do fluxo de uma LSTM é semelhante ao de uma rede recorrente comum. A principal diferença está nas operações que ocorrem dentro de uma célula (cell state)LSTM. Essas operações realizam pequenas transformações lineares que permitem a LSTM manter ou esquecer uma informação. A Figura3.7apresenta do lado esquerdo, o diagrama de uma célula básica de uma rede recorrente comum, já do lado direito apresenta o diagrama de uma célula LSTM destacando os processos realizados em seu interior.

Durante o treinamento a célula transporta as informações relevantes adiante na cadeia de sequências da rede levando informações das etapas anteriores para etapas posteriores atuando como uma memória. O efeito prático deste processo é reduzir o efeito da memória de curto prazo.

A maneira como as informações entram ou saem das células é controlado por unidades denominadas gates, que atuam como portões que gerenciam o fluxo de informações nas células, ou seja, as informações que ela deve manter ou esquecer.

3.8 Redes Neurais Recorrentes 48

Figura 3.7: Comparação entre a célula de uma rede recorrente comum e uma célula do tipo LSTM (Donahue et al.,2015).

Os portões são diferentes redes neurais compostas uma função de ativação sigmoide que mapeiam os valores de entrada entre [0, 1] seguidas de uma operação de multiplicação.

O forget gate decide descartar ou não uma informação. Ele analisa o estado ht−1

e a entrada xt Caso a saída do sigmoide seja próximo de 1 a informação é “mantida” e

continua no estado da célula, visto que o produto de qualquer número por 1 é ele mesmo. No entanto, se a saída da função for próxima de 0 a informação é “esquecida” e retirada do estado da célula. A Equação3-41mostra o processo realizado no forget gate.

ft= σ(Wf.[ht−1, xt] + bf) (3-41)

De modo semelhante, para decidir quais novas informações devem atualizar o estado da célula, a LSTM prover o input gate. As informações do estado anterior ht−1e xt

serão processadas pela função sigmoide gerando um vetor de valores entre 0 e 1 Equação

3-42. A saída da tangente hiperbólica irá gerar um vetor eCt com possíveis candidatos a serem lembrados pela rede como mostra a Equação 3-43. Após o fluxo da rede realizar o produto da saída das duas funções, a saída do sigmoide decidirá quais informações da saída da tangente hiperbólica será mantida.

it = σ(Wi.[ht−1, xt] + bi) (3-42)

e

Ct = tanh(WC.[ht−1, xt] + bC) (3-43)

O próximo passo será atualizar o estado da célula conforme a Equação3-44

3.8 Redes Neurais Recorrentes 49

Para finalizar o ciclo, após a célula recém atualizada o estado oculto também deve ser atualizado e passado adiante na cadeia. Esse procedimento é realizado através do output gate. Semelhante aos demais portões, ele recebe as informações do estado anterior ht−1 e xt e as processa através da função sigmoide definida pela Equação 3-

45. As informações da célula recém criada são passadas por uma tangente hiperbólica e multiplicada com a saída da função sigmoide conforme a Equação 3-46, atualizando o estado oculto.

ot= σ(Wo[ht−1, xt] + bo) (3-45)

ht = ot∗ tanh(Ct) (3-46)

Desta forma, as informações do estado da célula e do estado oculto atualizado são passados adiante para a próxima etapa de tempo mantendo as informações do gradiente.

Desde sua publicação, novas pesquisas apresentaram variações da LSTM. Dentre as variações mais conhecidas, a Gated Recurrent Unit - GRU introduzida porCho et al.

(2014) vem apresentando bons resultados. Um estudo bem elaborado sobre as variações de LSTM pode ser encontrado no trabalho deGreff et al. (2016)

CAPÍTULO

4

Aplicação de Redes Neurais na área Florestal

Abordagens que utilizam Redes Neurais no setor florestal para estimar parâme- tros, classificar espécies, doenças entre outros, já foram aplicadas com resultados bastante satisfatórios.

Este capítulo apresenta uma revisão das aplicações de RNA na gestão de recursos florestais. São mostradas diversas aplicações que vão desde as estimativas de medidas de árvores, manejo florestal, detecção de doenças até predições climáticas.

4.1

Predição de diâmetros, Altura e Volume em Árvores

Uma das principais vantagens da utilização de redes neurais na predição de pa- râmetros consiste na capacidade de aproximar funções. Muitos desses atributos possuem relações não lineares, assim, as redes neurais apresentam ótimas opções em relação aos métodos tradicionais.

O trabalho de Xiao et al. (1998) utiliza redes neurais de múltiplas camadas para estimar a altura de árvores utilizando dados de alta frequência obtidos através de instrumentos de interferometria.

Leduc et al. (2001) faz uso de redes neurais para estimar diâmetros de árvores da espécie Pinus. Os autores realizam classificação de árvores, além de comparar com outros métodos estatísticos.

Diamantopoulou(2005) apresenta uma arquitetura de rede neural para estimar diâmetros e calcular o volume de árvores do gênero Pinus. Os resultados obtidos neste trabalho apresentam a rede neural como uma excelente alternativa aos métodos de regressão.

Huang et al. (2009) utiliza uma rede neural de para estimar a frequência dos diâmetros de árvores do gênero Pinus. A estrutura é composta por três variáveis de entrada: diâmetro relativo, diâmetro médio e coeficiente de variação. A saída da rede é a frequência de haste da classe de diâmetro. Os resultados obtidos chagam a 98% de acurácia.Binoti et al. (2014) realiza ajuste do modelo de Schumacher e Hall para estimar volume de eucaliptos através de redes neurais.

Documentos relacionados