• Nenhum resultado encontrado

5. Materiais e métodos

5.4. Análise estatística

Para o tratamento estatístico dos dados utilizamos os softwares R versão 3.2.4 (R CORE TEAM, 2016) e o Microsoft Office EXCEL (2013). No R foi realizada a análise exploratória dos dados, baseada na verificação da linearidade na relação de Ic e Pt, avaliação de normalidade da distribuição dos dados e análise de observações influentes (“outliers”). Também no R os dados de Pt e Ic mensal foram analisados por regressão linear, sendo que os modelos construídos foram avaliados pela aplicação do teste F para determinar a significância da regressão.

Para comparar o conjunto de dados hidrológicos entre as áreas em restauração foi aplicado o teste t. Da mesma forma, a variabilidade interna de Ic nos plantios foi avaliada aplicando o teste aos valores de Ic entre os períodos chuvoso e seco, e também entre as parcelas amostrais de cada plantio. Para todos os testes estatísticos aplicados adotamos nível de significância de 5% (α=0.05).

1 O levantamento fitossociológico da vegetação foi realizado para o desenvolvimento da tese de doutoramento de

Renato M. Toledo e complementado pelo autor desta dissertação. A tese referida está em andamento no Instituto de Biociências da Universidade de São Paulo (USP/IB).

5.4.2. Correlação entre variáveis – SOM (self-organizing maps)

Com o objetivo de compreender a relação estabelecida entre a interceptação (Ic), precipitação total (Pt) e as outras variáveis obtidas pelo diagnóstico da vegetação nos plantios, os dados foram analisados por meio de mapas auto-organizáveis (SOM – self-organizing maps), também conhecidos como mapas de Kohonen (Figura 8). Este é um método baseado em redes neurais artificais (ANNs – artificial neural networks) proposto inicialmente por Kohonen (1982), que possibilita agrupar dados multivariados por similaridade, mantendo suas relações espaciais, ou seja, a estrutura topológica dos dados. Estas técnicas têm sido usadas porque resolvem problemas complexos de larga escala como reconhecimento de padrões, classificação, ordenação, modelagem não linear, monitoramento e mineração de dados (Kalteh et al., 2008), destacando-se em pesquisa relacionada aos recursos hídricos e ambientais (Bowden et al., 2005; Kalteh et al., 2008).

De acordo com Kohonen (1998), SOM constitui um gráfico de similaridade e também um diagrama de agrupamento, calculado por um processo de regressão não paramétrica e recursivo, aplicável a dados de distribuição discreta ou contínua. As informações inseridas no método são processadas da mesma forma que seriam pelo cérebro, distribuindo-as em uma rede e ativando apenas as partes que respondem seletivamente a um determinado estímulo (Kohonen, 1982).

O método SOM relaciona um vetor de dados de entrada x com dimensões m (Eq. 4) (input layer) a uma rede discreta de neurônios wj (Eq. 5, onde l é o número de neurônios na

rede e T é o vetor transposto) denominada de camada de saída (output layer ou Kohonen layer), o que possibilita representar o conjunto inicial de dados em um espaço dimensional menor, frequentemente bidimensional (Kohonen, 2001). Os dados contidos nos vetores de entrada são conectados aos neurônios de saída por sinápses wjm (Figura 8). As conexões wjm estabelecidas

entre cada neurônio wj e os dados de entrada x são representadas por pesos sinápticos, definidos

de modo aleatório na inicialização do método para não tendenciar a organização do mapa (Kohonen, 2001; Kalteh et al., 2008).

𝒙 = [𝑥1, 𝑥2… 𝑥𝑚]T, Equação 4

Figura 8. Exemplo um mapa auto-organizável bidimensional (Brentan et al., 2016; adaptado de Koua e Kraak, 2004). Onde x é um vetor com dados de entrada de dimensões x1 a xm; e wj é o

vetor contendo os pesos sinápticos wj1 a wjm de cada neurônio da camada de saída. O círculo

preto representa o neurônio dominante e aqueles em tons de cinzas sua vizinhança topológica.

Segundo Bowden e colaboradores (2005), o método é baseado na técnica de aprendizagem por competição (competitive learning), que promove uma competição entre os neurônios de saída para determinar um vencedor. O neurônio da camada de saída com maior similaridade ao dado de entrada (neurônio vencedor) é ativado, similaridade essa medida pela distância euclidiana wjm entre o neurônio wj e o vetor de entrada x. Para determinar o neurônio

vencedor i(x) é utilizada a minimização da norma da diferença entre os vetores (Eq. 6, onde l é o número de neurônios na rede):

𝑖(𝒙) = argmin𝑗‖𝒙 − 𝒘𝑗 j = 1, 2,... l. Equação 6

O estímulo recebido por um neurônio vencedor é repassado ao conjunto de neurônios que formam sua vizinhança topológica, onde a intensidade deste estímulo descrece de acordo com o aumento da distância entre os neurônios e número de iterações. Este comportamento é traduzido em modelo matemático utilizando uma função monotônica de decomposição para definir o ajuste dos pesos sinápticos da vizinhança, como na função apresentada na equação 7:

ℎ𝑗,𝑖(𝒙) = 𝑒𝑥𝑝 (− 𝑑𝑗,𝑖2

2𝜎2), Equação 7

onde hj,i(x) é a intensidade do estímulo enviado ao conjunto de neurônios j pelo neurônio

vencedor i; σ é o tamanho da vizinhança, definido por uma função exponencial que decresce com a distância. A distância d(j, i) pode ser descrita a partir da norma quadrática mostrada abaixo:

𝑑𝑗,𝑖 = ‖𝒓𝑗− 𝒓𝑖‖2, Equação 8

onde rj é a posição do neurônio j, excitado pelo neurônio vencedor da camada de saída, e ri é a

posição do neurónio vencedor i.

Após a definição da vizinhança, cada peso é atualizado considerando o incremento resultante da ativação do neurônio vencedor (Eq. 9), sendo que o ajuste topológico da rede em cada uma das iterações pode ser descrito como na equação 10.

∆𝒘𝒋= 𝜂ℎ𝑗,𝑖(𝑥) (𝒙 − 𝒘𝒋), Equação 9

𝒘𝒋(𝑛 + 1) = 𝒘𝒋(𝑛) + 𝜂(𝑛)ℎ𝑗,𝑖(𝑥) (𝒙 − 𝒘𝒋(𝑛)), Equação 10

onde, η é a taxa de esquecimento representativa do processo de aprendizagem humano que descresce com o número de iterações, e n é a atualização para cada iteração.

Uma vez que a modelagem de processos hidrológicos envolve alta complexidade, dinamismo e não linearidade em ambas escalas espacial e temporal (Kalteh et al., 2008), a escolha desta metodologia justifica-se pela possibilidade de determinar a relação entre as variáveis mensuradas, sem que haja necessidade de presumir qualquer comportamento linear. Como o método determina o padrão de distribuição dos dados, a relação entre os parâmetros de interesse é facilmente interpretada pelo reconhecimento de similaridades ou inversões nesta distribuição. Tal distribuição é representada no mapa de saída por cores com diferentes intensidades, que indicam as distâncias entre os dados de entrada e cada neurônio. Cores mais claras indicam menores distâncias, de forma inversa cores escuras indicam maiores distâncias. Deste modo áreas com similar distribuição de cores entre os mapas representam forte correlação positiva das variáveis, já cores inversas evidenciam correlação negativa.

Para o procedimento, um algoritmo SOM foi desenvolvido no Matlab e aplicado a uma camada de saída bidimensional, constituída por uma rede de 100 neurônios com

configuração hexagonal. Os mapas foram gerados a partir de 2000 iterações realizadas. O conjunto de entrada foi construído pelos dados mensais de Ic e Pt juntamente com os parâmetros de densidade de indivíduos, área basal, riqueza de espécies, proporção de indivíduos decíduos, continuidade do dossel, número de estratos, isolamento da área, presença de gado e cobertura de gramíneas. Para que fosse possível avaliar o comportamento da interceptação em função do período sazonal e da proporção de espécies decíduas, foram gerados mapas utilizando os dados hidrológicos dos períodos sazonais separadamente.

Os dados de Ic e Pt, assim como os valores obtidos para as variáveis do levantamento da vegetação foram normalizados pelo método “z score”. Os indicadores de condição da vegetação foram inseridos na análise pelos valores binários obtidos no diagnóstico dos plantios. A transformação dos dados por “z score”, define um valor normalizado, “z”, para cada observação de uma variável, utilizando para isso a média e o desvio padrão desta variável, como descrito abaixo:

𝑧 =

𝑥−𝜇𝜎

,

Equação 11

onde, x é o valor da observação, 𝜇 e 𝜎 são, respectivamente, a média e o desvio padrão da variável.

Documentos relacionados