• Nenhum resultado encontrado

5 METODOLOGIA

5.5 TRATAMENTO MULTIVARIADO DOS DADOS

Para a compreensão dos dados referentes à qualidade da água do rio Gualaxo do Norte foram utilizadas técnicas de estatística multivariada. Com o intuito de verificar uma possível existência de padrões nos dados obtidos com as coletas e análises realizou-se o reconhecimento de padrões não-supervisionado, por meio da aplicação de técnicas de análise exploratória multivariada, mais precisamente a PCA e a rede neural de Kohonen.

Os tratamentos dos dados foram realizados no Laboratório de Estudos em Quimiometria (LEQ) da UFOP e a compilação e análise exploratória foram executadas utilizando-se os softwares: Excel, 2013 (Microsoft, Co, USA), MatLab 9.1 (The MathWorks, Co., USA), PLS Toolbox 8.2 (Eigenvector Research, Inc., USA), SOM Toolbox.

Os dados obtidos foram organizados em matrizes compostas por linhas, nesse caso representando os pontos monitorados, e por colunas, formadas pelas variáveis consideradas (parâmetros de qualidade investigados), representando as coletas mensais, isto é, foram geradas 12 matrizes. Para a realização da análise das componentes principais cada matriz mensal obtida foi inserida em um programa computacional e analisada por um pacote denominado PLS Toolbox. O software utilizado permite a realização de um pré-processamento das amostras analisadas, esse é um importante passo visto que esse procedimento é utilizado quando as variáveis analisadas são apresentadas em diferentes

unidades, isto é, representam parâmetros diferentes. No presente estudo os dados foram auto-escalados para que a diferença na magnitude dos mesmos não levasse a construção de resultados

induzidos.

Após a inserção da matriz e a seleção do pré-processamento adequado a resposta do modelo ocorre por meio de um output indicando a variância explicada por cada componente gerada e o operador seleciona o menor número de componentes que expliquem o máximo da variância desejada. Após esse procedimento é possível obter os gráficos que expressam o comportamento das amostras (gráficos de escores) e das variáveis (gráficos de pesos), além dos dois concomitantemente.

Para a rede neural de Kohonen foi empregada a mesma matriz tratada pela PCA. O output é produzido com os mapas de Kohonen que, por inspeção visual da localização espacial das amostras e variáveis, informam os possíveis agrupamentos e quais são as variáveis responsáveis pelo comportamento de cada grupo.

A aplicação dessa técnica se deu de forma que, após o auto-escalamento dos dados, foram testadas arquiteturas para os arranjos bidimensionais de 5 × 5 a 10 × 10, sendo que a arquitetura 8 × 8 foi a que se mostrou mais adequada para os dados analisados. Os mapas de Kohonen foram criados e

inicializados linearmente. A rede neural foi treinada com os dados usando o algoritmo de treinamento em batelada, onde todo o conjunto de dados é apresentado ao mapa antes que qualquer ajuste de pesos seja feito. A função de vizinhança utilizada no treinamento foi a gaussiana, a estrutura foi hexagonal e a forma do mapa planar.

Sendo assim, amostras próximas espacialmente são consideradas similares, enquanto que amostras distantes são consideradas díspares. Amostras em um mesmo neurônio, ou em neurônios dispostos um ao lado do outro, circunscritas por neurônios vazios, são consideradas um grupo. A utilização da rede neural de Kohonen se deu, principalmente, pela saída bidimensional sem perda da informação relevante. Além disso, para uma melhor visualização dos dados, o algoritmo é treinado para fornecer a arquitetura definida pelo operador. Arquitetura é a melhor disposição alcançada pelas amostras analisadas no tocante a formação de padrões e recomendasse investigar a arquitetura inicial como a raiz quadrada do número de amostras (MAIA, 2014).

A partir dos resultados obtidos com a análise exploratória multivariada dos dados foi utilizada uma técnica de reconhecimento de padrões supervisionado denominada análise discriminante. O intuito dessa técnica é a construção de modelos de classificação baseada nas variáveis que possuem maior poder discriminatório entre os agrupamentos existentes. Diante do contexto dessa pesquisa foram desenvolvidos três modelos, tendo como premissa os padrões visualizados na análise exploratória e as características dos corpos hídricos investigados, principalmente levando em consideração o desastre ambiental ocorrido na região de amostragem.

Dentre as diversas técnicas de reconhecimento de padrões supervisionado, as baseadas em similaridades têm como suposição que amostras posicionadas no espaço próximas entre si provavelmente pertençam à mesma categoria, esta ideia de proximidade implica no conceito de distância, onde a análise discriminante considera para o seu desenvolvimento a distância de Mahalanobis. Em suma o algoritmo é implementado em dois estágios; primeiro um modelo é construído e refinado baseado no conjunto de treinamento (i.e., amostras conhecidas); mais tarde o modelo é usado para fazer previsões de classes de novas amostras (i.e., amostras desconhecidas).

A AD sensível à magnitude dos dados, isto é, se uma variável possuir um valor muito alto e outra variável um valor muito baixo, as medidas serão tendenciosas, e a quantidade numérica de amostras, uma vez que amostras pequenas podem induzir a classificações incorretas. Para que a diferença entre as unidades não interferisse na análise dos dados, os mesmos foram padronizados de acordo com a equação 3.

yij= xij-xmín

xmáx-xmín* (ymáx-ymín)

3

Em que yij é o valor padronizado, xij é o valor original de cada variável, i é o índice das linhas existentes, j o índice de colunas existentes, xmax e xmin são os valores máximos e mínimos de cada variável, respectivamente, e ymáx e ymín são os valores máximos e mínimos adotados na padronização, que nesse caso foram 0 e 100.

A matriz utilizada para a AD foi desenvolvida inserindo-se os dados referentes a dez amostragens, levando em consideração questões temporais, isto é, foram inseridas coletas realizadas nas estações úmida e seca. As linhas representam os valores referentes às análises realizadas em cada ponto e as colunas as variáveis consideradas nesse estudo. Cabe ressaltar que esse banco de dados de 324 linhas (12 campanhas com 27 locais amostrados em cada) foi dividido de forma que 66% (campos 1, 3, 4, 5, 6, 7, 9, 11) foram utilizados para a construção do modelo e 22% (campos 10 e 12) foram empregados na validação; os 22% restantes (campos 2 e 8) foram usados para avaliar a predição.

Na presente pesquisa foram construídos três modelos levando em consideração que o desenvolvimento dos mesmos condissesse com as características intrínsecas carregadas pelas informações contidas nos dados, tornando-se assim necessária a verificação de qual modelo descrevesse, da maneira mais integral possível, a realidade da área pesquisada. Um exemplo está na avaliação das variáveis responsáveis pela discriminação dos padrões existentes; observando aquelas consideradas neste estudo optou-se por utilizar a ferramenta stepwise, onde as variáveis independentes são inseridas de forma automática, ponderando a multicolinearidade, e selecionadas de forma a ter como resposta a melhor combinação possível entre elas (SELAU e RIBEIRO, 2009). Para o desenvolvimento dos modelos de classificação multivariada utilizou-se a versão livre do software Statistica 10.0.

Documentos relacionados