• Nenhum resultado encontrado

6. RESULTADOS E DISCUSSÃO

6.5 RECONHECIMENTO DE PADRÕES SUPERVISIONADO

Métodos de reconhecimento de padrões supervisionado são utilizados para arquitetar modelos de classificação para subgrupos pré-especificados, possibilitando a alocação de novas amostras nos grupos existentes, de acordo com suas características. Nesse contexto e diante dos resultados apresentados pela análise exploratória dos dados, optou-se por realizar uma análise discriminante, técnica multivariada que utiliza combinações lineares das variáveis dependentes para construir classificações estatísticas das amostras, baseada em uma variável categórica (HAJIGHOLIZADEH e MELESSE, 2017).

Tendo em vista o fenômeno ocorrido na região pesquisada e a quantidade de pontos monitorados ao longo da bacia, foram desenvolvidos três modelos a fim de verificar aquele que melhor descreveria o sistema, tendo em vista o desastre ocorrido na região de estudo. O Quadro 7 apresenta as premissas adotadas para o desenvolvimento do modelo 1, no qual o objetivo foi verificar a construção de uma função que conseguisse discriminar corpos hídricos localizados nas regiões afetada e não afetada pelo desastre.

Quadro 7- Definição das classes e variáveis utilizadas para a confecção do modelo 1.

PONTOS CLASSES VARIÁVEIS

1 – 10 Rios não afetados - 1

Alcalinidade (Alca), Coliformes Totais (CT), Condutividade (Cond), Cloreto (Clor), Demanda

Bioquímica de Oxigênio (DBO), Escherichia coli (EC), Fósforo Total (PT), Nitrato (NO3), Nitrito (NO2), Potencial Hidrogeniônico (pH), Potencial de Oxi-redução

(ORP), Saturação do Oxigênio Dissolvido (SatOD), Sólidos

Totais (ST)

11 – 27 Rios afetados - 2

A Tabela 4 traz a estatística descritiva e os resultados do teste de igualdade de médias para as classes analisadas. De acordo com os dados apresentados é possível verificar que as duas variáveis que apresentaram maior discrepância entre as médias e consequentemente menor lambda de Wilks (Λ Wilks) foram a saturação do oxigênio dissolvido e a turbidez. Segundo Hatvani, (2011) a distribuição da estatística do lambda de Wilks é utilizada para definir quais variáveis mais contribuem na formação das classes, sendo que os valores para esse teste variam de 0 a 1, onde os menores indicam grandes diferenças entre os grupos.

A informação contida nas variáveis independente e dependente pode ser analisada com base na distribuição F. Para os dados em questão têm-se que as variáveis que apresentam valores de F inferiores a 1,174 e p valores acima de 0,005 são excluídas da análise, pelo fato de serem consideradas não significativas para o desenvolvimento da função discriminante (Tabela 5).

Tanto as funções que descrevem cada grupo, quanto a função de classificação das novas amostras, são fundamentadas na identificação das variáveis discriminantes mais importantes para o modelo. A alocação de uma amostra está relacionada com a distância de Mahalanobis entre o objeto e o centroide de cada grupo e o escore de corte, que representa o divisor usado para verificar em qual classe o objeto será incluído, conforme apresentado na Tabela 6.

Tabela 4 - Estatística descritiva e testes de igualdade para as amostras utilizadas na construção do modelo de discriminação entre duas classes (siglas das variáveis definidas no

Quadro 7).

MÉDIA DAS CLASSES TESTE DE IGUALDADE DE MÉDIAS

ENTRE CLASSES Classe 1 (n = 67) Classe 2 (n = 119) Λ Wilks F p Cond 41,124 23,830 0,924 17,080 0,000052 ORP 42,953 49,017 1,000 - - SatOD 48,520 79,104 0,630 122,379 0,000000 pH 41,924 55,683 1,000 - - Turb 2,384 28,565 0,819 46,003 0,000000 Ta 36,716 63,643 0,978 4,726 0,030837 NO3 48,876 58,441 1,000 - - NO2 22,787 9,131 0,935 14,470 0,000187 Clor 24,052 27,363 0,918 18,684 0,000024 PT 13,066 26,979 1,000 - - ST 15,552 25,492 1,000 - - Alca 49,675 45,851 0,935 14,484 0,000186 CT 13,466 8,312 1,000 - - EC 12,219 4,144 1,000 - - DBO 28,478 26,168 1,000 - -

Tabela 5 - Estimativa das funções discriminantes para o modelo 1 (siglas definidas no Quadro 7).

FUNÇÃO DISCRIMINANTE E DE CLASSIFICAÇÃO

Classe 1 Classe 2 Função 1

Cond 0,0452 -0,0005 0,0152 satOD 0,2026 0,3674 -0,0548 Turb -0,0182 0,0437 -0,0206 Ta 0,0013 0,0253 -0,0080 NO2 -0,0064 -0,0532 0,0156 Clor 0,0729 0,1214 -0,0161 Alca 0,0191 -0,0213 0,0135 Constante -8,121 -17,344 3,6322

Tabela 6 - Centroide de cada grupo e escore de corte para classificação. CENTROIDE DO GRUPO Classe 1 Classe 2 1,8940 -1,1141 ESCORE DE CORTE Z = 0,0011 Z > 0,0011 = Grupo 1 Z < 0,0011 = Grupo 2

O estágio final de uma AD envolve a exatidão do processo de classificação, sendo necessário verificar o percentual de acerto das funções em relação às classes estabelecidas e assim garantir que os resultados tenham validade. Com esse objetivo, os dados foram divididos para o desenvolvimento do modelo e para a validação do mesmo. A Tabela 7 indica a porcentagem de acerto para o modelo 1, de ambos os processos, ressaltando-se que as classificações corretas estão apresentadas nos valores presentes na diagonal principal da tabela, enquanto a diagonal secundária indica os valores incorretos. Dessa forma tem-se que o modelo desenvolvido apresentou uma porcentagem de acerto de 93% e a validação de 88%; ambas apresentaram um melhor índice de sucesso para a classe 1.

Tabela 7 - Resultados das classificações corretas para o modelo desenvolvido considerando duas classes.

De posse dos coeficientes de regressão apresentados na Tabela 8, apresenta-se o modelo para a discriminação das classes estabelecidas (1 e 2), conforme descrito na equação 4.

CLASSIFICAÇÃO

Modelo

% Correta Classe 1 Classe 2

Classe 1 90,00 72,00 8,00

Classe 2 94,85 7,00 129,00

Total 93,06 79,00 137,00

Validação

% Correta Classe 1 Classe 2

Classe 1 100,00 17,00 0,00

Classe 2 82,35 6,00 28,00

y = 0,0152x1 – 0,0548x2 -– 0,0206x3 – 0,0080x4 + 0,0156x5 – 0,0161x6 + 0,0135x7 +

3,6322 4

Considerando y a resposta para a possível alocação em um dos grupos especificados, comparando seu valor com o escore de corte das classes, x1: condutividade, x2: saturação do

oxigênio dissolvido, x3: turbidez, x4: temperatura da água, x5: nitrito, x6: cloreto e

x7: alcalinidade.

Analisando a predição do modelo 1, a partir dos dados inseridos para o desenvolvimento da função discriminante, algumas considerações precisam ser realizadas. Em primeiro lugar, ponderando sobre o lambda de Wilks, tem-se que os valores desta distribuição para as variáveis que foram consideradas como discriminantes entre os grupos apresentaram valores mais próximos do limite máximo, o que demonstra uma maior probabilidade de classificação incorreta, uma vez que as variáveis discriminam pouco entre os grupos.

Ainda nesse quesito, há de se pensar que algumas variáveis ditas como discriminantes para as classes afetada e não afetada, do ponto de vista do fenômeno ocorrido na região, podem levar a uma interpretação incorreta. Um exemplo é a saturação do oxigênio dissolvido, onde os valores apresentados, isto é, a diferença, existente entre as médias das classes, representa as características da bacia estudada. A partir do cálculo da vazão foi possível observar que a velocidade aumenta no decorrer do percurso do rio, fazendo com que o corpo d’água tenha um bom sistema de reaeração e consequentemente o aumento da saturação do oxigênio dissolvido à medida que o rio segue o seu curso.

Ou seja, essa variável não apresentou alteração com o desastre ocorrido na região, e a maior média apresentada pela classe 2 (afetada pelo desastre) apenas reflete a declividade da bacia. A temperatura da água também não reflete a realidade; esse parâmetro foi utilizado para outras análises, como a própria saturação do oxigênio dissolvido, porém, as coletas, nos respectivos pontos, não foram realizadas nos mesmos horários, portanto não é uma variável mais adequada a nível de comparação entre as regiões afetada e não afetada.

Sendo assim, foi criado um segundo modelo onde além das regiões afetada e não afetada, realizou-se a distinção dos pontos localizados no rio principal e tributários. Dessa forma, o modelo 2 apresentou quatro classes, como descrito na Quadro 8.

Em uma análise univariada, a Tabela 8 indica que todas as variáveis apresentam diferenças consideráveis quando se utiliza a média para comparação entre as classes. Ainda sobre a média, verifica-se que algumas variáveis discriminam uma classe em relação a todas as outras, como é o caso da turbidez e, por outro lado, algumas fornecem discriminação entre todas as classes. Neste contexto insere-se a análise da distribuição F, onde os maiores valores pertencem à turbidez, saturação do oxigênio dissolvido, alcalinidade, condutividade, cloreto, temperatura da água e Escherichia coli, sendo a turbidez a variável que apresenta menor Λ Wilks (0,286) e, consequentemente, a que possui maior poder discriminatório.

As funções discriminantes apresentadas na Tabela 9 representam combinações lineares das variáveis consideradas significantes, sendo análogas a uma reta de regressão. Dessa forma, as funções estimadas representam uma tentativa de elucidar toda a informação possível existente nas classes consideradas. Assim como na PCA a primeira função explica a maior variância presente nos dados, a segunda função é ortogonal e independente à primeira e explica a informação remanescente ainda não explanada, e assim sucessivamente.

Quadro 8 - Definição das classes e variáveis utilizadas para a confecção do modelo 2.

PONTOS CLASSES VARIÁVEIS

1, 3,5, 8, 10 Rio principal não afetado - 1

Alcalinidade (Alca), Coliformes Totais (CT), Condutividade (Cond), Cloreto (Clor), Demanda

Bioquímica de Oxigênio (DBO), Escherichia coli (EC), Fósforo Total (PT), Nitrato (NO3), Nitrito (NO2), Potencial Hidrogeniônico (pH), Potencial de Oxi-redução

(ORP), Saturação do Oxigênio Dissolvido (SatOD), Sólidos

Totais (ST) 2, 4, 6, 7, 9 Tributários na região não

afetada - 2

11, 14, 18, 21, 25, 27 Rio principal afetado - 3

12, 13, 15, 16, 17, 19, 20, 22, 23, 24, 26

Tributários na região afetada - 4

Tabela 8 - Estatística descritiva e testes de igualdade para as amostras utilizadas na construção do modelo de discriminação entre quatro classes (siglas das variáveis definidas no

Quadro 8).

Tabela 9 - Função discriminante e de classificação para as quatro classes analisadas (siglas definidas no Quadro 8).

FUNÇÃO DISCRIMINANTE E DE CLASSIFICAÇÃO

Classe 1 Classe 2 Classe 3 Classe 4 Função 1 Função 2 Função 3

Cond 0,109 0,062 0,038 0,029 -0,004 -0,030 0,000 satOD 0,182 0,110 0,236 0,286 0,035 0,025 -0,022 Turb -0,168 0,093 -0,137 -0,176 -0,064 0,017 0,005 Ta 0,013 0,023 -0,026 -0,024 -0,011 -0,014 -0,010 Clor 0,064 0,050 0,087 0,125 0,013 0,015 -0,026 Alca 0,097 0,019 0,032 0,043 0,008 -0,026 -0,012 EC -0,021 -0,016 0,010 -0,018 0,002 0,007 0,029 Constante -14,219 -11,003 -9,914 -14,943 -1,187 0,382 2,993

MÉDIA DAS CLASSES TESTE DE IGUALDADE DE MÉDIAS

ENTRE CLASSES

Classe 1 Classe 2 Classe 3 Classe 4 Λ Wilks F p

Cond 55,8077 34,2300 21,5162 17,3447 0,8139 15,6965 0,000 ORP 49,6022 49,5225 40,2510 50,9800 1,0000 - - SatOD 59,4040 69,9428 64,0371 77,8347 0,7258 25,9444 0,000 pH 41,3585 49,2530 50,4545 60,0322 1,0000 - - Turb 3,2885 62,6985 4,2840 2,5933 0,2857 171,6381 0,000 Ta 54,7928 64,7491 42,0535 57,2326 0,9132 6,5263 0,000308 NO3 50,9132 68,5962 52,6343 45,6343 1,0000 - - NO2 25,8844 13,2809 12,7452 7,6682 1,0000 - - Clor 21,6077 22,4943 25,2478 35,4933 0,8672 10,5140 0,000002 PT 11,4962 44,5950 13,8636 15,8125 1,0000 - - ST 20,5096 41,0808 14,7311 11,0302 1,0000 - - Alca 69,1770 58,7886 32,9251 37,0802 0,8101 16,0960 0,000 CT 8,1535 12,0329 12,0846 7,0346 1,0000 - - EC 6,8148 4,1048 12,2730 3,2283 0,9517 3,4867 0,016725 DBO 23,0541 33,2360 27,5869 22,2399 1,0000 - -

Na análise discriminante com mais de duas classes são geradas (n-1) funções, sendo n o número de classes. Para distinguir qual classe cada função define é necessário verificar os centroides de cada grupo em cada função, como exposto na Tabela 10. De acordo com os dados é possível inferir que a função 1 discrimina a classe 2, a função 2 classifica o grupo 1 e a terceira função dispõe sobre o comportamento da classe 3. A partir dos valores dos centroides também é possível calcular os escores de corte para cada classe e a partir das funções verificar a possível alocação de novas amostras.

Considerando a análise discriminante múltipla, além da classificação utilizando o escore de corte, também é possível empregar as funções de classificação, representadas pelas equações 5 a 8, sendo que desse modo cada caso é computado em cada função e inserida na classe de maior escore.

Tabela 10 - Centroide das classes consideradas de acordo com o grupo classificado por cada função.

y1 = 0,109x1 + 0,182x2 – 0,168x3 + 0,013x4 + 0,064x5 – 0,097x6 – 0,021x7 – 14,219 5

y2 = 0,062x1 + 0,110x2 + 0,093x3 + 0,023x4 + 0,050x5 + 0,019x6 – 0,016x7 – 11,003 6

y3 = –0,038x1 + 0,236x2 – 0,137x3 – 0,026x4 + 0,087x5 + 0,032x6 + 0,010x7 – 9,914 7

y4 = 0,029x1 + 0,286x2 – 0,176x3 – 0,024x4 + 0,125x5 + 0,043x6 – 0,018x7 – 14,943 8

Considerando y1, y2, y3 e y4 as respostas das funções discriminantes e x1: condutividade, x2:

saturação do oxigênio dissolvido, x3: turbidez, x4: temperatura da água, x5: cloreto, x6:

alcalinidade e x7: Escherichia coli.

CENTROIDE

Classe 1 Classe 2 Classe 3 Classe 4

Função 1 0,695 -2,839 0,855 1,450

Função 2 -1,888 0,154 0,467 0,693

Para a modelagem os dados foram divididos em dois subconjuntos para a construção e validação do modelo e a porcentagem de acerto está evidenciada na Tabela 11. Além disso as classificações também podem ser observadas no mapa territorial, ilustrado pela Figura 34.

Tabela 11 - Resultado das classificações corretas para o modelo desenvolvido considerando quatro classes.

CLASSIFICAÇÃO

Modelo

% Correta Classe 1 Classe 2 Classe 3 Classe 4

Classe 1 85,00 34,00 0,00 6,00 0,00 Classe 2 83,93 2,00 47,00 7,00 0,00 Classe 3 66,67 3,00 3,00 48,00 18,00 Classe 4 54,17 1,00 0,00 21,00 26,00 Total 71,76 40,00 50,00 82,00 44,00 Validação

% Correta Classe 1 Classe 2 Classe 3 Classe 4

Classe 1 100,00 9,00 0,00 0,00 0,00

Classe 2 76,92 1,00 10,00 2,00 0,00

Classe 3 64,71 2,00 0,00 11,00 4,00

Classe 4 25,00 0,00 1,00 8,00 3,00

Total 64,71 12,00 11,00 21,00 7,00

Graficamente, (Figura 34) é possível observar a divisão das classes, assim como as classificações incorretas. É perceptível que a função 1 discrimina a classe 2 devido à sua distribuição em relação ao eixo que representa a mesma. Na classe 1 percebe-se que as amostras estão mais agrupadas, quando comparadas aos demais grupos formados, além disso, verificam-se muitas sobreposições entre as classes 3 e 4.

Assim como no modelo 1, algumas variáveis tidas como discriminantes entre os grupos não refletem a realidade em termos das regiões afetada e não afetada. Porém o desenvolvimento deste modelo foi válido para verificar a possibilidade das classes 3 e 4 representarem uma única classe; tal fato pode ser observado na Tabela 11 e no mapa territorial (Figura 34), onde as classificações incorretas envolvem principalmente esses dois grupos.

Figura 34 – Mapa territorial da análise discriminante múltipla para quatro classes.

Diante disso, optou-se pela construção do terceiro modelo onde os 27 pontos, distribuídos ao longo da bacia pesquisada, foram separados em três classes, como descrito no Quadro 9.

Analisando a Tabela 12 é possível observar que todas as variáveis apresentam médias representativas para as três classes, porém somente quatro delas exibiram poder discriminatório entre os grupos, com destaque para a turbidez que apresentou o menor valor de Λ Wilks (0,201) e, consequentemente, o maior valor para a distribuição F. Seguida desta variável, também apresentaram diferenças significativas entre as classes a condutividade, a alcalinidade e o teor de cloreto.

Quadro 9 - Definição das classes e variáveis utilizadas para a confecção do modelo 3.

PONTOS CLASSES VARIÁVEIS

1, 3, 5, 8, 10 Rio principal não afetado - 1

Alcalinidade (Alca), Coliformes Totais (CT), Condutividade (Cond), Cloreto (Clor), Demanda

Bioquímica de Oxigênio (DBO), Escherichia coli (EC), Fósforo Total (PT), Nitrato (NO3), Nitrito (NO2), Potencial Hidrogeniônico (pH), Potencial de Oxi-redução

(ORP), Saturação do Oxigênio Dissolvido (SatOD), Sólidos

Totais (ST) 11, 14, 18, 21, 25, 27 Rio principal afetado - 2

2, 4, 6, 7, 9, 12, 13, 15, 16,

17, 19, 20, 22, 23, 24, 26 Tributários - 3

Tabela 12- Estatística descritiva e testes de igualdade para as amostras utilizadas na construção do modelo de discriminação entre três classes (siglas das variáveis definidas no

Quadro 9).

Após a verificação de quais variáveis melhor descrevem as dissimilaridades existentes entre as classes, é necessário estimar as funções discriminantes que conjuntamente serão responsáveis

MÉDIA DAS CLASSES TESTE DE IGUALDADE DE MÉDIAS

ENTRE CLASSES

Classe 1 Classe 2 Classe 3 Λ Wilks F p

Cond 55,808 35,885 20,126 0,778 29,978 0,000 ORP 49,602 53,627 43,315 1,000 - - SatOD 59,404 80,275 65,706 1,000 - - pH 41,358 53,688 52,308 1,000 - - Turb 3,289 72,955 3,455 0,201 416,437 0,000 Ta 54,793 69,606 47,343 1,000 - - NO3 50,913 73,716 49,087 1,000 - - NO2 25,884 15,471 10,054 1,000 - - Clor 21,608 22,626 28,868 0,969 3,326 0,038 PT 11,496 51,421 13,956 1,000 - - ST 20,510 46,584 12,927 1,000 - - Alca 69,177 67,854 32,700 0,846 19,177 0,000 CT 8,154 13,163 9,764 1,000 - - EC 6,815 4,708 8,144 1,000 - - DBO 23,054 33,856 25,703 1,000 - -

por segregar os grupos de acordo com suas características; a Tabela 13 apresenta as funções referentes ao terceiro modelo construído.

Em termos de discriminação a primeira função discriminante 1 segrega o grupo 2, uma vez que a turbidez apresenta maior peso e é a variável que exibe maior média para a classe 2. Nesse mesmo sentido, de forma análoga á descrição do modelo para quatro classes, a função 2 classifica o grupo 1 pelo maior peso apresentado pela condutividade.

Uma outra forma de verificar qual classe cada função discrimina é analisando o centroide de cada grupo, exposto na Tabela 14. Os centroides representam, de forma sucinta, a localização relativa de cada grupo nas funções discriminantes.

Tabela 13 - Função discriminante e de classificação para as três classes analisadas (siglas definidas no Quadro 9).

FUNÇÃO DISCRIMINANTE E DE CLASSIFICAÇÃO

Classe 1 Classe 2 Classe 3 Função 1 Função 2 Cond 0,1008 0,0678 0,0251 0,005 0,0339

Turb -0,0331 0,3718 -0,0079 0,0746 -0,0144 Clor 0,0257 0,0282 0,0504 -0,0032 -0,011 Alca 0,1116 0,0541 0,0555 -0,0027 0,0254 Constante. -8,5827 -18,4394 -2,3977 -1,3458 -1,6671

Tabela 14 - Centroide das classes consideradas de acordo com o grupo classificado por cada função.

Como já dito, a utilização da função discriminante é uma das possibilidades para a predição de classes; uma segunda opção é empregar as funções de classificação, também conhecidas como funções discriminantes lineares de Fisher, sendo essas aplicadas para predizer observações. As equações 9 a 11 descrevem as funções lineares de Fisher para as classes 1, 2 e 3, respectivamente.

CENTROIDE

Classe 1 Classe 2 Classe 3 Função 1 -1,07913 4,017859 -1,16947 Função 2 1,69695 -0,024629 -0,52106

y1 = 0,1008x1 – 0,0331x2 + 0,0257x3 + 0,116x4 – 8,5827 9

y2 = 0,0678x1 + 0,3718x2 + 0,0282x3 + 0,0541x4 – 18,4394 10

y3 = 0,0251x1 – 0,0079x2 + 0,0504x3 + 0,0555x4 – 2,3977 11

Considerando y1, y2 e y3 as respostas das funções discriminantes e x1: condutividade,

x2: turbidez, x3: cloreto e x4: alcalinidade.

Como etapa final de uma análise discriminante múltipla tem-se a avaliação da exatidão do modelo. Assim como anteriormente, os dados totais foram divididos em dois subconjuntos para a construção e a validação do modelo gerado. A Tabela 15 apresenta a porcentagem de acerto para ambas as etapas.

As observações individuais assim como as predições incorretas podem ser também verificadas no mapa territorial gerado a partir das funções discriminantes (Figura 35). Sendo assim observa- se que os escores discriminantes da classe 2 são descritos pela função 1, o que foi verificado a partir do valor do centroide dessa classe, e quanto às classes 1 e 3 ambas estão bem definidas.

Entre os três modelos que foram desenvolvidos, o que melhor representou as dissimilaridades analisadas no tocante ao desastre ocorrido na região estudada foi o modelo 3. A turbidez foi um dos parâmetros mais alterados com a enchente de lama que atingiu parte do rio Gualaxo do Norte e, dois anos após o desastre, tal parâmetro, principalmente nos períodos chuvosos, ainda apresenta resultados elevados, fato decorrente do particulado muito fino que ainda se encontra na calha do rio que com as precipitações acaba sendo carreado para o corpo d’água.

A alcalinidade também é representativa em se tratando da região analisada. Isso ocorre devido ao fato de que a litologia da região, localizada no Quadrilátero Ferrífero, influencia essa variável, além dos descartes incorretos de efluentes domésticos e industriais que ocorrem ao longo da bacia. Outro fator relevante é o tipo de tecnologia utilizada para o beneficiamento do minério de ferro, que no caso da mineradora Samarco S.A., é a flotação. Esse processo utiliza amina em pH muito básico em uma determinada fase do processo e isso faz com que o rejeito tenha propriedade alcalina.

Tabela 15 - Resultado das classificações corretas para o modelo desenvolvido considerando três classes.

A condutividade e o cloreto refletem particularidades da bacia hidrográfica pesquisada estando ligados ao descarte incorreto de efluentes domésticos e industriais. Como já descritas, as principais atividades desenvolvidas na região estão ligadas à mineração, agricultura e pecuária de subsistência, o que acaba sendo refletido na qualidade dos corpos hídricos da região, principalmente devido à precária estrutura de saneamento básico. Além disso, destaca-se que as variáveis relacionadas à distinção das classes são parâmetros de fácil realização.

Diante do contexto apresentado realizou-se um teste com amostras desconhecidas ao modelo, isto é, utilizou-se dados que não foram empregados para o desenvolvimento e validação. A Tabela 16 apresenta o índice de classificação que obteve uma taxa de acerto de 90,06%.

Tabela 16 - Classificação correta para amostras desconhecidas a partir do modelo de análise discriminante múltipla para três classes.

CLASSIFICAÇÃO Teste % Correta 1 2 3 1 90,00 9,00 0,00 1,00 2 83,34 3,00 8,00 1,00 3 96,88 1,00 31,00 0,00 Total 90,06 13,00 39,00 2,00 CLASSIFICAÇÃO Modelo

% Correta Classe 1 Classe 2 Classe 3

Classe 1 80,00 32,00 0,00 8,00

Classe 2 93,75 0,00 45,00 3,00

Classe 3 94,53 4,00 3,00 121,00

Total 91,67 36,00 48,00 132,00

Validação

% Correta Classe 1 Classe 2 Classe 3

Classe 1 90,00 9,00 1,00 0,00

Classe 2 72,73 0,00 8,00 3,00

Classe 3 93,33 2,00 0,00 28,00

Figura 35 - Mapa territorial da análise discriminante múltipla para três classes.

Hajigholizadeh e Melesse, (2017) investigaram a qualidade da água de três rios localizados no sul da Flórida por meio de técnicas de reconhecimento de padrões não-supervisionado e supervisionado. Os dados tratados foram obtidos por 15 anos de observação em 16 locais de amostragem, monitorando cerca de 12 variáveis. O resultado da análise exploratória dos dados sugeriu que os pontos amostrados poderiam se agrupar em dois tipos de classificação, uma classe relacionada à sazonalidade e outra ao nível de poluição.

Dessa forma, 93,2% dos casos foram classificados corretamente no tocante às estações seca e úmida e utilizando o método stepwise para verificar quais das variáveis foram responsáveis pela formação dos grupos foram obtidos fosfato, nitrogênio total Kjeldahl, pH e temperatura. Para o nível de poluição foram especificados três grupos, sendo eles poluição pequena, média e elevada e essa classificação foi utilizada dentro do grupo estabelecido na AD anterior. Sendo assim, para o grupo classificado na estação úmida, os resultados apresentaram uma atribuição

correta de 85,4% selecionando 7 das 12 variáveis monitoradas (clorofila-a, oxigênio dissolvido, nitrogênio total Kjeldahl, fósforo total, sódio, magnésio e cloreto).

Para o período seco, o método stepwise classificou 100% das amostras corretamente em relação ao nível de poluição e utilizou seis variáveis, sendo elas, oxigênio dissolvido, nitrogênio total Kjeldahl, fósforo total, turbidez, magnésio e cloreto. Os resultados demonstraram a viabilidade e confiabilidade do uso combinado de técnicas de estatística multivariada para a avaliação da qualidade da água. Além disso, os resultados obtidos com a pesquisa poderão ser utilizados para indicar as regiões que necessitam de prioridade no tocante ao gerenciamento dos recursos hídricos.

Phung et al., (2015) em estudo para avaliar a evolução da qualidade da água do rio Mekong, localizado no Vietnã, empregaram técnicas de estatística multivariada. Para tal 11 variáveis foram monitoradas em 38 locais de amostragem, por um período de quatro anos. Entre as análises realizadas, a verificação de quais seriam os possíveis padrões existentes nos dados amostrados foi desenvolvida por métodos não-supervisionados, sendo que estes indicaram a possibilidade de existência de três classes distintas: regiões urbano-rural, rural e industrial.

A análise discriminante foi utilizada no intuito de confirmar os agrupamentos formados e indicar quais são as variáveis que melhor discriminavam os grupos em questão, além de ter sido realizada também uma classificação temporal, isto é, em relação à variação das estações. Com o método stepwise, 66,8% dos casos foram classificados corretamente para a análise espacial, obtendo-se como variáveis responsáveis pelas diferenças existentes entre os grupos a turbidez, a demanda química de oxigênio e amônia.

Para a disposição em relação à sazonalidade, o método stepwise alcançou um índice de classificação de 60%, obtendo-se o pH e o NO2 como as variáveis de menores distribuições de

lambda de Wilks. O primeiro apresentou valores mais elevados para o período de estiagem, enquanto que os valores elevados do segundo foram associados ao período úmido; tal fato pode estar atrelado ao escoamento superficial advindo de área com atividades agrícolas e com uso de fertilizantes, e também a descargas de águas residuais de origem domésticas.

Em suma, o presente estudo demonstrou que para a classificação espacial das amostras analisadas três variáveis foram responsáveis pelos agrupamentos, enquanto que temporalmente duas foram suficientes. Sendo assim, a aplicação de diferentes técnicas de reconhecimento de

Documentos relacionados