• Nenhum resultado encontrado

ESTAT´ISTICA E FUNC ¸ ˜ OES DE AGRUPAMENTO

As an´alise estat´ıtica de pr´e-processamento e a an´alise de agrupamento foram feitos no programa MATLAB vers˜ao 2008a. Abaixo segue a descri¸c˜ao destas metodologias e seus objetivos.

3.4.1 An´alise dos componentes principais

A an´alise dos componentes principais (PCA - Principal component analysis) ´e um m´etodo estat´ıstico de an´alise multivariada que produz um conjunto de vari´aveis de sa´ıda descorrelacionadas, ditas componentes principais (PCs), a partir da combina¸c˜ao linear de um conjunto de vari´aveis de entrada com correla¸c˜ao n˜ao nula (JOLLIFE, 2002). O conjunto de sa´ıda tem a mesma dimens˜ao do conjunto de entrada, ou seja, haver´a inicialmente tantas PCs quanto vari´aveis de entrada.

As PCs s˜ao dispostas em ordem decrescente de variˆancia. Tipicamente, as primei- ras PCs concentram boa parte da variˆancia total, sendo portanto poss´ıvel descartar as PCs subsequentes sem perda significativa de informa¸c˜ao. Quanto maior a correla¸c˜ao do conjunto de vari´aveis de entrada, maior a concentra¸c˜ao da variˆancia nas primeiras PCs, e consequentemente menor o n´umero de PCs necess´ario para explicar o conjunto de entrada. A produ¸c˜ao de um conjunto de sa´ıda com vari´aveis descorrelacionadas, e a pos- sibilidade de reduzir a dimens˜ao do conjunto de dados - ap´os descartar parte das PCs - torna a utiliza¸c˜ao do PCA bastante ´util na prepara¸c˜ao dos dados antes do agrupamento (BOYER, 2006), (BOYER; FOURQUREAN; JONES, 1997), (YEUNG; RUZZO, 2001). Em re- sumo, o tratamento pr´evio dos dados com o PCA melhorar´a a precis˜ao do algoritmo de agrupamento ou classifica¸c˜ao selecionado, al´em de reduzir o tempo de processamento, devido `a redu¸c˜ao de dimensionalidade (LEE; LIN, 2007).

vari´aveis de entrada e M ´e o n´umero de amostras. Ou seja, cada uma das M amostras ´e representada por um vetor coluna com N linhas. Inicialmente, o conjunto de entrada sofre uma transla¸c˜ao atrav´es da extra¸c˜ao da m´edia amostral em cada vari´avel, obtendo-se ent˜ao a matriz:

B =hvi,j− ¯Vi i

i=1,...,N ;j=1,...,M (2)

onde vi,j ´e o valor da i-´esima vari´avel na j-´esima amostra, e ¯Vi ´e a m´edia amostral da

i-´esima vari´avel.

Em seguida, a matriz de covariˆancia de B ´e calculada, sendo em seguida encontra- dos seus autovalores e autovetores. Seja Ui o i-´esimo autovetor da matriz de covariˆancia

de BT. A matriz de PCs ´e dada por:

PN ×M = 

BT· [Ui]i=1,...,N

T

(3)

As linhas de P s˜ao dispostas em ordem decrescente de variˆancia, e cada linha de P corresponde a uma PC, logo, se i < j, ent˜ao λi > λj, onde λi ´e o autovalor associado a

Ui.

Para reduzir a dimens˜ao dos padr˜oes que s˜ao fornecidos ao algoritmo de agrupa- mento, apenas as p primeiras PCs s˜ao mantidas, onde p < N . O percentual da variˆancia total representado pelas p primeiras PCs ´e dado por:

var(%) = Pp i=1λi PN i=1λi (4)

3.4.2 L´ogica Fuzzy (ou nebulosa)

Na l´ogica cl´assica, se a intersec¸c˜ao dos conjuntos A e B ´e um conjunto vazio, ent˜ao um elemento x pertencente a A, obrigatoriamente n˜ao pertence a B. A pertinˆencia ´e expressa de forma bin´aria: um elemento pertence (pertinˆencia unit´aria) ou n˜ao pertence (pertinˆencia nula) a um conjunto. A l´ogica fuzzy introduz a no¸c˜ao de grau de pertinˆencia. Um elemento pode pertencer a m´ultiplos conjuntos simultaneamente com diferentes graus de pertinˆencia em rela¸c˜ao a cada um deles. O grau de pertinˆencia ´e um valor real no intervalo [0;1]. Assim, enquanto na l´ogica cl´assica a pertinˆencia ´e bin´aria, na l´ogica nebulosa a pertinˆencia ´e multi-valorada (COX, 1994). Esta caracter´ıstica ´e particularmente ´

desde a tomada de decis˜oes a partir destes dados de entrada - atrav´es de sistemas de inferˆencia fuzzy (COX, 1994) - at´e a classifica¸c˜ao ou agrupamento destes dados (BEZDEC, 1981).

A transi¸c˜ao entre ecossistemas normalmente n˜ao s˜ao abruptas (LUCIEER; LUCIEER, 2009), (OLDELAND et al., 2010), havendo ´areas de transi¸c˜ao com caracter´ısticas h´ıbridas.

Assim, percorrendo a zona de transi¸c˜ao entre dois ecossistemas - por exemplo, do cerrado para a caatinga - o grau de pertinˆencia em rela¸c˜ao ao cerrado tende a diminuir, enquanto o grau de pertinˆencia em rela¸c˜ao `a caatinga tende a aumentar. A transi¸c˜ao n˜ao apresenta descontinuidades, sendo tˆenue e cont´ınua (salvo em condi¸c˜oes artificiais impostas pela a¸c˜ao humana, `as vezes t˜ao simples como uma cerca (OLDELAND et al., 2010)). A l´ogica fuzzy adequa-se particularmente bem `a descri¸c˜ao deste tipo de transi¸c˜ao, como tamb´em ao agrupamento de amostras (de vegeta¸c˜ao, solo, etc.) pertencentes aos ecossistemas envolvidos na an´alise.

3.4.2.1 Agrupamento utilizando Fuzzy C-Means (FCM)

A t´ecnica de agrupamento FCM (BEZDEC, 1981) baseia-se nos princ´ıpios da l´ogica

fuzzy. Assim, ao contr´ario das t´ecnicas de agrupamento baseadas na l´ogica cl´assica, o FCM n˜ao informa o grupo ao qual uma determinada amostra pertence, mas retorna o grau de pertinˆencia da amostra em rela¸c˜ao a todos os grupos definidos. A quantidade de grupos ´e um valor arbitrado a partir do conhecimento do pr´oprio especialista respons´avel pelo estudo, ou automaticamente a partir de t´ecnicas espec´ıficas (YAN et al., 2007). Assim, se h´a N amostras e M grupos, o FCM retornar´a uma matriz NxM, onde cada linha corresponde a uma amostra e cada coluna a um grupo. Com isso, o elemento na i-´esima linha e j-´esima coluna corresponder´a ao grau de pertinˆencia da i-´esima amostra em rela¸c˜ao ao j-´esimo grupo (BEZDEC, 1981).

Usualmente, se associar´a uma amostra ao grupo em rela¸c˜ao ao qual ela tem maior grau de pertinˆencia. A utiliza¸c˜ao do FCM permite identificar amostras cuja classifica¸c˜ao ´e d´ubia. Tais amostras s˜ao caracterizadas por apresentarem os maiores graus de per- tinˆencia bastante pr´oximos, tornando-se assim dif´ıcil associ´a-las a um grupo espec´ıfico. Para melhor identificar essas amostras foi introduzido nesta tese o conceito de Raz˜ao

Discriminat´oria, que consiste na raz˜ao entre o primeiro e o segundo maiores graus de

mesma.

3.4.2.2 Exemplos da utiliza¸c˜ao de L´ogica Fuzzy em problema ambientais

O estudo elaborado por (BOREUX et al., 1997) utiliza uma t´ecnica denominada re-

gress˜ao linear fuzzy em estudos de extratos de testemunhos, para estabelecer uma rela¸c˜ao entre a idade dos sedimentos e a profundidade da camada em que foram obtidos, conside- rando as incertezas da data¸c˜ao por r´adio-carbono. As amostras foram dividadas em dois grupos, calibra¸c˜ao e valida¸c˜ao, a fim de determinar e validar a rela¸c˜ao de regress˜ao fuzzy. Trˆes tipos de modelos, um linear e dois polinomiais de terceira ordem, foram ajustados aos dados. O modelo c´ubico incorpora o componente de tendˆencia linear que parece produzir o melhor resultado. O m´etodo elaborado pelos autores pode ser uma ferramenta eficaz nos casos em que os conjuntos de dados s˜ao imprecisos, resultam de um n´umero limitado de observa¸c˜oes, apresentam correla¸c˜ao serial e/ou multicolinearidade que podem impedir o encontro e estabelecer uma faixa de confian¸ca por uma an´alise cl´assica de regress˜ao.

No trabalho publicado por (GRANDE et al., 2010), o agrupamento de amostras de ´agua do Rio Tinto, Espanha, a partir de parˆametros como pH e concentra¸c˜ao de metais (Fe, Cu) e semi-metais (Mn, As), foi feita utilizando FCM. Atrav´es da aplica¸c˜ao desta ferramenta ao corpo de dados que formam o objeto estat´ıstico permitiu que respostas mais consistentes fossem propostas do que aquelas produzidas pela estat´ıstica cl´assica. A apli¸c˜ao deste modelo fuzzy permitiu que as propostas anteriores formuladas para o funcionamento do comportamento do As neste rio pudessem ser avaliadas.

O trabalhado desenvolvido por (LUCIEER; LUCIEER, 2009) utiliza FCM para agru-

pamento de amostras do solo marinho. Atrav´es do uso deste tipo de classifica¸c˜ao os autores conseguiram identificar classes da paisagem marinha de fundo para amostras de sedimentos marinhos da Tasmania, Australia. Os autores afirmam que classes sobrepos- tas e imprecisas na defini¸c˜ao de classes ´e um problema comum nas ciˆencias ambientais e o uso desta metodologia de agrupamento foi considerada muito eficaz no contexto es- pacial marinho. Os resultados deste trabalho indicaram que a abordagem do FCM tem significantes vantagens sobre os classificadores que usam a l´ogica cl´assica pois permitem a quantifica¸c˜ao da incerteza e possuem a valiosa habilidade de serem capazes de mapear zonas de transi¸c˜ao entre unidades geof´ısicas.

4 RESULTADOS

Documentos relacionados