• Nenhum resultado encontrado

MEM CAP12

N/A
N/A
Protected

Academic year: 2021

Share "MEM CAP12"

Copied!
8
0
0

Texto

(1)

12.1 O PROBLEMA DA ORDENAÇÃO

Conceito: é o processo de produção de um pequeno número de variáveis que podem ser usadas para descrever a relação entre um grupo de objetos a partir de uma matriz de distâncias ou similaridades entre objetos, ou dos valores de algumas variáveis medidas em cada objeto.

Exemplo:

- Componentes Principais

- Escalonamento Multidimensional

- Análise de Função Discriminante – é uma ordenação que é designada para enfatizar as diferenças entre objetos em diferentes grupos

- Análise de Correlação Canônica – é uma ordenação que é designada para enfatizar as relações entre dois grupos de variáveis medidas no mesmo objeto.

- Coordenadas principais - Análise de Correspondência

Conceito de Ordenação em Biologia:

- É uma maneira de resumir as relações entre diferentes espécies determinadas de suas abundâncias em um número diferentes de locais.

- É uma maneira de definir resumir as relações entre diferentes locais com base na abundância de diferentes espécies nestes locais.

12.2 ANÁLISE DE COMPONENTES PRINCIPAIS – Cap 6

Exemplo 12.1 ESPÉCIE DE PLANTAS NA RESERVA NATURAL DE STENERYD Dados de abundância de 25 espécies de plantas em 17 lotes de um prado de pastagem na Reserva Natural de Steneryd na Suécia, Tabela 9.7 (Exercício 1, Cap. 9)

Objetivo aqui: Ordenação dos n=17 lotes (objetos) e as p=25 variáveis são as espécies. Obs.: Como existem mais espécies do que lotes, o número de autovalores na matriz de correlação é determinado pelo número de lotes.

? ? ? ?

Exemplo 12.2 Túmulos EM BANNADI ?

? ?

12.3 ANÁLISE DE COORDENADAS PRINCIPAIS

Conceito: Similar ao escalonamento multidimensional métrico. Procedimento:

- Iniciam com uma matriz de similaridades ou distâncias entre objetos e tentam encontrar eixos de ordenação.

- Abordagem de Autovalores como uma generalização da ACP

Conexão entre Análise de Coordenadas Principais e Análise de Componentes Principais: 1. A i-ésima componente principal é uma combinação linear das variáveis X1, X2,...,Xp.

(2)

Os coeficientes aij são dados pelo autovetor ai correspondente ao i-ésimo maior autovalor λi. A matriz de covariâncias é amostral é:

C=ai= λi ai 12.1 Var(Zi)= λi

2. Se as variáveis X são padronizadas, etão temos

C= /(n-1) Então, C=XTX/(n-1) 12.2 e X n×p 3. A matriz simétrica n×n S= XXT=

em que os somatórios para j de 1 a p contêm medidas de similaridades entre os n objetos. Verifica-se que o quadrado da distância euclidiana do objeto i ao objeto k é:

d2ik=Σjp(xij-xkj)2 A expansão do lado direito desta equação mostra que

d2ik=sii+skk-2sik 12.3 em que:

sik é o elemento na i-ésima linha e k-ésima coluna de XXT. Obs.:

- É uma medida da similaridade entre os objetos i e k, pois crescendo sik significa que a distância dik entre os objetos é diminuída.

- sik toma o valor máximo de (sii + skk)/2 quando dik=0 (ocorre quando os objetos i e k têm valores idênticos para as variáveis de X1 a Xp)

4. Se a matriz

Z = =

contém os valores das p componentes principais para os n objetos que estão sendo considerados, então isto pode ser escrito em termos da matriz de dados X como:

Z=XAT 12.5 Σxij2 Σxi1xi2 ... Σxi1xip

Σxi2xi1 Σxi22

... Σxi2xip ... ... ... ... Σxipxi1 Σxipxi2 ... Σxip2

Σx2 1j Σx1jx2j ... Σx1jxnj Σx2jx1j Σx2 2j ... Σx2jxnj ... ... ... ... Σxnjx1j Σxnjx2j ... Σx2 nj z11 z12 ... z1p z21 z22 ... z2p ... ... ... ... zn1 zn2 ... znp z1 z2 ... zp

(3)

em que a i-ésima linha de A é aiT, o i-ésimo autovetor da matriz de covariâncias amostral

C.

Propriedade:

ATA=I, a transposta de A é a inversa de A.

Então, multiplicando à direita ambos os lados da Eq. 12.5 por A obtemos:

X=ZA 12.6

Para ver a relação entre COP-Coordenadas Principais e ACP, têm-se das Eq. 12.1 e 12.2:

XTXai/(n-1)=λiai,

Então, pré-multiplicando ambos os lados desta equação por X e usando Eq. 12.3:

S(Xai)=(n-1)λi(Xai) ou

Szi=(n-1)λizi 12.7 em que zi=Xai é um vetor de comprimento n. O i-ésimo maior autovalor da matriz de similaridades S=XTX é (n-1)λi e o correspondente autovetor fornece os valores da i-ésima componente principal para os n objetos.

A ACOP-Análise de Coordenadas Principais consiste em aplicar a Eq. 12.7 a uma matriz S, n×n, de similaridades entre n objetos que é calculada quaisquer dos muitos índices de similaridades.

- Desta forma, encontra-se os componentes principais de S sem necessidade de medir variáveis nos objetos!

- Os componentes terão as propriedades de componentes principais e, em particular, serão não correlacionados para os n objetos.

- Aplicando ACOP-Análise de Coordenadas Principais à matriz XXT resultará essencialmente na mesma ordenação que uma Análise de Componentes Principais.

- A diferença está em termos do escalonamento dado às componentes

- Na ACP-Análise de Componentes Principais é usual escalonar a i-ésima componente para ter variância λi

- Na ACOP-Análise de Coordenadas Principais é usual escalonar para ter variância (n-1) λi - Esta diferença é impalpável pois somente os valores relativos dos objetos em eixos de ordenação é que são importantes

Complicações que podem surgir na ACOP-Análise de Coordenadas Principais:

- A matriz de similaridade não tem todas as propriedades de uma matriz calculada dos dados usando S=XXT.

- Alguns autovalores da matriz de similaridade podem ser negativos (variâncias negativas!). Nesse caso não poderia ter obtido S=XXT. Usar somente os componentes com os maiores autovalores. Porém, grandes autovalores negativos sugerem que a matriz de similaridades não é adequada para ordenação.

Conversão entre matriz de distâncias e similaridades: sik=-d2ik/2, obtida da Eq. 12.4 Exemplo 12.3 ESPÉCIES DE PLANTAS NA RESERVA NATURAL DE STENERYD

(4)

Os dados do Exemplo 12.1 sobre abundância de espécies de lotes na Reserva Natural de Steneryd foram reanalisadas usando distâncias de Manhattan entre lotes (dik=Σ|xij-xkj|, j=1,2,...,25 espécies).

Resultados: λ^1=97638,6(47,3%), λ^2=55659,5(27,0%) e λ^3=12488,2(6,1%) ???????

Figura 12.3 Diagrama de draftsman para a ordenação de 17 lotes na Reserva Natural de Steneryd baseado em uma análise de coordenadas principais em distâncias de Manhattan entre lotes. As três variáveis são: o número do lote, e os dois primeiros componentes (COP1 e COP2).

Leitura:

- Ambos componentes mostram uma relação com o número do lote.

- Comparando com a Figura 12.1, mostra que os dois eixos da ACOP são muito similares aos dois primeiros componentes principais, exceto para diferença de escala.

Exemplo 12.4 TÚMULO EM BANNADI

Dados de presença ausência da Tabela 9.8 sobre bens de túmulos no cemitério de Bannadi no nordeste da Tailândia.

Procedimento:

- A matriz de distâncias euclidianas dik=√{Σ(xij-xki)2}, j=1,...38, xij é 1 se o j-ésimo tipo de artigo está presente no i-ésimo túmulo, ou é zero caso contrário.

- Uma matriz de similaridade foi então obtida como no Exemplo 12.3 e duplamente centrada antes dos autovalores e autovetores serem obtidos.

Resultados: Os mesmos que a ACP-análise de componentes principais usando valores padronizados para as variáveis X.

Obs.:

- Os autovalores: λ^1=24,9(21,5%), λ^2=19,3(16,6%), λ^3=10,0(8,7%), λ^4=8,8(7,6%), totalizando 54,5% da variação total, mas isto é melhor do que os 43,9% explicados pelos quatro primeiros CP obtidos dos dados padronizados (Exemplo 12.2).

????????

Figura 12.4 Diagrama de draftsman para os 47 túmulos de Bannadi. As seis variáveis são o número total de diferentes tipos de bens em um túmulo, um indicador do tipo de restos mortais (1-adulto masculino, 2=adulto feminino, 3=criança) e os primeiros quatro componentes de uma análise de coordenadas principais (COP1 a COP4)

Obs.: Os sinais do primeiro e do quarto componente foram trocados em relação aos mostrados na saída computacional de modo a torná-los positivos para o túmulo B48, o qual continha o maior número de tipos diferentes de bens.

Leitura:

- O primeiro componente representa a abundância total de forma muito próxima, mas os outros componentes não estão relacionados com esta variável.

(5)

- Um dos túmulos (B47, continha 8 tipos diferentes de bens, dos quais quatro não foram vistos em qualquer outro túmulo) tinha um valor muito baixo para o quarto componente.

12.4 ESCALONAMENTO MULTIDIMENSIONAL

Já visto no Capítulo 11 onde é definido como sendo um processo iterativo para encontrar coordenadas para objetos sobre eixos, com um número especificado de dimensões t, tais que as distâncias entre os objetos combinam tão próximos quanto possível com as distâncias ou similaridades que são fornecidas em matriz de dados (Seção 11.2)

Exemplo 12.5 ESPÉCIES DE PLANTAS NA RESERVA NATURAL DE STENERYD ?

? ? ? ?

Exemplo 12.6 TÚMULOS EM BENNADI ?

? ? ?

12.5 ANÁLISE DE CORRESPONDÊNCIA – ACORR Origem:

- Hirschfeld (1935), Fisher (1940) e uma escola de estatísticos franceses (Benzecri, 1992) Obs.: É o mais popular método de ordenação para ecologistas de plantas e muito usado em outras áreas.

Estrutura de dados:

- Tabela de dupla entrada de medidas de abundância, com as linhas correspondentes a um tipo de classificação e as colunas a um segundo tipo de classificação.

- Com dados de Locais e Espécies

Tabela 12.4 As abundâncias (x) de n espécies em p locais, com os valores das espécies (a) e os valores dos locais (b)

Espécies Local Soma da linha Valor das espécies 1 2 ... p 1 x11 x12 ... x1p R1 a1 2 x21 x22 ... x2p R2 a2 ... ... ... ... ... ... ... n xn1 xn2 ... xnp Rn an Soma da coluna C1 C2 ... Cp Valor do local b1 b2 ... bp

Interpretação: escolher valores de espécies e locais de modo que eles sejam tão correlacionados quanto possíveis, para a distribuição bivariada que é representada pela abundância no corpo da tabela.

(6)

Solução: Maximizar as equações: a1={(x11/R1)b1+(x12/R1)b2+...+(x1p/R1)bp}/r a2={(x21/R2)b1+(x22/R2)b2+...+(x2p/R2)bp}/r ... an={(xn1/Rn)b1+(xn2/Rn)b2+...+(xnp/Rn)bp}/r e b1={(x11/C1)a1+(x21/C1)a2+...+(xn1/C1)an}/r b2={(x12/C2)a1+(x22/C2)a2+...+(xn2/C2)an}/r ... bp={(x1p/Cp)a1+(x2p/Cp)a2+...+(xnp/Cp)an}/r em que:

Ri: é a abundância total da espécie i Cj: é a abundância total no local j

r: é a correlação máxima que está sendo procurada Interpretação:

ai: é um peso médio dos valores dos locais, com o local j tendo um peso proporcional a xij/Ri.

bj: é um peso médio dos valores das espécies, com a espécie i tendo um peso proporcional a xji/Cj.

“Média Recíproca”: descreve as equações recém-estabelecidas, uma vez que os valores das espécies são médias (com pesos) dos valores de locais, e os valores dos locais são médias (com peso) dos valores das espécies.

- São resoluções iterativas após serem modificadas da solução trivial com ai=1 para todo i, bj=1 para todo j e r=1. Matricialmente: a=R-1Xb/r 12.8 e b=C-1XTa/r 12.9 em que: aT=(a1,a2,...,an) bT=(b1,b2,...,bp)

R é uma matriz diagonal n×n com Ri na i-ésima linha e i-ésima coluna

C é uma matriz diagonal p×p com Cj na j-ésima linha e j-ésima coluna X é uma matriz n×p com xij na i-ésima linha e j-ésima coluna

- Substituindo a Eq. 12.9 na Eq. 12.8 é encontrado que

r2(R1/2a)=(R1/2XC-1/2)(R-1/2XC-1/2)T(R1/2a) 12.10

o que mostra que as soluções para o problema de maximizar a correlação são dadas pelos autovalores de uma matriz n×n:

(R-1/2XC-1/2)(R-1/2XC-1/2)T

Para qualquer autovalor λk, a correlação entre os escores das espécies e locais serão rk=√λk

(7)

R1/2ak=(√R1a1k, √R2a2k,..., √Rnank)T em que aik são os valores das espécies.

Os correspondentes valores dos locais podem ser obtidos da Eq. 12.9 como:

bk=C-1XTak/rk,

- O maior autovalor será sempre r2=1, dando a solução trivial ai=1 para todo i e bj=1 para todo j.

- Os autovalores restantes serão positivos ou zero e refletem diferentes possíveis dimensões para representar as relações entre espécies e locais.

- Estas dimensões são ortogonais, o que significa que os valores das espécies e locais para uma dimensão serão não correlacionados com os valores e locais em outras dimensões para a distribuição de dados de abundância xij.

- A ordenação por ACORR envolve o uso dos valores das espécies e locais para os primeiros poucos maiores autovalores que são menores do que 1.

- A representação de espécies e locais é, em geral, sobre o mesmo eixo,pois os valores das espécies são uma média dos valores de locais e vice-versa.

- A ACORR fornece uma ordenação de espécie e locais, ao mesmo tempo.

- Da Eq. 12.10 nota-se que a ACORR não pode ser usada no caso da soma de uma linha ou coluna zero (R-1/2 ou C-1/2 com elemento infinito)

- Esse método não pode ser usado nos dados dos túmulos Tabela 9.8, pois alguns túmulos não contêm bens. Mas pode ser utilizado a outros dados de presença-ausência em que esse problema não ocorra

Exemplo 12.7 ESPÉCIES DE PLANTAS NA RESERVA NATURAL DE STENERYD A ACORR foi aplicada aos dados para abundância de espécie (Tabela 9.7) Havia 16 autovalores menores do que 1, com suas raízes quadradas (as correlações entre os valores das espécies e os valores dos lotes) em parênteses:

Autovalores (λi)

0,665 0,406 0,199 0,136 0,094 0,074 0,057 0,028 0,020 0,019 0,010 0,008 0,007 0,005 0,003 0,001

√λi 0,82 0,64 0,45 0,37 0,31 0,27 0,24 0,17 0,14 0,14 0,10 0,09 0,08 0,07 0,05 0,03

Leitura:

- Os primeiros dois ou três poderiam ser considerados importantes ???????

Figura Representação gráfica de espécies e locais contra os primeiros dois eixos (CORR1 e CORR2) encontrados aplicando ACORR aos dados da Reserva Natural de Steneryd. Aos nomes das espécies foram dadas abreviações óbvias, e os locais são rotulados de S1 a S17 Interpretação:

- A ordenação de locais é bastante clara, com uma seqüência quase perfeita de S1 à direita até S17 à esquerda, movendo-se em torno de um arco bem distinto.

- As espécies são esparsadas entre os locais ao longo do mesmo arco de Mer-p (Mercurialis

perrenis) à esquerda até Hie-p (Hieraciumpilosella) à direita.

(8)

- O arco ou ferradura que aparece na ordenação é uma característica comum nos resultados de ACORR

Problema:

- O efeito do arco obscurece a natureza dos eixos de ordenação

- Métodos de destendenciamento são normalmente usados (Hill e Gauch, 1980). 12.6 COMPARAÇÃO DE MÉTODOS DE ORDENAÇÃO (UTILIDADE)

- A ACP pode ser usada somente quando os valores para as p variáveis estão presentes para cada objeto.

Não pode ser usado quando apenas matrizes de distâncias ou similaridades estão presentes

Quando as variáveis são normalmente distribuídas, este método é uma escolha óbvia.

- A ACOP e EM podem ser usadas quando se dispõe de uma matriz de distâncias ou de similaridades

O EM pode ser métrico ou não-métrico, com os ajustes do EM não-métrico sendo levemente melhor, em geral.

A ACOP e EM devem dar resultados similares

- A ACORR é usado para dados em tabela de dupla entrada e medidas de abundância de diferentes características

EXERCÍCIO

A Tabela 6.6 mostra os valores para seis medidas tomadas em cada uma das 25 taças pré-históricas escavadas na Tailândia. A natureza das medidas é mostrada na Figura 6.3. Use os vários métodos discutidos neste capítulo para produzir ordenações das taças e ver qual método parece produzir o resultado mais útil.

Referências

Documentos relacionados

Com base nos resultados da pesquisa referente à questão sobre a internacionalização de processos de negócios habilitados pela TI com o apoio do BPM para a geração de ganhos para

É perceptível, desta forma, o constante aumento do aprofundamento dos personagens: os “príncipes” têm agora não só nome e falas, mas personalidades bem desenvolvidas,

A nutrição enteral (NE), segundo o Ministério da Saúde do Brasil, designa todo e qualquer “alimento para fins especiais, com ingestão controlada de nutrientes, na forma isolada

a) Seleciona um par de cromossomos genitores dentro da população atual, com a probabilidade de seleção sendo diretamente proporcional à sua adaptação. O mesmo

LABORATÓRIO BALÃO LABORATÓRIO, TIPO USO DESTILAÇÃO, TIPO FUNDO FUNDO REDONDO, MATERIAL VIDRO, CAPACIDADE 125, TIPO SAÍDA COM 1 SAÍDA LATERAL 5 49,16 245,80 Não - Custeio NÃO

completo, superior incompleto, superior completo, não se aplica, ignorado), realização do pré-natal (sim, não, ignorado), sífilis congênita segundo o momento de diagnóstico

Os serviços prestados pelos LIAS da região incluem: informação do tempo de irrigação, avaliação de desempenho de irrigação (sistema de irrigação,

O trabalho tem como objetivo estudo da utilização de simuladores de espectros de RMN de ¹H, para a atribuição completa de dados de sinais sobrepostos e complexos dos