• Nenhum resultado encontrado

Figura 2.2: Sistema de espectroscopia por impedˆancia que emprega um sensor interdigi- tado para reconhecer substˆancias biol´ogicas (figura extra´ıda de Riul Jr. et al. (2010)).

impedˆancia complexa do analito ´e medida variando-se a frequˆencia do sinal, produzindo uma curva de impedˆancia. A varredura de impedˆancia ocorre para uma faixa de frequˆencia relativamente ampla, geralmente entre 1 Hz e 1 MHz (Chinaglia et al., 2008).

Diversas abordagens computacionais tem sido empregadas para analisar dados gerados por sensores e biossensores (Sasic et al., 2006; Legin et al., 2000; Moraes et al., 2010). Nessa disserta¸c˜ao foram empregadas um tipo espec´ıfico de abordagens computacionais: t´ecnicas de visualiza¸c˜ao de informa¸c˜ao. Na pr´oxima se¸c˜ao ser˜ao apresentadas as principais t´ecnicas e as aplica¸c˜oes delas no campo de sensores e biossensores .

2.2

T´ecnicas de visualiza¸c˜ao de Informa¸c˜ao

O processamento da informa¸c˜ao atualmente dispon´ıvel ´e percebido como um dos gran- des desafios para as diferentes ´areas do conhecimento (Keim, 2002). A visualiza¸c˜ao de informa¸c˜ao tem se mostrado ferramental importante para lidar com essa massa de in- forma¸c˜ao empregando o sistema visual humano no processo de reconhecimento e inter- preta¸c˜ao de padr˜oes existentes em grandes conjuntos de dados. As t´ecnicas de visualiza¸c˜ao de informa¸c˜ao dependem de caracter´ısticas b´asicas que o sistema perceptual humano ine- rentemente assimila de maneira r´apida, como cor, tamanho, forma, proximidade e movi- mento. Porque percebemos tais caracter´ısticas facilmente, e porque cada recurso pode ser usado para representar diferentes atributos de dados, boas visualiza¸c˜oes permitem n˜ao s´o interpretar a informa¸c˜ao de forma mais f´acil, mas tamb´em permitem analisar maior quan- tidade de dados ao mesmo tempo. Podemos rapidamente reconhecer padr˜oes nos dados

2 Visualiza¸c˜ao de informa¸c˜ao 2.2 T´ecnicas de visualiza¸c˜ao de Informa¸c˜ao

que indicam tendˆencias, lacunas, valores esp´urios ou erros, valores m´ınimos e m´aximos, grupos, entre outras coisas. Como resultado, aplica¸c˜oes de visualiza¸c˜ao de informa¸c˜ao nos permitem compreender melhor os sistemas complexos, tomar melhores decis˜oes, e descobrir informa¸c˜oes que poderiam permanecer desconhecidas.

2.2.1

T´ecnica de Proje¸c˜ao Multidimensional

Uma das principais t´ecnicas de visualiza¸c˜ao de informa¸c˜ao ´e a T´ecnica de Proje¸c˜ao Multidimensional (TPM). Uma TPM tipicamente mapeia instˆancias de dados de um espa¸co multidimensional em elementos gr´aficos em um espa¸co visual de forma que a pro- ximidade entre esses elementos reflita algum tipo de relacionamento entre as instˆancias de dados, normalmente relacionamentos de similaridade (Tejada et al., 2003).

Formalmente, seja X um conjunto de n instˆancias de dados em Rmcom δ : Rm× Rm → R

um crit´erio de proximidade entre instˆancias em Rm, e Y um conjunto de pontos em Rp,

com p ∈ {1, 2, 3}, e d : Rp× Rp → R um crit´erio de proximidade em Rp. Uma TPM pode

ser descrita como uma fun¸c˜ao f : X → Y que visa tornar a Equa¸c˜ao 2.1:

|δ(xi, xj) − d(f (xi), f (xj))| (2.1)

o mais pr´oximo poss´ıvel de zero, ∀xi, xj ∈ X (Tejada et al., 2003). Na Equa¸c˜ao 2.1,

δ(xi, xj) representa a dissimilaridade entre os objetos i e j no espa¸co original e d(yi, yj)

representa a distˆancia entre os pontos i e j no espa¸co projetado.

Existem diferentes TPMs, as utilizadas nesse trabalho foram Multidimensional Sca-

ling (MDS) (Young & Householder, 1938), Sammon’s Mapping (SM) (Sammon, 1969) e Interactive Document Map (IDMAP) (Minghim et al., 2006). Essas s˜ao descritas com

maior detalhe na pr´oxima se¸c˜ao. Para facilitar o entendimento dos conceitos apresenta- dos, os s´ımbolos mais frequentemente empregados nesse estudo e suas descri¸c˜oes podem ser encontrados na Tabela 2.1.

2.2.1.1 Multidimensional Scaling

A t´ecnica Multidimensional Scaling (MDS) foi originada na d´ecada de 1930, quando Young & Householder (1938) demostraram que, dada uma matriz de distˆancias entre pontos em um espa¸co Euclideano, ´e poss´ıvel extrair coordenadas tal que as distˆancias sejam preservadas. Sejam X = [x1, · · · , xn]T um conjunto de n pontos em um espa¸co

Euclideano m−dimensional Rm, com x

i = (xi1, xi2, . . . , xim)T as m coordenadas do ponto

xI, o quadrado da distˆancia Euclideana entre os i-´esimo e j-´esimo elementos ´e dada pela

2.2 T´ecnicas de visualiza¸c˜ao de Informa¸c˜ao 2 Visualiza¸c˜ao de informa¸c˜ao Tabela 2.1: S´ımbolos usados e seus significados para o entendimento das T´ecnicas de Proje¸c˜ao Multidimensional.

S´ımbolo Significado

X Conjunto de objetos no espa¸co original m-dimensional. m Dimens˜ao do espa¸co original.

Xi i-´esimo objeto do espa¸co original.

A representa¸c˜ao vetorial Xi= (xi1, xi2, ..., xim) representa suas coordenadas.

Y Conjunto de pontos no espa¸co projetado p-dimensional. p Dimens˜ao do espa¸co projetado.

Yi i-´esimo objeto do espa¸co projetado.

A representa¸c˜ao vetorial yi= (yi1, yi2, ..., yip) representa suas coordenadas.

n N´umero de objetos no espa¸co original e no projetado. δ(xi,xj) Dissimilaridade entre os objetos i e j no espa¸co original.

d(yi,yj) Distˆancia entre os pontos i e j no espa¸co projetado.

ˆ

δ(xi, xj) = (xi− xj)T(xi− xj) (2.2)

Seja B a matriz do produto interno em que o elemento ij ´e dado por [B]ij = bij = xTi xj.

Dada a matriz de distˆancias quadradas {ˆδ(xi, xj)}, a matriz do produto interno ´e definida

pela Equa¸c˜ao 2.3 (para maiores detalhes ver Cox & Cox (2000)):

B = HAH (2.3)

em que A ´e a matriz [A]ij = aij = −12δ(xˆ i, xj), e H ´e a matriz de centragem,

H = I − n−111T (2.4)

com 1 = (1, 1, 1, . . . , 1)T um vetor com n coordenadas iguais a 1. Tamb´em temos que B

pode ser expressa como B = XXT. O rank de B, ser´a:

rank(B) = rank(XX)T = rank(X) = m (2.5)

Dessa forma a matriz do produto interno B ´e sim´etrica, positiva, semi-definida, e com

rank m. Portanto, B tem m autovalores n˜ao negativos e n − m autovalores nulos. A

matriz B pode ent˜ao ser escrita em termos de sua decomposi¸c˜ao espectral como:

B = VΛVT (2.6)

em que Λ = diag(λ1, ..., λn) ´e a matriz diagonal dos autovalores de B, e V = [v1, ..., vn]

´e a matriz dos autovetores correspondentes, normalizados de forma que vT

i vi = 1. Por

conveniˆencia, os autovalores de B s˜ao rotulados de forma que λ1 ≥ λ2 ≥ ... ≥ λn ≥ 0.

Como existem n − m autovalores nulos, B pode ser reescrita como:

B = V1Λ1V1T (2.7)

2 Visualiza¸c˜ao de informa¸c˜ao 2.2 T´ecnicas de visualiza¸c˜ao de Informa¸c˜ao

em que Λ1 = diag(λ1, λ2, ..., λm), e V1 = [v1, ..., vm]. Dessa forma, como B = XXT , a

matriz de coordenadas X ´e dada por:

X = V1Λ 1 2 1 (2.8) em que Λ12 = diag(λ 1 2 1, ..., λ 1 2

m) e assim as coordenadas dos pontos foram recuperadas a

partir das distˆancias entre os pontos. Geralmente a matriz de distˆancias ˆδ(xi, xj) ´e Eucli-

deana, no caso que as dissimilaridades δ(xi, xj) n˜ao configurem uma m´etrica, duas op¸c˜oes

s˜ao poss´ıveis: (i) descartar os autovetores cujos autovalores s˜ao n˜ao positivos ; ou (ii) adicionar uma constante apropriada c `as dissimilaridades e repetir o processo novamente (Cox & Cox, 2000). Assim, os pontos X residir˜ao em um espa¸co m−dimensional no caso das distˆancias Euclideanas, ou pr´oximo disso para outras dissimilaridades, formando o espa¸co de menor dimens˜ao que consegue representar os pontos preservando as distˆancias fornecidas como entrada. Caso se queira que X seja um espa¸co p−dimensional, com p < m, os p autovetores que apresentarem os p maiores autovalores devem ser utiliza- dos. Assim, no caso de uma proje¸c˜ao bi-dimensional, os dois autovetores com maiores autovalores s˜ao empregados.

2.2.1.2 Sammon’s Mapping

Uma das primeiras TPMs baseadas em otimiza¸c˜ao n˜ao-linear, conhecida como Sam-

mon’s Mapping (SM), foi proposta por Sammon (1969). Considere um conjunto X de n

objetos no espa¸co m-dimensional. O objetivo da abordagem Sammon’s Mapping ´e encon- trar n pontos em um espa¸co p-dimensional (com p < m), com n pontos yi de modo que

as distˆancias entre pontos d(yi, yj) no espa¸co p-dimensional se aproximem o mais poss´ıvel

`as distˆancias entre os objetos δ(xi, xj) correspondentes no espa¸co m-dimensional. Isto

´e conseguido atrav´es da minimiza¸c˜ao de um crit´erio de erro, chamado Sammon’s stress dado por: S = P 1 i<jδ(xi, xj) X i<j (d(yi, yj) − δ(xi, xj))2 δ(xi, xj) (2.9)

A t´ecnica Sammon’s Mapping aplica o m´etodo de gradiente descendente para minimi- zar esta fun¸c˜ao, com a estimativa de ypq, na t-´esima itera¸c˜ao dada por

ypq(t + 1) = ypq(t) − α      ∂S(t) ∂ypq(t) ∂2 S(t) ∂y2 pq(t)      (2.10)

em que α ´e um fator de convergˆencia determinado empiricamente (recomenda-se um valor α ≈ 0.3 a 0.4) e as derivadas parciais da equa¸c˜ao 2.10 s˜ao dadas por:

2.2 T´ecnicas de visualiza¸c˜ao de Informa¸c˜ao 2 Visualiza¸c˜ao de informa¸c˜ao ∂S(t) ∂ypq(t) = −2 λ n X k=1,k6=i " dkp− d∗kp dkpd∗kp # (ypq− ykq) (2.11) ∂2 S(t) ∂2y pq(t) = −2 λ n X k=1,k6=i 1 dkpd∗kp " (dkp− d∗kp) − (ypq− ykq)2 d∗ kp !  1 + dkp− d ∗ kp dkp # (2.12)

O mapeamento n˜ao linear dos dados de entrada ´e obtido pela atualiza¸c˜ao de cada coordenada projetada usando a Equa¸c˜ao 2.10 em um processo iterativo at´e que um valor limite de convergˆencia seja atingido ou um n´umero m´aximo de itera¸c˜oes seja executado.

2.2.1.3 Interactive Document Map

A t´ecnica Interactive Document Map (IDMAP) (Minghim et al., 2006), originalmente desenvolvida para mapear cole¸c˜oes de documentos, projeta as amostras num espa¸co vi- sual de baixa dimensionalidade com uma t´ecnica de redu¸c˜ao de dimensionalidade de custo computacional pequeno, como FastMap (Faloutsos & Lin, 1995) e melhora o posiciona- mento inicial obtido com uma estrat´egia precisa conhecida como Force Scheme. A Force

Scheme (FS), proposta por Tejada et al. (2003), baseia-se no conceito de atra¸c˜ao e re-

puls˜ao de for¸cas proporcionais `a diferen¸ca entre as distˆancias no espa¸co projetado e as distˆancias no espa¸co original. O processo empregado pode ser descrito como: para cada ponto projetado yi ∈ Y, calcula-se um vetor ~vij = (yj − yi) ∀yj 6= yi. Ent˜ao, uma

perturba¸c˜ao em yi ´e aplicada na dire¸c˜ao de ~vij. A for¸ca dessa perturba¸c˜ao ´e expressa

pela Equa¸c˜ao 2.13.

SIDM AP =

δ(xi, xj) − δmin

δmax− δmin

− d(yi, yj), (2.13)

em que δmin e δmax representam a m´ınima e a m´axima distˆancia entre os objetos no

espa¸co original. Aplicando esse processo de forma iterativa para cada uma das amostras, a diferen¸ca |δ(xi, xj) − d(yi, yj)| ∀xi, xj ´e reduzida, resultando em um posicionamento

mais preciso dos pontos. No entanto, ´e necess´ario trabalhar com distˆancias normalizadas para evitar inconsistˆencias derivadas da diferen¸ca entre as faixas de valores do espa¸co multidimensional original e do espa¸co projetado.

As T´ecnicas de Proje¸c˜ao Multidimensional vem sendo empregadas com sucesso na an´alise de dados de sensores e biossensores, mas outras tamb´em vem sendo utilizadas. Na pr´oxima se¸c˜ao, outras t´ecnicas de visualiza¸c˜ao de informa¸c˜ao s˜ao apresentadas.

Documentos relacionados