Generalização da decomposição por EMD para grafos e sua aplicação à dispersão geográfica da dengue

(1)

(2)

(3)

(4)

(5)

(6)

Resumo

Nesta tese, desenvolvemos uma técnica para gerar grafos à partir de conjuntos de séries temporais considerando a correlação entre estas e uma extensão do Mé-todo de Decomposição Empírica (emd) para grafos (gemd). Tal trabalho se jus-tifica pelo fato de que uma grande gama de sinais formados por conjuntos de séries temporais não possuem uma localização bem definida em nenhum espaço n-dimensional. Desta forma, as relações entre as séries temporais só são satisfato-riamente representadas com o uso de grafos.

Contudo, o desenvolvimento do gemd é dependente do uso de algum método de interpolação em grafos. Tais métodos são escassos e não produzem proprieda-des satisfatórias para o uso no gemd. Para esta finalidade, estendemos a interpola-ção por Funções de Base Radial (rbf) em Grafos (grbf), onde a norma euclidiana no cálculo da matriz de interpolação por rbf é substituída pela norma induzida pelo grafo. Testes numéricos sugerem que a extensão possui boas propriedades de convergência e uma técnica é desenvolvida para garantir a existência e unicidade da solução.

Finalmente, aplicamos o gemd em um conjunto de dados de incidência de Dengue Hemorrágica na Tailândia. Os modos intrínsecos encontrados desta forma não apresentam nenhuma onda viajante emanando de nenhuma das províncias, contrastando com o resultado utilizando o emd original []. Além disso, os

perío-dos médios perío-dos moperío-dos intrínsecos de [] são claramente distintos dos encontrados

pela decomposição por gemd.

Palavras-chave: emd_{, Grafos, RBF, Febre Hemorrágica da Dengue.}

(7)

(8)

Sumário

 Introdução _

. Transformada de Hilbert-Huang (hht) . . . 

.. Introdução . . . 

.. Transformada Discreta de Hilbert . . . 

.. Método de Decomposição Empírica (emd). . . 

. Motivação para emd em Grafos . . . 

. Teoria de Grafos. . . 

.. Visualização . . . 

.. Interpolação em Grafos . . . 

. Funções de Base Radial (rbf). . . 

.. Parâmetro de Forma e Convergência . . . 

.. Extensões para rbf . . . 

 rbf em Grafos (grbf) _

. Matrizes de Interpolação Singulares . . . 

. Funções e Grafos Teste. . . 

. Resultados Numéricos . . . 

. Aplicações para o emd. . . 

 emd em Grafos (gemd) 

. Grafos de Conjuntos de Séries Temporais . . . 

. Algoritmo e Implementação . . . 

.. gui . . . 

(9)

. Sinais Sintéticos em Grafos . . . 

. Validação Numérica . . . 

 Dispersão Geográfica da Dengue _

 Considerações Finais _

A Pontos de Halton e Hammersley _

B Correlações de Pearson e Spearman _

C _{Códigos em Matlab ra} _

C. gemd . . .  C.. gemd.m . . .  C.. init.m . . .  C.. define_shape_parameter.m . . .  C.. plotvoronoi.m. . .  C. Dados Sintéticos . . .  C.. graphsignal.m. . .  C.. graphmaker.m . . .  Bibliografia _ xii

(10)

Lista de Algoritmos

 Empirical Mode Decomposition(emd) . . . 

 Subgrafo Induzido Isométrico . . .   Conjunto de Séries para Grafo . . .   emdem Grafos (gemd) . . . 

(11)

Lista de Figuras

. Espectro de Hilbert do sinal na Figura .. Extraído de []. . . 

. Análise da função f (t) = α + sin(t), com α =  (linha contínua), α = . (tracejada) e α = . (pontilhada). (a) Plot das funções f (t). (b) Sinais analíticos z(t) = f (t) + ig(t), g(t) = H{f (t)}. (c) Amplitudes a(t). (d) Ângulos de fase θ(t). (e) Freqüências ω(t) . . . 

. emd de um sinal (topo) em  modos (segunda a oitava linha) e ten-dência (baixo). Extraído de [].. . . 

. Decomposição por bemd [] de sinal bidimensional . . . 

. Decomposição por emd unidimensional de sinal bidimensional. A imagem tem  linhas mas, apenas  delas tem  modos,  tem  modos e  tem . Atribuímos a função nula para as imfs das linhas com menos modos que a imf bidimensional concatenada. . . 

. Decomposição por emd unidimensional de sinal bidimensional. A imagem tem  colunas mas, apenas  delas tem  modos,  tem  modos e  tem  modos. Atribuímos a função nula para as imfs das colunas com menos modos que a imf bidimensional con-catenada. . . 

. Análise da correlação entre as linhas da Figura .(a) usando os co-eficientes de correlação de Pearson (a–c), Kendall (d–f) e Spearman (g–j). Nas figuras (a,d,g), temos a matriz de correlação. Em (b,e,h), o histograma de maxM_{j =}corr(fi,fj), i = , ..., M. E em (c,f,i), o

histo-grama da distância entre cada série e a série com maior correlação. . 

(12)

. Interpolação pelo método de Grady e Schwartz. Em cima a es-querda, temos o grafo G e a direita, a imagem original definida no grafo. Em baixo, a esquerda, temos os pontos interiores removidos da imagem, ao centro, o resultado da interpolação isotrópica (todos os pesos iguais a ) e a direita, a interpolação com os pesos dados por (.). Extraído de []. . . 

. Funções básicas positiva definidas (esquerda) e condicionalmente definida positivas de ordem m (direita) . . . 

. Considerando a matriz D dada em (.), µ por (.) e ̂D(k)por (.) usando µ(k)= kµ, temos os gráficos para cond( ̂D(n)) e ∥D− ̂D(k)∥_max, com k indo de  à _. _{. . . } . Considerando a matriz D dada em (.), µ por (.) e ̂D(k)por (.)

usando µ(k)= µ/k, temos os gráficos para cond( ̂D(n)) e ∥D− ̂D(k)∥_max, com k indo de  to _. _{. . . } . A seqüência de Halton modificada H(Ω,P) em R_{, onde Ω = [,]}

e p = p, ..., p são dados por (.). (a) Pontos de Halton modifi-cados ̃h, ..., ̃h representados por quadrados e seu respectivo di-agrama de Voronoi [, Capítulo ] por linhas tracejadas. (b) Re-presentação para G() e G() usando a triangulação de Delau-nay [, Capítulo ] de ̃H. . .  . Visualizações para F(G()) (esquerda) e F(G()) (direita)

(cf. Seção ..) . . . 

. Curvas Erms para a interpolação de F(G()) para várias esco-lhas de funções básicas e centros. De (a) à (j) as funções básicas φ(r), ..., φ(r) foram usadas, respectivamente. Em cada figura, a função teste é interpolada nos primeiros M vértices com M =  (li-nha pontilhada),  (ponto e traço),  (tracejada),  (contínua). 

. Análise semelhante à da Figura . para F(G()). . . 

. Análise semelhante à da Figura . para F(G()). . .  . Análise semelhante à da Figura . para F(G()). . . 

(13)

. Análise semelhante à da Figura . para F(G()). . . 

. Análise semelhante à da Figura . para F(G()). . . 

. Análise semelhante à da Figura . para F(G()). . . 

. Análise semelhante à da Figura . para F(G()). . . 

_{. Curvas E}rms (contínua) e Epress (tracejada) para a interpolação de F(G()) para várias escolhas de funções básicas e centros. De (a) à (j), as funções básicas φ(r), ..., φ(r) foram usadas, respecti-vamente. Em cada figura, a função teste é interpolada nos primei-ros  vértices. . . 

. Análise semelhante à da Figura . para F(G()). . . 

. Análise semelhante à da Figura . para F(G()). . . 

. Análise semelhante à da Figura . para F(G()). . . 

. Análise semelhante à da Figura . para F(G()). . . 

. Análise semelhante à da Figura . para F(G()). . . 

. Análise semelhante à da Figura . para F(G()). . . 

. Análise semelhante à da Figura . para F(G()). . . 

. (a) Funções cúbica e logística. (b) Grafo G, gerado à partir de G, onde um dos vértices aparece em destaque, bem como as arestas incidentes nele. . . 

. (a–d) Grafos gerados com o conjunto de dados da febre hemorrá-gica da dengue na Tailândia utilizando as correlações de Pearson e Spearman e as funções peso cúbica e logística. (e–h) Histogramas das valências para os grafos de (a–d), respectivamente. . . 

. gui para gemd após  peneiragens do sinal definido na Seção . . 

(14)

. Comparações entre as funções cos(νx) e F(α,β,x), onde tomamos l =  e portanto, α=  e β= . de onde encontramos α = . e β = .. (a) Valores assumidos cos(νx), F(x;α,β) e F(x;α,β) no intervalo [,]. (b) Sinais complexos gerados pelas transforma-das de Hilbert de cos(νx) e F(x;α,β), este último denominado de zα,β(x) na legenda. (c) F(x;α,β) − cos(νx). (c) Amplitudes instan-tâneas. (d) Frequências instaninstan-tâneas. . . 

. Análise semelhante à da Figura ., porém, substituindo F(x;α,β) por F(x;α,β). . . . 

. (a) Amplitude média a e seu desvio padrão associado σapara cos(νx)

e F(x;α,β), com l = , ..., , sendo os desvios padrões representa-dos como barras de erros. (b) Análise semelhante à feita em (a) mas, para a freqüência. . . 

. Comparação entre as funções cos(νx)cos(νy) e F(p,α,β) para N =  e l = . Assim, α=  e β= . e a minimização do Erms (.) nos dá α = . e β = .. . . . 

. Comparação entre F(G;α,β) e F(G;α,β), G⊂ ̃G(,). . . .  . Exemplo para criação de um subgrafo induzido isométrico G ⊂

̃

G(,{,}) (cf. Seção . e Apêndice ??). (a) Plot para ̃hk

de ̃G, onde os pontos ̃hk com k ∈ I são representados como ‘o’ e

k ∈ I como ‘+’. (c,d) Segmentos ligando os pares (vi,vj) tais que

d_G_̃_(vi,vj) < dG(vi,vj), vivj ∈ V, antes e após a adição a vigésima sétima aresta, respectivamente. Os vértices incidentes em tal aresta estão destacados por círculos na parte inferior da figura. (b) Nú-mero de pares (vi,vj) descritos anteriormente, em função do

nú-mero de arestas adicionadas. . . 

. (a) Freqüência local média ω e seu desvio padrão associado σω para F(v;α,β) aplicado em G(,l) (cf. Equação .), com l = , ..., , sendo os desvios padrões representados como barras de erros. (b) σω plotado em função de l.. . . 

(15)

. (a) Mapa geopolítico da Tailândia. (b) Logaritmo da incidência de febre hemorrágica da dengue na Tailândia entre  e , onde a ordenação das províncias é arbitrária . . . 

. (a,b,c,d) Correlação de Pearson entre as primeiro quatro gimfs com localização em Bangkok e cada uma das províncias sendo analisa-das, com atraso variando entre − e  meses. De cima pra baixo, as províncias estão ordenadas em distância até Bangkok. (b,d,f,h) Atraso para o qual a correlação é máxima e a distância geográfica (normalizada) à Bangkok. . . 

A. Distribuições de Halton (esquerda), Hammersley (centro) e randô-mica (direita) de  pontos em R_{com p}

=  e p= . . . 

(16)

Capítulo 

Introdução

A Transformada de Hilbert-Huang (hht) [] tem se revelado uma poderosa fer-ramenta para a análise de séries temporais não lineares e não estacionárias. A transformada é obtida através de duas etapas, sendo a primeira delas, a decompo-sição do sinal em um número finito de Funções de Modo Intrínseco (imf) através da Decomposição em Modos Empíricos (emd), a qual é efetuada por um algoritmo de peneiragem. O objetivo do emd é decompor o sinal em modos que, ao serem submetidos à Transformada de Hilbert (ht), forneçam freqüências e amplitudes instantâneas com significado físico. A aplicação da ht, é justamente a segunda etapa da hht, onde o objetivo final é obter o Espectro de Hilbert (hhs) do sinal.

Neste trabalho estamos interessados na primeira parte do algoritmo do hht, ou seja, a emd. Embora a decomposição por emd tenha sido introduzida por Huang et al para obter freqüências e amplitudes instantâneas coerentes, seu uso por si só fornece informações importantes para a análise de sinais.

Porém, como argumentamos na Subseção., quando temos não apenas uma série temporal mas, um conjunto delas, o uso do emd em cada série isoladamente pode produzir resultados insatisfatórios. Às vezes, podemos utilizar uma exten-são n-dimensional do emd mas, nem sempre tal abordagem é suficiente. Para resolver este problema, propomos uma representação do conjunto de séries por um grafo, o qual será decomposto por uma extensão do emd para grafos,

(17)

 Capítulo . Introdução

nada por nós de gemd. Uma vez definido, aplicamos o gemd à um conjunto de dados de dengue hemorrágica na Tailândia.

Assim, esta tese está estruturada da seguinte maneira. No Capítulo intro-duzimos a hht e o emd, bem como os algoritmos utilizados em detalhes. Em se-guida, revisamos conceitos básicos de teoria de grafos que serão utilizados neste trabalho além do único método de nosso conhecimento para a interpolação de da-dos definida-dos em grafos, desenvolvido por Grady e Schwartz [, ]. Uma vez que tal interpolação não é satisfatória, revisaremos a interpolação por Funções de Base Radial (rbf).

No Capítulo, desenvolvemos uma extensão da interpolação por rbf para gra-fos (grbf). A existência e unicidade da interpolação por gemd é analisada tanto do ponto de vista teórico quanto numérico e concluímos que seu comportamento é satisfatório para algumas escolhas de funções básicas.

Utilizando a interpolação por grbf, estendemos o emd para grafos (gemd) no Capítulo, onde decompomos um sinal sintético obtendo modos com freqüências médias próximas às utilizadas na composição de tal sinal.

No Capítulo , aplicamos o gemd à um conjunto de séries de incidência de dengue hemorrágica na Tailândia. Os resultados são comparados aos obtidos em [] em relação aos períodos médios de oscilação dos modos intrínsecos e da presença de ondas viajantes em tais modos emanando das províncias. Finalmente, no Capítulo apresentamos uma discussão final sobre os resultados desta tese e dos futuros trabalhos a serem realizados.

.

Transformada de Hilbert-Huang (hht)

..

Introdução

A Transformada de Hilbert-Huang (hht) [_{] de uma função f (t) pode ser}

con-siderada uma generalização da decomposição de Fourier, na qual apenas um nú-mero finito de modos fi(t) é extraído, sendo que cada um desses modos possui

(18)

.. Transformada de Hilbert-Huang ( hht)  f (t) =∑∞ k= fk(t) = ∞ ∑ k= akexp(iωkt), (Fourier) f (t) = n ∑ k= fk(t)+ T(t) = n ∑ k= ak(t) exp(i ! ωk(t′) dt′)+ T(t), (hht)

onde T(t) é uma tendência média de f (t), que às vezes pode ser uma constante ou até mesmo não chegar a estar presente na decomposição.

A hht é efetuada em dois passos: primeiro os modos fk(t) são extraídos usando

o Método de Decomposição Empírico (emd) (cf. Seção..) e depois, aplica-se a Transformada de Hilbert (ht) à cada um dos modos, de onde as componentes complexas gk(t) são (univocamente) obtidas:

gk(t) =H{fk(t)} = P π ∫ +∞ −∞ fk(t′) t − t′ dt ′₌  πlimǫ↓∫ +∞ ǫ fk(t − t′) − fk(t+t′) t′ dt ′_, _(.)

onde P é o valor principal de Cauchy.

Uma vez que a hht tenha sido aplicada a cada modo fk(t), os sinais analíticos

zk(t) = fk(t)+igk(t) ficam definidos. Desta forma, as amplitudes ak(t) e os ângulos

de fase θk(t) dos modos fk(t) podem ser calculadas explicitamente:

ak(t) = √ f  k (t)+gk(t), (.) θk(t) = arctan( gk(t) fk(t)). (.)

E por (.), podemos calcular a freqüência instantânea ωk(t):

ωk(t) =  π

dθ(t)

dt . (.)

Outra maneira de calcular a Transformada de Hilbert de uma função é definida à partir da Transformada de Fourier Contínua no Tempo (ctft), como veremos.

(19)

 Capítulo . Introdução

Denotando a ctft de fk(t) por Fk(ω), Fk(ω) =∫

+∞

−∞ fk(t) exp(−iπωt) dt,

a Transformada de Hilbert de f_k(t) (.) será dada por[,]:

gk(t) =H{fk(t)} = Im{zk(t)}, (.)

onde zk(t) é obtido pela transformada inversa de Fourier de Zk(ω),

Z_k(ω) = ⎧⎪⎪⎪⎪ ⎪⎪ ⎨⎪⎪⎪ ⎪⎪⎪⎩ Fk(ω), para ω > , Fk(ω), para ω = , , para ω < .

Além da propriedade (.), os sinais analíticos zk(t) = fk(t)+ igk(t) satisfazem

a condição de ortogonalidade entre fk e gk:

∫ ∞ −∞

fk(t)gk(t) dt = . (.)

Usando as amplitudes e freqüências encontradas (.,.), determina-se o Es-pectro de Hilbert-Huang (hhs) do sinal original como sendo a superfície H(ω,t) = ∑n k=Hk(ω, t), onde Hk(ω, t) =⎧⎪⎪⎪⎨⎪⎪⎪ ⎩ ak(t), se ωk(t) = ω, , caso contrário. (.)

..

Transformada Discreta de Hilbert

Analogamente ao caso contínuo no tempo, a Transformada Discreta de Hilbert (dht)[] pode ser calculada à partir da Transformada de Fourier Discreta no Tempo (dtft). Desta forma, sendo T o intervalo entre duas medidas sucessivas, dado um sinal discreto no tempo f (nT) = f [n], obtemos seus modos fk[n] através

(20)

.. Transformada de Hilbert-Huang ( hht)  Fk[m] = T N− ∑ n= fk[n] exp(−iπmnT), m = , ..., N − . (.)

Uma vez obtidas as Fk[m] utilizando Transformadas Rápidas de Fourier (fft),

calculamos os sinais ‘analíticos’ Zk[n] como sendo (considerando N par):

Zk[m] = ⎧⎪⎪⎪⎪ ⎪⎪⎪⎪⎪ ⎪⎨ ⎪⎪⎪⎪⎪ ⎪⎪⎪⎪⎪ ⎩ Fk[], para m = , Fk[m], para  ⩽ m ⩽ N/−, Fk[m], para m = N/, , para N/+ ⩽ m ⩽ N −.

E finalmente encontramos o sinal analítico zk[n] como sendo a DTFT inversa

de N-pontos de Zk[m]: zk[n] =  NT N− ∑ m= Z_k[m] exp(+iπmn N ), n = , ..., N −. (.) Os sinais analíticos são então dados por zk[n] = fk[n]+ igk[n], onde gk[n] = Im{zk[n]}. Desta forma, as amplitudes ak[n] e os ângulos θk[n] podem ser calcu-lados analogamente ao caso contínuo (.,.):

ak[n] = √ f_k[n]+g_k[n] (.) θk[n] = arctan(gk[n] fk[n]) (.)

E utilizando uma analogia discreta para (.), as freqüências ωk[n] são calcu-ladas:

ωk[n] =



π∆nθk[n], (.)

onde ∆n é o esquema centrado de diferenças finitas, com exceção do caso n =  e

(21)

 Capítulo . Introdução

Figura .: Espectro de Hilbert do sinal na Figura.. Extraído de [].

∆nθk[n] = ⎧⎪⎪⎪⎪ ⎪⎪ ⎨⎪⎪⎪ ⎪⎪⎪⎩  T(θk[n+]−θk[n]), para n = ,  T(θk[n+]−θk[n − ]), para  < n < N,  T(θk[n] − θk[n − ]), para n = N.

Uma vez calculadas as amplitudes a_k[n] e as freqüências ωk[n], podemos

cal-cular o Espectro de Hilbert Huang (hhs). Sejam ωmax e ωmin, respectivamente,

a maior e a menor freqüência encontrada para todos os modos e instantes, esco-lhemos um inteiro positivo arbitrário M, de onde definimos ν = (ωmax− ωmin)/M.

Desta forma, teremos H[m,n] =∑n_k=Hk[m, n], m = , . . . , M − , n = , . . . , N − ,

Hk[m, n] =⎧⎪⎪⎪⎨⎪⎪⎪

⎩

ak[n], se ωmin+mν ⩽ ωk[n] ⩽ (m+)ν,

(22)

.. Transformada de Hilbert-Huang ( hht) 

Como o número de modos é finito e (n,wi[n], ak[n]) são curvas discretas em R_{, o hhs discreto tem a aparência de ser formado por linhas fragmentadas (cf.}

Figura.).

..

Método de Decomposição Empírica (emd)

Para que a freqüência instantânea encontrada pela Transformada de Hilbert con-tínua (.) ou discreta (.) tenha algum significado, o número de extremos da função a qual ela está sendo aplicada deve ser igual ao de cruzamentos nulos. Além disso, a função deve ser simétrica em relação ao zero médio local. Um exem-plo simples que não satisfaz estas condições é a função f (t) = α+ sin(t) (cf. Fi-gura .). Para α = , a função analítica z(t) = f (t)+ iH{f (t)} tem amplitude e freqüência aproximadamente constantes, valendo  e /π, respectivamente. Po-rém, para  < α < , a freqüência obtida é variável e para α > , assume até mesmo valores negativos.

Como, em geral, as duas condições enunciadas não são satisfeitas, para que a Transformada de Hilbert possa ser aplicada, o sinal é decomposto pelo Método de Decomposição Empírica (emd) em funções que as satisfaçam, chamadas de Funções de Modo Intrínseco (imf).

A decomposição por emd de um sinal f nos modos fké realizada através de um

processo iterativo de peneiragem (do inglês sifting). O processo não faz nenhuma suposição a respeito do sinal, não possui uma base pré-determinada e retorna um conjunto praticamente ortogonal de Funções de Modo Intrínsecos (imf) fk(t), sendo que os modos de maior freqüência são extraídos primeiro. Após a extração sucessiva de uma quantidade finita de imfs, chega-se à uma função que não mais exibe variações que poderiam ser representadas como oscilações. Esta função final é denominada tendência. Uma implementação do emd foi disponibilizada por Gabriel Rilling [].

No Algoritmo , temos uma versão básica do emd. Por ele, temos que h será uma tendência (linha) se min(∣Imax∣,∣Imin∣) < . Porém, como o número de

(23)

 Capítulo . Introdução

(a) (b)

(c) (d) (e)

Figura .: Análise da função f (t) = α + sin(t), com α =  (linha contínua), α = . (tracejada) e α = . (pontilhada). (a) Plot das funções f (t). (b) Sinais analíticos z(t) = f (t)+ig(t), g(t) = H{f (t)}.

(c)_{Amplitudes a(t). (d) Ângulos de fase θ(t). (e) Freqüências ω(t)}

a condição de teste para ser tendência deve estar localizada logo após os índices dos extremos serem encontrados (linhase).

As condições para que h seja uma imf são:

. O número de cruzamentos nulos de h (h(t) = ) e o número de extremos devem diferir, no máximo, por ;

. O envoltório médio m de h deve ser praticamente zero.

Sendo que o envelope médio m de h (linha ) é calculado como uma média aritmética entre os envelopes superior e inferior, que interpolam os máximos e mínimos locais, respectivamente (linhase).

(24)

.. Transformada de Hilbert-Huang ( hht) 

Algoritmo  Empirical Mode Decomposition(emd)

Entrada: _{Sinal f , limites C e kmax, Domínio X = {, ∆t, ..., (N − )∆t}} Saída: imf_{s f}__{(t), . . . , f}_n_{(t), tendência T (nem sempre)}

: _{para j = , ..., ∞ faça} : h ← f

: para k = , ..., kmax faça

: Imax←Índices para os máximos locais de h

: Imin←Índices para os mínimos locais de h

: se h é uma tendência então

: T ← h

: retorna f, ..., fj − e T

: finaliza se

: emax←splines cúbicas interpolando {(ti,h(ti)); i ∈ Imax}

: emin←splines cúbicas interpolando {(ti,h(ti)); i ∈ Imin}

: m ← (emax+emin)/

: h ← h − m

: se h é uma imf então

: continue (vá para a linha)

: finaliza se

: finaliza para

: fj ←h : f ← f − fj

: se f é a função nula então

: retorna f, ..., fj : finaliza se

: finaliza para

Definindo o desvio padrão SD de h em duas iterações sucessivas de peneiragem (linha) por SD = N ∑ k= [(h(tk)+m(tk)) − h(tk) h(tk) ]  = N ∑ k= [m(tk) h(tk)]  =⟨ ̃m,m̃⟩ = Em̃, (.) a segunda condição para que h seja uma imf, na prática, é satisfeita se o desvio padrão SD for menor que um limite C, e.g. um valor entre . e . [].

(25)

 Capítulo . Introdução

Figura .: emd de um sinal (topo) em  modos (segunda a oitava linha) e tendência (baixo). Extraído de [].

(26)

.. Transformada de Hilbert-Huang ( hht) 

Embora a primeira condição seja estritamente necessária, a segunda não o é, e alguns trabalhos sugerem que ela seja substituída por um par de condições global e local [], ou ainda, por um critério baseado em largura de banda [].

Outra opção é usar procedimento baseado em busca de diferença de ener-gia [], minimizando o índice de ortogonalidade IO [],

IO = N ∑ k= [n+∑ i= n+ ∑ p= fk(tk)fp(tk)/f(tk)], (.) onde f_n+≐T.

A determinação da curva media m como sendo a media aritmética entre os en-voltórios superior (emax) e inferior (emin), ambos calculados usando interpolação

por splines cúbicas, tem sido substituída por outras técnicas, e.g., como o resul-tado de um processo de otimização [].

A demonstração para a convergência do algoritmo do emd e outras questões teóricas a respeito da hht são delineadas no trabalho de Kizhner et al [], in-cluindo o porque dos modos de freqüência mais altas serem extraídos primeiro.

O algoritmo original do emd apresentado aqui possui algumas limitações que foram temas de pesquisa nos últimos anos, dentre as quais:

• Contorno – Um dos maiores problemas em relação a eficácia do algoritmo do emd está na determinação das condições da interpolação por splines nos bordos do domínio. A maioria das soluções propostas incluem extensão dos dados, e.g. um método de extensão simples do domínio por espelhamento foi proposto []. Outras alternativas também existem, como o uso de redes neurais sigma-pi []

• Intermitência – Quando a componente de alta freqüência esta presente numa porção limitada do domínio, o algoritmo original do emd a mistura com os outros modos. Huang et al [] sugere que seja definido um limite superior para o período que será incluído em qualquer imf e R. Deering e J. Kai-ser [] tentam resolver o problema com o uso de um masking signal. O uso da Transformada Wavelet Packet (wpt) [] ou de um critério por largura

(27)

 Capítulo . Introdução

(a) Sinal (b) bimf (c) bimf (d) bimf

(e) bimf (f) bimf (g) bimf (h) Tendência Figura .: Decomposição por bemd [] de sinal bidimensional

de banda [] têm a vantagem natural de produzir decomposições menos susceptíveis ao embaralhamento de modos.

• Componentes de baixa energia e baixa freqüência – Como mencionado no úl-timo item, Peng et al [] faz uso de wpt como pré-processador para o emd resultando em menos problemas com embaralhamento de modos além de uma melhor separação de sinais que contenham componentes de baixa ener-gia. Neste mesmo trabalho, modos de freqüência baixas são evitados através de um processo de screening.

Uma vez que o emd pode ser aplicado apenas em sinais com domínios uni-dimensionais, alguns trabalhos fazem sua extensão para dimensões maiores. Um dos trabalhos pioneiros neste sentido por Nunes et al [] denominada de Bidi-mensional emd (bemd) está ilustrado na Figura.. O algoritmo para o bemd é

(28)

.. Motivação para emd em Grafos 

essencialmente o mesmo que o do emd sendo que os envelopes são calculados por

Radial Basis Functions (rbf) e os extremos são encontrados usando reconstrução morfológica baseada em operadores geodésicos []. O único critério usado para que uma função seja uma Bidimensional imf (bimf) é uma versão bidimensional de desvio padrão (.). Uma analise espectral para o bemd foi proposto por Nu-nes et al [], substituindo a Transformada de Hilbert pela Transformada de Riesz para gerar os chamados sinais monogênicos, uma generalização bidimensional do sinal analítico. Porém, não abordaremos tal tema nesta tese.

Para evitar o alto custo computacional do bemd relacionado à interpolação por rbfs, foram propostos métodos para estimar o envelope médio usando order statistics filters[] e uma técnica baseada em elementos finitos [].

.

Motivação para emd em Grafos

Neste trabalho, estamos essencialmente interessados em decompor conjuntos de séries temporais. Embora a decomposição de cada série isoladamente, seguida de uma análise estatística, seja uma abordagem possível para analisar o conjunto como um todo, ilustraremos à seguir alguns problemas que surgem por não se levar em consideração que as séries estão relacionadas entre si.

Na Figura .(a) temos um sinal bidimensional F ∶ [,] _{→ R}_{, cujas bimfs e} tendência estão representadas nas Figuras.(b)–.(d). Para decompor este sinal utilizando o emd original, podemos reduzir o problema para um conjunto de da-dos unidimensionais, que são decompostos, e seus moda-dos, concatenada-dos. Ou seja, para cada coordenada x = m∆x, definimos fm[n] = F[m, n], onde fm[n] = fm(n∆y) e F[m,n] = F(m∆x,n∆y). Desta forma, cada sinal fm seria decomposto em um

conjunto de imfs e o k-ésimo modo bidimensional seria formado pela concatena-ção das k-ésimas imfs para cada fm (cf. Figura .). Definindo Nm como o

nú-mero de imfs encontradas para o m-ésimo sinal fm, então atribuiremos a função

nula à todos os imfs entre Nm+  e max(Nm). Analogamente, poderíamos tomar fn[m] = F[m, n] (cf. Figura.).

(29)

 Capítulo . Introdução

(a) imf (b) imf (c) imf (d) imf

(e) imf (f) imf (g) imf (h) imf

Figura .: Decomposição por emd unidimensional de sinal bidimensional. A imagem tem  linhas mas, apenas  delas tem  modos,  tem  modos e  tem . Atribuímos a função nula para as imfs das linhas com menos modos que a imf bidimensional concatenada.

Pelos resultados obtidos para as três decomposições (cf. Figuras.–.), per-cebemos instintivamente que a decomposição de um sinal intrinsecamente bidi-mensional através da decomposição isolada de fragmentos de tal sinal com o uso do emd original, resulta em imfs que, ao serem concatenadas em modos bidimen-sionais, não refletem os modos intrínsecos envolvidos na composição do sinal. Tal problema é causado pelo fato das relações existentes entre os elementos do domí-nio serem ignoradas, fazendo com que os modos obtidos ao final da decomposição não apresentem a correlação esperada entre dados próximos no domínio. De fato, os modos bidimensionais por concatenação nem mesmo são contínuos

Na primeira coluna da Figura.temos as matrizes de correlação para o con-junto de sinais {fm} representando as linhas da imagem na Figura., sendo que os valores da diagonal, originalmente valendo , foram substituídos por - para que fique mais claro os valores próximos à ela. Das matrizes de correlação,

(30)

ve-.. Motivação para emd em Grafos 

(a) imf (b) imf (c) imf (d) imf

(e) imf (f) imf (g) imf (h) imf (i) imf

Figura .: Decomposição por emd unidimensional de sinal bidimensional. A imagem tem  colunas mas, apenas  delas tem  modos,  tem  modos e  tem  modos. Atribuímos a função nula para as imfs das colunas com menos modos que a imf bidimensional concatenada.

mos claramente que existe uma grande correlação entre linhas sucessivas, devido à continuidade da imagem. Considerando a maior correlação entre cada sinal e o restante dos sinais, temos o histograma desses valores na segunda coluna da fi-gura. E na terceira coluna, temos um histograma da distância entre cada sinal e o sinal mais próximo a ele, ou seja, o que possui maior correlação. O histograma é simples e mostra que para cada sinal, seu vizinho mais próximo é o sinal imedia-tamente acima ou abaixo na imagem.

Como foi o caso neste exemplo, num mesmo modo normalmente teremos freqüên-cias características distintas e imfs misturadas com tendênfreqüên-cias. Além disso, em geral os números de imfs obtidos para as decomposições dos sinais fk não são

idênticos e, desta forma, a construção de modos bidimensionais fica confusa. Es-tendendo esse raciocínio para sinais de domínio tridimensional, o ideal seria efe-tuar uma generalização tridimensional do emd ao sinal, pois caso este seja

(31)

decom- Capítulo . Introdução

(a) (b) (c)

(d) (e) (f)

(g) (h) (i)

Figura .: Análise da correlação entre as linhas da Figura .(a)usando os coeficientes de cor-relação de Pearson (a–c), Kendall (d–f) e Spearman (g–j). Nas figuras (a,d,g), temos a matriz de correlação. Em (b,e,h), o histograma de maxM_{j =}corr(fi,fj), i = , . . . , M. E em (c,f,i), o histograma da distância entre cada série e a série com maior correlação.

posto em um conjunto de sinais uni ou bidimensionais, a decomposição sofreria dos mesmos problemas apresentados no caso bidimensional quando decomposto pelo método original unidimensional.

O que esse exemplo indica é que devemos decompor o sinal como um todo. Mas, nem sempre é fácil localizar o domínio de um sinal como sendo um sub-conjunto X ⊂ Rd_{. Para ilustrar essa questão, consideremos agora o caso de séries}

(32)

.. Motivação para emd em Grafos 

temporais com localização espacial. Na Figura ., temos o mapa da Tailândia_, no qual aparecem em destaque as capitais de cada província. Neste problema, estamos interessados em decompor o conjunto de séries temporais que indicam a incidência de dengue hemorrágica em cada província. Repare que como cada série é referente à uma província inteira, sua localização espacial não é óbvia. Uma al-ternativa seria considerar tal localização como sendo a capital de cada província. Desta forma, poderíamos localizar o domínio do sinal como sendo X ⊂ R_, for-mado pelo produto cartesiano da localização geográfica das capitais das provín-cias pelos instantes onde as séries são medidas. Desta forma, poderíamos efetuar a decomposição do sinal como um todo, como discutido anteriormente. Contudo, existe um problema nesta abordagem.

Ao considerarmos a localização das séries temporais por critérios geográficos, estamos, implicitamente, assumindo que a distância entre as séries temporais, no sentido de influência, é bem representada pelas distâncias geográficas entre suas posições. E tal afirmação é usualmente falsa. É provável que duas cidades geo-graficamente próximas uma da outra tenham uma distância grande do ponto de vista do sinal analisado. Por exemplo, dois grandes centros urbanos com grandes fluxos de frota viária, capital, pessoas, bens de consumo, etc, mesmo estando à uma distância grande um do outro, podem estar muito próximos do ponto de vista do sinal sendo analisado. E é claro, o inverso também pode ocorrer.

Situações ainda mais complicadas surgem quando não é possível atribuir uma localização espacial para uma série temporal. Um exemplo claro para tais casos encontra-se representado nas séries temporais dos valores das ações da bolsa de valores. Neste caso, temos um grande conjunto de séries temporais às quais não faz sentido atribuir uma localização geográfica, de forma que a capacidade de influência entre elas deve ser analisada sob outros critérios. Uma possibilidade seria utilizar a técnica desenvolvida por nós para representar séries temporais arbitrárias por grafos (cf. Seção .). Vejamos à seguir uma breve revisão sobre Teoria de Grafos e alguns conceitos introduzidos por nós.

(33)

 Capítulo . Introdução

.

Teoria de Grafos

Neste trabalho, estamos interessados especificamente em grafos ponderados co-nectados. Tais grafos são representados por uma tripla G = (V, E,w), onde V é o conjunto de vértices, E ⊂ V × V é o conjunto de arestas e w ∶ E → R define um peso real para cada aresta. As arestas eij ∈E são representadas por um par

eij = (vi,vj), vj,vk ∈V e neste caso, dizemos que vi e vj são vizinhos entre si. A

valência de um vértice é dada pelo número de arestas incidentes nele.

Dados dois grafos G = (V, E,w) e ̃G = (̃V, ̃E,w), se V ⊂ ̃̃ V, E ⊂ ̃E e w̃∣E= w, então diremos que G é um subgrafo de ̃G e escreveremos G ⊂ ̃G. Se G ⊂ ̃G e G contém todas as arestas eij ∈̃E com vi,vj ∈V, então G será um subgrafo induzido de ̃G.

Consideraremos grafos não-direcionados e sem laços, isto é, tais que eij ∈E ⇔

ej i∈E, i ≠ j . Devido à essas duas propriedades e se os pesos forem positivos,

tere-mos que

w(eij) > , ∀eij∈E, (.)

w(eij) = w(ej i), ∀eij∈E. (.)

Um caminho ligando vj à vk em G é uma seqüência ordenada de arestas Pj k=

(eii,eii,...,eim−im) ⊂ Em− , onde i= k e im= j , cujo comprimento é L(Pj k) =

m−

∑

k=

w(eikik+),

O menor comprimento para todos os possíveis caminhos conectando dois vér-tices vi,vj ∈V é denotado como sendo a distância dG(vi,vj) e definimos δG(vi,vj) como sendo o menor número de arestas necessárias para ligar dois vértices vi e vj

tal que o comprimento seja igual à distância, ou seja,

δ(vi,vj) = min

L(Pij)=dG(vi,vj) ∣Pij∣

(34)

.. Teoria de Grafos 

Se a distância for finita para todo par vi,vj ∈ V, o grafo é dito conectado e

se (vi,vj) ∈ E, ∀vi,vj ∈V, i ≠ j , ele será chamado de completamente conectado. Se o

grafo é conectado e levando em consideração as propriedades (.−.), sempre obteremos um espaço métrico (V,dG) induzido pelo grafo, como enunciado no teorema à seguir.

Teorema .. Dado um grafo ponderado não-direcionadoG = (V, E,w) e sua respectiva distância induzidadG∶ V × V → R, se G não contém laços e for conectado, então (V, dG) é um espaço métrico.

Demonstração. Pela definição de dG(⋅, ⋅), e uma vez que estamos supondo que G não tenha laços, que seja não-direcionado e que os pesos sejam positivos, concluí-mos, respectivamente, que para todo vi,vj ∈V, vi≠vj,

dG(vi,vi) = ,

dG(vi,vj) = dG(vj,vi), dG(vi,vj) > .

(.)

Supondo que G é um grafo conectado, temos que as distâncias são finitas e pela definição de dG(⋅, ⋅), vale a desigualdade triangular. Ou seja, para todo vi,vj,vk∈V,

dG(vi,vj) < ∞,

dG(vi,vj) ⩽ dG(vi,vk)+dG(vk,vj).

(.)

Pelas propriedades (.) e (.), concluímos que (V,dG) é espaço métrico.

Definição .. Dados dois grafos G = (V, E,w) e ̃G = (̃V, ̃E,w), onde G ⊂ ̃̃ G, diremos que G é um subgrafo induzido isométrico se G for induzido por ̃G e d_̃_G∣V= dG. Dados um grafo ̃_{G e um conjunto de índices I ⊂ {, ...,}∣̃V∣}, consideramos que o subgrafo G é gerado pelo Algoritmopara implementação e Figura.para exemplo).

(35)

 Capítulo . Introdução

Algoritmo Subgrafo Induzido Isométrico

Entrada: _{Grafo ̃}_{G = (̃}_{V, ̃}_E,_{w), conjunto de índices I ⊂ {, ...,}̃ ∣V∣} Saída: _{G ⊂ ̃}_{G, onde G é subgrafo induzido e d}

̃ G∣V= dG : _{V ← {v}i∈̃V; i ∈ I} : E ← {eij∈̃E; vi,vj ∈V} : w ←w̃∣E : enquanto d_G_̃∣V≠dGfaça : _{Ξ ← {(v}_i,vj) ∈ ̃V; d̃_G(vi,vj) < dG(vi,vJ)} : E ←[eij∈Ξ; δG(eij) = minekl∈ΞδG(ekl)]

: _{E ← E ∪ {e}_ij_{}, onde d}_G_̃_(v_i,vj) = minekl∈Ed_G̃(vk,vl) : finaliza enquanto

Neste trabalho, quando utilizamos a notação f ∶ G → R, estamos na verdade definindo uma função f ∶ V → R mas, tendo em mente que (V,dG) é um espaço métrico, dadas as restrições estabelecidas nesta Seção. Desta forma, podemos de-finir, por exemplo, funções radiais tais como f (vk) = exp(−dG(vk,v)).

Usando o fato de que a distância induzida por dG ser garantidamente uma

métrica dadas algumas restrições em G (cf. Teorema .), vamos propor o uso da distância induzida dG por um grafo G = (V, E,w) para calcular a interpolação de uma função f ∶ G → R por Funções de Base Radial (rbf). Como veremos no Capítulo, embora a existência e unicidade da solução em um caso tão geral não sejam garantidas, testes numéricos sugerem que tais propriedades são usualmente satisfeitas, além de outras que são importantes para que o método seja útil na ex-tensão do emd para grafos (gemd) (cf. Capítulo ). Na Subseção .., faremos uma breve descrição sobre o único método de que temos conhecimento que pro-duza interpolações em grafos. Antes, porém, descreveremos de maneira sucinta como visualizar funções definidas em grafos.

..

Visualização

Dado um grafo G = (V, E,w),∣V∣ = n, em geral não é possível encontrar um con-junto de pontos P = {p, ..., pn} ⊂ R tal que dG(vi,vj) =∥pi− pj∥. Além disso, às

(36)

.. Teoria de Grafos 

vezes algumas características da estrutura do grafo devem ser priorizadas em de-trimento de outras. Desta forma, existe um conjunto de algoritmos que encontram distribuições ̃P = {̃p, ...,̃pn} que sejam representações interessantes de G. Den-tre os softwares de visualização de grafos disponíveis, destacamos o Graphviz[], que disponibiliza diferentes algoritmos.

Uma vez que ̃P tenha sido determinado, o passo final na visualização de uma função definida em G é calcular as células de Voronoi [, Capítulo ]. Dado um conjunto de pontos distintos no plano ̃P = {̃p, ...,̃pn}, o diagrama de VoronoiV(̃P) de ̃P é definido como uma subdivisão do plano em n células, uma para cada ponto de ̃P, com a propriedade de que um ponto q pertence à célula correspondente a um pontõpi se e somente se∥q−̃pi∥<∥q−̃pj∥para todõpj ∈P com j ≠ i. Denotaremos

a célula associada à ̃pi porV(̃pi). Assim, escolhido um mapa de cores M ∶ R → R em rgb, podemos representar uma função f ∶ G → R pelas células de Voronoi {V(̃pi)} coloridas pelas cores M(f (V(̃p))), . . . , M(f (V(̃pn))) (cf. Figura.). No programa plotvoronoi.m (cf. Apêndice C..) temos uma implementação em Matlab.

Outra estrutura útil para a construção e visualização de grafos é a triangulação de DelaunayT (̃P)[, Capítulo ]. Ela é gerada pelo conjunto de triângulos forma-dos pelos segmentos de reta conectando cada vértice ̃pi ∈ ̃P a todos os vértices

̃pj ∈̃P, j ≠ i, tais que V(pi) eV(pj) tenham uma face em comum (cf. Figura.).

Os conceitos de células de Voronoi e triangulação de Delaunay podem ser es-tendidos de maneira natural à grafos. Dados um grafo G = (V, E,w) e um conjunto de índices I ⊂ {, ...,∣V∣}, definimos VI= {vi; vi ∈V, i ∈ I} e, desta forma,

V(vk) ={vi∈VI; dG(vi,vk) = min

j ∈I/{k}dG(vj,vk)}. (.)

Na Seção ., utilizaremos o conceito de vizinhança em VI, definido à partir das células de Voronoi em grafos:

(37)

 Capítulo . Introdução

No caso em que I = {, ...,∣V∣}, os vizinhos de um vértice vk em VI com k ∈ I

passa a ser simplesmente o conjunto de vértices vi tal que (vk,vi) ∈ E.

..

Interpolação em Grafos

Por definição, uma função harmônica f ∶ Ω ⊂ Rd_{→ R}_{, satisfaz}

∇f (x) = , x ∈ Ω.

Definindo !Ω como o contorno de Ω, se

f (x) = φ(x), para todo x ∈ !Ω,

para alguma condição de contorno φ ∶ !Ω → R, este é o problema de Dirichlet, cuja solução minimiza a integral de Dirichlet []:

D[f ] =

 ∫Ω∣∇f ∣

_dΩ. _(.)

A equação acima possui uma formulação combinatória [], que definiremos à seguir. Para tanto, lançamos mão da versão combinatória do operador de Laplace-Beltrami L ∈ R∣V∣×∣V∣, dado por L = ATCA, , onde C ∈ R∣E∣×∣E∣ é a matriz constitutiva, definida como sendo a matriz diagonal formada pelos pesos de cada aresta e A ∈ R∣E∣×∣V∣_{é análoga ao operador gradiente do cálculo vetorial:}

Aik= ⎧⎪⎪⎪⎪ ⎪⎪ ⎨⎪⎪⎪ ⎪⎪⎪⎩ +, se i = k, −, se j = k, , caso contrario, i ∈ I,k ∈ {, ...,∣V∣}, (.)

onde I é uma ordenação arbitrária das arestas do grafo.

(38)

.. Teoria de Grafos  Lij= ⎧⎪⎪⎪⎪ ⎪⎪ ⎨⎪⎪⎪ ⎪⎪⎪⎩ dvi, se i = j ,

−w(eij), se vi e vj são vértices adjacentes,

, caso contrario.

(.)

Assim, a formulação combinatória da integral de Dirichlet (.) fica sendo

D[u] = (Au)

T_{C(Au) =}  u

T_Lu. _(.)

L. Grady e E. L. Schwartz [] propuseram um método de interpolação em grafos usando a formulação combinatória da integral de Dirichlet - uma imple-mentação em Matlab está disponível em []. Dado um grafo conectado pon-derado G = (V, E,w), seu contorno é definido como sendo o conjunto de vértices para os quais a função f é conhecida antes da interpolação e o restante dos vérti-ces são chamados de interiores. Assim, dada uma função f ∶ G → R, as condições de contorno u_b são os valores conhecidos de f no grafo G e a interpolação é dada por u = (ub ui)T, onde ui são os valores de f nos vértices interiores, dados pela

minimização de (.).

Seja Ii e Ib ordenações arbitrária tal que ub= {f (vk); k ∈ Ib} e ui= {f (vk); k ∈ Ii},

podemos reescrever (.), sem perda de generalidade, como:

u =⎛ ⎝ ub ui ⎞ ⎠, L = ⎛ ⎝ Lb R RT _L_i ⎞ ⎠, (.)

onde os blocos Lb, Li e R são dados por

Lij k = Lvjvk, j ,k ∈ Ii,

Lbj k = Lvjvk, j ,k ∈ Ib,

Rj k = Lvjvk, j ∈ Ib,k ∈ Ii.

(39)

 Capítulo . Introdução D[u] = (u T b uiT) ⎛ ⎝ Lb R RT _L i ⎞ ⎠ ⎛ ⎝ ub ui ⎞ ⎠= ubTLbub+uiTRTub+uiTLiui.

Derivando D[u] em relação a ui e encontrando os pontos críticos,

minimiza-mos (.). Assim, obtemos o sistema linear

Liui= −RTub. (.)

Neste método, a solução é sempre garantida para qualquer grafo conectado e a solução é suave. Contudo, os valores dos pesos não são arbitrários. Na ver-dade, cada peso obedece uma relação especifica entre os valores que u assume nos vértices nos quais é incidente. Mais precisamente, dado um grafo conectado G = (V, E,w) e uma função u ∶ V → R, o peso para cada aresta (vi,vj) deve ser

w(vi,vj) = e−ǫ∣f (vi)−f (vj)∣, (.)

onde ǫ é um parâmetro de forma arbitrário.

Portanto, a função f deve ser conhecida em todos os vértices antes da interpola-ção ser aplicada. Além disso, os valores dos pesos w(ei) não podem ser arbitrários mas, obedecer à relação acima. Tais restrições tornam o método inadequado para varias aplicações.

Embora a interpolação em grafos seja uma ferramenta de grande potencial para aplicações em diversas áreas, não temos conhecimento de outros métodos além deste desenvolvido por Grady e Schwartz. Na próxima seção, apresentamos os conceitos básicos ligados à interpolação por Radial Basis Functions (rbf), que estenderemos no Capítulo  para o uso em grafos ponderados, onde apresenta-remos testes numéricos que indicam que a existência e unicidade da solução são normalmente satisfeitas, além de outras características importantes para seu uso na extensão do emd para grafos.

(40)

.. Funções de Base Radial ( rbf) 

Figura .: Interpolação pelo método de Grady e Schwartz. Em cima a esquerda, temos o grafo G e a direita, a imagem original definida no grafo. Em baixo, a esquerda, temos os pontos interiores removidos da imagem, ao centro, o resultado da interpolação isotrópica (todos os pesos iguais a ) e a direita, a interpolação com os pesos dados por (.). Extraído de [].

.

Funções de Base Radial (rbf)

A interpolação por Funções de Base Radial (rbf) de uma função f ∶ Ω ⊂ Rd _{→ R}

originalmente definida em n centros X = {x, ..., xn} é dada por uma combinação linear s ∶ Ω ⊂ Rd _{→ R}_, s(x) = n ∑ i= ciΦǫ(xi,x), x ∈ Rd, x ∈ Ω, (.)

onde as funções de base radial Φǫ(xi,x) ∶ Rd → R são definidas como translações

escalonadas de uma função básica φ ∶ R+→ R_{(cf. Tabela}_._{e Figura}_._):

(41)

 Capítulo . Introdução nome φ(r) m condição Gaussiana exp(−r₎ _ potência truncada ( − r)β₊  ⌈d/⌉+ < β multiquádrica inversa (r+)β/ _ _{ > β} multiquádrica (−)⌈β⌉_(+r₎β ⌈β⌉ _{ < β ∉ N} potência radial (−)⌈β/⌉_rβ ⌈β/⌉  < β ∉ N

thinplate splines (−)β+rβlogr β+ β ∈ N

Tabela .: Funções (condicionalmente) positiva definidas de ordem m

Os coeficientes ci na equação (.) devem ser escolhidos de forma que s(x)

satisfaça as n condições de interpolação:

s(xi) = f (xi), ∀xi∈X .

Em outras palavras, os coeficientes ci são a solução do sistema linear simétrico

Ac = b, onde b = [f (x), . . . , f (xn)]T, e A é a matriz de interpolação:

Aij = Φǫ(xi,xj), i, j = , ..., n. (.) Se a função básica φ(r) for definida positiva, ou seja, se a matriz de interpola-ção A for definida positiva para quaisquer que sejam x, ..., xn⊂ Rd, o sistema terá

solução única. Tal condição é satisfeita, e.g., para as funções Gaussiana, multiquá-drica inversa e de potência truncada (cf. Tabela. para listagem com condições e Figura.a para plots).

..

Parâmetro de Forma e Convergência

Uma característica marcante da interpolação por rbf é que ela normalmente é muito sensível à escolha do parâmetro de forma ǫ. Uma maneira de determinar um parâmetro de forma ótimo ǫ∗ _{é através da minimização do Erro Quadrático} Médio (Erms) para uma dada função φ(r) se a função original f é conhecida em todo o domínio Ω:

(42)

.. Funções de Base Radial ( rbf) 

Figura .: Funções básicas positiva definidas (esquerda) e condicionalmente definida positivas de ordem m (direita) Erms(ǫ) =[  ∣Ω∣ ∑x∈Ω [f (x) − s(x)]] _/ . (.)

O erro de interpolação Erms(ǫ∗) converge pra zero [, ] quando a distância

de preenchimentoh →  em uma taxa dependente da suavidade de f e φ, que pode ser exponencial para φ ∈ C∞ _[__{]. A distância de preenchimento é definida como} o raio da maior bola em Ω sem nenhum ponto deX em seu interior:

h ≐ h(X ,Ω) ≐ sup

x∈Ω

min

xi∈X∥x

i− x∥_.

Quando a função f não tem seus valores previamente definidos em Ω, existem alguns métodos para estimar um parâmetro de forma bom̃ǫ. Para o caso em que Ω ⊂ R e a função básica sendo empregada é a multiquádrica ou a multiquádrica inversa, Hardy[] sugerẽǫ = __.n ∑n_i=di, onde di é a distância euclidiana entre

xi e seu vizinho mais próximo. Posteriormente, Franke[] propôs̃ǫ = .√n/D,

onde D = maxx,y∈X∥x −y∥.

Uma estratégia mais geral e bem sucedida foi proposta por Rippa [] usando validação cruzada leave one−out, também conhecida como press (Predictive

(43)

REsi- Capítulo . Introdução

dual Sum of Squares). Neste caso,̃ǫ minimiza o erro Epress:

Epress(ǫ) =∥(c_A−_ ⋯ c_nA−_nn)∥

, (.)

onde c e A são dados por (.) e A−

kk é o k-ésimo elemento na diagonal de A−.

..

Extensões para rbf

Funções básicas que não são definida positivas, podem gerar matrizes de interpo-lação inversíveis com o uso de uma extensão polinomial, como veremos à seguir.

Sejam Pd

m− o espaço gerado por todos polinômios d-variados de grau máximo

m −  e p, ..., pm uma base para Pm−d , o interpolador com extensão polinomial

ficará sendo: s(x) = n ∑ i= ciΦǫ(xi,x)+ m ∑ j = djpj(x), (.)

Como a condição de interpolação s(xk) = f (xk), k = , . . . , N, implica num sis-tema com n equações lineares e n+m variáveis ci e dj, normalmente são

adiciona-das as m condições à seguir:

n

∑

j =

cjpi(xj) = ,  ⩽ i ⩽ m. (.)

Ou seja, agora temos o sistema estendido

⎛ ⎝ A P PT _O ⎞ ⎠ ⎛ ⎝ c d ⎞ ⎠= ⎛ ⎝ b  ⎞ ⎠, (.)

onde c = [c, ..., cn]T e d = [d, ..., dm] são os coeficientes a serem encontrados, A é dado por (.), b = [f (x), . . . , f (xn)]T, O é a matriz nula M × M e Pj l = pl(xj), j = , ..., n, l = , ..., m.

O sistema (.) terá solução caso

(44)

.. Funções de Base Radial ( rbf) 

As funções que satisfazem (.) para qualquer x, ..., xn⊂ Rdsão chamadas de

condicionalmente positiva definidas de ordem m. Na Tabela . temos algumas das funções condicionalmente positivas definidas mais usadas. Uma implemen-tação em Matlab para interpolação por rbf em dados esparsos com suporte a extensão polinomial foi disponibilizada por Alex Chirokov [].

Em todos os resultados mencionados até agora, a norma euclidiana foi usada. Contudo, foi demonstrado [] que a matriz de interpolação A sempre terá uma solução única para qualquer X ⊂ Rd _{caso seja utilizada a função básica φ(r) = r e a}

norma em (.) seja uma p-norma com p ∈ (,]. Caso contrario, existe sempre a possibilidade de que A ser singular. Infelizmente este resultado ainda não possui nenhuma extensão para outras funções básicas.

Contudo, se os dados sendo interpolados estão na esfera, uma alternativa é usar as Spherical Basis Functions (sbf) [, Seção .]. Neste caso, a norma na equação (.) representa a distância geodésica. Um exemplo de uma função es-tritamente positiva definida neste caso é a recíproca esférica da multiquádrica:

φ(r) = (+λ− λ cos r)−/,  < λ <  (.) No nosso caso, estamos interessados em efetuar a interpolação por rbf na situ-ação muito mais geral de grafos ponderados com arestas e pesos positivos arbitrá-rios (cf. Seção .). Como vimos anteriormente (cf. Seção..), o único método do qual temos conhecimento para esta finalidade, possui características que im-possibilitam seu uso na extensão do emd (cf. Seção..) para grafos, incluindo o fato de que o valor dos pesos das arestas não ser arbitrário.

No próximo capítulo, apresentaremos uma extensão da interpolação por rbf à grafos, onde a norma euclidiana em (.) é substituída pela distância induzida pelo grafo. Além de um estudo numérico do comportamento da interpolação, apresentamos uma técnica para perturbar a matriz de interpolação (.), de forma que a solução exista e seja única.

(45)

Capítulo 

rbf em Grafos (grbf)

Dado um grafo conectado não orientado G = (V, E,w) e um conjunto de índices I ⊂ {, ...,∣V∣}, estamos interessados em interpolar uma função f ∶ VI → R, onde

VI = {vi ∈V; i ∈ I} ⊂ V. Se usarmos o fato de que para tais grafos, (V,dG) é um espaço métrico (cf. Seção.), poderíamos substituir a norma∣∣⋅∣∣ na equação (.) pela métrica induzida pelo grafo dG. Isso nos daria uma função interpoladora s ∶ V → R,

s(vk) =∑ i∈I

ciΦǫ(vi,vk), (.)

onde as funções de base radial Φǫ(vi,vk) são agora definidas por

Φǫ(vi,vj) = φǫ(dG(vi,vj)) = φ(ǫdG(vi,vj)), i ∈ I, j = , ..., n. (.) A existência de tal interpolação está condicionada à inversibilidade da matriz de interpolação A. Seja I = {k, ..., kn},

Aij= Φǫ(vki,vkj), i,j = , ..., n. (.)

Dada a grande generalidade dos grafos conectados, não nos estenderemos na determinação das hipóteses necessárias à E, w e φ tal que a matriz de interpola-ção seja inversível. Contudo, enfatizamos que para todos os milhares de testes

(46)

 Capítulo . rbf em Grafos ( grbf)

realizados, não encontramos nenhuma matriz singular. Porém, tal situação pode ocorrer devido a simetrias subjacentes ao problema (cf. Seção.).

Outra questão relacionada ao uso de interpolação por rbf em grafos está rela-cionada à convergência do erroErms quando a distância de preenchimento h → , a qual nós agora definimos como

h ≐ h(I, G) ≐ max

i∈I minvi∈V

dG(vi,vj). (.)

Dos experimentos na Seção., analisaremos a taxa de convergência para uma ampla gama de combinações de grafos e funções básicas.

A última questão relacionada ao uso de rbf em grafos é a determinação de um bom parâmetro de formãǫ, que seja próximo ao parâmetro de forma ótimo ǫ∗_, o qual minimiza o erro quadrático médio ERMS. Nós usaremos uma versão para grafo do método press redefinindoEpress(.) eErms (.) como

Epress(ǫ) = ∥(c/A−_, ..., c_n/A−_nn)∥_, (.) Erms(ǫ) = ⎡⎢ ⎢⎢ ⎢⎣  ∣V∣ ∑v_k∈V [f (vk) − s(vk)]⎤⎥⎥⎥ ⎥⎦ _/ . (.)

onde A e b são dados por (.), A−

kk é o k-ésimo elemento da diagonal de A−e c é

a solução do sistema Ac = b.

Para verificarmos o quão satisfatórios são os parâmetros de formãǫ encontra-dos pela minimização deEpress, comparamos com o parâmetro de forma ótimo ǫ∗_, bem como os erros associados. Como é o caso para a interpolação clássica por rbf, as características mais importantes são que as curvasE_rmssejam similares às curvasEpresse que ambas sejam suaves o suficiente para que as estimativas de ǫ∗ por̃ǫ sejam razoáveis.

(47)

.. Matrizes de Interpolação Singulares 

.

Matrizes de Interpolação Singulares

Nesta seção, trataremos dos casos em que a matriz de interpolação A (.) é sin-gular. Para tanto, usaremos os resultados de Baxter [], onde o autor sugere um método para perturbar funcionais de distância ∆ ∶ Rd_×Rd_{→ R}_{, de forma que a}

ma-triz de distâncias A ∈ Rn×n_{, A}

ij = Φǫ(∆(xi,xj)), passe a ser Euclidiana, onde Φǫ(⋅, ⋅) é dada por (.). Começaremos reformulando o Teorema . [] para o caso de grafos.

Teorema .. Dado um grafo não-direcionado ponderado conectadoG = (V, E,w) e um conjunto de índicesI ⊂ {, ...,∣V∣} e seja sua distância induzida dG∶ V×V → R. Usando dG(⋅, ⋅), definimos a matriz de distâncias D ∈ R∣I∣×∣I∣,D_{j k}_{= dG(v}_j,v_k_{), j , k ∈ I.}

Tomando algumn ∈ I, e qualquer constante positiva µ satisfazendo

µ > µmin= max ⩽j ⩽∣I∣ j ≠n ⎛ ⎝−Dj n+ ∣I∣ ∑ k=,k≠j ∣Dj n+ Dkn− Dj k∣.⎞ ⎠ (.)

Então a distância induzida pelo grafo modificada ̂dG∶ V × V → R, definida por

̂ dG(vi,vj) = ⎧⎪⎪⎪⎪ ⎪⎪ ⎨⎪⎪⎪ ⎪⎪⎪⎩ dG(vi,vj) = , ifi = j dG(vi,vj)+µ/, if i ≠ j, i = n dG(vi,vj)+µ, ifi ≠ j , i,j ≠ n (.)

gera uma nova matriz funcional de distância ̂D Euclidiana.

Demonstração. Para as hipóteses assumidas, a distância induzida pelo grafo d_G∶ V × V → R é uma métrica no conjunto de vértices V (cf. Teorema.). Portanto, dG(vi,vj) = dG(vj,vi), ∀vi,vj ∈V e dG(vi,vi) = , ∀vi ∈V. Desta forma, dGsatisfaz as hipóteses do Teorema . de []

Embora no teorema acima, µ pode ser escolhido como sendo qualquer valor que satisfaça (.), algum cuidado deve ser tomado na sua escolha. Considerando que um sistema de pontos flutuantes esteja sendo utilizado, o que costuma ser o

(48)

 Capítulo . rbf em Grafos ( grbf)

caso, começamos propondo definir µ como µmin+ eps(µmin), onde eps(x) indica a distância entre x e o próximo número representável após ele. Mas, este palpite ainda pode ser falho devido aos erros de arredondamento nas adições realizadas em (.). Para encontrar o menor µ possível que evite todas os possíveis erros de representação na aritmética de ponto flutuante em (.) e satisfaça (.), utiliza-remos

µ = max ⎛ ⎜⎜

⎝µmin+eps(µmin), max⩽i,j ⩽∣I∣ i,j ≠n eps(Dij), max ⩽j ⩽∣I∣ j ≠n eps(Dnj) ⎞ ⎟⎟ ⎠. (.) A utilidade do Teorema. está no fato de que uma vez que ̂D é uma matriz Euclidiana, existem z, ..., zn∈ Rd, para algum d, tal que

∥zj− zk∥_= ̂Dj k

Desta forma, se estivermos utilizando alguma função básica φ(r) estritamente definida positiva, e.g. a Gaussiana, a matriz de interpolação A (.) será inversível.

Uma desvantagem significativa do teorema original é que o funcional de dis-tância perturbado não é uma função contínua. Contudo, este problema não é rele-vante quando se trata de grafos, uma vez que o conceito de continuidade deixa de fazer sentido. Contudo, testes numéricos sugerem que ̂dGdefinido como em (.) pode levar a resultados decepcionantes, os quais não estão relacionados de forma alguma com o fato de estarmos considerando o funcional de distância dG(⋅, ⋅). Ilus-traremos este problema com dois exemplos.

No primeiro, consideramos uma situação simples descrita em [], a qual pode ser representada por um grafo gerado por um quadrado unitário: V consiste dos quatro vértices, o conjunto de arestas E é formado pelos lados do quadrado e w(eij) = , ∀eij ∈E. Claramente este grafo satisfaz as hipóteses do Teorema. e

(49)

.. Matrizes de Interpolação Singulares 

(a) cond(̂D(k)

) (b) ∥D − ̂D(k)

∥_max

Figura .: Considerando a matriz D dada em (.), µ por (.) e ̂D(k)por (.) usando µ(k)_{= kµ,}

temos os gráficos para cond(̂D(n)

) e ∥D − ̂D(k)

∥max, com k indo de  à .

D = ⎛ ⎜⎜ ⎜⎜ ⎜⎜ ⎝                 ⎞ ⎟⎟ ⎟⎟ ⎟⎟ ⎠ , (.)

a qual é singular, uma vez que a soma da primeira e terceira colunas é igual à soma da segunda e quarta colunas.

Usando (.), encontramos µ = eps() ≃ . × − _{e por (}_._{), encontramos} a matriz perturbada ̂D ∈ R∣I∣×∣I∣,

̂D= ⎛ ⎜⎜ ⎜⎜ ⎜⎜ ⎝

 +eps() +eps() +eps() +eps()  +eps() +eps() +eps() +eps()  +eps() +eps() +eps() +eps() 

⎞ ⎟⎟ ⎟⎟ ⎟⎟ ⎠ .

De fato, ̂D é uma matriz inversível com um alto número de condicionamento, cond( ̂D) ≃ . × _{. Para diminuir o condicionamento da matriz, podemos} de-finir iterativamente D = ̂D e encontrar um novo ̂D. Ou seja, definimos ̂D()= D e ̂D(k+) _{é gerado pela perturbação de ̂}_D(k)_{. Tal iteração faz sentido, uma vez que}