• Nenhum resultado encontrado

Um Modelo de Correlação Oscilatória para Classificação Semi-Supervisionada

N/A
N/A
Protected

Academic year: 2021

Share "Um Modelo de Correlação Oscilatória para Classificação Semi-Supervisionada"

Copied!
12
0
0

Texto

(1)

Um Modelo de Correlac¸˜ao Oscilat´oria para

Classificac¸˜ao Semi-Supervisionada

Marcos G. Quiles1, M´arcio P. Basgalupp1, Rodrigo C. Barros2

1Instituto de Ciˆencia Tecnologia – Universidade Federal de S˜ao Paulo (UNIFESP) S˜ao Jos´e dos Campos – S˜ao Paulo – Brasil

2Instituto de Ciˆencias Matem´aticas e de Computac¸˜ao – Universidade de S˜ao Paulo (USP) S˜ao Carlos – S˜ao Paulo – Brasil

{quiles,basgalupp}@unifesp.br, rcbarros@icmc.usp.br

Abstract. This paper presents a new semi-supervised classification algorithm based on the oscillatory correlation theory. In this approach, the data set is converted into a network whose nodes represent the samples, and edges the similarity among these samples. Each node in the network is modeled by an oscillator. The network clustering is given by the oscillators synchronization phenomenon, whereas the separation of oscillators that represent distinct clus-ters is induced by a global inhibitor. The previously labeled objects make use of the synchronization dynamics in order to propagate labels among their neigh-bors. Experiments performed with the proposed approach have shown promis-ing results in a variety of data sets. It has shown to be capable of eventually outperforming traditional methods in the literature.

Resumo. Este trabalho apresenta um novo algoritmo para classificac¸˜ao semi-supervisionada baseado na teoria da correlac¸˜ao oscilat´oria. Nesse modelo, o conjunto de dados ´e transformado em uma rede na qual os v´ertices representam os exemplos e as arestas a relac¸˜ao de similaridade entre esses exemplos. Cada v´ertice da rede ´e modelado por um oscilador. A formac¸˜ao dos agrupamentos na rede ´e obida a partir do fenˆomeno de sincronizac¸˜ao entre os osciladores enquanto a separac¸˜ao entre osciladores que representam grupos distintos ´e in-duzida por um inibidor global. Paralelamente aos fenˆomenos de sincronizac¸˜ao e dessincronizac¸˜ao provenientes da teoria da correlac¸˜ao oscilat´oria, os exemplos pr´e-rotulados utilizam a dinˆamica de sincronizac¸˜ao para efetuar a propagac¸˜ao dos r´otulos entre seus vizinhos. Experimentos realizados com o modelo pro-posto apresentam resultados promissores para diferentes tipos de conjuntos de dados, superando, em alguns casos, os m´etodos tradicionais da literatura.

1. Introduc¸˜ao

A grande massa de dados produzida pelas pesquisas contemporˆaneas ´e um fato sem prece-dentes na hist´oria das ciˆencias. Tais dados s˜ao provenientes de diversas fontes, tais como simulac¸˜oes computacionais, textos da internet, an´alise de sinais e imagens biom´edicas, dados do genoma, estudo da estrutura e dinˆamica de redes complexas, dentre outras. Com o objetivo de facilitar o trabalho dos especialistas em seus respectivos dom´ınios ou mesmo de avaliar os dados para obtenc¸˜ao de resultados de forma autˆonoma, diver-sas t´ecnicas computacionais tˆem sido propostas na literatura utilizando conceitos de ´area denominada Aprendizado de M´aquina [Mitchell 1997, Duda et al. 2000, Bishop 2006].

Tradicionalmente, o processo de aprendizagem, ou seja, a aquisic¸˜ao de conhec-imento pelos modelos de aprendizado de m´aquina, pode ocorrer de duas formas: pelo Aprendizado N˜ao-Supervisionado e pelo Aprendizado Supervisionado [Mitchell 1997,

(2)

Bishop 2006]. No aprendizado n˜ao-supervisionado, a principal tarefa est´a no agrupa-mento de dados segundo algum crit´erio de similaridade bem estabelecido, e pode-se dizer que o processo ´e guiado pelos dados, pois n˜ao h´a a necessidade de um conhecimento pr´evio sobre as classes existentes [Mitchell 1997]. J´a no aprendizado supervisionado o objetivo ´e induzir conceitos a partir de exemplos (objetos) previamente rotulados, ou seja, exemplos cujas classes s˜ao conhecidas previamente. Nessa forma de aprendizado, con-tudo, ´e necess´aria uma grande quantidade de dados rotulados a fim de aumentar as chances de encontrar um modelo satisfat´orio para o problema.

De maneira geral, o processo de aquisic¸˜ao de dados demanda um custo computa-cional relativamente baixo. No entanto, dependendo do dom´ınio do problema, rotular manualmente os dados ´e que pode tornar o processo custoso, e esse custo n˜ao se restringe apenas a tempo de execuc¸˜ao, mas, em muitos casos, pode tamb´em ser custoso financeira-mente, principalmente devido `a demanda de especialistas das ´areas para realizarem esse trabalho.

Nesse sentido, foi estabelecida uma nova forma de aprendizagem denominada Aprendizado Semi-supervisionado [Zhu 2008, Chapelle et al. 2006]. Nesse processo de aprendizagem, apenas um pequeno n´umero de exemplos rotulados ´e utilizado para a construc¸˜ao dos modelos de aprendizado. Assim, para a construc¸˜ao de um classificador, por exemplo, n˜ao h´a a necessidade de rotular previamente todos os dados, diminuindo consideravelmente o custo.

Diversas abordagens tˆem sido utilizadas para o desenvolvimento de t´ecnicas de aprendizado semi-supervisionado e, dentre essas, as t´ecnicas baseada em redes (grafos), t´opico abordado neste trabalho, tˆem recebido maior atenc¸˜ao nos ´ultimos anos [Zhu 2005, Chapelle et al. 2006, Wang & Zhang 2008, Xu et al. 2010, Nie et al. 2010, Gui et al. 2010, Fan et al. 2011, Liu et al. 2010, Wang et al. 2010, Breve et al. 2012]. A caracter´ıstica principal dessas t´ecnicas est´a na forma como os dados s˜ao representados: os v´ertices da rede representam os exemplos e as arestas correspondem `as distˆancias (simi-laridade) entre os exemplos.

Contudo, a maioria das t´ecnicas baseadas em redes ´e em essˆencia transdutiva, ou seja, visa somente rotular os exemplos n˜ao rotulados j´a presentes no conjunto de treina-mento. Tal fato acarreta na necessidade de um novo processo de treinamento que con-sidere o surgimento de novos exemplos, incorporando-os dinamicamente `a base de dados. Em [Quiles et al. 2010] foi proposto esse novo processo de treinamento por meio de um modelo de classificac¸˜ao semi-supervisionada baseado na sincronizac¸˜ao de neurˆonios em rede. Nesse modelo, cada v´ertice (exemplo) da rede ´e representado por um neurˆonio do tipo Integra e Dispara, e o fenˆomeno da sincronizac¸˜ao entre grupos de neurˆonios ´e utilizado para propagar os r´otulos entre os exemplos.

Embora os resultados apresentados em [Quiles et al. 2010] tenham sido con-siderados muito bons, superando muitos dos algoritmos tradicionais analisados em [Chapelle et al. 2006], duas principais limitac¸˜oes ainda s˜ao observadas: i) os neurˆonios s˜ao descritos por equac¸˜oes diferenciais que necessitam de integrac¸˜ao num´erica; ii) n˜ao ex-iste crit´erio de parada estabelecido; e iii) o grau m´edio da rede necess´ario para um bom de-sempenho do modelo ´e alto. Neste trabalho, ´e proposto um novo modelo de classificac¸˜ao semi-supervisionada baseado na teoria da correlac¸˜ao oscilat´oria. Mais especificamente, um algoritmo r´apido de propagac¸˜ao de r´otulos extra´ıdo do modelo LEGION (Locally Excitatory Globally Inhibitory Network) proposto em [Terman & Wang 1995] ´e apresen-tado. Como ser´a descrito ao longo do texto, esse novo modelo soluciona as limitac¸˜oes observadas em [Quiles et al. 2010] al´em de fornecer uma nova aplicac¸˜ao da teoria da correlac¸˜ao oscilat´oria.

(3)

O restante do texto est´a organizado da seguinte forma. Na Sec¸˜ao 2, ´e feita uma descric¸˜ao do modelo LEGION, que ´e base do presente trabalho. A Sec¸˜ao 3 descreve o processo de formac¸˜ao da rede a partir do conjunto de dados e o algoritmo proposto. Os experimentos e resultados s˜ao apresentados na Sec¸˜ao 4. Por fim, a Sec¸˜ao 5 fornece as principais conclus˜oes deste trabalho bem como algumas direc¸˜oes futuras de investigac¸˜ao.

2. Modelo LEGION

Segundo [von der Malsburg 1981], investigac¸˜oes das func¸˜oes cerebrais e da organizac¸˜ao perceptual indicam um mecanismo de correlac¸˜ao temporal como uma estrutura de representac¸˜ao (codificac¸˜ao temporal). A teoria de correlac¸˜ao temporal define que um exemplo ´e representado pela correlac¸˜ao temporal dos disparos (potenciais de ac¸˜ao) de c´elulas neurais espacialmente distribu´ıdas, as quais representam diferentes caracter´ısticas de um mesmo exemplo. Por outro lado, neurˆonios codificando caracter´ısticas de exemplos distintos n˜ao possuem suas atividades correlacionadas.

Uma maneira natural de realizar a correlac¸˜ao temporal ´e por meio do uso de osciladores [Terman & Wang 1995]. Assim, cada oscilador pode representar um con-junto de caracter´ısticas (cor, orientac¸˜ao, movimento, profundidade, etc. [Wang 2005]) de tal forma que cada segmento (exemplo) ´e representado por um conjunto de osciladores com atividades s´ıncronas, enquanto segmentos distintos s˜ao representados por grupos de osciladores fora de sincronia. Essa forma especial da correlac¸˜ao temporal ´e denomi-nada teoria da Correlac¸˜ao Oscilat´oria [Terman & Wang 1995]. Nesse caso, as carac-ter´ısticas s˜ao representadas por osciladores e o problema da integrac¸˜ao ´e solucionado pela sincronizac¸˜ao e dessincronizac¸˜ao entre os osciladores neurais [Wang 2005].

Segundo [Terman & Wang 1995], dois aspectos principais podem ser estabele-cidos sobre a correlac¸˜ao oscilat´oria. Primeiro, a sincronizac¸˜ao de osciladores que rep-resentam caracter´ısticas de um mesmo exemplo deve ser estabelecida. Segundo, a dessincronizac¸˜ao entre grupos de osciladores distintos deve ser realizada, sendo que um dos maiores desafios no desenvolvimento de modelos de correlac¸˜ao oscilat´oria est´a na implementac¸˜ao simultˆanea desses dois mecanismos totalmente antagˆonicos [Wang 2005]. Com o objetivo de estabelecer uma teoria formal da correlac¸˜ao oscilat´oria, [Wang & Terman 1995] propuseram uma arquitetura de rede de osciladores localmente acoplados denominada LEGION (Locally Excitatory Globally Inhibitory Oscillator Net-works), a qual foi extensivamente analisada em [Terman & Wang 1995].

O modelo LEGION ´e uma arquitetura para modelos de Correlac¸˜ao Oscilat´oria muito utilizada nos ´ultimos anos. Wang e seus colaboradores tˆem aplicado o LE-GION em diversas tarefas, tais como: estudo num´erico e anal´ıtico da dinˆamica de os-ciladores acoplados [Terman & Wang 1995, Campbell et al. 1999], segmentac¸˜ao de im-agens [Wang & Terman 1997, Campbell et al. 1999], selec¸˜ao de objetos [Wang 1999, Quiles et al. 2011], dentre outras [Wang 2005].

A arquitetura LEGION, em sua forma b´asica, ´e composta de trˆes elementos prin-cipais: osciladores neurais, acoplamentos excitat´orios locais e um inibidor global. Os acoplamentos excitat´orios locais tˆem como finalidade sincronizar os grupos de osciladores representando cada um dos objetos presentes na cena visual. Por outro lado, o inibidor global tem como func¸˜ao gerar a dessincronizac¸˜ao entre os grupos de osciladores. Dessa forma, a rede cria um mecanismo de cooperac¸˜ao local e competic¸˜ao global que s˜ao os dois requisitos necess´arios para a implementac¸˜ao da correlac¸˜ao oscilat´oria. Em sua pro-posta original, o modelo LEGION [Terman & Wang 1995, Wang & Terman 1995] ´e for-mado por uma rede de osciladores de relaxamento, sendo que cada oscilador ´e composto por uma vari´avel excitat´oria xi e uma vari´avel inibit´oria yi, as quais s˜ao definidas pelas Equac¸˜oes (1a) e (1b).

(4)

˙xi = 3xi− x3i + 2 − yi+ Ii+ Si+ ρ (1a) ˙

yi = (α(1 + tanh(xi/β)) − yi) (1b)

sendo Ii o est´ımulo externo ao oscilador i, Si o acoplamento com os demais osciladores da rede,  uma constante positiva com valor pequeno, e ρ o sinal de ru´ıdo cuja finalidade ´e testar a robustez do modelo e auxiliar a dessincronizac¸˜ao de padr˜oes distintos. Se Ii for definido como uma constante e os termos Si e ρ eliminados, as Equac¸˜oes (1a) e (1b) formam um t´ıpico oscilador de relaxamento.

A Figura 1 apresenta as is´oclinas nulas1 e a trajet´oria de um oscilador definido pelas Equac¸˜oes (1a) e (1b), sendo a is´oclina nula de x uma func¸˜ao c´ubica e a is´oclina nula de y uma func¸˜ao sigmoide. Se h´a est´ımulo externo recebido por um oscilador, Ii > 0, as is´oclinas nulas de x e y das Equac¸˜oes (1a) e (1b) se intersectam em apenas um ponto. Nesse caso, o estado do oscilador ´e denominado disparando e uma dinˆamica de ciclo lim-ite est´avel ´e observada (Figura 1a). A ´orbita peri´odica do oscilador alterna entre duas fases bem definidas denominadas fase ativa e fase de silˆencio, que correspondem `as fases com alto e baixo valores de x, respectivamente (ver Figura 1a). Isso significa que analisando apenas o valore de x ´e poss´ıvel verificar se um oscilador est´a ou n˜ao disparando. Essa informac¸˜ao ´e utilizada na derivac¸˜ao do algoritmo apresentado na Sec¸˜ao 3.2. A transic¸˜ao entre as duas fases ocorre rapidamente em comparac¸˜ao ao movimento interno observado em cada fase, e, por essa raz˜ao, a transic¸˜ao entre as fases ativa e de silˆencio ´e denominada salto de fase (jumping). O parˆametro α controla quanto tempo o oscilador permanece em cada uma dessas fases. Quando n˜ao h´a est´ımulo externo recebido pelo oscilador, Ii < 0, as duas is´oclinas nulas das Equac¸˜oes (1a) e (1b) se intersectam em um ponto de equil´ıbrio est´avel no lado esquerdo da func¸˜ao c´ubica (ver Figura 1b). Nesse caso, o oscilador n˜ao produz uma ´orbita peri´odica e nenhuma oscilac¸˜ao ´e observada. Entretanto, o oscilador pode ser induzido a oscilar por meio de est´ımulos recebidos por acoplamentos com os-ciladores vizinhos. Devido a essa caracter´ıstica, nesse estado o oscilador ´e denominado excit´avel. O parˆametro β controla a inclinac¸˜ao da func¸˜ao sigmoide. Normalmente β ´e configurado com um valor pr´oximo a zero de tal forma a aproximar a func¸˜ao sigmoide de uma func¸˜ao degrau [Terman & Wang 1995].

Fase Ativa Fase de Silêncio y x

x = 0

.

y = 0

.

RK LK (a) y x

x = 0

.

y = 0

.

(b)

Figura 1. Din ˆamica de um oscilador de relaxamento. (a) Comportamento de um oscilador no estado disparando. A trajet ´oria ´e definida por um ciclo limite representado pela curva em negrito e as seta indicam a direc¸ ˜ao do movimento. (b) Comportamento din ˆamico de um oscilador no estado excit ´avel. Nesse caso, um ponto fixo est ´avel ´e observado e ´e indicado por um ponto no lado esquerdo inferior do gr ´afico.

O acoplamento do sistema representado por Si ´e definido pela seguinte equac¸˜ao:

(5)

Si = X

k∈Ni

wikH(xk− θx) − wzH(z − θz) (2)

em que wik ´e definido como a forc¸a de acoplamento entre os osciladores i e k, Nidefine a vizinhanc¸a de interac¸˜ao do oscilador i, representada pelos osciladores que fazem conex˜ao direta com ele. O parˆametro θx ´e um limiar que indica se um oscilador pode ou n˜ao afetar seus vizinhos. Normalmente, θx ´e escolhido entre a fase de silˆencio e a fase ativa do oscilador. wz define a forc¸a de ligac¸˜ao entre o oscilador i e o inibidor global definido por z. θz ´e um limiar. A func¸˜ao H(v) ´e a func¸˜ao de Heaviside definida por H(v) = 1 se v ≥ 0 e H(v) = 0 caso contr´ario.

A dinˆamica do inibidor global z ´e definida pela Equac¸˜ao (3).

˙z = φ(σ∞− z) (3)

em que o parˆametro φ controla a velocidade com que o inibidor global reage a sinais provenientes dos osciladores da rede, σ∞ ≡ 0 se xi < θx para todo i. Por outro lado, σ∞ ≡ 1 se pelo menos um oscilador xi ≥ θx. Nesse caso, se pelo menos um oscilador estiver acima do limiar, o inibidor global z ´e estimulado e se aproxima de 1, passando a atuar como inibidor na rede assim que z superar o limiar θz(Equac¸˜ao (2)).

De uma forma geral, a dinˆamica da rede pode ser resumida da seguinte forma: quando um oscilador entra na fase ativa, ele aciona o inibidor global que por sua vez en-via um sinal de inibic¸˜ao para toda a rede, conforme descrito pelas Equac¸˜oes (1)-(3). Al´em disso, o oscilador que entra na fase ativa tamb´em propaga o seu sinal para os seus respec-tivos vizinhos, os quais continuam o processo. Assim, a rede apresenta uma forma coop-erativa de ativac¸˜ao local, enquanto o inibidor se responsabiliza pela competic¸˜ao global. O inibidor global pode ser interpretado como uma esp´ecie de mecanismo de atenc¸˜ao, no qual, uma vez que um segmento est´a ativo, os demais s˜ao inibidos. Entretanto, em sua forma original, o modelo apresenta uma limitac¸˜ao referente ao n´umero m´aximo de seg-mentos que podem ser obtidos pela rede [Terman & Wang 1995, Wang & Terman 1997]. Considerando essa limitac¸˜ao, em [Wang & Terman 1997] foi proposto um algoritmo para segmentac¸˜ao de imagens extra´ıdo do sistema de equac¸˜oes diferenciais do modelo LE-GION, no qual as propriedades essenciais do modelo s˜ao mantidas. O modelo aqui pro-posto faz uso da mesma abordagem utilizada em [Wang & Terman 1997], ou seja, um algoritmo r´apido para simular o comportamento da rede ´e utilizado em vez da integrac¸˜ao num´erica dos osciladores originais.

Al´em do modelo utilizando osciladores de relaxamento descrito acima, a arquite-tura LEGION tamb´em foi implementada utilizando outros modelos de osciladores neu-rais, como os osciladores Wilson-Cowan [Campbell & Wang 1996] e neurˆonios Integra e Dispara [Campbell et al. 1999, Quiles et al. 2009].

3. Modelo Proposto

O modelo LEGION considera uma vizinhanc¸a de cooperac¸˜ao local, Equac¸˜ao (2), que ´e respons´avel pelo fenˆomeno de sincronizac¸˜ao observado na rede. Assim, a formac¸˜ao dessa vizinhanc¸a (gerac¸˜ao da rede) entre os exemplos do conjunto de dados representa a primeira fase do processo de classificac¸˜ao. Um vez que a rede ´e definida, a dinˆamica dos osciladores neurais ´e iniciada e a sincronizac¸˜ao entre elementos (exemplos) vizinhos pode ser observada. Paralelamente, conforme descrito pela teoria da correlac¸˜ao oscilat´oria, gru-pos de v´ertices representando exemplos distantes tˆem suas trajet´orias dessincronizadas no tempo pelo inibidor global. A propagac¸˜ao de r´otulos (classificac¸˜ao) se torna uma con-sequˆencia natural do fenˆomeno de sincronizac¸˜ao entres os osciladores vizinhos, no qual o

(6)

oscilador representando um v´ertice pr´e-rotulado propaga essa informac¸˜ao ao v´ertices em sincronia com ele.

Nas pr´oximas sec¸˜oes s˜ao descritos o processo de formac¸˜ao da rede e o algoritmo extra´ıdo da dinˆamica do modelo LEGION.

3.1. Gerac¸˜ao da Rede e Dinˆamica do Modelo Proposto

Seja um conjunto de dados representado por um conjunto de vetores de atributos S = {s1, s2, ..., sn} e um conjunto de r´otulos L = {1, 2, ...c}, no qual n e c representam re-spectivamente o n´umero de exemplos e de classes. No contexto do aprendizado semi-supervisionado, o conjunto de dados S ´e dividido em dois subconjuntos: o subconjunto dos exemplos pr´e-rotulados Sl = {s1, s2, ...sl} e o subconjunto dos exemplos n˜ao rotu-lados Su = {sl+1, sl+2, ..., sn}. Cada exemplo si pertencente ao conjunto Sl possui um r´otulo associado li ∈ L.

A gerac¸˜ao da rede G = (V, E) para um dado conjunto de dados S consiste na representac¸˜ao de cada exemplo si em um v´ertice vi ∈ V e na criac¸˜ao do conjunto de arestas E representando a similaridade entre os exemplos.

O conjunto de arestas E ´e representado por uma matriz de adjacˆencia definida pela Equac¸˜ao (4).

eij =

 wij se wij ≥ θw

0 caso contr´ario (4)

sendo θw um limiar de corte e wij uma func¸˜ao de similaridade definida pela Equac¸˜ao (5).

wij = exp

 −d(si, sj) σ2



(5)

no qual d() define uma func¸˜ao de distˆancia e σ a abertura da Gaussiana.

Com o objetivo de garantir que n˜ao existam v´ertices desconexos na rede, um p´os processamento respons´avel por conectar tais v´ertices `a rede ´e considerado. Esse p´os-processamento, Equac¸˜ao (6), garante que todo v´ertice desconexo seja conectado ao seu vizinho mais pr´oximo na rede.

eik = wik | arg max

k wik (6)

A rede gerada define o mecanismo de cooperac¸˜ao local do modelo. Uma vez que as arestas s˜ao geradas a partir de uma func¸˜ao que representa a similaridade entre os exemplos do conjunto de dados, exemplos pr´oximos em uma dada regi˜ao do espac¸o de atributos estar˜ao fortemente conectados. Por outro lado, exemplos pertencentes a regi˜oes distintas do espac¸o de atributos estar˜ao conectados por uma aresta fraca ou mesmo n˜ao conectados. Assim, conforme explicado na Sec¸˜ao 2, osciladores representando exemplos pr´oximos tendem a sincronizar, enquanto o inibidor global ´e respons´avel pela quebra de sincronia entre grupos distintos.

Esse cen´ario est´a diretamente relacionado `a tarefa de agrupamento de dados n˜ao supervisionado, pois, at´e o momento, nenhuma informac¸˜ao referente ao r´otulo foi utilizada. Dessa forma, para transformar o modelo LEGION numa t´ecnica de

(7)

classificac¸˜ao semi-supervisionada, duas hip´oteses s˜ao necess´arias: i) a rede deve rep-resentar o conjunto de dados de forma apropriada, ou seja, exemplos fortemente conec-tados na rede supostamente pertencem `a mesma classe; e ii) uma vez que os agrupa-mentos s˜ao formados na rede, se dois neurˆonios est˜ao oscilando em fase, ´e prov´avel que os exemplos associados a esses neurˆonios pertenc¸am `a mesma classe. E impor-´ tante mencionar que, para obter sucesso na classificac¸˜ao semi-supervisionada, algumas suposic¸˜oes s˜ao necess´arias, e, dentre elas, as suposic¸˜oes de suavidade e de agrupamento [Zhou et al. 2004, Zhu 2008, Chapelle et al. 2006]. Tais suposic¸˜oes configuram justa-mente as hip´oteses assumidas para a gerac¸˜ao da rede a partir do conjunto de dados e na dinˆamica do modelo LEGION para formac¸˜ao dos agrupamentos.

A classificac¸˜ao propriamente dita ocorre em paralelo `a formac¸˜ao dos agrupamen-tos. Sempre que um dado oscilador i representando um exemplo pr´e-rotulado dispara (xi > θx), o estado de cada neurˆonio j pertencente `a vizinhanc¸a de i ´e alterado conforme descrito pela Equac¸˜ao (2). Se o neurˆonio j, estimulado pelo neurˆonio i, atinge a regi˜ao LK e dispara (ver Figura 1a), o exemplo representado pelo neurˆonio j automaticamente herda o r´otulo pertencente ao neurˆonio i. Ou seja, o fenˆomeno da sincronizac¸˜ao ´e respons´avel tanto pela formac¸˜ao dos agrupamentos quando pela tarefa de propagac¸˜ao de r´otulos na rede.

A pr´oxima sec¸˜ao apresenta o algoritmo extra´ıdo da rede LEGION para classificac¸˜ao semi-supervisionada de dados.

3.2. Algoritmo

Como descrita na Sec¸˜ao 2, a integrac¸˜ao num´erica de uma rede com muitos osciladores ap-resenta um custo computacional alto. Nesse contexto e seguindo a mesma abordagem pro-posta em [Wang & Terman 1997], um algoritmo ´e extra´ıdo das equac¸˜oes que modelam a rede LEGION. Esse algoritmo mant´em as principais propriedades existentes na simulac¸˜ao num´erica do modelo, contudo, permite que redes com um grande n´umero de osciladores possam ser simuladas em tempo aceit´avel. Al´em disso, uma outra caracter´ıstica impor-tante do algoritmo est´a no estabelecimento expl´ıcito de um crit´erio de parada, o que n˜ao pode ser diretamente obtido do modelo original baseado em equac¸˜oes diferenciais.

Especificamente, para a concepc¸˜ao do algoritmo, as seguintes simplificac¸˜oes s˜ao feitas:

• Se todos os osciladores estiverem inativos (fase de silˆencio, pr´oximos `a regi˜ao LK), o oscilador mais pr´oximo `a LK ´e selecionado para disparar e se torna ativo; • Se o sinal total recebido por um oscilador, considerando o sinal recebido dos

viz-inhos e do inibidor global, for superior a θx, esse oscilador ´e tornado ativo em um ´unico passo;

• Se n˜ao houverem mais osciladores na fase de silˆencio aptos a disparar, todos os osciladores na fase ativa retornam `a fase de silˆencio em um ´unico passo. Essa situac¸˜ao ocorre quando todos os osciladores estimulados por um mesmo padr˜ao j´a tiverem disparado.

Como pode ser observado na dinˆamica dos osciladores, apenas o valor de x ´e suficiente para caracterizar se um dado oscilador est´a ou n˜ao na fase ativa (disparando). O Algoritmo 3.1 define o modelo de classificac¸˜ao semi-supervisionada proposto neste trabalho.

A fase de silˆencio pode ser caracterizada entre o ponto mais `a esquerda de x at´e a regi˜ao delimitada por LK (ver Figura 1a). Os osciladores da rede s˜ao inicialmente posi-cionados na fase de silˆencio obedecendo a seguinte metodologia: primeiramente, a regi˜ao que representa a fase de silˆencio ´e dividida em duas partes de acordo com os valores de

(8)

Algoritmo 3.1 Algoritmo de Propagac¸˜ao de R´otulo

Iniciar Parˆametros

Definir Conex˜oes (Sec¸˜ao 3.1)

Posicionar osciladores na Fase de Silˆencio Selecionar neurˆonio para pulsar (Algoritmo 3.2) repita

para todo neurˆonio i fac¸a

se xi(t) = RK e z(t) > z(t − 1) ent˜ao

xi(t) = xi(t − 1) (Oscilador permanece na fase ativa) sen˜aose xi(t) = RK e z(t) < z(t − 1) ent˜ao

xi(t) = LC (oscilador retorna a fase de silˆencio) z(t) = z(t − 1)

se (z(t+1)=0) (n˜ao existem mais osciladores na fase ativa) ent˜ao Selecionar pr´oximo neurˆonio (Algoritmo 3.2)

fim-se sen˜ao

Calcular acoplamento Sido neurˆonio i (Eq. (2)) se Si> 0 (Neurˆonio excitado) ent˜ao

xi(t + 1) = RK z(t + 1) = z(t) + 1

li= ClasseAtiva (o exemplo associado ao neurˆoio i ´e rotulado com a classe ativa - ver Alg. 3.2 )

sen˜ao

xi(t + 1) = xi(t) (o neurˆonio permanece na fase de silˆencio) fim-se

fim-se fim-para

at´e que Todos os neurˆonios tenham pulsado

x. Todos os osciladores que representam exemplos n˜ao rotulados s˜ao iniciados aleatori-amente na parte mais `a esquerda da fase de silˆencio (afastados de LK), enquanto os os-ciladores representando exemplos pr´e-rotulados s˜ao posicionados aleatoriamente na parte `a direita da fase de silˆencio (pr´oximo `a LK). Essa abordagem faz com que osciladores que representam exemplos pr´e-rotulados sejam os primeiros a se tornarem ativos. O Al-goritmo 3.2 define como os neurˆonios s˜ao selecionados a pulsar.

Algoritmo 3.2 Algoritmo de Selec¸˜ao

Encontrar j dentre todos os osciladores que est˜ao na fase de silˆencio, tal que xj(t) ≥ xk(t)∀k

xj(t + 1) = RK Z(t + 1) = 1 se j ∈ L ent˜ao

ClasseAtiva = lj(A vari´avel ClasseAtiva representa a classe do neurˆonio selecionado e ser´a propa-gada aos demais neurˆonios que forem excitados por este)

sen˜ao

ClasseAtiva = li(arg mini∈Ld(i, j)) (Se o neurˆonio selecionado n˜ao est´a associado a um exemplo pertencente ao conjunto dos pr´e-rotulados sj ∈ Sl, a vari´avel ClasseAtiva recebe o r´otulo associado/ ao neurˆonio pr´e-rotulado i mais pr´oximo a j)

fim-se

para todo k na fase de silˆencio fac¸a xk(t + 1) = xk(t) + (LK − xj(t)) fim-para

Ao analisar as equac¸˜oes que descrevem o modelo LEGION, diversos parˆametros s˜ao observados, contudo, todos apresentam valores bem estabelecidos e n˜ao necessitam de alterac¸˜ao para execuc¸˜ao dos experimentos. Dessa forma, o parˆametro σ, utilizado para configurar a rede que representa o conjunto de dados, ´e o ´unico parˆametro que necessita ajustes espec´ıficos para cada conjunto de dados.

(9)

4. Experimentos e Resultados

Esta sec¸˜ao apresenta os experimentos realizados com o modelo proposto e seus re-spectivos resultados. Para implementac¸˜ao do modelo, a biblioteca iGraph foi utilizada [Cs´ardi & Nepusz 2006]. Essa biblioteca fornece diversas rotinas para o tratamento de estruturas de dados do tipo grafo e permite que redes com um grande n´umero de elemen-tos sejam consideradas.

Os experimentos foram divididos em duas etapas. Na primeira, foi utilizado um conjunto de dados sint´etico para ilustrar o funcionamento do processo de classificac¸˜ao pelo m´etodo proposto. Na segunda etapa, foram selecionados conjuntos de dados, tanto reais como sint´eticos, utilizados em um estudo comparativo em [Chapelle et al. 2006]. A utilizac¸˜ao desses conjuntos de dados foi muito importante para este trabalho, pois permitiu a realizac¸˜ao de uma comparac¸˜ao direta do modelo proposto com outras diversas t´ecnicas analisadas em [Chapelle et al. 2006]. Cabe destacar que em todos os experimentos, os parˆametros da rede LEGION foram mantidos constantes: θx = 0.0, θz = 0.5 e Wz = 0.2. O limiar θw = 0.1 (Equac¸˜ao (4)) tamb´em foi mantido constante e n˜ao apresenta influˆencia significativa na dinˆamica do modelo. O parˆametro σ (Equac¸˜ao (5)) sempre foi configurado de tal forma a se obter uma rede com grau m´edio hki ≈ 3. Esse valor foi obtido por meio de estudo emp´ırico a partir de diversos conjuntos de dados.

−12 −10 −8 −6 −4 −2 0 2 4 6 8 −12 −10 −8 −6 −4 −2 0 2 4 6 8 (a) −12 −10 −8 −6 −4 −2 0 2 4 6 8 −12 −10 −8 −6 −4 −2 0 2 4 6 8 (b) −12 −10 −8 −6 −4 −2 0 2 4 6 8 −12 −10 −8 −6 −4 −2 0 2 4 6 8 (c)

Figura 2. Experimento com conjunto de dados sint ´eticos. a) conjunto com os r ´otulos originais; b) condic¸ ˜ao inicial do experimento com 5% dos dados rotula-dos; c) classificac¸ ˜ao produzida pelo modelo proposto.

O primeiro experimento foi realizando com um conjunto de dados sint´etico con-tendo 1000 exemplos igualmente divididos em duas classes. A Figura 2(a) apresenta o conjunto de dados original. Desse conjunto, apenas 5% dos r´otulos associados a exemplos aleatoriamente selecionados s˜ao preservados (ver Fig. 2(b)). O resultado da classificac¸˜ao ´e ilustrado pela Figura 2(c), o qual atingiu uma precis˜ao m´edia de aproximadamente de 96% para um conjunto de 200 execuc¸˜oes. Para cada execuc¸˜ao, o subconjunto dos exem-plos pr´e-rotulados foi gerado de forma aleat´oria.

A seguir, foram realizados experimentos com os conjuntos de dados estudados em [Chapelle et al. 2006]2. A Tabela 1 apresenta uma breve descric¸˜ao das principais carac-ter´ısticas desses conjuntos de dados.

Com o objetivo de comparar os resultados obtidos `aqueles publicados em [Chapelle et al. 2006] e em [Quiles et al. 2010], a mesma metodologia foi adotada neste trabalho, ou seja, os experimentos foram divididos em duas baterias: na primeira, ape-nas 10 exemplos de cada conjunto de dados foram rotulados, enquanto na segunda ba-teria foram rotulados 100 exemplos de cada conjunto. Para cada uma das baterias, foram utilizados os mesmos 12 folds (divis˜oes) propostos em [Chapelle et al. 2006], per-mitindo uma comparac¸˜ao justa dos m´etodos. Os resultados obtidos pelo modelo proposto foram comparados com o melhor, com o pior e com a m´edia dos resultados publica-dos em [Chapelle et al. 2006] e em [Quiles et al. 2010]. ´E importante mencionar que em

(10)

Tabela 1. Conjuntos de dados estudados em [Chapelle et al. 2006]

Dataset Classes Dimens˜ao Exemplos Origem g241c 2 241 1500 sint´etico g241n 2 241 1500 sint´etico Digit1 2 241 1500 sint´etico USPS 2 241 1500 real COIL 6 241 1500 real BCI 2 117 400 real TEXT 2 11960 1500 real

[Chapelle et al. 2006] o desvio padr˜ao ´e omitido e apenas a m´edia das 12 execuc¸˜oes ´e apresentada, impossibilitando uma an´alise estat´ıstica dos resultados para verificar se a diferenc¸a ´e significativa ou n˜ao entre os modelos.

Tabela 2. Resultados com 10 exemplos rotulados. A tabela apresenta a pre-cis ˜ao m ´edia e o desvio padr ˜ao obtidos no modelo proposto, a prepre-cis ˜ao m ´edia do modelo apresentado em [Quiles et al. 2010] e a m ´edia, os melhores e os piores resultados das t ´ecnicas estudadas em [Chapelle et al. 2006].

Dataset Modelo Proposto [Quiles et al. 2010] M´edia Chapelle Pior Melhor g241c 55.95(3.30)% - 59.54% 50.41% 77.24% g241n 56.78(2.89)% - 55.84% 49.37% 81.27% Digit1 76.42(5.79)% - 85.05% 69.40% 94.56% USPS 80.51(3.55)% 80.65% 80.88 74.64% 83.93% COIL 35.50(4.41)% 36.83% 35.83 32.50% 45.46% BCI 51.26(2.83)% 51.03% 50.69 49.64% 52.05% TEXT 60.88(5.16)% 79.77% 62.73 54.68% 72.85%

Tabela 3. Resultados com 100 exemplos rotulados. A tabela apresenta a pre-cis ˜ao m ´edia e o desvio padr ˜ao obtidos no modelo proposto, a prepre-cis ˜ao m ´edia do modelo apresentado em [Quiles et al. 2010] e a m ´edia, os melhores e os piores resultados das t ´ecnicas estudadas em [Chapelle et al. 2006].

Dataset Modelo Proposto [Quiles et al. 2010] M´edia Chapelle Pior Melhor g241c 59.72(2.25)% - 72.91% 55.95% 86.51% g241n 62.51(1.61)% - 72.32% 56.79% 95.05% Digit1 94.16(1.38)% - 96.21% 93.85% 97.56% USPS 91.37(0.97)% 84.77% 93.13 90.23% 95.32% COIL 81.02(1.83)% 81.49% 80.05 71.29% 90.39% BCI 55.17(1.77)% 64.07% 58.36 52.11% 66.75% TEXT 69.10(0.98)% 94.34% 73.88 67.17% 76.91%

As Tabelas 2 e 3 apresentam os resultados obtidos pelo m´etodo proposto neste trabalho bem como aqueles encontrados nos trabalhos supracitados. Analisando-se os resultados, ´e poss´ıvel observar que o modelo proposto produziu resultados pr´oximos `a m´edia dos resultados publicados em [Chapelle et al. 2006]. Embora o modelo proposto n˜ao tenha alcanc¸ado resultados superiores `as melhores t´ecnicas consideradas, os resulta-dos s˜ao compararesulta-dos `a m´edia de diversas t´ecnicas, ou seja, o modelo ´e capaz de efetuar a classificac¸˜ao semi-supervisionada em contextos distintos. Al´em disso, como mencionado no in´ıcio da sec¸˜ao, o grau m´edio da rede necess´ario para aplicac¸˜ao da t´ecnica ´e muito inferior ao modelo proposto em [Quiles et al. 2010], hki ≈ 3 versus hki ≈ 25, ou seja, a rede considerada pelo modelo proposto ´e muito mais esparsa que aquela tratada em [Quiles et al. 2010], ou seja, a manipulac¸˜ao da rede se torna mais eficiente. Este fato as-sociado ao algoritmo proposto, que n˜ao necessita de integrac¸˜ao num´erica, permite que conjuntos de dados com um n´umero maior de exemplos sejam tratados.

(11)

Outra vantagem do novo modelo em comparac¸˜ao ao proposto em [Quiles et al. 2010] est´a na existˆencia de um crit´erio de parada bem estabelecido. Neste modelo, basta esperar que todos os osciladores tenham pulsado uma ´unica vez.

A partir dos experimentos realizados, ainda n˜ao foi poss´ıvel estabelecer algum tipo de correlac¸˜ao entre as propriedades do conjunto de dados e a precis˜ao obtida pelo modelo. Por exemplo, considerando a situac¸˜ao com 100 exemplos pr´e-rotulados, o mod-elo proposto superou os resultados apresentados em [Quiles et al. 2010] para o conjunto de dados USPS mas apresentou resultados inferiores para os conjuntos BCI e TEXT.

5. Conclus˜oes

Este trabalho prop˜oe um novo modelo de classificac¸˜ao semi-supervisionada baseado na teoria da correlac¸˜ao oscilat´oria. Dentre as principais contribuic¸˜oes, as seguintes podem ser destacadas: i) ´e uma nova aplicac¸˜ao da teoria da correlac¸˜ao oscilat´oria; ii) o modelo proposto apresentou uma boa precis˜ao de classificac¸˜ao; iii) o modelo solucionou algumas das limitac¸˜oes existentes em [Quiles et al. 2010]; e iv) diferentemente dos modelos atu-ais baseados em grafos, o modelo proposto ´e dinˆamico, pois n˜ao necessita de um novo processo de aprendizagem quando um novo exemplo ´e inserido no conjunto de dados. Nessas situac¸˜oes, o modelo proposto demanda apenas a sua execuc¸˜ao por mais algumas iterac¸˜oes.

Como trabalhos futuros, pretende-se investigar de forma mais ampla as raz˜oes que levaram o modelo a apresentar baixas precis˜oes para alguns dos conjuntos de dados testados neste trabalho. Al´em disso, pretende-se, tamb´em, aplicar o modelo em con-juntos de dados dinˆamicos e em problemas de dom´ınios espec´ıficos, como por exemplo segmentac¸˜ao interativa de imagens.

Agradecimentos

Este trabalho foi realizado com apoio financeiro da FAPESP e CNPq.

Referˆencias

Bishop, C. M. (2006). Pattern recognition and machine learning. Springer.

Breve, F. A., Zhao, L., Quiles, M. G., Pedrycz, W., & Liu, J. (2012). Particle competi-tion and cooperacompeti-tion in networks for semi-supervised learning. IEEE Transaccompeti-tions on Knowledge and Data Engineering, DOI: 10.1109/TKDE.2011.119:1–16.

Campbell, S. R. & Wang, D. (1996). Synchronization and desynchronization in a network of locally coupled wilson-cowan oscillators. IEEE Transactions on Neural Networks, 7(3):541–554.

Campbell, S. R., Wang, D., & Jayaprakash, C. (1999). Synchrony and desynchrony in integrate-and-fire oscillators. Neural Computation, 11:1595–1619.

Chapelle, O., Sch¨olkopf, B., & Zien, A. (2006). Semi-supervised learning. The MIT Press.

Cs´ardi, G. & Nepusz, T. (2006). The igraph software package for complex network research. InterJournal, Complex Systems:1695.

Duda, R. O., Hart, P. E., & Stork, D. G. (2000). Pattern Classification. Wiley, segunda ed. edition.

Fan, M., Gu, N., Qiao, H., & Zhang, B. (2011). Sparse regularization for semi-supervised classification. Pattern Recognition, 44:1777–1784.

(12)

Gui, J., Wang, S.-L., & Lei, Y.-K. (2010). Multi-step dimensionality reduction and semi-supervised graph-based tumor classification using gene expression data. Artificial In-telligence in Medicine, 50:181–191.

Liu, W., He, J., & Chan, S.-F. (2010). Large graph construction for scalable semi-supervised learning. In Proceedings of the 27th International Conference on Machine Learning (ICML’2010), pages 1–8, Haifa, Israel.

Mitchell, T. M. (1997). Machine Learning. McGraw-Hill.

Nie, F., Xiang, S., Liu, Y., & Zhang, C. (2010). A general graph-based semi-supervised learning with novel class discovery. NEURAL COMPUTING & APPLICATIONS, 19(4):549–555.

Quiles, M. G., Wang, D., Zhao, L., & Romero, R. A. F. (2011). Selecting salient objects in real scenes: An oscillatory correlation model. Neural Network, 24:54–64.

Quiles, M. G., Zhao, L., Breve, F., & Romero, R. A. F. (2009). A network of integrate and fire neurons for visual selection. Neurocomputing, 72:2198–2208.

Quiles, M. G., Zhao, L., Breve, F. A., & Rocha, A. (2010). Label propagation through neuronal synchrony. In The 2010 International Joint Conference on Neural Networks (IJCNN’2010), pages 2517–2524, Barcelona, Espanha.

Terman, D. & Wang, D. (1995). Global competition and local cooperation in a network of neural oscillators. Physica D, 81:148–176.

von der Malsburg, C. (1981). The correlation theory of brain function. Internal Report 81-2, Department of Neurobiology, Max-Planck-Institute for Biophysical Chemistry, G¨ottingen, Germany.

Wang, D. (1999). Object selection based on oscillatory correlation. Neural Networks, 12:579–592.

Wang, D. (2005). The time dimension for scene analysis. IEEE Transactions on Neural Networks, 16:1401–1426.

Wang, D. & Terman, D. (1995). Locally excitatory globally inhibitory oscillator networks. IEEE Transactions on Neural Networks, 6(1):283–286.

Wang, D. & Terman, D. (1997). Image segmentation based on oscillatory correlation. Neural Computation, 9:805–836.

Wang, F. & Zhang, C. (2008). Label propagation through linear neighborhoods. IEEE Transactions on Knowledge and Data Engineering, 20(1):55–67.

Wang, Y., Xu, X., Zhao, H., & Hua, Z. (2010). Semi-supervised learning based on nearest neighbor rule and cut edges. Knowledge-Based Systems, 23:547–554.

Xu, Y., Dyer, J. S., & Owen, A. B. (2010). Empirical stationary correlations for semi-supervised learning on graphs. The Annals of Applied Statistics, 4(2):589–614.

Zhou, D., Bousquet, O., Lal, T. N., Weston, J., & Sch¨olkopf, B. (2004). Learning with local and global consistency. In Advances in Neural Information Processing Systems 16, volume 16, pages 321–328. MIT Press.

Zhu, X. (2005). Semi-supervised learning with graphs. PhD thesis, School of Computer Science, Carnegie Mellon University.

Zhu, X. (2008). Semi-supervised learning literature survey. Technical Report 1530, Com-puter Science, University of Wisconsin-Madison.

Referências

Documentos relacionados

Tal como para a situação atual, considera-se que a rede rodoviária futura se divide em três níveis hierárquicos, definidos em função da avaliação

• Sua experiência em transações de M&amp;A inclui a assessoria aos controladores da Schincariol na venda para a Kirin, assessoria à MPX na parceria com E.On, assessoria à Ternium na

Somente poderão se inscrever grupos, companhias, ministérios, movimentos, institutos e Comunidades católicos, doravante denominados grupo(s) participante(s), de todo o

A colaboração das três empresas proporcionará a melhor solução para as Forças Armadas da Índia com base na transferência de tecnologia de ponta para VANT e

Contudo, o imaginário dessas obras é sobretudo de recriminação, escombros e violação, enquanto que em LORE é sobretudo rural e rústico – embora as violações e os

Sem prejuízo da comunicação obrigatória prevista na legislação pertinente, o CONTRATADO deve comunicar imediatamente à fiscalização de obras e a área de SMS,

Assim sendo, o artigo está estruturado da seguinte maneira: a primeira seção expõe a estratégia de desenvolvimento “voltado para dentro” do recém-formado

septuplinervium, con el objeto de determinar los compuestos responsables de la actividad insecticida frente a larvas de Spodoptera frugiperda.. Las Piperaceas se han utilizado