Um Modelo de Correlação Oscilatória para Classificação Semi-Supervisionada

(1)

Um Modelo de Correlação Oscilatória para

Classificac¸˜ao Semi-Supervisionada

Marcos G. Quiles1_{, M´arcio P. Basgalupp}1_{, Rodrigo C. Barros}2

1_{Instituto de Ciência Tecnologia – Universidade Federal de São Paulo (UNIFESP)} São José dos Campos – São Paulo – Brasil

2_{Instituto de Ciências Matemáticas e de Computação – Universidade de São Paulo (USP)} São Carlos – São Paulo – Brasil

{quiles,basgalupp}@unifesp.br, rcbarros@icmc.usp.br

Abstract. This paper presents a new semi-supervised classification algorithm based on the oscillatory correlation theory. In this approach, the data set is converted into a network whose nodes represent the samples, and edges the similarity among these samples. Each node in the network is modeled by an oscillator. The network clustering is given by the oscillators synchronization phenomenon, whereas the separation of oscillators that represent distinct clus-ters is induced by a global inhibitor. The previously labeled objects make use of the synchronization dynamics in order to propagate labels among their neigh-bors. Experiments performed with the proposed approach have shown promis-ing results in a variety of data sets. It has shown to be capable of eventually outperforming traditional methods in the literature.

Resumo. Este trabalho apresenta um novo algoritmo para classificação semi-supervisionada baseado na teoria da correlação oscilatória. Nesse modelo, o conjunto de dados é transformado em uma rede na qual os vértices representam os exemplos e as arestas a relação de similaridade entre esses exemplos. Cada vértice da rede é modelado por um oscilador. A formação dos agrupamentos na rede é obida a partir do fenômeno de sincronização entre os osciladores enquanto a separação entre osciladores que representam grupos distintos é in-duzida por um inibidor global. Paralelamente aos fenômenos de sincronização e dessincronização provenientes da teoria da correlação oscilatória, os exemplos pré-rotulados utilizam a dinâmica de sincronização para efetuar a propagação dos rótulos entre seus vizinhos. Experimentos realizados com o modelo pro-posto apresentam resultados promissores para diferentes tipos de conjuntos de dados, superando, em alguns casos, os métodos tradicionais da literatura.

1. Introduc¸˜ao

A grande massa de dados produzida pelas pesquisas contemporâneas é um fato sem prece-dentes na história das ciências. Tais dados são provenientes de diversas fontes, tais como simulações computacionais, textos da internet, análise de sinais e imagens biomédicas, dados do genoma, estudo da estrutura e dinâmica de redes complexas, dentre outras. Com o objetivo de facilitar o trabalho dos especialistas em seus respectivos dom´ınios ou mesmo de avaliar os dados para obtenção de resultados de forma autônoma, diver-sas técnicas computacionais têm sido propostas na literatura utilizando conceitos de área denominada Aprendizado de Máquina [Mitchell 1997, Duda et al. 2000, Bishop 2006].

Tradicionalmente, o processo de aprendizagem, ou seja, a aquisição de conhec-imento pelos modelos de aprendizado de máquina, pode ocorrer de duas formas: pelo Aprendizado Não-Supervisionado e pelo Aprendizado Supervisionado [Mitchell 1997,

(2)

Bishop 2006]. No aprendizado não-supervisionado, a principal tarefa está no agrupa-mento de dados segundo algum critério de similaridade bem estabelecido, e pode-se dizer que o processo é guiado pelos dados, pois não há a necessidade de um conhecimento prévio sobre as classes existentes [Mitchell 1997]. Já no aprendizado supervisionado o objetivo é induzir conceitos a partir de exemplos (objetos) previamente rotulados, ou seja, exemplos cujas classes são conhecidas previamente. Nessa forma de aprendizado, con-tudo, é necessária uma grande quantidade de dados rotulados a fim de aumentar as chances de encontrar um modelo satisfatório para o problema.

De maneira geral, o processo de aquisição de dados demanda um custo computa-cional relativamente baixo. No entanto, dependendo do dom´ınio do problema, rotular manualmente os dados é que pode tornar o processo custoso, e esse custo não se restringe apenas a tempo de execução, mas, em muitos casos, pode também ser custoso financeira-mente, principalmente devido à demanda de especialistas das áreas para realizarem esse trabalho.

Nesse sentido, foi estabelecida uma nova forma de aprendizagem denominada Aprendizado Semi-supervisionado [Zhu 2008, Chapelle et al. 2006]. Nesse processo de aprendizagem, apenas um pequeno número de exemplos rotulados é utilizado para a construção dos modelos de aprendizado. Assim, para a construção de um classificador, por exemplo, não há a necessidade de rotular previamente todos os dados, diminuindo consideravelmente o custo.

Diversas abordagens têm sido utilizadas para o desenvolvimento de técnicas de aprendizado semi-supervisionado e, dentre essas, as técnicas baseada em redes (grafos), tópico abordado neste trabalho, têm recebido maior atenção nos últimos anos [Zhu 2005, Chapelle et al. 2006, Wang & Zhang 2008, Xu et al. 2010, Nie et al. 2010, Gui et al. 2010, Fan et al. 2011, Liu et al. 2010, Wang et al. 2010, Breve et al. 2012]. A caracter´ıstica principal dessas técnicas está na forma como os dados são representados: os vértices da rede representam os exemplos e as arestas correspondem às distâncias (simi-laridade) entre os exemplos.

Contudo, a maioria das técnicas baseadas em redes é em essência transdutiva, ou seja, visa somente rotular os exemplos não rotulados já presentes no conjunto de treina-mento. Tal fato acarreta na necessidade de um novo processo de treinamento que con-sidere o surgimento de novos exemplos, incorporando-os dinamicamente à base de dados. Em [Quiles et al. 2010] foi proposto esse novo processo de treinamento por meio de um modelo de classificação semi-supervisionada baseado na sincronização de neurônios em rede. Nesse modelo, cada vértice (exemplo) da rede é representado por um neurônio do tipo Integra e Dispara, e o fenômeno da sincronização entre grupos de neurônios é utilizado para propagar os rótulos entre os exemplos.

Embora os resultados apresentados em [Quiles et al. 2010] tenham sido con-siderados muito bons, superando muitos dos algoritmos tradicionais analisados em [Chapelle et al. 2006], duas principais limitações ainda são observadas: i) os neurônios são descritos por equações diferenciais que necessitam de integração numérica; ii) não ex-iste critério de parada estabelecido; e iii) o grau médio da rede necessário para um bom de-sempenho do modelo é alto. Neste trabalho, é proposto um novo modelo de classificação semi-supervisionada baseado na teoria da correlação oscilatória. Mais especificamente, um algoritmo rápido de propagação de rótulos extra´ıdo do modelo LEGION (Locally Excitatory Globally Inhibitory Network) proposto em [Terman & Wang 1995] é apresen-tado. Como será descrito ao longo do texto, esse novo modelo soluciona as limitações observadas em [Quiles et al. 2010] além de fornecer uma nova aplicação da teoria da correlação oscilatória.

(3)

O restante do texto está organizado da seguinte forma. Na Seção 2, é feita uma descrição do modelo LEGION, que é base do presente trabalho. A Seção 3 descreve o processo de formação da rede a partir do conjunto de dados e o algoritmo proposto. Os experimentos e resultados são apresentados na Seção 4. Por fim, a Seção 5 fornece as principais conclusões deste trabalho bem como algumas direções futuras de investigação.

2. Modelo LEGION

Segundo [von der Malsburg 1981], investigações das funções cerebrais e da organização perceptual indicam um mecanismo de correlação temporal como uma estrutura de representação (codificação temporal). A teoria de correlação temporal define que um exemplo é representado pela correlação temporal dos disparos (potenciais de ação) de células neurais espacialmente distribu´ıdas, as quais representam diferentes caracter´ısticas de um mesmo exemplo. Por outro lado, neurônios codificando caracter´ısticas de exemplos distintos não possuem suas atividades correlacionadas.

Uma maneira natural de realizar a correlação temporal é por meio do uso de osciladores [Terman & Wang 1995]. Assim, cada oscilador pode representar um con-junto de caracter´ısticas (cor, orientação, movimento, profundidade, etc. [Wang 2005]) de tal forma que cada segmento (exemplo) é representado por um conjunto de osciladores com atividades s´ıncronas, enquanto segmentos distintos são representados por grupos de osciladores fora de sincronia. Essa forma especial da correlação temporal é denomi-nada teoria da Correlação Oscilatória [Terman & Wang 1995]. Nesse caso, as carac-ter´ısticas são representadas por osciladores e o problema da integração é solucionado pela sincronização e dessincronização entre os osciladores neurais [Wang 2005].

Segundo [Terman & Wang 1995], dois aspectos principais podem ser estabele-cidos sobre a correlação oscilatória. Primeiro, a sincronização de osciladores que rep-resentam caracter´ısticas de um mesmo exemplo deve ser estabelecida. Segundo, a dessincronização entre grupos de osciladores distintos deve ser realizada, sendo que um dos maiores desafios no desenvolvimento de modelos de correlação oscilatória está na implementação simultânea desses dois mecanismos totalmente antagônicos [Wang 2005]. Com o objetivo de estabelecer uma teoria formal da correlação oscilatória, [Wang & Terman 1995] propuseram uma arquitetura de rede de osciladores localmente acoplados denominada LEGION (Locally Excitatory Globally Inhibitory Oscillator Net-works), a qual foi extensivamente analisada em [Terman & Wang 1995].

O modelo LEGION é uma arquitetura para modelos de Correlação Oscilatória muito utilizada nos últimos anos. Wang e seus colaboradores têm aplicado o LE-GION em diversas tarefas, tais como: estudo numérico e anal´ıtico da dinâmica de os-ciladores acoplados [Terman & Wang 1995, Campbell et al. 1999], segmentação de im-agens [Wang & Terman 1997, Campbell et al. 1999], seleção de objetos [Wang 1999, Quiles et al. 2011], dentre outras [Wang 2005].

A arquitetura LEGION, em sua forma básica, é composta de três elementos prin-cipais: osciladores neurais, acoplamentos excitatórios locais e um inibidor global. Os acoplamentos excitatórios locais têm como finalidade sincronizar os grupos de osciladores representando cada um dos objetos presentes na cena visual. Por outro lado, o inibidor global tem como função gerar a dessincronização entre os grupos de osciladores. Dessa forma, a rede cria um mecanismo de cooperação local e competição global que são os dois requisitos necessários para a implementação da correlação oscilatória. Em sua pro-posta original, o modelo LEGION [Terman & Wang 1995, Wang & Terman 1995] é for-mado por uma rede de osciladores de relaxamento, sendo que cada oscilador é composto por uma variável excitatória xi e uma variável inibitória yi, as quais são definidas pelas Equações (1a) e (1b).

(4)

˙xi = 3xi− x3_i + 2 − yi+ Ii+ Si+ ρ (1a) ˙

yi = (α(1 + tanh(xi/β)) − yi) (1b)

sendo Ii o est´ımulo externo ao oscilador i, Si o acoplamento com os demais osciladores da rede, uma constante positiva com valor pequeno, e ρ o sinal de ru´ıdo cuja finalidade é testar a robustez do modelo e auxiliar a dessincronização de padrões distintos. Se Ii for definido como uma constante e os termos Si e ρ eliminados, as Equações (1a) e (1b) formam um t´ıpico oscilador de relaxamento.

A Figura 1 apresenta as isóclinas nulas1 _{e a trajetória de um oscilador definido} pelas Equações (1a) e (1b), sendo a isóclina nula de x uma função cúbica e a isóclina nula de y uma função sigmoide. Se há est´ımulo externo recebido por um oscilador, Ii > 0, as isóclinas nulas de x e y das Equações (1a) e (1b) se intersectam em apenas um ponto. Nesse caso, o estado do oscilador é denominado disparando e uma dinâmica de ciclo lim-ite estável é observada (Figura 1a). A órbita periódica do oscilador alterna entre duas fases bem definidas denominadas fase ativa e fase de silêncio, que correspondem às fases com alto e baixo valores de x, respectivamente (ver Figura 1a). Isso significa que analisando apenas o valore de x é poss´ıvel verificar se um oscilador está ou não disparando. Essa informação é utilizada na derivação do algoritmo apresentado na Seção 3.2. A transição entre as duas fases ocorre rapidamente em comparação ao movimento interno observado em cada fase, e, por essa razão, a transição entre as fases ativa e de silêncio é denominada salto de fase (jumping). O parâmetro α controla quanto tempo o oscilador permanece em cada uma dessas fases. Quando não há est´ımulo externo recebido pelo oscilador, Ii < 0, as duas isóclinas nulas das Equações (1a) e (1b) se intersectam em um ponto de equil´ıbrio estável no lado esquerdo da função cúbica (ver Figura 1b). Nesse caso, o oscilador não produz uma órbita periódica e nenhuma oscilação é observada. Entretanto, o oscilador pode ser induzido a oscilar por meio de est´ımulos recebidos por acoplamentos com os-ciladores vizinhos. Devido a essa caracter´ıstica, nesse estado o oscilador é denominado excitável. O parâmetro β controla a inclinação da função sigmoide. Normalmente β é configurado com um valor próximo a zero de tal forma a aproximar a função sigmoide de uma função degrau [Terman & Wang 1995].

Fase Ativa Fase de Silêncio y x

x = 0

.

y = 0

.

RK LK (a) y x

x = 0

.

y = 0

.

(b)

Figura 1. Din âmica de um oscilador de relaxamento. (a) Comportamento de um oscilador no estado disparando. A trajet ória é definida por um ciclo limite representado pela curva em negrito e as seta indicam a direç ão do movimento. (b) Comportamento din âmico de um oscilador no estado excit ável. Nesse caso, um ponto fixo est ável é observado e é indicado por um ponto no lado esquerdo inferior do gr áfico.

O acoplamento do sistema representado por Si é definido pela seguinte equação:

(5)

Si = X

k∈Ni

wikH(xk− θx) − wzH(z − θz) (2)

em que wik é definido como a força de acoplamento entre os osciladores i e k, Nidefine a vizinhança de interação do oscilador i, representada pelos osciladores que fazem conexão direta com ele. O parâmetro θx é um limiar que indica se um oscilador pode ou não afetar seus vizinhos. Normalmente, θx é escolhido entre a fase de silêncio e a fase ativa do oscilador. wz define a força de ligação entre o oscilador i e o inibidor global definido por z. θz é um limiar. A função H(v) é a função de Heaviside definida por H(v) = 1 se v ≥ 0 e H(v) = 0 caso contrário.

A dinâmica do inibidor global z é definida pela Equação (3).

˙z = φ(σ∞− z) (3)

em que o parâmetro φ controla a velocidade com que o inibidor global reage a sinais provenientes dos osciladores da rede, σ∞ ≡ 0 se xi < θx para todo i. Por outro lado, σ∞ ≡ 1 se pelo menos um oscilador xi ≥ θx. Nesse caso, se pelo menos um oscilador estiver acima do limiar, o inibidor global z é estimulado e se aproxima de 1, passando a atuar como inibidor na rede assim que z superar o limiar θz(Equação (2)).

De uma forma geral, a dinâmica da rede pode ser resumida da seguinte forma: quando um oscilador entra na fase ativa, ele aciona o inibidor global que por sua vez en-via um sinal de inibição para toda a rede, conforme descrito pelas Equações (1)-(3). Além disso, o oscilador que entra na fase ativa também propaga o seu sinal para os seus respec-tivos vizinhos, os quais continuam o processo. Assim, a rede apresenta uma forma coop-erativa de ativação local, enquanto o inibidor se responsabiliza pela competição global. O inibidor global pode ser interpretado como uma espécie de mecanismo de atenção, no qual, uma vez que um segmento está ativo, os demais são inibidos. Entretanto, em sua forma original, o modelo apresenta uma limitação referente ao número máximo de seg-mentos que podem ser obtidos pela rede [Terman & Wang 1995, Wang & Terman 1997]. Considerando essa limitação, em [Wang & Terman 1997] foi proposto um algoritmo para segmentação de imagens extra´ıdo do sistema de equações diferenciais do modelo LE-GION, no qual as propriedades essenciais do modelo são mantidas. O modelo aqui pro-posto faz uso da mesma abordagem utilizada em [Wang & Terman 1997], ou seja, um algoritmo rápido para simular o comportamento da rede é utilizado em vez da integração numérica dos osciladores originais.

Além do modelo utilizando osciladores de relaxamento descrito acima, a arquite-tura LEGION também foi implementada utilizando outros modelos de osciladores neu-rais, como os osciladores Wilson-Cowan [Campbell & Wang 1996] e neurônios Integra e Dispara [Campbell et al. 1999, Quiles et al. 2009].

3. Modelo Proposto

O modelo LEGION considera uma vizinhança de cooperação local, Equação (2), que é responsável pelo fenômeno de sincronização observado na rede. Assim, a formação dessa vizinhança (geração da rede) entre os exemplos do conjunto de dados representa a primeira fase do processo de classificação. Um vez que a rede é definida, a dinâmica dos osciladores neurais é iniciada e a sincronização entre elementos (exemplos) vizinhos pode ser observada. Paralelamente, conforme descrito pela teoria da correlação oscilatória, gru-pos de vértices representando exemplos distantes têm suas trajetórias dessincronizadas no tempo pelo inibidor global. A propagação de rótulos (classificação) se torna uma con-sequência natural do fenômeno de sincronização entres os osciladores vizinhos, no qual o

(6)

oscilador representando um vértice pré-rotulado propaga essa informação ao vértices em sincronia com ele.

Nas próximas seções são descritos o processo de formação da rede e o algoritmo extra´ıdo da dinâmica do modelo LEGION.

3.1. Geração da Rede e Dinâmica do Modelo Proposto

Seja um conjunto de dados representado por um conjunto de vetores de atributos S = {s1, s2, ..., sn} e um conjunto de rótulos L = {1, 2, ...c}, no qual n e c representam re-spectivamente o número de exemplos e de classes. No contexto do aprendizado semi-supervisionado, o conjunto de dados S é dividido em dois subconjuntos: o subconjunto dos exemplos pré-rotulados Sl = {s1, s2, ...sl} e o subconjunto dos exemplos não rotu-lados Su = {sl+1, sl+2, ..., sn}. Cada exemplo si pertencente ao conjunto Sl possui um rótulo associado li ∈ L.

A geração da rede G = (V, E) para um dado conjunto de dados S consiste na representação de cada exemplo si em um vértice vi ∈ V e na criação do conjunto de arestas E representando a similaridade entre os exemplos.

O conjunto de arestas E é representado por uma matriz de adjacência definida pela Equação (4).

eij =

wij se wij ≥ θw

0 caso contr´ario (4)

sendo θw um limiar de corte e wij uma função de similaridade definida pela Equação (5).

wij = exp

−d(si, sj) σ2

(5)

no qual d() define uma função de distância e σ a abertura da Gaussiana.

Com o objetivo de garantir que não existam vértices desconexos na rede, um pós processamento responsável por conectar tais vértices à rede é considerado. Esse pós-processamento, Equação (6), garante que todo vértice desconexo seja conectado ao seu vizinho mais próximo na rede.

eik = wik | arg max

k wik (6)

A rede gerada define o mecanismo de cooperação local do modelo. Uma vez que as arestas são geradas a partir de uma função que representa a similaridade entre os exemplos do conjunto de dados, exemplos próximos em uma dada região do espaço de atributos estarão fortemente conectados. Por outro lado, exemplos pertencentes a regiões distintas do espaço de atributos estarão conectados por uma aresta fraca ou mesmo não conectados. Assim, conforme explicado na Seção 2, osciladores representando exemplos próximos tendem a sincronizar, enquanto o inibidor global é responsável pela quebra de sincronia entre grupos distintos.

Esse cenário está diretamente relacionado à tarefa de agrupamento de dados não supervisionado, pois, até o momento, nenhuma informação referente ao rótulo foi utilizada. Dessa forma, para transformar o modelo LEGION numa técnica de

(7)

classificação semi-supervisionada, duas hipóteses são necessárias: i) a rede deve rep-resentar o conjunto de dados de forma apropriada, ou seja, exemplos fortemente conec-tados na rede supostamente pertencem à mesma classe; e ii) uma vez que os agrupa-mentos são formados na rede, se dois neurônios estão oscilando em fase, é provável que os exemplos associados a esses neurônios pertençam à mesma classe. E impor-´ tante mencionar que, para obter sucesso na classificação semi-supervisionada, algumas suposições são necessárias, e, dentre elas, as suposições de suavidade e de agrupamento [Zhou et al. 2004, Zhu 2008, Chapelle et al. 2006]. Tais suposições configuram justa-mente as hipóteses assumidas para a geração da rede a partir do conjunto de dados e na dinâmica do modelo LEGION para formação dos agrupamentos.

A classificação propriamente dita ocorre em paralelo à formação dos agrupamen-tos. Sempre que um dado oscilador i representando um exemplo pré-rotulado dispara (xi > θx), o estado de cada neurônio j pertencente à vizinhança de i é alterado conforme descrito pela Equação (2). Se o neurônio j, estimulado pelo neurônio i, atinge a região LK e dispara (ver Figura 1a), o exemplo representado pelo neurônio j automaticamente herda o rótulo pertencente ao neurônio i. Ou seja, o fenômeno da sincronização é responsável tanto pela formação dos agrupamentos quando pela tarefa de propagação de rótulos na rede.

A próxima seção apresenta o algoritmo extra´ıdo da rede LEGION para classificação semi-supervisionada de dados.

3.2. Algoritmo

Como descrita na Seção 2, a integração numérica de uma rede com muitos osciladores ap-resenta um custo computacional alto. Nesse contexto e seguindo a mesma abordagem pro-posta em [Wang & Terman 1997], um algoritmo é extra´ıdo das equações que modelam a rede LEGION. Esse algoritmo mantém as principais propriedades existentes na simulação numérica do modelo, contudo, permite que redes com um grande número de osciladores possam ser simuladas em tempo aceitável. Além disso, uma outra caracter´ıstica impor-tante do algoritmo está no estabelecimento expl´ıcito de um critério de parada, o que não pode ser diretamente obtido do modelo original baseado em equações diferenciais.

Especificamente, para a concepção do algoritmo, as seguintes simplificações são feitas:

• Se todos os osciladores estiverem inativos (fase de silêncio, próximos à região LK), o oscilador mais próximo à LK é selecionado para disparar e se torna ativo; • Se o sinal total recebido por um oscilador, considerando o sinal recebido dos

viz-inhos e do inibidor global, for superior a θx, esse oscilador ´e tornado ativo em um ´unico passo;

• Se não houverem mais osciladores na fase de silêncio aptos a disparar, todos os osciladores na fase ativa retornam à fase de silêncio em um único passo. Essa situação ocorre quando todos os osciladores estimulados por um mesmo padrão já tiverem disparado.

Como pode ser observado na dinâmica dos osciladores, apenas o valor de x é suficiente para caracterizar se um dado oscilador está ou não na fase ativa (disparando). O Algoritmo 3.1 define o modelo de classificação semi-supervisionada proposto neste trabalho.

A fase de silêncio pode ser caracterizada entre o ponto mais à esquerda de x até a região delimitada por LK (ver Figura 1a). Os osciladores da rede são inicialmente posi-cionados na fase de silêncio obedecendo a seguinte metodologia: primeiramente, a região que representa a fase de silêncio é dividida em duas partes de acordo com os valores de

(8)

Algoritmo 3.1 Algoritmo de Propagação de Rótulo

Iniciar Parˆametros

Definir Conexões (Seção 3.1)

Posicionar osciladores na Fase de Silˆencio Selecionar neurˆonio para pulsar (Algoritmo 3.2) repita

para todo neurˆonio i fac¸a

se xi(t) = RK e z(t) > z(t − 1) ent˜ao

xi(t) = xi(t − 1) (Oscilador permanece na fase ativa) sen˜aose xi(t) = RK e z(t) < z(t − 1) ent˜ao

xi(t) = LC (oscilador retorna a fase de silˆencio) z(t) = z(t − 1)

se (z(t+1)=0) (não existem mais osciladores na fase ativa) então Selecionar próximo neurônio (Algoritmo 3.2)

fim-se sen˜ao

Calcular acoplamento Sido neurônio i (Eq. (2)) se Si> 0 (Neurônio excitado) então

xi(t + 1) = RK z(t + 1) = z(t) + 1

li= ClasseAtiva (o exemplo associado ao neurˆoio i ´e rotulado com a classe ativa - ver Alg. 3.2 )

sen˜ao

xi(t + 1) = xi(t) (o neurˆonio permanece na fase de silˆencio) fim-se

fim-se fim-para

at´e que Todos os neurˆonios tenham pulsado

x. Todos os osciladores que representam exemplos não rotulados são iniciados aleatori-amente na parte mais à esquerda da fase de silêncio (afastados de LK), enquanto os os-ciladores representando exemplos pré-rotulados são posicionados aleatoriamente na parte à direita da fase de silêncio (próximo à LK). Essa abordagem faz com que osciladores que representam exemplos pré-rotulados sejam os primeiros a se tornarem ativos. O Al-goritmo 3.2 define como os neurônios são selecionados a pulsar.

Algoritmo 3.2 Algoritmo de Selec¸˜ao

Encontrar j dentre todos os osciladores que est˜ao na fase de silˆencio, tal que xj(t) ≥ xk(t)∀k

xj(t + 1) = RK Z(t + 1) = 1 se j ∈ L ent˜ao

ClasseAtiva = lj(A variável ClasseAtiva representa a classe do neurônio selecionado e será propa-gada aos demais neurônios que forem excitados por este)

sen˜ao

ClasseAtiva = li(arg mini∈Ld(i, j)) (Se o neurônio selecionado não está associado a um exemplo pertencente ao conjunto dos pré-rotulados sj ∈ Sl, a variável ClasseAtiva recebe o rótulo associado/ ao neurônio pré-rotulado i mais próximo a j)

fim-se

para todo k na fase de silˆencio fac¸a xk(t + 1) = xk(t) + (LK − xj(t)) fim-para

Ao analisar as equações que descrevem o modelo LEGION, diversos parâmetros são observados, contudo, todos apresentam valores bem estabelecidos e não necessitam de alteração para execução dos experimentos. Dessa forma, o parâmetro σ, utilizado para configurar a rede que representa o conjunto de dados, é o único parâmetro que necessita ajustes espec´ıficos para cada conjunto de dados.

(9)

4. Experimentos e Resultados

Esta seção apresenta os experimentos realizados com o modelo proposto e seus re-spectivos resultados. Para implementação do modelo, a biblioteca iGraph foi utilizada [Csárdi & Nepusz 2006]. Essa biblioteca fornece diversas rotinas para o tratamento de estruturas de dados do tipo grafo e permite que redes com um grande número de elemen-tos sejam consideradas.

Os experimentos foram divididos em duas etapas. Na primeira, foi utilizado um conjunto de dados sintético para ilustrar o funcionamento do processo de classificação pelo método proposto. Na segunda etapa, foram selecionados conjuntos de dados, tanto reais como sintéticos, utilizados em um estudo comparativo em [Chapelle et al. 2006]. A utilização desses conjuntos de dados foi muito importante para este trabalho, pois permitiu a realização de uma comparação direta do modelo proposto com outras diversas técnicas analisadas em [Chapelle et al. 2006]. Cabe destacar que em todos os experimentos, os parâmetros da rede LEGION foram mantidos constantes: θx = 0.0, θz = 0.5 e Wz = 0.2. O limiar θw = 0.1 (Equação (4)) também foi mantido constante e não apresenta influência significativa na dinâmica do modelo. O parâmetro σ (Equação (5)) sempre foi configurado de tal forma a se obter uma rede com grau médio hki ≈ 3. Esse valor foi obtido por meio de estudo emp´ırico a partir de diversos conjuntos de dados.

−12 −10 −8 −6 −4 −2 0 2 4 6 8 −12 −10 −8 −6 −4 −2 0 2 4 6 8 (a) −12 −10 −8 −6 −4 −2 0 2 4 6 8 −12 −10 −8 −6 −4 −2 0 2 4 6 8 (b) −12 −10 −8 −6 −4 −2 0 2 4 6 8 −12 −10 −8 −6 −4 −2 0 2 4 6 8 (c)

Figura 2. Experimento com conjunto de dados sint éticos. a) conjunto com os r ótulos originais; b) condiç ão inicial do experimento com 5% dos dados rotula-dos; c) classificaç ão produzida pelo modelo proposto.

O primeiro experimento foi realizando com um conjunto de dados sintético con-tendo 1000 exemplos igualmente divididos em duas classes. A Figura 2(a) apresenta o conjunto de dados original. Desse conjunto, apenas 5% dos rótulos associados a exemplos aleatoriamente selecionados são preservados (ver Fig. 2(b)). O resultado da classificação é ilustrado pela Figura 2(c), o qual atingiu uma precisão média de aproximadamente de 96% para um conjunto de 200 execuções. Para cada execução, o subconjunto dos exem-plos pré-rotulados foi gerado de forma aleatória.

A seguir, foram realizados experimentos com os conjuntos de dados estudados em [Chapelle et al. 2006]2_{. A Tabela 1 apresenta uma breve descric¸˜ao das principais} carac-ter´ısticas desses conjuntos de dados.

Com o objetivo de comparar os resultados obtidos àqueles publicados em [Chapelle et al. 2006] e em [Quiles et al. 2010], a mesma metodologia foi adotada neste trabalho, ou seja, os experimentos foram divididos em duas baterias: na primeira, ape-nas 10 exemplos de cada conjunto de dados foram rotulados, enquanto na segunda ba-teria foram rotulados 100 exemplos de cada conjunto. Para cada uma das baterias, foram utilizados os mesmos 12 folds (divisões) propostos em [Chapelle et al. 2006], per-mitindo uma comparação justa dos métodos. Os resultados obtidos pelo modelo proposto foram comparados com o melhor, com o pior e com a média dos resultados publica-dos em [Chapelle et al. 2006] e em [Quiles et al. 2010]. É importante mencionar que em

(10)

Tabela 1. Conjuntos de dados estudados em [Chapelle et al. 2006]

Dataset Classes Dimensão Exemplos Origem g241c 2 241 1500 sintético g241n 2 241 1500 sintético Digit1 2 241 1500 sintético USPS 2 241 1500 real COIL 6 241 1500 real BCI 2 117 400 real TEXT 2 11960 1500 real

[Chapelle et al. 2006] o desvio padrão é omitido e apenas a média das 12 execuções é apresentada, impossibilitando uma análise estat´ıstica dos resultados para verificar se a diferença é significativa ou não entre os modelos.

Tabela 2. Resultados com 10 exemplos rotulados. A tabela apresenta a pre-cis ão m édia e o desvio padr ão obtidos no modelo proposto, a prepre-cis ão m édia do modelo apresentado em [Quiles et al. 2010] e a m édia, os melhores e os piores resultados das t écnicas estudadas em [Chapelle et al. 2006].

Dataset Modelo Proposto [Quiles et al. 2010] M´edia Chapelle Pior Melhor g241c 55.95(3.30)% - 59.54% 50.41% 77.24% g241n 56.78(2.89)% - 55.84% 49.37% 81.27% Digit1 76.42(5.79)% - 85.05% 69.40% 94.56% USPS 80.51(3.55)% 80.65% 80.88 74.64% 83.93% COIL 35.50(4.41)% 36.83% 35.83 32.50% 45.46% BCI 51.26(2.83)% 51.03% 50.69 49.64% 52.05% TEXT 60.88(5.16)% 79.77% 62.73 54.68% 72.85%

Tabela 3. Resultados com 100 exemplos rotulados. A tabela apresenta a pre-cis ão m édia e o desvio padr ão obtidos no modelo proposto, a prepre-cis ão m édia do modelo apresentado em [Quiles et al. 2010] e a m édia, os melhores e os piores resultados das t écnicas estudadas em [Chapelle et al. 2006].

Dataset Modelo Proposto [Quiles et al. 2010] M´edia Chapelle Pior Melhor g241c 59.72(2.25)% - 72.91% 55.95% 86.51% g241n 62.51(1.61)% - 72.32% 56.79% 95.05% Digit1 94.16(1.38)% - 96.21% 93.85% 97.56% USPS 91.37(0.97)% 84.77% 93.13 90.23% 95.32% COIL 81.02(1.83)% 81.49% 80.05 71.29% 90.39% BCI 55.17(1.77)% 64.07% 58.36 52.11% 66.75% TEXT 69.10(0.98)% 94.34% 73.88 67.17% 76.91%

As Tabelas 2 e 3 apresentam os resultados obtidos pelo método proposto neste trabalho bem como aqueles encontrados nos trabalhos supracitados. Analisando-se os resultados, é poss´ıvel observar que o modelo proposto produziu resultados próximos à média dos resultados publicados em [Chapelle et al. 2006]. Embora o modelo proposto não tenha alcançado resultados superiores às melhores técnicas consideradas, os resulta-dos são compararesulta-dos à média de diversas técnicas, ou seja, o modelo é capaz de efetuar a classificação semi-supervisionada em contextos distintos. Além disso, como mencionado no in´ıcio da seção, o grau médio da rede necessário para aplicação da técnica é muito inferior ao modelo proposto em [Quiles et al. 2010], hki ≈ 3 versus hki ≈ 25, ou seja, a rede considerada pelo modelo proposto é muito mais esparsa que aquela tratada em [Quiles et al. 2010], ou seja, a manipulação da rede se torna mais eficiente. Este fato as-sociado ao algoritmo proposto, que não necessita de integração numérica, permite que conjuntos de dados com um número maior de exemplos sejam tratados.

(11)

Outra vantagem do novo modelo em comparação ao proposto em [Quiles et al. 2010] está na existência de um critério de parada bem estabelecido. Neste modelo, basta esperar que todos os osciladores tenham pulsado uma única vez.

A partir dos experimentos realizados, ainda não foi poss´ıvel estabelecer algum tipo de correlação entre as propriedades do conjunto de dados e a precisão obtida pelo modelo. Por exemplo, considerando a situação com 100 exemplos pré-rotulados, o mod-elo proposto superou os resultados apresentados em [Quiles et al. 2010] para o conjunto de dados USPS mas apresentou resultados inferiores para os conjuntos BCI e TEXT.

5. Conclus˜oes

Este trabalho propõe um novo modelo de classificação semi-supervisionada baseado na teoria da correlação oscilatória. Dentre as principais contribuições, as seguintes podem ser destacadas: i) é uma nova aplicação da teoria da correlação oscilatória; ii) o modelo proposto apresentou uma boa precisão de classificação; iii) o modelo solucionou algumas das limitações existentes em [Quiles et al. 2010]; e iv) diferentemente dos modelos atu-ais baseados em grafos, o modelo proposto é dinâmico, pois não necessita de um novo processo de aprendizagem quando um novo exemplo é inserido no conjunto de dados. Nessas situações, o modelo proposto demanda apenas a sua execução por mais algumas iterações.

Como trabalhos futuros, pretende-se investigar de forma mais ampla as razões que levaram o modelo a apresentar baixas precisões para alguns dos conjuntos de dados testados neste trabalho. Além disso, pretende-se, também, aplicar o modelo em con-juntos de dados dinâmicos e em problemas de dom´ınios espec´ıficos, como por exemplo segmentação interativa de imagens.

Agradecimentos

Este trabalho foi realizado com apoio financeiro da FAPESP e CNPq.

Referˆencias

Bishop, C. M. (2006). Pattern recognition and machine learning. Springer.

Breve, F. A., Zhao, L., Quiles, M. G., Pedrycz, W., & Liu, J. (2012). Particle competi-tion and cooperacompeti-tion in networks for semi-supervised learning. IEEE Transaccompeti-tions on Knowledge and Data Engineering, DOI: 10.1109/TKDE.2011.119:1–16.

Campbell, S. R. & Wang, D. (1996). Synchronization and desynchronization in a network of locally coupled wilson-cowan oscillators. IEEE Transactions on Neural Networks, 7(3):541–554.

Campbell, S. R., Wang, D., & Jayaprakash, C. (1999). Synchrony and desynchrony in integrate-and-fire oscillators. Neural Computation, 11:1595–1619.

Chapelle, O., Sch¨olkopf, B., & Zien, A. (2006). Semi-supervised learning. The MIT Press.

Cs´ardi, G. & Nepusz, T. (2006). The igraph software package for complex network research. InterJournal, Complex Systems:1695.

Duda, R. O., Hart, P. E., & Stork, D. G. (2000). Pattern Classification. Wiley, segunda ed. edition.

Fan, M., Gu, N., Qiao, H., & Zhang, B. (2011). Sparse regularization for semi-supervised classification. Pattern Recognition, 44:1777–1784.

(12)

Gui, J., Wang, S.-L., & Lei, Y.-K. (2010). Multi-step dimensionality reduction and semi-supervised graph-based tumor classification using gene expression data. Artificial In-telligence in Medicine, 50:181–191.

Liu, W., He, J., & Chan, S.-F. (2010). Large graph construction for scalable semi-supervised learning. In Proceedings of the 27th International Conference on Machine Learning (ICML’2010), pages 1–8, Haifa, Israel.

Mitchell, T. M. (1997). Machine Learning. McGraw-Hill.

Nie, F., Xiang, S., Liu, Y., & Zhang, C. (2010). A general graph-based semi-supervised learning with novel class discovery. NEURAL COMPUTING & APPLICATIONS, 19(4):549–555.

Quiles, M. G., Wang, D., Zhao, L., & Romero, R. A. F. (2011). Selecting salient objects in real scenes: An oscillatory correlation model. Neural Network, 24:54–64.

Quiles, M. G., Zhao, L., Breve, F., & Romero, R. A. F. (2009). A network of integrate and fire neurons for visual selection. Neurocomputing, 72:2198–2208.

Quiles, M. G., Zhao, L., Breve, F. A., & Rocha, A. (2010). Label propagation through neuronal synchrony. In The 2010 International Joint Conference on Neural Networks (IJCNN’2010), pages 2517–2524, Barcelona, Espanha.

Terman, D. & Wang, D. (1995). Global competition and local cooperation in a network of neural oscillators. Physica D, 81:148–176.

von der Malsburg, C. (1981). The correlation theory of brain function. Internal Report 81-2, Department of Neurobiology, Max-Planck-Institute for Biophysical Chemistry, G¨ottingen, Germany.

Wang, D. (1999). Object selection based on oscillatory correlation. Neural Networks, 12:579–592.

Wang, D. (2005). The time dimension for scene analysis. IEEE Transactions on Neural Networks, 16:1401–1426.

Wang, D. & Terman, D. (1995). Locally excitatory globally inhibitory oscillator networks. IEEE Transactions on Neural Networks, 6(1):283–286.

Wang, D. & Terman, D. (1997). Image segmentation based on oscillatory correlation. Neural Computation, 9:805–836.

Wang, F. & Zhang, C. (2008). Label propagation through linear neighborhoods. IEEE Transactions on Knowledge and Data Engineering, 20(1):55–67.

Wang, Y., Xu, X., Zhao, H., & Hua, Z. (2010). Semi-supervised learning based on nearest neighbor rule and cut edges. Knowledge-Based Systems, 23:547–554.

Xu, Y., Dyer, J. S., & Owen, A. B. (2010). Empirical stationary correlations for semi-supervised learning on graphs. The Annals of Applied Statistics, 4(2):589–614.

Zhou, D., Bousquet, O., Lal, T. N., Weston, J., & Sch¨olkopf, B. (2004). Learning with local and global consistency. In Advances in Neural Information Processing Systems 16, volume 16, pages 321–328. MIT Press.

Zhu, X. (2005). Semi-supervised learning with graphs. PhD thesis, School of Computer Science, Carnegie Mellon University.

Zhu, X. (2008). Semi-supervised learning literature survey. Technical Report 1530, Com-puter Science, University of Wisconsin-Madison.