Graph Based on the Informativeness of Labeled Instances (GBILI)

3.2 Construção de redes a partir das instâncias rotuladas a priori em

3.2.1 Graph Based on the Informativeness of Labeled Instances (GBILI)

Normalmente, os pontos de um conjunto de dados não estão isolados no es- paço de atributos, mas tendem a formar certos padrões. Por exemplo, a Figura 3.4 (a) ilustra um exemplo artificial contendo dois grupos de pontos que formam dois quadrados e outro grupo de pontos que forma uma linha. Considerando-se os padrões desse exemplo visualmente, um humano observaria três grupos. En- tretanto, métodos de aprendizado baseados em distância geralmente apresentam dificuldades neste reconhecimento de padrões. O método proposto para constru- ção de redes busca reconhecer certos padrões especificamente relacionados com variações na densidade dos dados. Para isso, faz uso do método kNN mútuo, já que este método evita conectar subredes de grupos diferentes. Na Figura 3.4 (a) empregou-se o método proposto e ele identifica três grupos de pontos, por outro lado, na Figura 3.4 (b e c) empregou-se o método kNN e este não identifica três grupos de pontos.

O método também explora informações disponíveis a priori (neste caso os vér- tices rotulados) para a construção da rede, priorizando conexões entre vértices que estão mais próximos de um vértice rotulado. Isso torna os vértices rotulados em hubs, especialmente quando o valor de k aumenta (Figura 3.5).

Como este método considera informação da vizinhança de um vértice e dos vértices rotulados para estabelecer conexões, ele é denominado Graph Based on the Informativeness of Labeled Instances (GBILI). O método, para cada vértice,

50 APRENDIZADO SEMISSUPERVISIONADO escolhe o ponto “mais informativo” para estabelecer uma conexão otimizando a Equação 3.1. minX i X j Di,j + X l Dj,l ! (3.1) s.a.Dij ≥ 0, i ∈ {1 . . . n} , j ∈ kNN mútuo de i, l ∈ L

onde kNN mútuo é o conjunto de vizinhos mútuos de um vértice, L é o conjunto de vértices rotulados a priori e D é a matriz de distância.

No algoritmo 6 são apresentados os passos para construir a rede GL. Inicial- mente, é necessário gerar a matriz de distância D, para tal a distância Euclidiana pode ser empregada. Sobre esta matriz pode-se encontrar os k vizinhos mais pró- ximos dos elementos. É necessário também inicializar o parâmetro K com um número natural e gerar uma lista dos pontos rotulados L.

No algoritmo 6, as linhas 3 a 7 encontram os k vizinhos mais próximos para um vértice vi, depois, os kNN vizinhos mútuos para vi e a distância de cada ele-

mento para um vértice rotulado mais próximo. As linhas 8 a 11 calculam a soma das distâncias do vértice vi para cada elemento da lista de vizinhos mútuos, e a

partir destes elementos para um vértice rotulado. É estabelecida uma conexão entre os vértices vi e vj que minimiza esta soma. As linhas 12 a 19 executam um

pós-processamento na rede conectando componentes isolados. Este passo é im- portante pois o kNN mútuo, especialmente para valores baixos de k, gera muitos

Figura 3.4: Resultado da classificação utilizando: (a) o método proposto; (b) e

Figura 3.5: Construção da rede GBILI (a) k = 3, (b) k = 7, (c) k = 10. Os vérti-

ces centrais são rotulados. Obtida em (Berton e de Andrade Lopes, 2012).

3.2. CONSTRUÇÃO DE REDES A PARTIR DAS INSTÂNCIAS ROTULADAS A

PRIORI EM SSL 51

componentes desconexos. Estes passos realizam uma busca em profundidade (Breadth-First Search - BFS) buscando por componentes na rede. Componentes sem nenhum vértice rotulado são conectados a um componente vizinho que pos- sua um ou mais vértices rotulados. Limitamos estas novas conexões para evitar que a rede torne-se densa.

Algorithm 6 GBILI

Entrada: base de dados X

número de vizinhos para o kNN K lista dos vértices rotulados L Saída: GL

1: V _{← conjunto de vértices a partir de X}

2: GL← (V, E, W )

3: _{for i = 1; i < |V |; i++ {}

4: kNN[vi]← calcula kNN (K,V );

5: M-kNN[vi]← calcula M-kNN (kNN,V );

6: L[vi]← encontra vértice rotulado mais próximo de vi;

7: } 8: for i = 1; i < M-kNN[vi]; i++ { 9: M [i]_{← D(v}i, vj) + D(vj, L[vj]); 10: E_{← min ∈ M[i];} 11: } 12: _{Componente ← BF S(GL);} 13: for i = 1; i < |V |; i++ { 14: if Componente(vi) /∈ L { 15: For k = 1; k < kNN(vi); k++ { 16: E _{← v}k; 17: } 18: } 19: } 20: Retornar GL

3.2.2 Análise de complexidade

Com base na matriz de similaridade encontram-se os k vizinhos mais pró- ximos para cada elemento. Para calcular o k vizinho mais próximo para um elemento o algoritmo gasta kn −k(k−1)

2 passos, onde n é o número de elementos e k

é o número de vizinhos considerado. Para encontrar os k vizinhos mais próximos para todos os elementos, a complexidade é O(kn2 ₋ kn(k−1)

2 ). Como é necessário

calcular o kNN mútuo, neste caso, para cada j-ésimo vizinho de um vértice vi

precisamos verificar se vi ∈ kNN(vj). Desse modo, leva-se k2 passos a mais. A

complexidade final para calcular os k vizinhos mútuos é O(kn2₋ kn(k−1) 2 + k

2_).

Também é necessário calcular para todos os elementos, a distância mínima para um ponto rotulado. Se existir l pontos rotulados, é necessário acessar l

52 APRENDIZADO SEMISSUPERVISIONADO vezes a matriz de similaridade para encontrar o ponto rotulado mais próximo de cada elemento. Isso leva ln passos.

O método proposto estabelece uma conexão entre os vértices vi e vj que mini-

miza a soma das distâncias de vi até um de seus k vizinhos mútuos e deste até

um vértice rotulado vl. É necessário acessar a matriz de similaridade kl vezes,

onde k são todos os vizinhos mútuos de vi e l são todos os vértices rotulados.

Este custo é adicionado ao custo de encontrar os k vizinhos mútuos.

No passo de pós-processamento é necessário encontrar todos os componentes da rede, isso pode ser feito por meio da busca em profundidade Breadth-First Search (BFS). Este algoritmo inicia em um vértice raíz e inspeciona todos os vértices vizinhos. Para cada vértice ele inspeciona os vizinhos que não foram visitados, e assim por diante. Sua complexidade de tempo é O(N + M) (Cormen et al., 2009), onde N é o número de vértices e M é o número de arestas. Como a rede construída pelo método GBILI possui grau médio aproximadamente de 2 (conforme mostrado no Capítulo 5), pela equação hki = 2N

M, o número de arestas

é próximo ao número de vértices. Quando um componente é identificado sina- lizamos se ele possui ou não um vértice rotulado. Se um vértice vi pertence a

um componente que não possui vértices rotulados, ele deve se conectar a um vértice vizinho que pertençe a outro componente com vértices rotulados. No pior caso é necessário verificar entre os k vizinhos de n exemplos, resultando em uma complexidade O(kn).

Ao final a complexidade do algoritmo proposto resulta em O(kn2₋kn(k−1) 2 +k

2_+kl)

+ O(2n+kn). Ou seja, é uma complexidade quadrática, próxima a do método kNN.

No documento Construção de redes baseadas em vizinhança para o aprendizado semissupervisionad... (páginas 73-76)