Difus˜ao Baseada em Filtragem Colaborativa

seção, mostraremos como recomendações personalizadas podem ser geradas ao simular os conceitos da filtragem colaborativa dentro da técnica de Passeio Aleatório.

5.3 Difus˜ao Baseada em Filtragem Colaborativa

A principal hipótese das técnicas de recomendação baseadas em filtragem colaborativa é que usuários que apresentaram interesses por itens similares no passado tendem a apresentar interesses por itens similares no futuro. Modelos de recomendação baseados em filtragem colaborativa através da vizinhança de usuários já demonstraram ser bastante eficientes para a recomendação de POIs em RSBL [YYLL11].

Para que um modelo de recomendação baseado nos K-Vizinhos mais próximos seja im- plementado, é necessário inicialmente definir uma métrica que seja capaz de medir o quão similares são dois usuários. No nosso caso, dois usuários serão mais similares quanto maior for o número de POIs em comum que ambos visitaram no passado. Da´ı, quanto maior for este número de POIs compartilhados entre dois usuários, mais similares eles devem ser.

Neste trabalho, aplicamos a métrica de similaridade do cosseno para verificar o quão similares são os usuários, pois esta mesma métrica apresentou bons resultados em trabalhos recentes [YYLL11]. Para que esta métrica seja calculada, é necessário representar cada usuário u ∈ U por meio de um vetor ~u com |L| dimensões. Cada posição do vetor terá valor igual a 1 para indicar que o usuário efetuou um check-in na localização correspondente aquela posição do vetor, ou 0 caso o usuário nunca tenha efetuado um check-in na localização correspondente; tal como modelado em [YYLL11]. Da´ı, para dois usuários u, v ∈ U , a similaridade do cosseno pode ser calculada como descrito na equação 5.4.

simcf(u, v) = ~u · ~v

||~u||||~v|| (5.4) Da forma que foi denifida na equação 5.4, os valores das similaridades entre os usuários sempre estarão no intervalo [0, 1]. A similaridade entre dois usuários será máxima, isto é igual a 1, quando estes dois usuários tiverem feito check-ins exatamente nos mesmos POIs. Ao passo que a similaridade será m´ınima, isto é 0, quando os POIs que um usuário fez check-ins são exatamente os POIs que o outro usuário não fez check-in.

5.3 Difus˜ao Baseada em Filtragem Colaborativa 36 Tomando como exemplo os check-ins representados na figura 5.2, ter´ıamos os se- guintes vetores para cada um dos usu´arios: ~u1 = (1, 0, 1, 0, 0), ~u2 = (1, 1, 1, 1, 0) e

u3 = (0, 0, 1, 0, 1). Como podemos observar, u1 e u2 visitaram duas localizac¸˜oes em co-

mum (l1 e l3), enquanto u1 e u3 visitaram apenas l3 em comum. Logo, ´e esperado que as

similaridade entre u1e u2seja maior que a similaridade entre u1e u3. Isso pode ser verificado

ao aplicar a equac¸˜ao 5.4. Da´ı, temos simcf_(u

1, u2) = 0.7 e simcf(u1, u3) = 0.5.

Uma vez que podemos calcular a similaridade entre dois usuários, não é dif´ıcil encontrar os k usuários mais similares de um dado usuário alvo. Para tanto, basta calcular a similaridade entre o usuário alvo e todos os outros usuários, depois ordenar o resultado em ordem decrescente e por fim selecionar os k primeiros usuários do ranking.

Então, seja Nu o conjunto dos vizinhos (usuários mais similares) de um dado usuário

alvo u ∈ U ; e LNu =

[

v∈Nu

Lvo conjunto de todos os POIs visitados por todos os vizinhos de

u. Podemos então definir o grafo Gcf o qual a aplicação da técnica de Passeio Aleatório neste

grafo irá ranquear as localizações de forma similar à técnica de filtragem colaborativa dos K-Vizinhos mais próximos. Para tanto, devemos adicionar arestas entre u e seus vizinhos Nu, de forma que o caminhante do Passeio Aleatório seja capaz de visitar as localizações

LNu. Formalmente, Gcf = (Vcf, Ecf ) onde Vcf = {u} ∪ Nu ∪ LNu, Ecf = {(u, v) : v ∈

Nu} ∪ {(v, l) : v ∈ Nu, l ∈ LNu} ∪ {(l, v) : l ∈ LNu, v ∈ Nu} e os pesos das arestas s˜ao

definidos da seguinte forma:

wcf(p, q) =                    simcf_(p,q) P v∈Nusimcf(p,v) , se p = u e q ∈ Nu 1 |Lp|, se p ∈ Nu e q ∈ LNu 1 outDegree(p), se p ∈ LNu e q ∈ Nu 0, caso contr´ario

Observe que os pesos das arestas devem ser normalizados de forma que a soma dos pesos das arestas saindo de cada vértice não seja maior que 1, desta forma os pesos destas arestas podem refletir a probabilidade do caminhante utilizar uma dada aresta durante a execução de um salto no Passeio Aleatório. Na figura 5.3 vemos como seria a disposição dos vértices e arestas ao transformar do grafo de check-ins da figura 1.1 em um grafo baseado em filtragem colaborativa, assumindo u1 como usuário alvo e u2 e u3 como seus dois vizinhos mais

5.4 Difus˜ao Baseada em Distˆancias 37

Figura 5.3: Grafo Baseado em Filtragem Colaborativa pr´oximos.

Quanto aos pesos das arestas do grafo da figura 5.3, sabemos que a similaridades entre o usuário alvo u1 e seus vizinhos u2 e u3 são, respectivamente, 0.7 e 0.5; porém como

devemos aplicar normalização, então os pesos das arestas wcf(u1, u2) e wcf(u1, u3) serão,

respectivamente, 0.58 e 0.42. Não apenas as arestas saindo do usuário alvo devem ser nor- malizadas, mas também as arestas saindo dos vizinhos e saindo dos lugares; por esta razão temos que os pesos de cada aresta saindo do usuário u2 teriam peso igual a 0.25, enquanto

os pesos das arestas chegando em u2a partir dos lugares l1, l2, l3e l4 seriam 1, 1, 0.5 and 0.5

respectivamente.

Ao aplicar o Passeio Aleatório no grafo da figura 5.3, encontrar´ıamos no ranking de recomendação para o usuário alvo u1 o lugar l4 em uma posição melhor que os lugares l2 e

l5. Isso se dá pois l4 é alcançável a partir dos dois vizinhos u2 e u3, enquanto l2 é alcançável

apenas a partir de u2e l5apenas a partir de u3. Assim, o caminhante ir´a visitar l4mais vezes

que l2e l5.

5.4 Difus˜ao Baseada em Distˆancias

Não é nenhuma surpresa que os check-ins dos usuários nas RSBL não são distribu´ıdos de forma uniforme no espaço geográfico. O deslocamento do usuário de uma cidade para outra, ou até mesmo entre diferentes áreas de uma mesma cidade, geralmente demanda tempo e dinheiro. Por esta razão, os usuários tendem a visitar lugares próximos dos lugares já visitados anteriormente [CCLS11; NSMP11].

Sendo assim, precisamos de uma métrica para definir o quão próximos são dois lugares, sendo a distância geográfica uma escolha óbvia nesse sentido. Porém, desejamos uma

5.4 Difusão Baseada em Distâncias 38 métrica que calcule a similaridade entre lugares no intervalo [0, 1] para manter a coerência com o intervalo da métrica de similaridade entre usuários definida na seção anterior. Sejam l, l0 ∈ L dois lugares os quais queremos medir o quão similares eles são de acordo com sua próximidade geográfica e dist : L × L → R uma função que calcula a distância, em kilômetros, entre dois lugares; então podemos calcular a similaridade entre lugares da RSBL da forma descrita na equação 5.5.

simdist(l, l0) = min

1, 1

No documento Recomendações de pontos de interesse baseadas no histórico e localizações de check-ins em redes sociais baseadas em localização. (páginas 43-46)