Filtragem Social - Considerações Finais - Cobertura x Precisão e Contexto Físico

A.6 Cobertura x Precisão e Contexto Físico

2.6 Considerações Finais

4.1.2 Filtragem Social

Adaptando para o problema de recomendação de eventos do presente trabalho, foi definido que basta apenas um amigo já ter confirmado presença no evento para que o mesmo passe a ser relevante para o usuário alvo. Aplicando essa arquitetura na recomendação de eventos, afim de definir se um evento é relevante ou não, foram consideradas apenas avaliações iguais a 3. Portanto, foi assumido que apenas usuários que confirmaram a presença no evento julgaram o mesmo como relevante. Além disso, a definição final se o item é relevante ou não foi tomada verificando apenas se a lista de amigos que marcaram o mesmo item como relevante não é vazia. Portanto, se pelo menos um amigo confirmar presença no evento em questão, avaliação 3, o evento passa a possuir características sociais relevantes para ser recomendado e o evento passa a

4.1. RECOMENDAÇÃO DE EVENTOS 41

Figura 4.2: Distribuição da quantidade de amigos por usuário da base de dados de Eventos

Fonte: Elaborada pelo autor ser relevante para o usuário alvo.

Apesar de apenas o valor 3 para avaliação ter sido ter sido utilizado para a definir como relevante, essa implementação poderia ainda assumir valores entre 2 e 3 por exemplo. Entretanto, a precisão dos resultados poderia ficar comprometida tendo em vista que a avaliação 2 corresponde ao talvez nas respostas aos convites dos eventos. Além disso, não existem valores de avaliações entre 2 e 3. Devido a definição da avaliação a partir das respostas aos convites anteriormente discutida, os valores possíveis seriam: 0, 1, 2 e 3.

Além disso, em vez de verificar se o evento é relevante para pelo menos um amigo, poderia ter sido feita a média de avaliações dos amigos. Desta forma, teria-se um valor para definir a relevância do item mais justo por não verificar a existência apenas de um amigo que tenha julgado o item como relevante. Entretanto, a filtragem social seria muito mais custosa por verificar as avaliações de todos os amigos que avaliaram o item e ainda fazer uma média dessas avaliações. Além disso, toda a rede de amigos pode não ser confiável e não possuir as mesmas preferências que o usuário alvo, tornando assim a média uma estratégia não tão boa para a definição de item como relevante ou não.

4.1.3 Contexto Físico

Além da filtragem social, através das informações de localização, tais como: país, estado e dia da semana, foi possível definir o contexto físico de cada evento. Através de uma pós filtragem, utilizando informações físicas de cada evento, utilizou-se as respostas dadas aos convites de eventos passados para definir quais contextos físicos seriam favoráveis em eventos futuros. Por exemplo, caso um determinado usuário tenha avaliado bem um evento que aconteceu na cidade do Recife durante o final de semana, existem grandes chances dele retornar a mesma

4.2. RECOMENDAÇÃO DE FILMES 42 cidade para outro evento também no final de semana.

Da mesma forma que na arquitetura anterior, apenas avaliações iguais a 3 são consideradas como válidas. Além disso, apenas o comprometimento da confirmação de ida ao evento continua sendo uma constatação relevante.

4.2 Recomendação de Filmes

No segundo estudo de caso, lidamos com o problema de recomendação de filmes. Muitas vezes, a escolha de um filme reflete em diversos fatores contextuais. Companhia, humor e dia da semana podem ser bons exemplos de contextos que podem ser utilizados em recomendações de filmes. Além disso, usuários costumam verificar opiniões e avaliações de amigos sobre filmes antes de assistir. Tais opiniões podem fazer com que um determinado usuário assista ou não um filme.

A base de dados foi extraída do site Douban3, trata-se de uma das redes sociais mais populares na China que possibilita ao usuário assistir, gravar e avaliar diversos filmes. Diferente- mente do problema de recomendação de eventos, os filmes não possuem a priori características físicas que possibilitasse uma filtragem física. Portanto, apenas a filtragem social foi aplicada junto com os algoritmos tradicionais de recomendação.

4.2.1 Base de Dados

Para o presente trabalho, foram utilizados dados relativos a avaliações, informações de usuários e seus relacionamentos de amizade extraídas de dezembro de 2012 até março de 2013 (FENG; QIAN,2013). Desta forma, foi possível extrair 900 mil avaliações de 2965 usuários que avaliaram 39695 filmes categorizados em 36 categorias distintas.

Portanto, as avaliações foram extraídas diretamente sem a necessidade de nenhuma estratégia de conversão como a utilizada na base de eventos apresentada anteriormente. Para Douban, obteve-se a distribuição de avaliações representada na Figura 4.3. Diferentemente da base de eventos apresentada na Seção 4.1, esta base de dados demonstra muito mais equilíbrio na distribuição de avaliações.

Observa-se a partir da Figura 4.3 que as avaliações 3, 4 e 5 representam 92% dos dados. Ou seja, encontrar itens relevantes para determinados usuários pode se dar de forma mais fácil pela grande quantidade de avaliações com valores altos.

Apesar do grande equilíbrio nas avaliações, os usuários apresentaram uma quantidade bem menor de amigos em sua rede social quando comparada a base anterior de eventos. Como é possível observar na Figura 4.4, 61% dos usuários possuem até 10 amigos e 36% entre 10 e 50 amigos. Ou seja, 97% dos usuários possuem até 50 amigos, o que diminui o espaço de busca e dificulta a aplicação do modelo para filtragem social apresentado no Capítulo 3. Além disso,

4.2. RECOMENDAÇÃO DE FILMES 43

Figura 4.3: Distribuição das Avaliações para base Douban

Fonte: Elaborada pelo autor

Figura 4.4: Distribuição da quantidade de amigos por usuário da base de dados de Filmes

4.3. EXPERIMENTOS 44 não foi possível aplicar o contexto físico, pelo fato dos filmes na base não possuírem nenhuma informação relativa a localização.

4.2.2 Filtragem Social

A filtragem social para recomendação de filmes se deu de forma semelhante a recomen- dação de eventos, a única diferença foi a definição de item relevante. Neste caso, os filmes considerados relevantes foram os de avaliação igual a 5, ou seja, o valor máximo para avaliação de um filme. Nenhum outro experimento foi realizado variando o valor da avaliação para valores menores que 5.

Além disso, a quantidade de amigos com avaliações relevantes para definir um item como relevante continua sendo 1. Ou seja, a partir da entrada de um usuário alvo e de um filme, se algum amigo do usuário alvo avaliou o filme como um valor igual a 5 o filme passa a ser considerado como relevante. Mais uma vez, nenhum experimento para buscar mais de um amigo que satisfaça essa condição foi realizado e muito menos nenhum cálculo de média de avaliações foi feito.

4.3 Experimentos

Nessa seção serão apresentados os resultados dos experimentos realizados com as bases de dados apresentadas anteriormente de eventos e filmes. De início, serão apresentados os algoritmos avaliados e a metodologia de avaliação utilizada e os parâmetros utilizados na implementação. Em seguida são apresentados os resultados graficamente para cada base de dados junto com breves comentários a respeito dos resultados alcançados.

4.3.1 Algoritmos Avaliados

No presente estudo de caso, 3 algoritmos tradicionais de recomendação foram utilizados como base. Através da implementação fornecida pelo framework Mahout (OWEN et al.,2011) para predizer novas avaliações, são utilizados os seguintes algoritmos:

Singular Value Decomposition(SVD): foram utilizados como parâmetros: 20 para o número de características ou fatores, 0.065 para lambda e 4 para a quantidade de interações para treinamento do modelo. O numero de características reflete em agrupamentos que o SVD faz que podem ser entendidos como categorias, gêneros ou até mesmo tipos de eventos. O lambda é um fator que regula a definição de cada característica. A partir de 4 interações no treinamento o modelo apresenta estouro de memória a depender dos recursos de hardware disponíveis, por esta razão foi fixado esse valor. Além disso, qualquer aumento nos parâmetros de quantidade de fatores e

4.3. EXPERIMENTOS 45 lambda elevam o custo computacional e as chances de estouro de memória para um grande conjunto de dados.

Filtragem Colaborativa utilizando similaridade entre usuários (FCU): foi utilizado o cálculo da similaridade entre usuários com base na correlação de Pearson. A vizinhança para calculo da similaridade foi limitada por usuários que fossem pelo menos 70% similares. Ou seja, se fosse definido a priori uma quantidade X de amigos na vizinhança, o modelo poderia definir usuários não tão semelhantes para apenas conseguir chegar na quantidade X indicada. Apesar da definição a priori de usuários na vizinhança possuir um espaço de busca constante, poderia reduzir a qualidade da recomendação pelo fato de usuários não tão semelhantes fazerem parte da mesma vizinhança.

Filtragem Colaborativa utilizando similaridade entre itens (FCI): a similaridade entre itens também é calculada através da correlação de Pearson. A estratégia foi calcular previamente a similaridade entre todos os itens através da correlação de Pearson. A vizinhança é definida por itens que possuem alguma similaridade, ou seja, que possuam similaridade diferente de zero. Apenas essa definição já consegue restringir a quantidade de itens para serem analisados.

Para realizar a pós filtragem, foram utilizados os algoritmos tradicionais de recomendação anteriormente citados mais a filtragem social definidos por:

FCI + Filtragem Social: FCI com pós-filtragem utilizando a filtragem social. FCU + Filtragem Social: FCU com pós-filtragem utilizando a filtragem social. SVD + Filtragem Social: SVD com pós-filtragem utilizando a filtragem social. Para o contexto físico, assim como no social, foram incrementados após a execução de cada algoritmo de predição de avaliação FCI, FCU e SVD definidos anteriormente, a pós filtragem física física:

FCI + Contexto Físico: FCI com pós filtragem utilizando o contexto físico. FCU + Contexto Físico: FCU com pós filtragem utilizando o contexto físico. SVD + Contexto Físico: SVD com pós filtragem utilizando o contexto físico.

No documento Sistemas de recomendação baseados em contexto físico e social (páginas 41-46)