• Nenhum resultado encontrado

Recomendação Personalizada de Notícias para Usuários da Web Móvel

N/A
N/A
Protected

Academic year: 2021

Share "Recomendação Personalizada de Notícias para Usuários da Web Móvel"

Copied!
6
0
0

Texto

(1)

Recomendação Personalizada de Notícias para Usuários da

Web Móvel

Renato Crivano1,2, Carlos Eduardo R. de Mello1, Luciano Renovato de Albuquerque2, Fabrício Raphael Silva Ferreira1, Olivério Costa Fernandes1,

Rodrigo Mesquita de Abreu1, Geraldo Zimbrão1 1

Programa de Engenharia de Sistemas e Computação Universidade Federal de Rio de Janeiro – COPPE/UFRJ Caixa Postal 68.511 – 21.941-972 – Rio de Janeiro – RJ – Brasil

2

Hands – Av. Nilo Peçanha, 50/1301 – Centro – Rio de Janeiro – RJ – Brasil renato@cos.ufrj.br, carlosmello@cos.ufrj.br, luciano@hands.com.br, fabriciorsf@cos.ufrj.br, oliverio@cos.ufrj.br, rodmabreu@cos.ufrj.br,

zimbrao@cos.ufrj.br

Abstract. This paper presents a proposal for news recommendation to mobile web users, based on the clustering data mining technique. On our approach, groups of users are identified after the news access logs and the news categorizations. Besides, we discuss strategies to define the ideal number of clusters and the use of the classification data mining technique to help understanding the meaning of the identified groups.

Resumo. Este artigo apresenta uma proposta de recomendação de notícias para usuários da web móvel baseada na técnica de mineração de dados conhecida como agrupamento. Na abordagem utilizada são formados grupos de usuários a partir do histórico de visualizações de notícias e suas categorizações em editorias. Além disso, discutimos questões relativas à definição do número ideal de grupos e ao uso da técnica de classificação de mineração de dados para auxiliar a compreensão do significado dos grupos identificados.

1. Introdução

O uso da Web por meio de dispositivos móveis tem crescido muito ultimamente. A redução dos custos de acesso a esses aparelhos e a sua popularização remetem a um aumento ainda maior. No entanto, o tempo de latência da rede, o pequeno tamanho da tela dos aparelhos e as limitações de interface com o usuário fazem com que a navegação Web nesses dispositivos seja muito mais custosa do que nos computadores pessoais. Isto acaba desestimulando seu uso e, conseqüentemente, reduzindo o tamanho deste mercado.

Uma forma de melhor prover conteúdo para esses usuários consiste na personalização da oferta, entregando para cada pessoa um conteúdo perfeitamente adaptado aos seus interesses. Neste artigo, apresentamos um estudo de caso realizado na empresa Hands (www.hands.com.br). Neste foram utilizadas técnicas de agrupamento para identificar automaticamente grupos de usuários de um portal móvel de acordo com

(2)

seus interesses por categorias de notícias. Para isso, o perfil de interesse de cada usuário foi construído a partir do histórico de visitação de notícias.

2. Trabalhos Relacionados

Técnicas como as propostas por C. Aggarwal e P. S. Yu (2002), que tratam da recomendação de notícias por meio de mineração de textos, podem produzir resultados interessantes, entretanto, são de difícil implementação.

Outras propostas, como as apresentadas em C. Shahabi et al (1997), trabalham apenas com os rastros de navegação (urls) e, conseqüentemente, não se beneficiam da estrutura típica das notícias (publicação, editoria, título e corpo).

3. Proposta de Solução

A abordagem proposta consiste em recomendar para um usuário as notícias mais vistas recentemente pelos demais usuários do mesmo grupo de interesses. Desta forma, cada usuário, ao navegar pelo portal, está contribuindo para a recomendação de notícias para os demais. Por exemplo, pode ser oferecida para um usuário a lista das dez notícias mais acessadas por usuários com interesses semelhantes, nas últimas 24 horas.

Para determinar os grupos de usuários acima referenciados, optamos por utilizar o algoritmo de agrupamento de particionamento K-means em Macqueen, J. (1967), por sua ampla literatura, confiabilidade, rápida convergência e tendência a encontrar grupos esféricos. Outros algoritmos de agrupamento de particionamento ou mesmo hierárquicos poderiam ser utilizados.

4. Experimento

4.1. Análise dos Dados

Trabalhamos com 6.305 notícias distribuídas em 151 editorias diferentes que foram alvo de 17.733 visualizações realizadas por 5.477 usuários distintos. Uma editoria consiste no nome de uma seção de uma publicação, na qual as notícias são posicionadas por assunto, i.e., esportes, economia etc.

4.2. Pré-processamento

Como queremos identificar grupos de usuários com perfis de interesse semelhantes, optamos por utilizar apenas a editoria no processo de agrupamento.

Testes iniciais demonstraram que um grande número de dimensões prejudica os resultados encontrados pelo algoritmo de agrupamento. Isto é, os grupos identificados não são bem definidos, sendo estes de difícil classificação por causa da grande dispersão de seus dados em todas as dimensões. Portanto, optamos por definir um conjunto reduzido de categorias de notícias, mapeando nestas as editorias existentes.

Posteriormente, agrupamos os dados por usuário, gerando uma tabela com uma coluna para o código do usuário e colunas para o número de notícias lidas em cada uma das categorias existentes.

(3)

Dessa forma, criamos um espaço multidimensional em que cada usuário passou a ser representado por um vetor de interesses (Tabela 1). Dois usuários com interesses semelhantes seriam representados por vetores com sentidos próximos.

Tabela 1. Exemplo de vetores representativos do interesse dos usuários

Id en ti fi ca d o r A g ri cu lt u ra A rt e e L az er C ar ro e M o to C iê n ci a E co n o m ia E sp o rt es In fo rm át ic a In te rn ac io n al N ac io n al P u b li ci d ad e R el ig iã o u190484 1 0 0 0 1 2 2 0 0 0 0 u181147 0 0 0 2 3 0 6 0 0 1 0 u185139 0 0 0 1 1 0 15 0 4 1 0 u194245 0 0 0 0 3 0 0 0 2 0 0

Uma vez que o objetivo do trabalho é gerar um agrupamento para os usuários freqüentes, excluímos todos os usuários que, no período de tempo analisado, acessaram menos de cinco notícias. Com isso, reduzimos muito o número de usuários, mas mantivemos os usuários fiéis ao serviço e reduzimos o número de outliers, o que facilitou a execução do método de agrupamento.

Além disso, optamos por desprezar as categorias que foram visualizadas por menos de 10% dos usuários. Conseqüentemente, passamos a trabalhar apenas com sete categorias: Carro e Moto, Ciência, Economia, Esportes, Informática, Internacional e Nacional.

Por consideramos que o importante é a proporção de interesses e não a quantidade de notícias acessadas, os vetores de interesse foram normalizados, por meio da divisão de cada vetor por seu módulo.

Após o pré-processamento, ficamos com uma tabela de 447 registros, cada um representando um usuário e seu vetor unitário de interesses.

4.3. Execução do Método de Agrupamento

Aplicamos o algoritmo K-Means de agrupamento nos vetores de interesse, obtidos após o pré-processamento. Para avaliar o grau de similaridade entre os usuários, utilizamos a distância euclidiana entre os pontos definidos por cada vetor de interesse.

Para estimar o número de clusters, o algoritmo foi executado repetidas vezes com o número de grupos, k, variando entre 3 e 15 e foi calculada a soma quadrática dos erros dentro de cada grupo.

Para diminuir a distorção causada pela obtenção de mínimos locais diferentes dependendo da escolha dos k-centróides iniciais, foram realizados testes com cinqüenta sementes aleatórias diferentes para cada valor de k. Os dados obtidos são apresentados na Figura 1. Nesta, observamos uma queda acentuada na dispersão dos erros quadráticos quando passamos de k=9 para k=10. Portanto, considerando as condições de contorno impostas pelo problema em si e os resultados das quedas dos desvios, optamos por

(4)

utilizar k=10 para a quantidade de grupos em que os usuários estão mais bem distribuídos.

Figura 1. Somas quadráticas dos erros com diferentes sementes aleatórias

Selecionamos a semente aleatória que produziu a menor soma quadrática de erros e a reintroduzimos no algoritmo para fazer a identificação final dos grupos, que pode ser vista na Figura 2.

A Figura 3 detalha o maior grupo identificado, exibindo boxplots paralelos da projeção em cada uma das categorias dos vetores de interesse dos seus usuários. Como pode ser observado, os membros desse grupo têm forte predileção por notícias de informática.

(5)

Figura 3. Boxplot do primeiro dos dez grupos identificados

4.4. Execução do Método de Classificação

Com o intuito de rotular os grupos identificados, executamos o método de classificação RIPPER, proposto por William W. Cohen (2005). Alimentamos o RIPPER com os vetores unitários representantes de cada usuário e, como classe, o número do grupo produzido anteriormente pelo K-Means.

Observamos que a qualidade do agrupamento é diretamente refletida na baixa complexidade das regras de classificação produzidas pelo RIPPER. Com os parâmetros utilizados no pré-processamento e nos agrupamentos descritos anteriormente, regras de classificação bastante simples foram obtidas.

No Quadro 1, cada regra encontrada é representada por uma ou mais condições, pelo grupo indicado e pelo número de usuários apropriados correta e incorretamente.

(Ciência >= 0.453609) => Cluster=c4 (12.0/2.0) (Internacional >= 0.624695) => Cluster=c1 (15.0/0.0) (Carro e Moto >= 0.801784) => Cluster=c8 (17.0/0.0)

(Economia >= 0.447214) and (Informática >= 0.46676) => Cluster=c3 (26.0/4.0)

(Esportes >= 0.534522) and (Informática >= 0.666667) and (Economia >= 0.267261) => Cluster=c3 (3.0/0.0) (Informática >= 0.566947) and (Nacional >= 0.234082) and (Informática <= 0.939618) => Cluster=c6 (34.0/1.0) (Economia >= 0.342997) and (Nacional >= 0.480384) => Cluster=c5 (44.0/4.0)

(Esportes >= 0.57735) => Cluster=c0 (44.0/0.0) (Economia >= 0.801784) => Cluster=c2 (57.0/0.0) (Informática <= 0.486664) => Cluster=c7 (76.0/0.0) => Cluster=c9 (119.0/1.0)

(6)

5 – Considerações Finais

A aplicação do algoritmo K-Means para agrupar usuários em função de seus interesses por categorias de notícias mostrou-se perfeitamente factível no portal de notícias. Com certeza, técnicas semelhantes poderão ser empregadas em outros tópicos de conteúdo, como filmes de cinema, restaurantes, shows etc. para identificar interesses de usuários e viabilizar melhores sugestões também para conteúdos não noticiosos.

Trabalhos futuros podem explorar o agrupamento com outras medidas de distância e avaliar outros métodos de classificação.

Uma contribuição importante deste trabalho consistiu em sugerir uma nova abordagem para definir a quantidade “k” de clusters para o método K-Means. Como pôde ser observado anteriormente, as somas quadráticas dos erros variam bastante em função da semente aleatória. Sendo assim, uma tentativa de estimar a quantidade de grupos sem considerar um número razoável de sementes poderia ter incorrido em erro.

A solução proposta foi considerada adequada pela diretoria da empresa Hands que já está providenciando sua inclusão no portal. Futuramente, um estudo para avaliar o impacto da recomendação personalizada na fidelidade de seus usuários será realizado na empresa.

Referências

Aggarwal, C., e Yu, P. S. (2002). “An Automated System for Web Portal Personalization”. Disponível em: http://citeseer.ist.psu.edu/571866.html.

Cohen, William W. (1995). “Fast Effective Rule Induction”, In Twelfth International Conference on Machine Learning, pp. 115-123.

Macqueen, J. (1967). "Some methods for classification and analysis of multivariate observations", In Proc. 5th Berkeley Symp. Math. Statist. Prob., v. 1, pp. 281–297, Berkeley.

Shahabi, C. A., Zarkesh, M., Adibi, J. e Shah, V. (1997). “Knowledge discovery from users web-page navigation”. IEEE RIDE'97.

Referências

Documentos relacionados

As novas condições de repasse para os bancos privados valerão para esses financiamentos, mas, segundo Siffert, ainda não há prazo para uma definição.. A previsão inicial do

Além da autorização federal, outro desafio para o transporte por hidrovia no Estado são as eclusas, mas tanto um quanto o outro são considerados transponíveis pelo superintendente

Contudo, este trabalho irá investigar a tecnologia de rastreamento baseada em web cookies inseridos na navegação dos dez sites de notícias mais acessados por usuários de

Contudo, este trabalho investigou a tecnologia de rastreamento baseada em web cookies inseridos na navegação dos dez sites de notícias mais acessados por usuários de Internet

A Eldorado Propaganda é uma empresa que atua há 59 anos no mercado publicitário, comercializando peças de Mídia Exterior em pontos estrategicamente selecionados para oferecer a

Essai : deux sujets d’essais sont proposés d’une longueur de 250 mots (± 10 %), sur thème prédéterminé, dont un à traiter au choix.. Langue

O risco de desenvolver um coágulo sanguíneo numa veia é mais elevado durante o primeiro ano de toma de um contracetivo hormonal combinado pela primeira vez.. O risco poderá também

As obras são de responsabilidade da Hidrovias do Brasil (HBSA) e fazem parte do projeto da empresa de implantar o maior complexo de grãos do estado do Pará, que