Combinação - PROCESSO DE PERSONALIZAÇÃO - Tendências dos jornais on-line na disseminação person

4.2 PROCESSO DE PERSONALIZAÇÃO

4.2.3 Combinação

O segundo ciclo do processo de recomendação envolve a implementação de uma tecnologia de recomendação, capaz de gerar recomendações diferentes para cada usuário, e a entrega e apresentação das informações. A tecnologia de combinação escolhida para ser detalhada, segundo antecipado, são os sistemas de recomendação, pormenorizados a seguir.

4.2.3.1 Sistemas de Recomendação

Variam em 1997 (PERUGINI; GONÇALVES; FOX, 2003), representam a mais desenvolvida tecnologia de combinação de conteúdo e serviços adaptados para usuários individuais (ADOMAVICIUS; TUZHILIN, 2005b). Em comparação com as ferramentas e técnicas dos sistemas de informação (por exemplo, banco de dados, mecanismos de busca), são um campo de pesquisa relativamente novo (RICCI; ROKACH; SHAPIRO, 2010). Segundo Burke (2002), os critérios “individualizado” e “interessante e útil” que os sistemas de recomendação tentam atingir, separam tais sistemas dos sistemas de recuperação de informação ou mecanismos de busca.

Os sistemas de recomendação emergiram como uma área independente de pesquisa em meados dos anos 1990, quando pesquisadores começaram a focar nos problemas de recomendação que explicitamente dependem da estrutura de avaliações (ADOMAVICIUS; TUZHILIN, 2005a; BORGES; LORENA, 2010; RICCI; ROKACH; SHAPIRO, 2010; TORRES, 2004). Suas raízes podem ser encontradas em trabalhos da ciência cognitiva, teoria de aproximação, recuperação da informação, teorias de previsão, ciência da gestão e modelagem de escolha do consumidor em marketing (ADOMAVICIUS; TUZHILIN, 2005a; BORGES; LORENA, 2010).

Segundo Perugini, Gonçalves e Fox (2003), os sistemas de recomendação são resultado de uma série de mudanças ocorrida dos anos 1970 em diante nas pesquisas de sistemas de informação, entre as quais, a mudança de foco da remoção de informação irrelevante nos sistemas para a recuperação de informação relevante, apontada por Liang et al. (2008) como o objetivo dos sistemas de recomendação. Nas palavras de Liang et al. (2008, tradução minha): “o objetivo dos sistemas de recomendação é recuperar informações de interesse para os usuários de grandes repositórios de informação.”

Desde 1997, as pesquisas em sistemas de recomendação avançam em diversas direções (PERUGINI; GONÇALVES; FOX, 2003). O Quadro 6 apresenta, desde a recuperação de informação, as mudanças na modelagem matriz que resumem a evolução dos sistemas de recomendação.

Na web, os sistemas de recomendação servem para suportar a customização da experiência do usuário na apresentação de bens ou serviços (SCHAFER; KONSTAN; RIEDL, 2001), acomodam as necessidades e interesses dos usuários explicitamente mediante alterações e seleções iniciadas pelo usuário e, implicitamente, por meio de técnicas de adaptação automática (TURPEINEN; SAARI, 2004) para recomendar itens que podem ser de interesse ou de valor para o usuário,

baseado no perfil de interesses e preferências do usuário (LIU; DOLAN; PEDERSEN, 2010).

Quadro 6 - Mudanças na matriz modelo dos sistemas de recomendação

Conceito Matriz de modelagem

Recuperação de informação termos x documentos Filtragem de informação características x documentos Filtragem baseada em conteúdo características x artefatos Filtragem colaborativa indivíduos x documentos Sistema de recomendação indivíduos x artefatos Fonte: Traduzido de Perugini, Gonçalves e Fox (2004, p. 6).

Os sistemas de recomendação são aplicados em vários domínios que, de modo geral, segundo Ricci, Rokach e Shapira (2010), podem ser divididos nas classes:

a) entretenimento, recomendações para filmes, música e IPTV; b) conteúdo, jornais personalizados, recomendação para

documentos, recomendações de páginas web, aplicações em ambientes virtuais de aprendizagem e filtros de e-mail; c) comércio eletrônico, recomendações de compra para

consumidores de livros, câmeras, computadores, etc.;

d) serviços, recomendações de serviços de viagem, de especialistas para consultoria, de casas para alugar, ou combinação de serviços.

4.2.3.1 Definição

Os sistemas de recomendação podem ser entendidos, de forma ampla, como qualquer sistema que produz recomendações individualizadas como saída, ou que tenha o efeito de guiar o usuário de forma personalizada a objetos interessantes e úteis, diante de uma grande variedade de opções (BURKE, 2002).

Segundo Burke e Ramezani (2010), eles não são definidos por um tipo particular de computação, por exemplo, um pacote de computação estatística, mas por um tipo particular de semântica de interação com o usuário. São ferramentas de software e técnicas que fornecem sugestões de itens para o usuário baseado no perfil do usuário, como sugestão de leitura de notícias em um jornal on-line (RICCI; ROBACH; SHAPIRA, 2010).

disponível, mas o volume, os sistemas de recomendação são considerados uma das principais ferramentas que tem o potencial de ajudar os usuários a diminuir os efeitos negativos da sobrecarga de informação; na web, atuam como filtros personalizando itens para os usuários finais (BORGES; LORENA, 2010).

4.2.3.2 Abordagens e técnicas de recomendação

Os sistemas de recomendação são, em geral, classificados de acordo com as fontes de informação e como elas são empregadas. Basicamente um sistema de recomendação tem:

a) dados prévios ou armazenados (background data), correspondem a toda informação que o sistema armazena para utilizar no processo de recomendação, isto é, a relação de itens a serem recomendados (catálogo de produtos, documentos, páginas web, conteúdo multimídia, etc.) e o perfil do usuário;

b) dados de entrada, informação que deve ser fornecida pelo usuário para que o processo de recomendação seja iniciado; c) algoritmos de recomendação, responsáveis pela combinação

dos dados prévios e de entrada para a oferta de recomendações personalizadas (BURKE, 2002).

Em um sistema real, dados prévios ou armazenados correspondem ao perfil dos usuários e dados de entrada são as ações que os usuários desempenham para receber recomendações (TORRES JÚNIOR, 2004). A Figura 12 ilustra o funcionamento de um sistema de recomendação.

Figura 12 - Arquitetura básica de um sistema de recomendação

Com base em como as recomendações são feitas, os sistemas de recomendação podem ser classificados em três categorias: recomendações baseado em conteúdo, recomendações colaborativas e híbridas (ADOMAVICIUS; TUHZILIN, 2005a, 2005b; BALABANOVIC; SHOHAM, 1997). Quando um sistema utiliza filtragem colaborativa, recomenda itens que indivíduos com gostos e preferências similares ao do usuário gostaram no passado; quando emprega filtragem baseada em conteúdo, recomenda itens similares àqueles que o usuário preferiu no passado; e quando utiliza filtragem híbrida combina recomendação baseada em conteúdo e colaborativa (ADOMAVICIUS; TUZHILIN, 2005a).

Na literatura, outras classificações são encontradas (RICCI; ROKACH; SHAPIRA, 2010). Burke (2002), por exemplo, além das abordagens de recomendação citadas, apresenta mais três técnicas de abordagem: demográfica, baseada em utilidade e baseada em conhecimento. Na realidade, o autor apresenta cinco técnicas, sistemas de recomendação que empregam abordagem híbrida -os sistemas híbridos-, são baseados na combinação das técnicas baseada em conteúdo, colaborativa, demográfica, baseada em utilidade e baseada em conhecimento. Por este motivo, autores como Ricci, Rokach e Shapira (2010) mencionam que o autor classifica as técnicas em seis tipos.

A abordagem baseada em conteúdo e a abordagem colaborativa são as mais utilizadas separadamente e em conjunto nos sistemas de recomendação, são descritas com mais detalhes nas seções 4.2.3.2.1 e 4.2.3.2.2 (BORGES; LORENA, 2010). De antemão, é interessante mencionar que ambas utilizam avaliações implícitas ou explícitas dos usuários como entrada para a avaliação, a diferença principal entre elas está nos dados prévios ou armazenados: enquanto os filtros colaborativos empregam, como dados prévios ou armazenados, avaliações prévias dadas por diferentes usuários para um item, os filtros baseados em conteúdo empregam as características dos itens (BORGES; LORENA, 2010). Sob outro ponto de vista, enquanto um tipo de filtragem mede a similaridade entre os itens para recomendá-los (filtragem baseada em conteúdo), o outro (filtragem colaborativa) mede a similaridade entre os usuários (TORRES, 2004).

As abordagens também se diferenciam quanto à modelagem do perfil do usuário (ANAND; MOBASHER, 2005). A filtragem baseada em conteúdo é classificada como individual, porque o sistema constrói um perfil individual do que o usuário gosta e não gosta para predizer ou adaptar interações futuras (ANAND; MOBASHER, 2005). Já a filtragem colaborativa, classificada como colaborativa, como o próprio

nome diz, é colaborativa: não usa apenas o perfil do usuário ativo, mas também de outros usuários com preferências similares, designados usuários vizinhos ativos, quando recomenda itens (ANAND; MOBASHER, 2005).

4.2.3.2.1 Abordagem baseada em conteúdo

Os sistemas baseados em conteúdo, ou cognitivos, utilizam filtragem baseada em conteúdo para fazer recomendações. Têm origem nos sistemas de recuperação de informação, no entanto, se diferem desses por construir um perfil de usuário e fornecer informações baseadas no perfil (ANAND; MOBASHER, 2005; TORRES, 2004).

Sistemas baseado em conteúdo, como se antecipou, utilizam características dos itens e opiniões dos usuários para predizer as preferências futuras do usuário em novos itens, a fonte de conhecimento é o indivíduo (BURKE; RAMEZANI, 2010). Tais sistemas filtram informação de acordo com preferências dos usuários estabelecidas pelo usuário ou inferidas do comportamento passado do usuário (LAVIE et al., 2010).

Diferente da customização de conteúdo, na qual o usuário indica as categorias de interesses e seu perfil permanece estático até que ele resolve alterá-lo, “em um sistema de filtragem baseada em conteúdo, o perfil é automaticamente atualizado a cada texto lido” (TORRES, 2004, p. 75). Nas recomendações baseado em conteúdo, o sistema aprende para recomendar itens similares aos que o usuário preferiu no passado (ADOMAVICIUS; TUHZILIN, 2005b; RICCI; ROKACH; SHAPIRA, 2010), analisa as características comuns entre itens que o usuário já classificou positivamente e, somente àqueles similares ao que o usuário preferiu antes, são recomendados (ADOMAVICIUS; TUHZILIN, 2005b). “A similaridade dos itens é calculada baseada nas características associadas aos itens comparados” (RICCI; ROKACH; SHAPIRA, 2010, p. 11, tradução minha). A filtragem baseada em conteúdo mede a similaridade entre textos com o perfil do usuário e indica ao usuário os textos mais similares (TORRES, 2004).

Concebidos principalmente para recomendar itens baseado em texto (artigos e notícias, por exemplo), o conteúdo dos sistemas baseado em conteúdo é geralmente descrito utilizando-se palavras-chave (ADOMAVICIUS; TUHZILIN, 2005a). Desse modo, para exemplificar, se um usuário lê notícias sobre bioinformática em um jornal on-line, o sistema será capaz de recomendar outras notícias sobre o mesmo tema para o usuário (ADOMAVICIUS; TUHZILIN, 2005a). Entretanto, no

domínio das notícias, o interesse do usuário em um artigo nem sempre pode ser caracterizado pelos termos/tópicos presentes no documento (DAS, DATAR; GARG, 2007), o que traz desvantagem para um sistema de recomendação de notícias que utiliza apenas filtragem baseada em conteúdo.

Na filtragem baseada em conteúdo, não há problema do primeiro avaliador, pois os sistemas são capazes de recomendar itens novos e não populares para todo e cada usuário, característica fundamental para este tipo de filtragem ser aplicada no domínio de notícias (RAO, 2008; TORRES, 2004). Também não há problema de esparsidade e novo usuário porque o sistema não exige dados de outros usuários para fazer recomendações e possui capacidade de recomendar todos os itens (RAO, 2008; TORRES, 2004).

Apesar de possuir vantagens, os sistemas baseado em conteúdo têm inconvenientes. Uma das limitações se refere à análise limitada de conteúdo. As técnicas de recuperação de informação funcionam bem na extração automática de características de documentos na forma de texto, aplicadas em dados multimídia, como imagens gráficas e fluxos de áudio e vídeo, apresentam problemas (ADOMAVICIUS; TUHZILIN, 2005a; BORGES; LORENA, 2010; RAO, 2008; TORRES, 2004). No caso de filmes e músicas, as características para os itens que não são analisáveis por máquinas devem ser inseridas manualmente (RAO, 2008).

Outro problema referente à análise limitada de conteúdo acontece quando dois itens diferentes são representados com o mesmo conjunto de características, neste caso, eles são indistinguíveis. Portanto, como itens baseado em texto são geralmente representados por suas palavras mais importantes, os sistemas baseados em conteúdo não podem distinguir se um artigo tem qualidade boa ou ruim ou se foi escrito por um autor renomado na área se utilizam os mesmos termos (ADOMAVICIUS; TUHZILIN, 2005a; BORGES; LORENA, 2010; TORRES, 2004). Nos sistemas baseados em conteúdo, os itens são limitados as suas descrições e características iniciais, o que torna tais sistemas dependentes das características que são explicitamente especificadas (ADOMAVICIUS; TUHZILIN, 2005a).

A superespecialização também é uma limitação dos sistemas baseados em conteúdo, pois o sistema não pode recomendar itens que o usuário não viu antes (ANAND; MOBASHER, 2005; ADOMAVICIUS; TUHZILIN, 2005a; BORGES; LORENA, 2010; TORRES, 2004). Além disso, em certos casos, itens não podem ser recomendados se eles são forem bastante similares a algo que o usuário

já viu, como notícias diferentes descrevendo o mesmo evento (ADOMAVICIUS; TUHZILIN, 2005a). Para Anand e Mohasher (2005), a superespecialização é o principal inconveniente da abordagem baseada em conteúdo, pois ao ser baseada apenas nos itens vistos anteriormente pelo usuário, o sistema recomenda itens bastante similares aos itens vistos de antemão.

Outra desvantagem do sistema baseado em conteúdo é o problema do novo usuário: o usuário deve avaliar um número suficiente de itens antes de um sistema entender suas preferências e apresentar recomendações confiáveis (ADOMAVICIUS; TUHZILIN, 2005a; RAO, 2008).

Borges e Lorena (2010) advertem que em um sistema baseado em conteúdo, nenhuma “surpresa” ou novidade pode estar presente em uma nova recomendação, um efeito conhecido como serendipidade, o que aumenta o problema de portfólio, recomendação de itens muito similares aos já vistos pelo usuário, comparado à filtragem colaborativa. A falta de serendipidade (recomendação de itens inesperados e bons) é um problema apontado também por Anand e Morasher (2005), que ainda atribuem como desvantagem desta abordagem o fato de o sistema depender da disponibilidade de descrição dos itens para fazer recomendações.

4.2.3.2.2 Abordagem colaborativa

A filtragem colaborativa é considerada a técnica mais popular e aplicada nos sistemas de recomendação (RICCI; ROKACH; SHAPIRA, 2010; TORRES, 2004). Foi desenvolvida para atender pontos em aberto presentes na filtragem baseada em conteúdo (REATEGUI; CAZELLA, 2005). Nas recomendações colaborativas ou filtragem colaborativa, o sistema recomenda itens ao usuário ativo que outros usuários com gostos e preferências similares gostaram no passado (ADOMAVICIUS; TUHZILIN, 2005b; RICCI; ROKACH; SHAPIRA, 2010), A filtragem colaborativa é a versão automatizada do processo denominado word of

mouth, em português, boca a boca, que significa receber ou solicitar recomendações sobre um restaurante, um livro, ou qualquer outra coisa, de amigos (ADOMAVICIUS; TUHZILIN, 2005b; BORGES; LORENA, 2010; TORRES, 2004).

Os métodos colaborativos descobrem os pares mais próximos para cada usuário, isto é, os usuários com gostos e preferências mais similares e apenas os itens mais gostados são recomendados (ADOMAVICIUS; TUHZILIN, 2005b). “A similaridade no gosto de

dois usuários é calculada com base na similaridade do histórico de avaliação dos usuários” (RICCI; ROKACH; SHAPIRA, 2010, p. 11-12, tradução minha).

Os sistemas colaborativos podem ser baseados em memória ou em modelo (DAS; DATAR; GARG, 2007; BORGES; LORENA, 2010). No primeiro tipo, algoritmos fazem predições para os usuários com base nas suas avaliações prévias; no segundo, tentam modelar os usuários por meio de avaliações prévias e utilizar os modelos gerados para predizer as avaliações de itens não vistos (DAS; DATAR; GARG, 2007).

“As recomendações colaborativas combinam uma fonte de conhecimento individual com uma fonte de conhecimento social do mesmo tipo e extrapolam as preferências do indivíduo alvo baseado em seus pares” (BURKE; RAMEZANI, 2010, p. 371, tradução minha). Por isso, tais sistemas são também conhecidos como sistemas sociais (TORRES, 2004). Normalmente, as necessidades individuais neste tipo de sistema não são utilizadas (BURKE; RAMEZANI, 2010).

Os sistemas colaborativos possuem algumas vantagens: podem tratar qualquer tipo de conteúdo e recomendar qualquer item (inesperados e bons), até itens diferentes dos itens vistos pelo usuário no passado; não precisam de uma representação de itens em termos de características nem de conhecimento de domínio para marcar as características dos itens, escalabilidade maior de itens na base de dados e melhorar a qualidade das recomendações ao longo do tempo (ADOMAVICIUS; TUHZILIN, 2005a; RAO, 2008; TORRES, 2004).

Ao lado das vantagens, tais sistemas possuem algumas desvantagens que podem afetar a precisão das recomendações, entre os quais, problema das primeiras avaliações (primeiro avaliador, novo usuário e novo item) e problemas de esparsidade, portfólio, massa crítica, de usuário incomum e viés de impopularidade.

Em relação ao problema das primeiras avaliações, assim como o sistema baseado em conteúdo, o sistema sofre com o problema do primeiro avaliador, pois para fazer recomendações precisas deve primeiramente aprender as preferências dos usuários por meio de avaliações fornecidas por ele (ADOMAVICIUS; TUHZILIN, 2005a; BORGES; LORENA, 2010; TORRES, 2004). Sofre também no início com o problema do novo usuário, já que este precisa avaliar uma quantidade mínima de itens para que o sistema comece a fazer recomendações. Em relação aos novos itens, até que um novo item seja avaliado por um número substancial de usuários, o sistema de recomendação não vai recomendá-lo, já que um filtro colaborativo não pode fazer predições para itens não avaliados ainda por nenhum usuário

ou correlacionado com itens similares na base de dados (ADOMAVICIUS; TUHZILIN, 2005a; BORGES; LORENA, 2010; CLAYPOOL et al., 1999; RAO, 2008).

O problema de esparsidade é comum nos sistemas colaborativos porque o número de itens em muitos sistemas é pequeno comparado ao número de usuários, que é bastante superior (ANAND; MOBASHER, 2005; TORRES, 2004). Com isso, as matrizes de avaliações são, portanto, esparsas, isto é, tem células vazias que não permitem ao sistema localizar vizinhos com sucesso, o que dificulta a descoberta de itens avaliados por um número suficiente de usuários, gerando, consequentemente, recomendações fracas (ANAND; MOBASHER, 2005). O problema de portfólio ocorre quando os sistemas de recomendação que utilizam a abordagem colaborativa recomendam itens muito semelhantes aos anteriormente consumidos pelos usuários (BORGES; LORENA, 2010).

O problema de massa crítica acontece porque o desenvolvimento de uma base de dados para atingir uma massa crítica de participantes torna os experimentos baseados em filtragem colaborativa bastante caros e demorados porque os usuários tendem a não estar muito motivados para expressar suas preferências quando, nos estágios iniciais, o sistema não pode ainda ajudá-los a encontrar itens segundo seus gostos e interesses (RAO, 2008). Segundo Anand e Mobasher (2005), os sistemas de filtragem precisam de um grande número de usuários para apresentar recomendações confiáveis, o que garante seu sucesso.

Quanto ao problema do usuário incomum (gray sheep), em uma pequena ou média comunidade existem usuários que não se beneficiarão da filtragem colaborativa porque suas opiniões ou gostos são incomuns (CLAYPOOL et al., 1999; LORENA, 2010, RAO, 2008). Isto é, não estão consistentemente de acordo ou estão em desacordo com qualquer grupo de usuários (CLAYPOOL et al., 1999; RAO, 2008). Então, esses usuários raramente, conforme já referido, receberão recomendações colaborativas precisas até que uma massa crítica de usuários seja alcançada pelo sistema (RAO, 2008). Por último, os sistemas colaborativos sofrem de viés de popularidade, dado que não podem recomendar itens para usuários que tem gostos únicos, pois tendem a recomendar itens populares (RAO, 2008).

No domínio de notícias, a filtragem colaborativa tem dois inconvenientes: primeiro, o sistema não pode recomendar notícias que não foram lidas por outros usuários, problema frequentemente referido como problema do primeiro avaliador (LIU; DOLAN, PEDERSEN,

2010). Este um é problema sério, já que um serviço de notícias deve apresentar informações atualizadas aos usuários em tempo hábil (LIU; DOLAN, PEDERSEN, 2010). Além disso, o método de filtragem colaborativa precisa de diversas horas para coletar cliques suficientes para recomendar notícias para os usuários, resultando em indesejável lacuna de tempo entre a notícia publicada e a recomendação (LIU; DOLAN, PEDERSEN, 2010). Quanto ao segundo problema, o método de filtragem colaborativa pode não dar conta da variabilidade individual entre usuários, pois nem todos os usuários são iguais uns para os outros (LIU; DOLAN, PEDERSEN, 2010). Exemplificando, as notícias de entretenimento são constantemente recomendadas para a maioria dos usuários no Google News, até para aqueles que nunca clicaram nelas (LIU; DOLAN, PEDERSEN, 2010). A razão é que as notícias de entretenimento são geralmente muito populares, assim, existem sempre cliques em número suficiente de um usuário vizinho para fazer recomendações (LIU; DOLAN, PEDERSEN, 2010).

4.2.3.2.3 Abordagem híbrida

Os sistemas híbridos combinam mais de uma técnica de recomendação para construir sistemas de recomendação mais eficientes (TORRES, 2004; BURKE, 2002; ADOMAVICIUS; TUZHILIN, 2005). Tais sistemas procuram reduzir ou até eliminar deficiências difíceis de superar dentro dos limites de uma abordagem de recomendação simples (ANAND; MOBASHER, 2005; TORRES, 2004).

Os primeiros sistemas de recomendação híbridos combinaram as filtragens colaborativa e baseada em conteúdo: era possível alcançar as vantagens das técnicas baseadas em conteúdo, incluindo as predições prévias para cobrir todos os itens e usuários, enquanto se ganhava as

No documento Tendências dos jornais on-line na disseminação personalizada do conhecimento Valdenise Schmitt (páginas 184-199)