Coleta de dados do usuário - PROCESSO DE PERSONALIZAÇÃO

4.2 PROCESSO DE PERSONALIZAÇÃO

4.2.1 Coleta de dados do usuário

O primeiro passo da coleta de dados consiste na identificação do usuário. Geralmente, a identificação é feita por meio de cookies ou

logins. O primeiro método é mais utilizado, o último, mais confiável (GAUCH et al., 2007; TORRES, 2004). A tarefa é descrita detalhadamente na seção 4.2.1.1. O segundo passo consiste em coletar informações sobre os usuários. “Dependendo de como a informação é coletada, dados diferentes sobre os usuários podem ser extraídos.” (GAUCH et al., 2007, p. 56, tradução minha). Os métodos de coleta de informação são apresentados na seção 4.2.1.2.

4.2.1.1 Métodos de identificação do usuário

Segundo Gauch et al. (2007), existem cinco abordagens básicas para a identificação do usuário: agentes de software, logins, servidores

proxy avançados, cookies e identificações de sessão ou ids de sessão. As três primeiras abordagens são mais precisas e necessitam da participação ativa dos usuários; as duas últimas, são métodos menos invasivos (GAUCH et al., 2007). Lembrando, as abordagens comumente citadas na literatura como métodos de identificação do usuário são cookies e

Os cookies são amplamente utilizados e efetivos devido à transparência que representam para o usuário e ao fornecimento de rastreamento de sessão cruzada (GAUCH et al., 2007). Entre os métodos de identificação, são menos invasivos, não necessitam qualquer ação por parte dos usuários (GAUCH et al., 2007). Cookie é um arquivo gravado pelo site no computador do usuário, utilizado para recuperar o perfil do usuário usando seu identificador, armazenado nesse arquivo (TORRES, 2004). Cada vez que o browser cliente conecta-se ao sistema, uma nova identificação do usuário é criada e armazenada em um cookie no computador do usuário (GAUCH et al., 2007). Quando o usuário revisita o site utilizando o mesmo computador, a mesma identificação de usuário é usada (GAUCH et al., 2007). Apesar de esta abordagem não colocar carga no usuário, identifica a máquina, não o usuário, conforme mencionado no capítulo três (TORRES, 2004; REATEGUI, CAZELLA, 2005). Portanto, se o usuário utilizar mais de um computador, terá em cada máquina um cookie e, consequentemente, um perfil (GAUCH et al. 2007). Outros inconvenientes do método são: se a máquina for utilizada por mais de um usuário, a identificação não é confiável (GAUCH et al. 2007; REATEGUI, CAZELLA, 2005; TORRES, 2004); se o usuário perde seu perfil ao limpar seus cookies no navegador, não permite ao site sua identificação e rastreamento de suas atividades; se o usuário desabilita os cookies, nenhuma identificação é possível (GAUCH et al. 2007; REATEGUI, CAZELLA, 2005; TORRES, 2004).

A identificação do usuário por ids de sessão é similar ao método

cookie, porém não existe armazenamento de identificação do usuário no site entre uma visita e outra: o usuário inicia cada sessão como uma lousa em branco, apesar de sua atividade ser rastreada durante a visita ao site (GAUCH et al., 2007). Neste caso, um perfil de usuário permanente não pode ser construído, mas a adaptação é possível durante a sessão (GAUCH et al., 2007).

A melhor precisão e consistência na identificação do usuário podem ser alcançadas por meio de sistemas que empregam login (GAUCH et al., 2007). Nesta abordagem, os usuários são monitorados através das sessões e entre os computadores (GAUCH et al., 2007). Para que a identificação aconteça, o usuário precisa se registrar no site na sua primeira visita e, posteriormente, toda vez que for revisitá-lo, efetuar

login (GAUCH et al., 2007). A identificação baseada em login é o segundo método mais confiável de identificação porque os usuários identificam a si próprios durante o login, a identificação é geralmente precisa, e o usuário pode ter o mesmo perfil de uma variedade de localizações físicas (GAUCH et al., 2007). A desvantagem é que o

usuário deve criar uma conta via processo de registro e se logar e deslogar cada vez que voltar ao site (GAUCH et al., 2007).

A abordagem mais confiável de identificação de usuário são os agentes de software, porque existe mais controle sobre a implementação da aplicação e o protocolo utilizado para a identificação (GAUCH et al., 2007). Agentes de software são pequenos programas que residem no computador do usuário, coletam informações do usuário e compartilham com um servidor via algum protocolo (GAUCH et al., 2007). O inconveniente é que tal abordagem requer a participação do usuário para instalar o software no computador (GAUCH et al., 2007).

Os servidores proxy podem fornecer uma identificação do usuário razoavelmente precisa (GAUCH et al., 2007), pois, uma vez que recebem pedidos de computadores ligados à sua rede utilizam como identificação seu próprio número IP e não o número IP do computador que requisitou o serviço (PINHO, 2003). No entanto, este método tem algumas desvantagens: ao exigir que o usuário registre seu computador com um servidor proxy, tal método é normalmente capaz de identificar usuários de apenas uma localização, a menos que o usuário não se importe de registrar todos os computadores que utiliza com o mesmo servidor proxy (GAUCH et al., 2007).

Infere-se que a escolha do método de identificação do usuário depende da precisão e da consistência que se quer alcançar e de questões de privacidade e de esforço que se deseja ou não colocar no usuário. 4.2.1.2 Métodos de coleta de dados

Depois de identificar o usuário é possível coletar dados sobre ele para construir o perfil do usuário, necessário para a customização de itens na web (TUZHILIN, 2009; TORRES, 2004). Na recomendação de notícias, o perfil do usuário deve mostrar a tendência de interesse do usuário para a oferta de recomendações de valor (KAMBA, SAKAGAMI; KOSEKI, 1997).

O perfil do usuário pode apresentar interesses ou preferências de um grupo de usuários ou de um único usuário e incluir informações demográficas, por exemplo, nome, idade, país e nível de instrução dos usuários (GAUCH et al., 2007). Contém informações sobre os usuários; informações coletadas, processadas, transformadas, analisadas e convertidas em conhecimento para a ação (actionable knowledge) (TUZHILIN, 2009).

Para Tuzhilin (2009), o perfil do usuário tem dois tipos de conhecimento: conhecimento factual sobre os usuários e conhecimento

de modelos de usuários. Conhecimento factual sobre os usuários compreende dados demográficos, transacionais e informações cruciais do usuário, processados e agregados em uma coleção de fatos sobre o usuário, incluindo estatísticas comportamentais sobre os usuários (TUZHILIN, 2009). Conhecimento de modelos de usuários envolve o desenvolvimento de modelos estatísticos e de mineração de dados para capturar aspectos do comportamento individual do usuário ou de segmentos de usuários (TUZHILIN, 2009).

Para a modelagem do perfil, o usuário precisa interagir com o site uma ou mais vezes até que suas preferências sejam identificadas (TORRES, 2004). Uma das fontes de conhecimento sobre os usuários para a construção do perfil é a informação transacional sobre interações entre o sistema de recomendação e o usuário, incluindo transações de compra, atividades de navegação e outras informações coletadas na interação (TUZHILIN, 2009).

Os dados do usuário coletados na interação usuário-sistema, utilizados para construir o perfil do usuário, podem ser extraídos explicitamente ou implicitamente. No método explícito, o usuário indica suas necessidades e preferências ao sistema; no método implícito, o sistema infere as necessidades e preferências do usuário por meio de agentes que monitoram suas atividades no site; o perfil é gerado automaticamente (GAUCH et al., 2007; LIANG; LAI; KU; 2006-7; REATEGUI; CAZELLA, 2005; TORRES, 2004). Em ambos, o sistema utiliza feedback explícito ou implícito do usuário para modelar o perfil e gerar recomendações (BILLSUS; PAZZANI, 2007; LIANG; LAI; KU; 2006-7). Quando utiliza feedback explícito do usuário o sistema é reativo, do contrário, é proativo (ANAND; MOBASHER, 2005).

Kamba, Sakagami, Koseki (1997), Liang et al. (2008) e Sakagami e Kamba (1997) classificam a coleta de dados dos usuários para a construção do perfil do usuário em extração direta das necessidades e preferências do usuário, de certa forma indireta ou semidireta e indireta. Tal classificação é distinta, mas ao mesmo tempo similar com a classificação anterior que divide a coleta de dados em método explícito e implícito. Baseado na explicação de Kamba, Sakagami, Koseki (1997), Liang et al. (2008) e Sakagami e Kamba (1997), no primeiro e no segundo método, o perfil é extraído explicitamente; no terceiro, implicitamente.

Os métodos de coleta explícita dependem da entrada de informações pessoais fornecidas pelos usuários geralmente via formulário HTML (GAUCH et al., 2007). Além de caixas simples e campos de texto, uma técnica comum de feedback é a que permite o

usuário expressar suas opiniões selecionando um valor de um intervalo (GAUCH et al., 2007). Nos jornais on-line, métodos explícitos compreendem, por exemplo, o usuário expressar suas preferências indicando as editorias de interesse ou seu nível de interesse em uma escala numérica após a leitura de uma notícia (LIANG; LAI; KU; 2006- 7). No primeiro caso, a extração é direta, pois o usuário deve dizer explicitamente ao sistema quais são seus interesses, por meio de palavras-chaves ou tópicos, por exemplo (KAMBA; SAKAGAMI; KOSEKI, 1997; LING et al., 2008; KAKAGAMI; KAMBA, 1997). Esse método é o método mais simples de coleta de dados (KAMBA; SAKAGAMI; KOSEKI, 1997). Para Crosbie (2006), que chama tal método de menu, é um método prático, mas de individualização “tosca”, pois quanto maior a lista de tópicos e de subtópicos, mais fatigante é a seleção de seções para o usuário.

O método explícito de extração direta tem desvantagens: não permite conhecer os interesses inconscientes nem mudanças de interesse de curto-prazo do usuário, pois nem sempre os usuários especificam palavras-chave que representam seus próprios interesses, muito menos, editam, de acordo com a frequência de mudança de interesse humano, seu perfil com palavras-chave (KAMBA; SAKAGAMI; KOSEKI, 1997). É fato que o interesse humano muda bastante frequentemente, logo após o terremoto e o tsunami ocorridos no Japão em março de 2011, os usuários de jornais on-line estavam muito interessados em informações sobre a catástrofe, gradualmente, com o passar do tempo, tiveram seu interesse diminuído.

Na extração semidireta, o sistema ganha conhecimento das preferências dos usuários por meio de avaliações fornecidas por ele. Tal método explícito exige bastante carga mental, se comparado com a atividade de leitura de notícias (KAMBA, SAKAGAMI; KOSEKI, 1997; LIANG et al., 2008; SAKAGAMI; KAMBA, 1997). Quando o usuário avalia notícias, a extração é semidireta, pois o sistema aprende as preferências do usuário ao solicitar que ele avalie as notícias lidas (KAMBA, SAKAGAMI; KOSEKI, 1997; LIANG et al., 2008; SAKAGAMI; KAMBA, 1997)

Borges e Lorena (2010) sugerem para sistemas de recomendação de notícias que utilizam o método explícito a apresentação de uma interface de entrada em que o usuário pode avaliar a notícia considerando algum parâmetro de avaliação. Segundo os autores, as avaliações podem ser apresentadas de diversas formas: números inteiros variando de zero a dez; estrelas (de um a cinco, oscilando de ruim a excepcional); barras contínuas em que o lado direito indica uma

avaliação negativa, o centro indica uma avaliação neutra e o lado esquerdo uma avaliação positiva; ou sistema binário, imagem de sinal positivo ou negativo para indicar uma avaliação positiva ou negativa. Além disso, comentam a possibilidade de ter uma classe de avaliação em que o usuário diz, por exemplo, se gostou ou não do item. Nesse caso, o sistema de recomendação deve converter a avaliação em uma pontuação, que será empregada para recomendar novos itens (BORGES; LORENA, 2010).

No método implícito ou de extração indireta das preferências do usuário, conforme antecipado, o perfil do usuário é geralmente construído baseado na coleta de informação implícita: o sistema tenta aprender as preferências dos usuários monitorando suas atividades no site, entre elas, tempo de leitura, rolagem de tela, clique em hiperlinks (BORGES; LORENA, 2010; GAUCH et al., 2007; KAMBA, SAKAGAMI; KOSEKI, 1997; LIANG et al., 2008; SAKAGAMI; KAMBA, 1997). A principal vantagem deste método é que ele não necessita de intervenção adicional do usuário durante o processo de construção do perfil (BORGES; LORENA, 2010). A carga mental do usuário é bastante reduzida, quando se compara com o método explícito (KAMBA, SAKAGAMI; KOSEKI, 1997; LIANG et al., 2008; SAKAGAMI; KAMBA, 1997).

No domínio de notícias, pode-se obter feedback implícito pela análise das notícias acessadas pelo usuário e pelo tempo gasto na leitura de notícias (BORGES; LORENA, 2010). No Google News, por exemplo, o clique do usuário em uma notícia representa voto positivo na notícia; assume-se, que o clique representa o interesse do usuário, embora, no geral, o clique pode não representar o interesse do usuário na notícia (DAS; DATAR; GARG, 2007).

A Figura 11 apresenta algumas técnicas de coleta de informação implícita do usuário, com os respectivos tipos de informação que são capazes de coletar, amplitude da informação, e os prós e contras das respectivas técnicas. Entre as técnicas apresentadas, os servidores Proxy parecem ser a melhor opção para coletar facilmente informações sem colocar uma grande carga no usuário (GAUCH et al., 2007). Essa técnica não requer que um novo software seja desenvolvido e instalado no computador do usuário, apenas, monitora a atividade de navegação do usuário (GAUCH et al., 2007).

A fonte de informação mais comum para extrair os interesses dos usuários são os históricos de navegação, podem ser coletados a) quando os usuários compartilham seus caches de navegação em uma base periódica ou b) quando instalam um servidor proxy que atua como um

gateway a internet, capturando, portanto todo o tráfego gerado pelo usuário (GAUCH et al., 2007).

Figura 11 - Técnicas de coleta de informação implícita do usuário

Fonte: Traduzida e adaptada de Gauch et al. (2007, p. 59-61).

Os históricos de navegação e os agentes de navegação são exemplos de abordagens que coletam informação sobre os usuários referente à navegação ou ao desempenho de atividades (GAUCH et al., 2007). Por tentarem capturar e compartilhar o que os usuários estão fazendo em seus computadores, tais abordagens são essencialmente do lado do cliente, o que significa que colocam alguma carga nos usuários para coletar e/ou compartilhar o registro de suas atividades (GAUCH et al., 2007).

A atividade de navegação e as interações de busca são as duas principais fontes de informação para a personalização de sites do lado do servidor, pois coletam apenas as atividades que o usuário desempenha enquanto interage com o site (GAUCH et al., 2007). Embora essas abordagens forneçam menos informação que as abordagens do lado do cliente, não colocam carga no usuário e podem silenciosamente coletar informação via cookies, logins ou ids de sessão

(GAUCH et al., 2007).

4.2.1.3 Deficiências dos métodos implícitos e explícitos

Os métodos implícitos e explícitos de coleta de informação para gerar o perfil de usuário têm inconvenientes (GAUCH et al., 2007; KANG et al., 2008; THORSON, 2011; LAVIE et al., 2010).

Para Lavie et al. (2010), todos os métodos explícitos são limitados, não refletem precisamente os interesses dos usuários nem são suficientemente flexíveis para tratar sua troca de necessidades. Além disso, demandam esforço por parte dos usuários, que nem sempre estão dispostos a fornecer suas preferências (LAVIE et al., 2010)45.

Os métodos explícitos também apresentam como desvantagem demanda de tempo do usuário (GAUCH et al., 2007; KANG et al., 2008; THORSON, 2011), dado que nenhum perfil pode ser construído, se o usuário não fornecer informações (GAUCH et al., 2007). Igualmente atribuem carga adicional que junto com as preocupações de privacidade que o método gera são inconvenientes que podem não motivar a utilização da aplicação pelo usuário (GAUCH et al., 2007). Outra desvantagem refere-se à veracidade das informações fornecidas pelo usuário (GAUCH et al., 2007; LAVIE et al., 2010), a falta de informações precisas gera recomendações imprecisas que podem se tornar mais imprecisas com o passar do tempo se o usuário não acessa seu perfil nem modifica segundo seus “reais” interesses e necessidades (GAUCH et al., 2007).

Em relação aos métodos implícitos, que monitoram várias ações comportamentais do usuário, eles podem ser enganosos, uma vez que não refletem necessariamente os interesses dos usuários (LAVIE et al., 2010). Por exemplo, um usuário pode clicar em uma notícia que não tem interesse em um jornal on-line e o sistema começa a recomendar notícias ao usuário que usuários com perfil igual ao seu leram, que podem não lhe interessar (LAVIE et al., 2010).

Quanto ao grau de personalização dos métodos implícitos, a pouca personalização pode resultar em insatisfação do usuário que recebe geralmente notícias de pouco ou nenhum interesse (LAVIE et al., 2010). Em contrapartida, o grau de personalização elevado pode ser muito específico e não suportar todas as necessidades do usuário em

45_{Essas desvantagens foram anteriormente mencionadas no método de extração}

direta, uma das formas de extração explícita. Esforço foi apontado apenas para a extração semidireta de dados.

razão das dificuldades associadas com a filtragem de grandes volumes de informação como: troca de interesses, dificuldade de conhecer interesses de antemão e ajuste de interesses de curto e longo prazo (LAVIE et al., 2010).

Parafraseando Gauch et al. (2007, p. 56-57, tradução minha), Em geral, os sistemas que coletam informação implícita colocam pouca ou nenhuma carga sobre os usuários, são mais prováveis de serem utilizados e, na prática, atuam tão bem, ou melhor, que aqueles que necessitam de um software específico para ser instalado ou feedback explícito para ser coletado.

De qualquer forma, para oferecer recomendações mais precisas, a combinação de tais métodos é aconselhável.

No documento Tendências dos jornais on-line na disseminação personalizada do conhecimento Valdenise Schmitt (páginas 175-183)