Lacunas entre o Folkauthority e a RI - UNIVERSIDADE ESTADUAL DE MARING ´A CENTRO DE TECNOLOGIA

Um trabalho que de fato avaliou a rela¸cão entre o conceito de Folkauthority e a RI foi (Pereira e da Silva, 2008c), no qual foram discutidos vários benef´ıcios com rela¸cão ao conceito de Folkauthority e a sobrecarga de informa¸cão. O autor realiza um estudo a fim de validar a hipótese de que “... a aplica¸cão do conceito de autoridade cognitiva por meio de folksonomia eleva a precisão da informa¸cão recuperada e ameniza o impacto da sobrecarga de informa¸cão nestes sistemas.” Esse estudo é baseado em uma simula¸cão da categoriza¸cão dos documentos por parte dos usuários e em uma simula¸cão da cadeia de autoridades. No entanto, é poss´ıvel apontar algumas questões a serem consideradas na simula¸cão realizada em (Pereira e da Silva, 2008c), a qual é baseada em cinco passos que definem o conjunto de elementos a serem utilizados no estudo, a saber: as tags, os usuários, os documentos, a categoriza¸cão dos documentos e a concessão de autoridades cognitivas.

Na etapa de defini¸cão de tags foram definidas 250 tags as quais foram utilizadas em todo o estudo realizado por Pereira e da Silva (2008c). Na etapa de defini¸cão dos usuários, foram gerados 100 usuários e, para cada usuário foram associadas 20 tags a fim de denotar seu “vocabulário”, isto é, de denotar as tags que foram utilizadas por cada usuário para categorizar os documentos. No entanto, as 20tags associadas a cada um dos 100 usuários foram escolhidas aleatoriamente, o que diverge daquilo que é apontado na literatura como um modelo para a utiliza¸cão de tags entre os usuários de SBFs (Golder e Huberman, 2006; Halpin et al., 2007; Trant, 2009). É conhecido que os termos utilizados tanto para descrever um documento quanto aqueles pertencentes ao vocabulário de um usuário possuem uma rela¸cão entre si. Um documento possui umtema ouassunto e dessa forma os termos mais importantes contidos no documento possuem uma rela¸cão com o significado desse assunto (Manning et al., 2009). Além disso, cada usuário possui um ou maisassuntos de interesse e os termos utilizados pelo usuários para descrevê-los também guardam essa mesma rela¸cão. Ainda assim, considera-se que a questão da distribui¸cão da frequência de uso das tags de cada usuário foi bem procedida em (Pereira e da Silva, 2008c), pois nesse trabalho utilizou-se a distribui¸cão de Paretto para simular a frequência de uso dastags por cada usuário.

No momento de defini¸cão das categoriza¸cões dos documentos, a simula¸cão demonstrada em (Pereira e da Silva, 2008c) procede escolhendo um número fixo de 1000 documentos. Além disso, para cada documento foram escolhidos 20 usuários aleatoriamente, a fim de denotarem os usuários categorizadores dos documentos. A atribui¸cão de tags aos documentos não obedece à uma distribui¸cão de probabilidade na qual as tags relaciona-das ao assunto do documento possuem maior probabilidade de serem utilizarelaciona-das. Essa distribui¸cão é “aleatória”. No entanto, nessa simula¸cão foram utilizadas entre 2 e 5

tags para descrever cada documento (para cada usuário). Esse é o número de tags de fato utilizadas pelos usuários para categorizar os documentos, conforme apontado na literatura que já investigou essa questão (Golder e Huberman, 2006). Por fim, a topologia da cadeia de autoridades foi definida de forma aleatória (cada usuário categorizava um número aleatório entre 0 e 10 de autoridades). No entanto, conforme apontado por autores na área de Análise de Redes Sociais, um modelo generativo aleatório não é o mais adequado para descrever uma rede social com caracter´ısticas da cadeia de autoridades. Mika (2007), ao discorrer sobre o modelo generativo conhecido como modelo random graph afirma que uma rede gerada aleatoriamente não é a ideal para denotar redes com caracter´ısticas da cadeia de autoridades. Em seu texto o autor diz que devido à limita¸cões de espa¸co, é improvável que as rela¸cões sociais aconte¸cam de forma totalmente aleatória, apesar de algumas rela¸cões serem geradas ao acaso ou acidentalmente. Existe uma maior

probabilidade de que essas rela¸cões aconte¸cam em ambientes sociais limitados, sendo as rela¸cões ao acaso mais esporádicas. Além disso, Kleinberg (1999) aponta para um modelo dehubs(nós com muitas arestas de sa´ıda) eauthorities (nós com muitas arestas incidentes) a fim de descrever uma rede de “autoridades” (influência) de páginas Web.

A Figura 3.2 mostra um excerto da cadeia de autoridades avaliada neste trabalho, a qual foi gerada por meio da minera¸cão de uma rede social existente na Web (maiores detalhes sobre esse procedimento podem ser encontrados no Cap´ıtulo 4, Se¸cão 4.2). Nessa figura é poss´ıvel visualizar dois nós destacados pelos termos “Authority” e “Hub”. Um nó

Authority representa um usuário que publica/disponibiliza muita informa¸cão e é bastante reconhecido como autoridade em alguns assuntos. Já o nóHub representa um usuário que realiza intensa atividade de categoriza¸cão de autoridades cognitivas, podendo ou não ser também reconhecido como autoridade em alguns assuntos.

Figura 3.2: Topologia da cadeia de autoridades.

Ainda com rela¸cão ao trabalho de Pereira e da Silva (2008c), a abordagem apresentada para RI utilizandoFolkauthority foi comparada com uma abordagem para RI baseada na ordem cronológica dos resultados. Isto é, todos os documentos categorizados com tags

pertencentes à consulta foram ordenados de acordo com a data em que foram disponibi-lizados no sistema e então foram comparados com o resultado de busca gerado por uma abordagem com Folkauthority. É claro que esta não é uma abordagem tradicionalmente utilizada naWeb(apesar de ser utilizada pelo sistemaDelicious na época em que o estudo de Pereira e da Silva (2008c) foi publicado). Dessa forma, há uma lacuna sobre estudos na

area de RI e de Folkauthority, os quais demonstrem compara¸c˜oes entre uma abordagem para RI que utilize o conceito deFolkauthority e uma abordagem tradicional de RI naWeb

(como é o caso do esquema deranking tf-idf). Além disso, carece também de investiga¸cões o problema de gerar dados que sejam baseados em modelos compat´ıveis com uma cadeia de autoridades (um grafo orientado cuja distribui¸cão das arestas incidentes nos nós obede¸ca uma ordem de probabilidade conhecida). Uma possibilidade para o tratamento dessa questão é a gera¸cão da cadeia de autoridades a partir de dados de uma rede social real – abordagem a qual foi utilizada neste trabalho.

Neste trabalho, a utiliza¸cão de uma rede social real para tratar a questão da defini¸cão da cadeia de autoridades permitiu obter a topologia da cadeia (quais usuários concederam autoridades e à quem), no entanto os dados relacionados à concessão de autoridade (quais

tags e n´ıveis foram atribu´ıdos `as autoridades) foram simulados com base no conjunto de

tags dos dois usuários que participaram da concessão (as quais foram obtidas a partir de um sistema real). Além disso, utilizou-se o algoritmo dePageRank à Priori para calcular a importância de uma autoridade em uma tag dentro da cadeia de autoridades. Outra questão tratada neste trabalho foi a lacuna relacionada aos modelos para descrever a categoriza¸cão dos documentos por parte dos usuários. Essa questão também foi tratada com base na captura de dados de um SBF real, conforme será descrito com detalhes no Cap´ıtulo 4.

No documento UNIVERSIDADE ESTADUAL DE MARING Á CENTRO DE TECNOLOGIA DEPARTAMENTO DE INFORM ÁTICA PROGRAMA DE P ÓS-GRADUA ¸C ÃO EM CIÊNCIA DA COMPUTA ¸C ÃO (páginas 53-56)