WebMining

(1)

Web Mining

(2)

Agenda

 Introdução

 Mineração de Dados e Web Semântica

 Algoritmo PageRank

 Estado da Arte

(3)

Web Mining

(4)

Introdução

 Introdução a Web Mining

 O que é Web Mining?

 Coleta de Dados

 Categorias de dados

(5)

Introdução a Web Mining

 Devido grande quantidade de informação

disponível na Internet, a Web é um campo fértil para a pesquisa de mineração de dados

 Podemos entender Web Mining como uma

extensão de Data Mining aplicado a dados da Internet

 A pesquisa em Web Mining envolve diversos

campos de pesquisa em computação tais como: bancos de dados, recuperação de informação e inteligência artificial (aprendizado de máquina e linguagem natural)

(6)

O que é Web Mining?

 Web Mining é o uso de técnicas de data

mining para descobrir e extrair

automaticamente informações relevantes dos documentos e serviços ligados a Internet;

 De forma geral, Web Mining pode ser

conceituada como a descoberta e análise inteligente de informações úteis da Web;

(7)

Coleta de Dados

 Na mineração de dados

na Web, os dados

podem ser coletados:

– Do lado do servidor; – No lado do cliente;

(8)

(9)

Coleta de Dados

 Do lado do servidor

– O arquivo de log de um servidor Web constitui-se em uma fonte importantíssima de informações para a realização de mineração do uso da Web.

– Isto pode ser explicado pelo fato destes arquivos

apresentarem registros da navegação dos visitantes do site.

– Entretanto, os dados do uso do site armazenados por arquivos de log podem não ser inteiramente confiáveis, por exemplo, as views de páginas - número de vezes que a página foi requisitada, e não recarregada ou atualizada,

(10)

Coleta de Dados

 No lado do cliente

– Esta coleta de informações pode ser

implementada usando programas remotos como os implementados com a linguagem baseada em objetos – javascript ou com os applets da

linguagem orientada a objetos – Java;

– O uso do javascript aparentemente é uma melhor solução pelo fato de sua interpretação exigir

menor tempo, porém as implementações não capturaram todos os clicks que o usuário realiza;

(11)

Coleta de Dados

 No proxy dos servidores

– O proxy Web atua em um nível intermediário entre o Browser do cliente e do servidor Web;

– O proxy pode ser utilizado para diminuir o tempo de carga das páginas Web;

– A atividade final do proxy é garantir que as páginas mais requisitadas estejam disponíveis para facilitar no momento de cópia, proporcionando que a realização desta atividade seja feita de forma mais rápida;

– Através deste tipo de informação é possível identificar as páginas mais requisitadas por um grupo de

(12)

Categorias de dados

 Conteúdo

 Estrutura

 Uso

(13)

Categorias de dados

 Conteúdo

– Constituem-se nos dados reais das páginas Web, isto é, a página projetada para atender ao usuário. Esta geralmente constitui-se de textos e gráficos.

 Estrutura

– Dados os quais descrevem a organização dos

conteúdos. A estrutura interna das páginas inclui o conjunto de tags HTML ou XML. A principal

(14)

Categorias de dados

 Uso

– Dados que descrevem os padrões de uso de páginas Web, como o endereço IP, páginas acessadas e a data e hora de acesso

 Perfil do usuário

– Constitui-se em dados que fornecem informações sobre usuários de um site Web

(15)

(16)

Categorias em que se divide a mineração na Web

 Tipos de buscas:

– Informação contida dentro dos documentos da Web (mineração de conteúdo ou Web Content Mining);

– Informação contida entre os documentos da Web (mineração de estrutura ou Web Structure

Mining);

– Informação contida na utilização ou interação com a Web (mineração de uso Web Log Mining);

(17)

Busca de documentos ou mineração de conteúdo

 É o processo de extração de informações úteis

sobre o conteúdo, dados e documentos da Web

– Consiste em se encontrar sites Web contendo documentos especificados por palavras-chave; – Mineração em Banco de Dados Web;

– Mineração de conteúdo envolve a utilização de técnicas de Recuperação de Informação.

(18)

Busca de conteúdos em sites Web por palavras-chave

 Os dados que compõem o conteúdo da Web

consistem de dados não-estruturados do tipo textos, de dados semi-estruturados do tipo documentos HTML e dados estruturados tais como dados contidos em bancos de dados

acessados pelas páginas;

 A pesquisa que consiste em aplicar técnicas de

mineração para descobrir conhecimento

escondido em textos é chamada Text Mining, e é uma sub área de Mineração do Conteúdo da

(19)

Mineração em Banco de Dados Web

 O objetivo do Banco de Dados é modelar os dados da

Web e integrá-los de forma a permitir consultas mais sofisticadas, do que simplesmente consultas baseadas em palavras-chave ;

 Isto é possível descobrindo-se os esquemas dos

documentos na Web e construindo Web Warehouses ;

 A pesquisa nesta área lida sobretudo com dados

semi-estruturados (XML);

 Dados semi-estruturados se referem a dados que

(20)

Recuperação de Informação.

 Auxilia o usuário no processo de busca ou

filtragem de informação;

 É o processo que realiza os principais

mecanismos de busca na Internet ao procurar atender da melhor maneira possível as

solicitações feitas por usuários através de palavras-chave.

(21)

Seleção e pré-processamento da informação ou mineração de estrutura

 É o processo de inferir conhecimento através da

topologia, organização e estrutura de links da Web entre referências de páginas

– Consiste em selecionar e pre-processar

automaticamente informações obtidas na Internet; – O pré-processamento envolve qualquer tipo de

transformação da informação obtida na busca, como por exemplo, poda de textos, transformação da

(22)

Generalização ou mineração de uso

 É o processo de extração de padrões de

navegação interessantes dos registros de acesso Web

– Consiste em descobrir automaticamente padrões gerais em sites Web ou entre vários sites Web;

– Utiliza dados secundários derivados da interação do usuário com a Web;

– Esta tarefa envolve a utilização de técnicas de inteligência artificial e de mineração de dados.

(23)

Generalização ou mineração de uso

 Dados secundários incluem:

– Registros de log de servidores de acesso a Web -Web Log Mining

– Registros de log de servidores proxy, perfis de usuários

– Transações do usuário – Consultas do usuário

(24)

Clustering

 É uma técnica de Data Mining para fazer agrupamentos

automáticos de dados segundo seu grau de semelhança

– O critério de semelhança faz parte da definição do problema.

– É o processo inverso da classificação, pois parte de uma situação em que não existem classes, somente elementos de um universo (não se sabe quais são as classes, nem quantas, muito menos as características de cada uma). – A partir dos elementos, as técnicas de clustering são

(25)

Clustering

 O objetivo então é identificar

automaticamente grupos de afinidades,

avaliando a similaridade entre os elementos e colocando os mais semelhantes no mesmo

grupo e os menos semelhantes em grupos diferentes;

 Em geral, a avaliação de similaridade entre os

elementos é feita através de uma função de similaridade, analisando as características que

(26)

Mineração de Dados e Web Semântica

 Evolução da Web;

 Características propostas para a Web

Semântica;

 Objetivos da Web Semântica;

(27)

Mineração de Dados e Web Semântica

 A Web 3.0 é considerada como um grande

conjunto de dados estruturados em que a

semântica aplicada a eles, permite que etapas da mineração, como o pré-processamento e a

extração de conhecimento, possam se tornar mais simples e eficientes;

 Prevê a criação de mecanismos de busca da

informação, que oferecem conhecimento

customizado, de acordo com as necessidades da corporação.

(28)

Evolução da Web

 Web 1.0 - repositório de informações

universais e páginas estáticas

 Web 2.0 - Os sites começam a ser focados

como serviço e permitem maior interatividade para os usuários

 Web 3.0 - Permite a recuperação e

organização do conhecimento por seres humanos e máquinas

(29)

(30)

Web 3.0

 A Web 3.0 preconiza a mudança de World Wide

Web (rede mundial) para World Wide Database (base de dados mundial) com o uso de

ontologias.

 Organiza e agrupa a informação por temas,

assuntos e interesses previamente determinados, expressos na ontologia.

 Busca estruturar o conteúdo disponível, dentro

dos conceitos de compreensão das máquinas e semântica das redes

(31)

Web Semântica

 A Web Semântica é uma iniciativa relativamente

recente, inspirada por Tim Berners-Lee, que

propõe o avanço da Web conhecida para que a mesma se torne um sistema distribuído de

representação e processamento do conhecimento.

 O objetivo da Web Semântica não é somente

permitir acesso a informação da Web em si através de sistemas de busca, mas também

(32)

Características propostas para a Web Semântica são:

 Formato padronizado: A Web Semântica propõe

padrões para uma linguagem descritiva de

metadados uniforme, que além de servir como base para troca de dados, suporta representação do conhecimento em vários níveis.

 Por exemplo, texto pode ser anotado com uma

representação formal que explicita conhecimento sobre o texto.

 O mesmo pode ser feito com imagens e

(33)

 Vocabulário e conhecimento padronizados: a

Web Semântica encoraja e facilita a formulação de vocabulários e conhecimentos compartilhados na forma de ontologias, que podem ser

disponibilizadas para modelagem de novos domínios e atividades.

 Com isto uma grande quantidade de

conhecimento pode ser estruturada, formalizada e representada para possibilitar a automação do acesso e uso.

(34)

 Serviços compartilhados: além das estruturas

estáticas, serviços na Web - os já conhecidos web services, podem ser usados para

composição de aplicações que podem estar localizadas em sistemas diferentes,

programados em linguagens diferentes e com acesso a dados especializados, usando a

Internet para comunicação entre os módulos dos sistemas

(35)

Objetivos da Web Semântica

 O formato padrão de dados , a popularidade dos

documentos com metadados (anotações) sobre conteúdo e a ambição para formalização em

grande escala do conhecimento propostos pela Web Semântica causa duas conseqüências para a área de mineração de dados da Web:

 A primeira é que a disponibilidade de informação

melhor estruturada permitirá o uso mais amplo de métodos existentes de mineração de dados, já que muitos dos algoritmos poderão ser usados com apenas pequenas modificações

(36)

Objetivos da Web Semântica

 A segunda conseqüência é a possibilidade de uso do

conhecimento formalizado através das ontologias.

 A ontologia descreve os conceitos das fontes de dados,

que podem ser documentos, planilhas, banco de dados, entre outros.

 O termo original é a palavra aristotélica “categoria”,

que pode ser usada para a classificação de informações.

 A combinação destas duas características possibilita o

aprendizado onde o conhecimento é adquirido a partir dos dados já anotados e pode ser usado para mais

(37)

Objetivos da Web Semântica

 Para realizar o objetivo da Web Semântica é

necessário, primeiramente, que novos objetos na Web sejam anotados usando os padrões de formato,

conhecimento e vocabulário para metadados.

 Mais complicada será a tarefa de converter a vasta

quantidade de objetos já existentes para uso com as ferramentas da Web Semântica.

 Algumas abordagens para automação desta tarefa

envolvem a anotação e classificação de acordo com

ontologias pré-existentes e até mesmo a reorganização de ontologias existentes.

(38)

Funcionamento da Web Semântica

 Camada Esquema

– Responsável por estruturar os dados e definir seu significado para que possa elaborar um raciocínio lógico

 Camada Ontologia

– Responsável por definir relações entre os dados. – Neste nível se dá o entendimento comum e

compartilhado de um domínio.

– Na prática, a camada ontologia serve de vocabulário consistente para a troca de informações entre

(39)

Funcionamento da Web Semântica

 Camada Lógica

– Responsável por definir mecanismos para fazer inferência sobre os dados.

– Composta por um conjunto de regras de

inferência que os agentes poderão utilizar para relacionar e processar informações.

(40)

(41)

Algoritmo PageRank

(42)

(43)

Algoritmo PageRank

 Segundo o próprio Lawrence Page: "The web

creates new challenges for information

retrieval. The amount of information on the web is growing rapidly, as well as the number of new users inexperienced in the art of web research. People are likely to surf the web

using its link graph, often starting with high quality human maintained indices such as Yahoo! or with search engines.“

(44)

Algoritmo PageRank

 Segundo ALTMAN e TENNENHOLTZ: "The

ranking of agents based on other agents' input is fundamental to e-commerce and

multi-agent systems Moreover, the ranking of multi-agents based on other agents' input have become a central ingredient of a variety of Internet sites, where perhaps the most famous examples are Google's PageRank algorithm and ebay's

(45)

Algoritmo PageRank

 E continuando sua observação: "PageRank is

probably the most popular page ranking

procedure, it may be interesting to attempt and provide axiomatization for other page ranking procedures, such as Hubs and

Authorities [6]. Once such axiomatization is found the di erent axiomatic systems can be compared as a basis for rigorous evaluation."

(46)

Algoritmo PageRank

 Outro Estudo baseado no PR, KURLAND e LEE

definem sua pesquisa: "Inspired by the

PageRank and HITS (hubs and authorities) algorithms for Web search, we propose a structural re-ranking approach to ad hoc information retrieval: we reorder the

documents in an initially retrieved set by

exploiting asymmetric relationships between them."

(47)

Algoritmo PageRank

 KURLAND E LEE, concluem: "Based on our

results, we believe that exploring other

methods for combining statistical language

models and explicitly graph-based techniques is a fruitful line for future research."

(48)

Algoritmo PageRank

 RAMANATHAN define que "Language modeling is

the task of estimating the probability distribution of linguistic units such as words, sentences,

queries, utterances, or even complete

documents. The probability distribution itself is referred to as a language model. Language

models have been used in a variety of NLP tasks including speech recognition, document

classification, optical character recognition, and statistical machine translation."

(49)

Como tudo começou...

 Desenvolvido inicialmente por Larry Page (1998) com a

posterior colaboração de Sergey Brin, fundadores do

Google, PageRank (representado por PR) foi a base para o surgimento do algoritmo do Google.

 O nome PageRank é então uma alusão a seu criador (Larry

Page) e ao fato de ser uma nota dada pelo Google às páginas (page, em inglês) indexadas em seus servidores.

 PR é uma das centenas de variáveis utilizadas pelo Google

para definir quem aparece primeiro nos resultados naturais de busca.

 O sistema do PageRank já foi copiado por seus concorrente,

(50)

Porém, este método de classificação não e novo.

 Olhando a história..

 Encontramos Jon Kleinberg, que criou HITS (Hypertext Induced

Topic Search), alguns anos antes Page e Brin.

 Na verdade, os fundadores do Google, citou a criação do PageRank.

Este algoritmo foi muito importante antes do ponto-boom COM, antes de o Google tornou-se um sucesso.

 Indo mais para trás, encontramos o trabalho de Gabriel Pinski Narin

e Francis, que, como PageRank ou algoritmo HITS, desenvolveram uma maneira de classificar as publicações por quantas vezes ele foi citado em outras publicações. Interativa foi a teoria de classificação.

(51)

Em 1941

 Descobriu-se um algoritmo deste tipo

remonta a 1941, desenvolvido por Wassily

Leontief, economista da Universidade Harvard.

 Este trabalho lhe rendeu o Prêmio Nobel de

(52)

Algoritmo PageRank

 Este algoritmo basicamente avalia páginas

baseado na quantidade de ligações a ela feitas por outras páginas consideradas importantes.

 Usa a estrutura dos grafos correspondente à

ligações de e para uma página para ter uma métrica de importância da página.

(53)

Algoritmo PageRank

(54)

Coração do Google

 É o algoritmo que determina se um site

aparece em primeiro lugar, segundo, terceiro e assim por diante.

 A ideia básica do Google é ser um sistema

que possa classificar todas as páginas existentes na web e assim trazer como

resultado, ao se pesquisar uma palavra-chave, o que seria o resultado mais relevante

(55)

Quantidade x Qualidade

 O conceito básico do PageRank é o mesmo de artigos

acadêmicos:

– Ele considera que cada link que uma página recebe (ou dá) é um voto de qualidade, assim como nos meios

acadêmicos a relevância de um profissional se dá pelo número de vezes e por quem ele foi citado.

– Portanto, não conta somente a quantidade de links mas também – e sobretudo – a sua qualidade.

– Considerando que o site A tenha dez links de páginas de baixa relevância, enquanto B recebe apenas um link de uma página muito relevante; esta última, segundo o

(56)

Como funciona?

 A web funciona através de hiperlinks. Se a página A linka

para a página B, então a página B recebeu um voto.

 Mas o peso do voto depende do PageRank da página A.  Para cada página, o Google atribui um PageRank com o

valor numérico de 1 a 10 sendo 10 o mais importante.

 Páginas mais populares recebem um alto PageRank.

Páginas como a NASA, a W3.org, a Microsoft tem o PageRank 10.

 Se uma destas páginas linkar para o seu site, é como se ela

(57)

(58)

PageRank Real

 É importante notar é que, quanto mais alto for

o Toolbar PageRank, mais difícil será alcançar o próximo valor.

 Pular de PageRank 1 para 2 é muito mais fácil

(59)

Links como votos

 Base: Utilizar os links

como votos, atribuindo uma determinada valorização a um link proveniente da página A e outro tipo de valorização ao link da página B.

(60)

PageRank

 Vários sites com PageRank 1 linkando para um

site tem um peso menor que um link de PageRank 10.

 O algoritmo do PageRank atualmente tem

diversos outros detalhes que causam variação na pontuação, com a intensão de corrigir

(61)

Como melhorar minha posição no PR

 Portanto para que as páginas do um site

tenham um alto PR é necessário obter links de web sites relevantes para o seu seguimento

(62)

Formula original

A fórmula abaixo é o algoritmo PageRank inicial que pode ser encontrado no protótipo original:

(63)

Onde

 PR(A) é o PageRank da página A.

 d é um fator de amortecimento, que tem um

valor entre 0 e 1.

 PR(i) são os valores de PageRank que tem

cada uma das páginas i ligando para A.

 C(i) é o número total de links externos na

(64)

Algoritmo Recursivo

 Como podemos ver é um algoritmo recursivo,

porque a mudança do PR de uma página afeta os PR dos outros links , e mudança do esta no de outra e assim sucessivamente pode afetar o retorno à página inicial.

 Aqui o efeito “Googledance” que ocorre

quando o Google atualiza o PR e outros

sistemas de classificação que utilizam, porque o PageRank não é a única forma de classificar usando a busca no Google.

(65)

Descobrindo o conteúdo da internet

 Os robots começam seu trabalho em uma

determinada página. Armazenam o seu

conteúdo e mapeiam todos os links existentes nela;

 Em seguida, priorizam cada um desses links e

começam a seguí-los, armazenando o

conteúdo encontrado e mapeando os links encontrados, e assim sucessivamente

(66)

(67)

(68)

(69)

(70)

Escondendo seu Site do PageRank

 Diversas pessoas acham que o Google

controla a web e todos os sites que ela contém, mas isso não é verdade;

 Os sites nos resultados de pesquisa do Google

são controlados pelos webmasters desses sites.

(71)

Escondendo seu Site do PageRank

 Pode-se remover o conteúdo (incluindo um

snippet, título, conteúdo da página ou todo um URL ou site) dos resultados de pesquisa;

 Pode-se indicar que o Google não deve

rastrear ou indexar a página;

 Há vários requisitos dependendo do tipo de

(72)

Escondendo seu Site do PageRank

 Após a realização dessas alterações e após o

Google ter rastreado o site novamente, o

conteúdo deverá sair naturalmente do índice do Google

(73)

Escondendo seu Site do PageRank

 Outra técnica interessante é o uso do robots.txt

para impedir que o Google rastreie a página;

 Em geral, mesmo se um URL for rejeitado pelo

robots.txt, ainda poderemos indexar a página se encontrarmos seu URL em outro site;

 No entanto, o Google não indexará a página se

ela estiver bloqueada no arquivo robots.txt e houver um pedido de remoção para a página.

(74)

Escondendo seu Site do PageRank

 No arquivo Robots.txt, inclua estas cláusulas:

User-agent: Googlebot Disallow: /

 Estas cláusulas informa ao Googlebot para não

(75)

Search Engine Optimization (SEO)

 Também conhecido como Otimização de

Mecanismos de Busca;

 Otimização de Sites é o conjunto de estratégias

com o objetivo de potencializar e melhorar o posicionamento de um site nas páginas de resultados naturais nos sites de busca:

– SEO de White Hat – SEO de Black Hat

(76)

Estado da arte

 KddCup

– Competição anual de Descoberta de Conhecimento e Mineração de Dados realizada pela ACM SIGKDD;

 WebKdd

– Workshop do KddCup específico para Descoberta do conhecimento e mineração de dados na Web;

 SnaKdd

– Workshop do KddCup específico para Mineração e Análise de Redes Sociais;

(77)

Aprendizagem de preferências de

perfis de novos usuários em

(78)

(79)

(80)

Qual a tecnologia utilizada por eles

para tornar isso possível?

Filtragem colaborativa é a melhor tecnologia conhecida para sistemas de recomendação

(81)

Problemas

 Carregamento inicial

 Novos itens

(82)

(83)

(84)

Métodos para descoberta do conhecimento

 Métodos implícitos;

(85)

Outras formas de classificar

 Olhar quem está no controle:

– Controlado pelo usuário; – Controlado pelo sistema; – Iniciativa mista.

(86)

Controlado pelo usuário

 Vantagens

 Desvatangens

– Podem não ser capazes de encontrar itens que expressam bem sua preferência.

(87)

Critérios desejáveis

(88)

Critérios desejáveis

(89)

(90)

Objetivo

 Definir qual é a melhor métrica para seleção

de itens que melhor expressem as preferências do novo usuário;

(91)

Tipos de medidas para selecionar itens

 Popularidade  Entropia – Entropia0 – HELF  IGCN

(92)

Popularidade

 Freqüência com que usuários avaliam o item;  Vantagem:

– Muitas pessoas são suscetíveis a taxa de itens de popularidades;

– Fácil e barato calcular

 Desvantagem:

– Dependendo da distribuição da classificação, um item popular pode não ser informativo;

– Itens populares armazenam ainda mais avaliações; – Itens impopulares podem ser difíceis de serem

(93)

(94)

Entropia

 Representa a dispersão de opiniões de

usuários sobre o item;

 Exemplo:

– Se 2.000 pessoas avaliam um item;

– E suas opiniões ficam distribuídas da seguinte

forma: 400/2000, 400/2000, 400/2000, 400/2000, 400/2000 (correspondente a uma escala de

classificação de 1,2,3,4,5);

(95)

Falem bem ou falem mau mas

falem de mim!

(96)

Entropia0

 A maioria dos itens podem não receber as

avaliações de todos os membros;

 Trata a falta de avaliações em uma categoria

separada;

 Uma categoria(0) com os itens que não

tiveram classificação;

 Quanto menor a freqüência do item nesta

(97)

HELF

 Harmonic mean of Entropy and Logarithm of

Frequency;

Pontuação de entropia x

(98)

HELF

 Aumenta a chance dos membros estarem

familiarizados com o item;

 Opiniões do usuário sobre o item possuem

(99)

IGCN

 Baseado no conceito da filtragem

colaborativa;

 Encontrar seu verdadeiro vizinho que pensa

igual;

 Utiliza algoritmo de agrupamento para

estipular uma vizinhança (grupos de usuários que pensam iguais);

(100)

IGCN

 Utiliza algoritmo de árvores de decisão;

 Nós folhas são os rótulos das respectivas

vizinhanças formadas;

 Nó raiz, o novo usuário;

 Nó internos são os testes que leva o usuário a

(101)

Experimento off-line

 11.000 usuários

 9.000 filmes

 3 milhões de classificações

(102)

Experimento on-line

 Foram criadas quatro formas de inscrição;

 Eram escolhidos randomicamente para cada

novo usuário;

 Cada processo utilizou uma das métricas

mencionadas para:

– Disponibilizar os filmes para o usuário classificar; – Recomendar os filmes para o usuário.

(103)

Resultados

Estratégia Esforço do usuário Precisão da recomendação

IGCN  

Entropia0  

HELF  

Popularidade  

(104)

Trabalhos futuros

 Limitação da abordagem em conjunto de

dados esparsos

– Cenário comum em comércio eletrônico;

 A aprendizagem do perfil de usuário pode ser

uma atividade contínua, pois as preferências do usuário podem mudar ao longo do tempo;

(105)

Trabalhos futuros

 Preferências antigas devem ser descartadas ou

mais peso deve ser dado às preferências recente.

 O problema de atualização de perfil por

avaliação de idade é interessante para direcionar trabalhos futuros;

(106)

Referências

 Mineração na Web. Marinho, L. B. ; Girardi, R. Disponível em:

http://portal.sbc.org.br/index.php?language=1&subject=101&content=magazine& id=8&option=abstract&sid=13&aid=33

 Notas de Aula – Curso de Data Mining . Amo, Sandra. Disponível em:

http://pt.scribd.com/doc/52799786/Definicao-Web-Mining

 Notas de Aula – Pinheiro, J.M.S. Disponível em: www.projetoderedes.com.br  Conceitos de Mineração de Dados na Web. Santos, R. Disponível em:

http://www.lac.inpe.br/~rafael.santos/Docs/WebMedia/2009/webmedia2009.pdf

 Web intelligence – inteligência artificial para Descoberta de conhecimento na web

. Loh, S. Garin, R. S. Disponível em:

http://inforede.net/Technical/Business/IT/Web%20Inteligence.pdf

 Learning Preferences of New Users in Recommender Systems: An Information

Theoretic Approach. Rashid, A. M., Karypis G. e Riedl J., SIGKDD Explorations, 2008.

(107)

Referências

 ALTMAN, Alon; TENNENHOLTZ, Moche. Ranking Systems: The PageRank Axioms.

Faculty of Industrial Engineering and Management Technion. Israel Institute of Technology. 2005.

 BRIN, Sergey; PAGE, Lawrence. The Anatomy of a Large-Scale Hypertextual Web

Search Engine. Computer Science Department, Stanford University, Stanford, CA 94305, USA. 1998.

 KURLAND, Oren. LEE, Lillian. PageRank without hyperlinks: Structural re-ranking

using links induced by language models. Computer Science Department, Cornell University, Ithaca NY 14853, U.S.A.

 LIU, Tina. ANALYZING THE IMPORTANCE OF GROUP STRUCTURE IN THE GOOGLE

PAGERANK ALGORITHM. A Thesis Submitted to the Graduate.

 Faculty of Rensselaer Polytechnic Institute in Partial Fulfillment of the

Requirements for the Degree of MASTER OF COMPUTER SCIENCE.

 RAMANATHAN, Ananthakrishnan. Language Modeling for Information Retrieval.

(108)

Artigo para resumir

 WebKDD 2008: 10 years of knowledge

discovery on the web post-workshop report.

– Olfa Nasraoui, Myra Spiliopoulou, Osmar R. Zaïane, Jaideep Srivastava, and Bamshad Mobasher. 2008.

– SIGKDD Explor. Newsl. 10, 2 (December 2008), 78-83. DOI=10.1145/1540276.1540299