Aplicação de Técnicas de Mineração de Dados em Logs de Servidores Web

(1)

Aplicação de Técnicas de Mineração de Dados em Logs de

Servidores Web

Ramon Chiara1 _{, Maria Carolina Monard}1 1_{Laboratório de Inteligência Computacional} Instituto de Ciências Matemáticas e de Computação da

Universidade de S˜ao Paulo

Av. do Trabalhador São-Carlense, 400 - Centro - Cx. Postal 668 13560-970 - São Carlos - São Paulo - Brasil

{ramon,mcmonard}@icmc.usp.br

Abstract. There is a continuous growth in the size and use of the World Wide

Web. Understanding users navigation preferences plays an important role in the process of customizing and adapting the site’s interface for the users. In this work we focus on techniques to study the user behaviour when navigating within a web site using the information stored in web server logs, and propose the use of Inductive Logic Programming (ILP) to extract relational knowledge from the set of user navigation sessions which characterize the interaction with the web pages visited. We also describe an implementation of this proposal and report initial experiments conducted using the ILP system Progol on a real log file.

Resumo. H´a um crescimento cont´ınuo no tamanho e no uso da World Wide Web.

Entender as preferências de cada usuário é vital no processo de personalização e adaptação da interface dos sites. Neste trabalho, são discutidas e analisadas algumas técnicas utilizadas para estudar o comportamento do usuário durante a navegação em um site, usando as informações armazenadas nos logs de servi-dores Web, e é proposta a utilização de Programação Lógica Indutiva (PLI) para extrair conhecimento relacional das sessões de navegação que caracte-rizam a interação de usuários com as páginas visitadas no site. Também são descritas uma implementação desta proposta e os resultados de experiências iniciais na utilização do sistema de PLI Progol em um arquivo de log real.

1. Introduc¸˜ao

A Internet, desde a sua criação, tem crescido constantemente. Uma vasta quanti-dade de serviços apareceu contribuindo para sua expansão. Serviços de correio eletrônico, listas de discussão, troca de arquivos e a World Wide Web (WWW) são alguns exemplos. Além do tamanho, o seu conteúdo também tem acompanhado esse crescimento. Com essa massa crescente de dados dispon´ıvel ao público, surgiram alguns problemas, tais como: a necessidade das pessoas recorrem aos sites de busca quando precisam encontrar alguma informação espec´ıfica na Web, moldar o conteúdo e a forma do site de maneira a agradar os usuários, descobrir quem são as pessoas que visitam um site, entre outros.

As técnicas de Web Mining e de Recuperação de Informação podem ser uti-lizadas para resolver parte desses problemas. Web Mining pode ser considerada como uma instanciação de Mineração de Dados (MD) sendo que, em Web Mining, os dados provém da Web. Uma das sub-áreas de Web Mining é a Web Usage Mining, na qual são estudados, entre outros, os arquivos de log de servidores Web. Esses arquivos podem ser

(2)

considerados como um “livro de registros” no qual são registradas as requisições feitas ao servidor. Assim como no processo geral de MD, é prefer´ıvel que arquivo de log encontre-se em um formato adequado para que as técnicas de Web Usage Mining encontre-sejam aplicadas. Semelhante a um Data Warehouse para MD, isso pode ser alcançado com um Data

Web-house [Kimball and Merz, 2000], como ilustrado na Figura 1.

DB _WarehouseData _MiningData

Resultados

Log _WebhouseData Web

Mining

Resultados

Figura 1: Paralelo entre Data

Ware-house e Data WebWare-house

Após os dados dos arquivos de log estarem no Data Webhouse, eles têm o po-tencial de fornecer detalhes valiosos so-bre cada “gesto” efetuado por um usuário de um site da Web. Os logs constituem uma imensa fonte de dados comportamen-tais porque indiv´ıduos interagem, por meio de seus navegadores, com os sites da Web. Além disso, estando esses dados em um formato apropriado, pode-se analisá-los e combiná-los com outras fontes de dados, e adaptá-los para serem usados por algoritmos de Aprendizado de Máquina (AM), por exemplo, com o objetivo de se extrair conhecimento desses dados, apoiando, assim, o processo de tomada de decisões.

Neste trabalho é descrita a proposta e a implementação de um Data Webhouse simples a partir de um arquivo de log. Também é proposto o uso de algoritmos de apren-dizado relacional, tais como PLI, para extrair conhecimento desses dados. Experimentos iniciais utilizando o sistema de PLI Progol e um arquivo de log real também são descritos. Este trabalho está organizado da seguinte maneira: na Seção 2 é feita uma pequena introdução sobre a área de Web Mining; na Seção 3 é mostrado o que é um Data Webhouse e alguns detalhes de sua implementação; na Seção 4 algumas ferramentas de Web Usage

Mining existentes são analisadas; na Seção 5 é descrita a proposta e a implementação de

um Data Webhouse e sua utilização por algoritmos de Aprendizado de Máquina proposi-cional e relaproposi-cional; na Seção 6 são descritos alguns dos resultados obtidos com a fer-ramenta proposta e na Seção 7 são apresentadas as conclusões e algumas propostas de trabalhos futuros.

2. Web Mining

Segundo [Kosala and Blockeel, 2000], “Web Mining ´e o uso de t´ecnicas de

Mine-ração de Dados para descobrir e extrair automaticamente informações a partir de docu-mentos e serviços da Web.”. Ou seja, refere-se ao processo de se descobrir informação

ou conhecimento útil, previamente desconhecido, a partir de dados da Web. Web Mining pode ser dividido em três sub-áreas: Web Content Mining, Web Structure Mining e Web

Usage Mining, descritas brevemente a seguir.

2.1. Web Content Mining

Muito do conhecimento na Web está dentro dos documentos, ou seja, no seu conteúdo. O processo de descoberta de informações úteis a partir desse conteúdo é chamado de Web Content Mining. Os principais usos de Web Content Mining são:

Sumarização: utilizando a pouca estruturação que o HTML1 _{oferece, é poss´ıvel}

suma-rizar o conte´udo das p´aginas da Web.

1_{HyperText Markup Language— linguagem de marcac¸˜ao de textos utilizada para definir as}

(3)

Categorização: algoritmos de AM podem ser aplicados ao conteúdo das páginas de maneira a permitir que o computador classifique essas páginas de acordo com uma ontologia.

Descoberta de conhecimento: a enorme colec¸˜ao de textos dispon´ıveis na Web mostra-se uma valiosa massa de dados para a descoberta de novos conhecimentos.

2.2. Web Structure Mining

Graças a interconexão entre documentos, a WWW pode revelar mais informações do que simplesmente as relacionadas ao conteúdo dos documentos. Por exemplo, muitos

links2 apontando para um documento indicam sua popularidade, enquanto muitos links saindo de um documento indicam uma riqueza de tópicos cobertos pelo mesmo. O pro-cesso que tenta descobrir o modelo que está por trás dessa estrutura de links é chamado de Web Structure Mining. A idéia é que os links codificam uma considerável quantidade do julgamento humano. Mais especificamente, a criação de um link numa página indica que seu autor conferiu autoridade para a página sendo referenciada por esse link. Páginas em que chegam muitos links são chamadas de autoridades. Hubs, ao contrário, são as páginas que centralizam essas autoridades. Em [Slattery and Mitchell, 2000] são descri-tos algoritmos que encontram hubs e autoridades. Percebe-se que hubs e autoridades mantém uma relação de reforço mútuo: bons hubs apontam para boas autoridades, e uma boa autoridade é aquela que é apontada por um bom hub. Na Figura 2 é ilustrada essa relação. Hub Autoridade Autoridade Autoridade Autoridade

Figura 2: Hubs e Autoridades

Os poss´ıveis usos para Web

Struc-ture Mining s˜ao:

Colocação (ranking): Quando um docu-mento é uma autoridade, ele pode ser favorecido na colocação no processo de recuperação de informação.

Fluxo de informação: descobrindo a es-trutura que os links formam, pode-se estudar como o fluxo de informações afeta o projeto de um

site, fornecendo id´eias de como

melhor´a-lo. 2.3. Web Usage Mining

Cada servidor Web guarda, localmente, uma coleção de registros sobre a interação dos usuários: os logs de acesso. Web Usage Mining utiliza-se desses dados para descobrir informações sobre os usuários da Web, tais como seus comportamentos e seus interesses. Como a informação dos logs é bem estruturada, pode-se aplicar técnicas de Mineração de Dados sobre esses dados. Além disso, pode-se fazer uso do conhecimento do dom´ınio, que pode ser o assunto que o site trata, e/ou a sua topologia. Os poss´ıveis usos para Web

Usage Mining s˜ao:

Personalização: a descoberta do perfil do usuário pode ser útil na personalização da interface ou do conteúdo de um site, de maneira a ajudá-lo a atingir seus objetivos.

Marketing: saber quem freq¨uenta um determinado site pode ser de grande valia para

marketing. Com esse conhecimento, pode-se sugerir rearranjos autom´aticos no site, de maneira que o cliente seja guiado para p´aginas com produtos que ele

po-tencialmente compraria.

(4)

Proxies: descobrindo-se o padr˜ao de acesso dos usu´arios, pode-se programar um servidor

proxy3_{para efetuar o download das próximas páginas que o usuário provavelmente}

irá visitar, enquanto ele lê a primeira página.

Eficiência: descobrir quais páginas não estão sendo acessadas pode sugerir futuros rear-ranjos no site. Mais que isso, pode-se descobrir, por exemplo, qual o padrão de acesso dos usuários que compram produtos no site e quais são apenas visitantes do site.

Recuperação de Informação: uma outra fonte de dados para Web Usage Mining são os

logs das m´aquinas de busca, ou seja, quais as palavras que foram usadas pelo

usu´ario na busca e quais os sites que o usu´ario achou relevantes para aquelas palavras.

Como pode ser observado, a utilização de algoritmos de Aprendizado de Má-quina e técnicas de Mineração de Dados em dados da Web caracterizam o Web Mining. Entretanto, a distinção entre Web Content Mining, Web Structure Mining e Web Usage

Mining ´e tˆenue.

3. Construindo um Data Webhouse

Os servidores Web fornecem uma nova fonte de dados chamada de seqüência de cliques. Essa seqüência de cliques é um registro de cada “gesto” feito por um visitante de um site da Web. A seqüência de cliques é, potencialmente, um registro muito melhor do comportamento do usuário do que outras fontes de dados mais tradicionais. Pode-se analisar como um usuário chegou até um site, qual seu propósito e qual a qualidade de sua experiência. Pode-se saber quanto tempo um usuário levou para localizar algo no site e é poss´ıvel induzir, analisando o seu comportamento, se teve satisfação ou descontentamento com o site. Por exemplo, em um ambiente de varejo baseado na Web, tem-se a oportu-nidade de seguir o cliente durante toda sua viagem de compras. Pode-se medir o que ele olha, quanto tempo olha, o que seleciona e o que rejeita. É como se fosse poss´ıvel olhar por sobre o ombro do cliente enquanto ele faz suas compras. O mais interessante é que se pode modificar a loja enquanto o cliente “anda” por ela. Ou seja, pode-se reorganizar as “gôndolas virtuais” para mostrar ´ıtens que, provavelmente, um cliente compraria.

Como mencionado anteriormente, o Data Webhouse é a instanciação Web do Data

Warehouse. Ele armazena dados de seq¨uˆencia de cliques e outros dados comportamentais

da Web que guiam a compreensão do comportamento do cliente. A fonte de dados que alimenta o Data Webhouse consiste, basicamente, dos registros de log produzidos pelo servidor Web toda vez que uma requisição HTTP é completada. Por isso, entender as interações entre um navegador e um servidor Web é essencial para compreender a fonte e o significado dos dados da seqüência de cliques.

A seguir são descritas algumas das informações dos registros de logs utilizadas neste trabalho:

host endereço do computador do usuário. Essa informação vem do protocolo TCP/IP,

que ´e um dos protocolos utilizados na Internet e que possibilita a conex˜ao entre dois computadores.

date também são registradas a data e a hora em que foi feita a solicitação de um arquivo. request o nome do arquivo que foi requisitado é outra informação que é armazenada no

log. Na verdade, orequest é mais que isso: ele contém a string de requisição que inclui, além do nome do arquivo requisitado, o método que deve ser utilizado na recuperação do mesmo e a versão do protocolo sendo utilizada.

3_{Servidor que armazena os documentos freq¨uentemente requisitados a fim de reduzir a carga em}

(5)

status o protocolo HTTP retorna para o cliente, al´em do arquivo requisitado, um c´odigo

de status, indicando o sucesso da requisição ou, em outras situações, alguma anomalia.

bytes o n´umero de bytes retornado para o cliente, excluindo os cabec¸alhos do protocolo

HTTP, ou seja, o tamanho do arquivo requisitado.

user-agent nome e versão do navegador sendo utilizado pelo usuário. Esse dado também

pode trazer a informação sobre qual sistema operacional o navegador está sendo executado.

referer quando clica-se num link de uma p´agina que est´a sendo mostrada no

nave-gador, este pode enviar para o servidor Web o endereço da página atualmente sendo mostrada. Assim, pode-se saber em que página havia um link para um arquivo armazenado no servidor que está respondendo a requisição. Na Fi-gura 3 é ilustrado um navegador mostrando a páginahub.html que encontra-se no encontra-servidor www.outrosite.com. Essa página possui um link para o arquivo texto.html que encontra-se no servidor www.nossosite.com. Se o usuário clicar no link, uma requisição será feita para o servidor

www.nossosite.com e ele poder´a saber que esse link estava no enderec¸o

http://www.outrosite.com/hub.html.

texto.html http://www.outrosite.com/hub.html

Navegador _{Servidor: www.nossosite.com} Páginas HTML

hub.html hub.html hub.html hub.html http://nossosite.com.br/texto.html hub.html hub.html hub.html hub.html hub.html hub.html hub.html hub.html hub.html hub.html hub.html hub.html

Referer: www.outrosite.com.br/hub.html GET texto.html

Figura 3: O protocolo HTTP tamb ém carrega outras informaç ões, como o

referer

´

E importante notar que o processamento da seq¨uˆencia de cliques tem como ob-jetivo final preparar os dados para que sejam carregados em um Data Webhouse. Esse processamento pode ser resumido em:

Filtrar registros não necessários: mesclar dados associados e excluir registros que não serão carregados no Data Webhouse. ´E necessários reduzir o volume de dados sem comprometer a integridade dos mesmo.

Identificar sessões: marcar registros associados a uma única sessão4 e verificar se os tempos dos eventos são coerentes.

Identificar usuários: se poss´ıvel, fazer a correspondência entre um usuário e um iden-tificador de sessão. A diferença entre a sessão e o usuário é que a sessão sempre pertence a um único usuário, enquanto que o usuário pode “criar” várias sessões visitando o site em dias diferentes, por exemplo.

Identificar hosts: Converter os endereços de IPs dos usuários e dosrefererspara o seu equivalente em texto. Assim, pode-se obter, por exemplo, o pa´ıs de origem. Colocar os dados em um formato único: transformar os dados das seqüências de

cli-ques para um formato bem definido e que seja utilizável pelas ferramentas de Mineração de Dados.

(6)

4. Ferramentas para An´alise de Logs

São várias as ferramentas freeware dispon´ıveis para realizar e/ou auxiliar no pro-cesso de Web Usage Mining que podem ser encontradas na Web. Foram escolhidas, para análise, duas ferramentas com caracter´ısticas diferentes mas que possuem facilidades se-melhantes às encontradas na maioria das ferramentas freeware pesquisadas: Apache2Dot e Webalizer. As análises foram realizadas utilizando logs do servidor Web do ICMC. 4.1. Apache2Dot

A ferramenta Apache2Dot consiste de um programa desenvolvido em Perl [Wall and Schwartz, 1991] que transforma um arquivo de log no formato ECLF

(Ex-tended Common Log Format) em um arquivo com informac¸˜oes que permitem gerar um

grafo direcionado. Esse arquivo pode ser usado como entrada para dois outros programas chamadosdoteneato, os quais fazem parte de uma ferramenta chamada GraphViz5. O

dotcria disposições hierárquicas de grafos dirigidos, enquanto oneatocria disposições do tipo “mola” de grafos não direcionados. A combinação dessas duas ferramentas per-mite a visualização dos links das páginas do site em estudo, conforme eles foram sendo clicados. Cada arquivo do site é representado por um nó do grafo e uma aresta orientada é desenhada partindo de cadarefererpara os arquivos que tenham sido clicados. A cor dessas arestas é proporcional à quantas vezes o link foi usado.

Na execução da ferramenta no log do ICMC, notou-se que era impraticável a visualiazação do grafo gerado devido ao enorme número de nós e arestas criadas. Foi então realizado uma limpeza no log excluindo-se os registros menos relevantes mas, mesmo assim, mal podia-se ter a noção do todo. Para contornar o problema, decidiu-se alterar o código da ferramenta de forma que esta apredecidiu-sentasdecidiu-se partes decidiu-selecionadas do grafo gerado. A Figura 4 mostra o resultado para páginas relacionadas ao PosComp (Prova realizada como requisito para o ingresso em alguns dos cursos de Pós-Graduação no Brasil). /~poscomp/biblio.html /~poscomp/exames.html 50.80 /~poscomp/proposta.html 29.46 50.80 12.79 /~poscomp/datas.html 11.77 /~poscomp/enderecos.html 30.93 /~poscomp/inscr_cand.html 8.48 /~poscomp/inscricoes.html 14.36 /~poscomp/oque.html 9.05 29.46 12.79 12.85 /~poscomp/historico.html 23.28 /~poscomp/computacao/index.html /~poscomp/matematica/index.html 26.48 26.48 11.77 8.25 16.76 33.06 /~poscomp/inscr_inst.html 9.50 /~poscomp 23.27 30.93 8.25 27.77 8.48 16.76 17.13 12.40 9.37 14.36 33.06 27.77 17.13 9.50 12.40 27.13 30.19 12.17 66.23 28.20 23.27 8.73 40.90 67.46 49.14 /~poscomp/insts.html 39.26 9.05 12.85 9.37 24.30 23.28 24.30 /~posgrad/comp/proc_sel.htm 19.99 /~posgrad/comp/proc_sel_mest.htm 26.23 /~posgrad/comp/proc_sel_vagas.htm 7.63 12.02 26.23

Figura 4: Parte do grafo correspondente `as p ´aginas do PosComp

Após realizar essa alteração, pode-se observar que a ferramenta é muito útil para a análise da navegação entre as páginas.

4.2. Webalizer

O Webalizer produz estat´ısticas de uso em formato HTML para visualização em navegadores. Os resultados são apresentados tanto numericamente, por meio de tabelas, como graficamente, o que facilita a interpretação dos dados. Estat´ısticas de uso anual,

5

(7)

mensal, diário e por hora são apresentados, assim como a possibilidade de mostrar o uso categorizado por site, URL,referer, tipo de navegador, palavras pesquisadas, página de entrada e de sa´ıda, usuário e pa´ıs. Algumas dessas informações estão dispon´ıveis somente se forem suportadas e estiverem presentes no arquivo log sendo processado.

Foi observado que a ferramenta oferece alguns resultados interessantes, por exem-plo, as palavras que foram utilizadas pelos usuários em sites de busca. Um outro resul-tado importante é a tabela de referers. Com as informações dessa tabela, pode-se, por exemplo, verificar se um banner de propaganda está sendo bem sucedido, uma vez que pode-se verificar a quantidade de acessos que está sendo feito ao site por meio desse

banner. A an´alise de outros resultados pode ser encontrada em [Chiara, 2003].

Da mesma maneira que com a ferramenta Apache2Dot, o Webalizer foi executado no arquivo de log do ICMC e algumas alterações foram feitas em seu código. Deve-se ressaltar que um ponto positivo de ambas ferramentas é que, pelo fato de serem

free-wares e open source, pˆode-se alterar o c´odigo de forma que sua funcionalidade atendesse

necessidades espec´ıficas.

5. A Ferramenta Proposta

Como mencionado, o objetivo deste trabalho consiste do projeto e implementação de um Data Webhouse e do uso de algoritmos de aprendizado relacional para extrair conhecimento desses dados. O Data Webhouse foi constru´ıdo utilizando várias das fer-ramentas suportados pelo Sistema DISCOVER, descritas a seguir, que está sendo

imple-mentada no LABIC6— Laboratório de Inteligência Computacional — com o objetivo de auxiliar nas diversas etapas do processo de Mineração de Dados.

Ao se aplicar as técnicas de MD utilizando-se algoritmos de Aprendizado de Máquina enfrenta-se um problema: a maioria dos algoritmos de AM utilizam um formato diferente para os arquivos de entrada. De forma a contornar esta dificul-dade, foi desenvolvida uma sintaxe padrão para a representação desses arquivos de en-trada [Batista, 2001], os quais consistem num arquivo de dados (exemplos) propriamente dito, no formato atributo-valor (arquivo.data), e num arquivo que descreve os atributos desses dados (arquivo.names). Esses arquivos, na sintaxe padrão, são utilizados pelo Sistema DISCOVER [Prati, 2003]. Ele consiste, basicamente, de um conjunto de scripts Perl e de uma biblioteca de rotinas que são utilizadas pelos scripts. Esses scripts estão sendo integrados através de uma interface gráfica [Geromini, 2002] e alguns deles são filtros que transformam arquivos de dados na sintaxe padrão para a sintaxe dos arquivos de entrada dos diversos algoritmos de AM proposicional suportados atualmente pelo Sis-tema DISCOVER. A Figura 5 mostra um exemplo de utilização de filtros no Sistema

DISCOVER. .names .data Sintaxe CN2 Sistema Discover Filtros CN2 C4.5 C5.0 Algoritmos de AM .names .data Sintaxe C5.0 .names .data Sintaxe Padrão

Figura 5: Exemplo de utilizac¸ ˜ao de fil-tros no Sistema DISCOVER

Assim, para que arquivos de

logs de servidores Web possam ser

uti-lizados no Sistema DISCOVER com o objetivo de extrair conhecimento desses logs, foi desenvolvido um fil-tro que transforma esses logs em ar-quivos de dados na sintaxe padr˜ao do

DISCOVER. Com relac¸˜ao ao arquivo

de log, deve ser observado que os

webmasters podem instrumentar o site

6

(8)

de maneira a incluir informações adi-cionais nesse arquivo. Neste trabalho consideramos o arquivo de log padrão no formato ECLF pois ele é o utilizado pela maioria dos webmasters.

Além da transformação do arquivo de log para a sintaxe padrão do DISCOVER, as etapas de filtrar registros, bem como identificar sessões e hosts, conforme descrito na Seção 3, também foram implementadas (log2discover.pl na Figura 6), constru-indo assim o Data Webhouse no formato padrão do DISCOVER. Deve ser observado que, como os dados no Data Webhouse não contêm nenhuma outra informação adicional, não existe uma forma eficaz de se identificar o usuário, mas sim uma sessão. Após a construção desse Data Webhouse, é poss´ıvel utilizar as facilidades implementadas no am-biente computacional Discover Learning Environment (DLE) [Batista and Monard, 2003, Batista and Monard, 2004] do DISCOVERpara criar filtros que transformam os dados no

Data Webhouse para o formato do algoritmo escolhido para a experiˆencia.

Assim, foram implementados os filtros para o algoritmo de AM proposicional C5.0 [Quinlan, 1987] denominadodiscover2c5.ple para o algoritmo de AM rela-cional Progol [Muggleton, 1995] denominado discover2progol.pl. O processo proposto para a utilização desses filtros é ilustrado na Figura 6.

log.data log.names log2discover log resultado resultado progol C5 discover2c5 discover2progol filtragem identificar hosts formato único filtragem cálculo da sessão cálculo da sessão filtragem Data Webhouse

Figura 6: O processo proposto para se analisar os arquivos de log

No caso do Progol, cada um dos registros do arquivo de log foi transformado em uma relac¸˜ao:

registro(’1417’, ’200.145.183.72’, ’unesp.br’, ’2002-8-5’, ’12:30:4’, ’GET’, ’/˜poscomp/inscricoes.html’, ’200’, ’5009’, ’/˜poscomp’, ’Mozilla/4.0 (compatible;

MSIE 5.5; Windows NT 5.0)’).

registro(’1417’, ’200.145.183.72’, ’unesp.br’, ’2002-8-5’, ’12:30:5’, ’GET’, ’/’, ’200’, ’20307’, ’?’,

’Mozilla/4.0 (compatible; MSIE 5.5; Windows NT 5.0)’).

O primeiro argumento da relação registro é o identificador da sessão, o se-gundo argumento é o IP do cliente, o terceiro é o dom´ınio do cliente (quando pode ser identificado), e assim por diante. Nota-se que, apesar dos registros serem implementados como relações que mapeam os atributos dos registros do arquivo de log, o que realmente é utilizado pelo Progol para induzir as regras são as relações que ligam cada atributo de um registro com sua sessão. Como o Progol permite a representação de conhecimento na forma intencional, tem-se as seguintes relações:

domain(S, X) :- registro(S, _, X, _, _, _, _, _, _, _, _).

url(S, X) :- registro(S, _, _, _, _, _, X, _, _, _, _).

status(S, X) :- registro(S, _, _, _, _, _, _, X, _, _, _).

referer(S, X) :- registro(S, _, _, _, _, _, _, _, _, X, _).

(9)

Uma outra relação utilizada (como conhecimento de fundo) foi a que informa ao Progol como é feita a transição entre as páginas:

link(S, U1, U2)

:-registro(S, _, _, _, _, _, U2, _, _, U1, _), U1 \= ’?’

Ou seja, a relaçãolinkdiz que existe um link da página U1 para a página U2 se existir uma transição indicada no registro, desde que esses links estejam em uma mesma sessão S.

Para que o Progol use os conhecimentos citados, é necessário informá-lo qual o nome da cabeça das regras a serem geradas, por meio do comando modeh, e quais as relações que podem aparecer no corpo das regras geradas, por meio do comandomodeb. Para cada experiência a ser executada precisa-se de ummodehe de ummodeb adequa-dos. Como exemplo, tem-se:

freq(’high’). freq(’medium’). freq(’low’).

:- modeh(1, visits(+session, #freq))? :- modeb(1, domain(+session, #domain))? :- modeb(*, url(+session, #url))?

:- modeb(1, status(+session, #status))? :- modeb(*, referer(+session, #referer))? :- modeb(1, agent(+session, #agent))? :- modeb(*, link(+session, #url, #url))?

Nesse caso, as regras geradas serão denominadas visits e determinarão a frequência de acesso de uma sessão arbitrária. As regras geradas poderão usar as relações

domain,url,status,referer,agentelink, definidas anteriormente.

6. Experiˆencias com a Ferramenta Proposta

Com o Data Webhouse constru´ıdo, algumas experiências com ambos os algorit-mos foram realizadas. Para isso foram escolhidos registros de um dia como exemplos de treinamento e registros do dia seguinte como exemplos de teste, os quais foram rotulados com as respectivas classes com o aux´ılio da informação fornecida pelas duas ferramentas descritas na Seção 5. Na Tabela 1 é mostrado um resumo dos dados utilizados em três experimentos (E), onde Tr refere-se aos exemplos de treinamento e Te aos de teste. Foram também escolhidos os seguintes atributos que consideramos mais relevantes para realizar as experiências: session, domain, url, referer, agent e link.

Como esperado, os resultados obtidos com o algoritmo de AM proposicional C5.0 não foram bons. Isto deve-se ao fato desses algoritmos proposicionais enxergar cada exemplo isoladamente, o que não é o caso com exemplos provenientes de arquivos de log, para os quais o interesse é encontrar algum relacionamento entre os os regis-tros de uma mesma sessão. Algoritmos de PLI, como Progol, tem a capacidade de descobrir esses relacionamentos. A PLI, definida como a intersecção de Aprendizado de Máquina e Programação Lógica, busca contornar algumas limitações dos algorit-mos proposicionais de AM por meio do uso de teoria de dom´ınio (ou conhecimento de fundo) e uma linguagem de descrição de conceitos baseada em lógica de primeira or-dem. Embora a adoção dessa linguagem viabiliza o aprendizado de um conjunto muito maior de conceitos, traz também uma série de problemas relacionados à busca no espaço

(10)

Conjunto de Treinamento (Tr) e Teste (Te)

E N´umero de Sess˜oes Exemplos Total de

Sess˜oes Classes por Classe por Classe % Exemplos

Tr Te Tr Te Tr Te Tr Te Tr Te alto 10 10 1358 2285 73.1 81.5 1 30 30 médio 10 10 360 377 19.4 13.4 1858 2802 baixo 10 10 140 140 7.5 5.0 2 94 114 alto 34 54 2570 4688 76.1 85.2 3377 5500 não alto 60 60 807 812 23.9 14.8 3 140 140 robô 70 70 1539 1858 29.4 26.1 5228 7136 não robô 70 70 3689 5278 70.6 73.9

Tabela 1: Caracter´ısticas dos conjuntos de dados utilizados

de hipóteses, uma vez que o espaço de hipóteses é muito maior que no caso proposi-cional [Lavraˇc and Dˇzeroski, 1994]

A seguir s˜ao comentados algumas das regras induzidas por Progol:

• Na experiência 1, duas das regras induzidas classificam as visitas de um usuário como “média” e “baixa”, dependendo da página na qual iniciou a busca. En-tretanto, essas duas páginas, ainda que diferentes, tem conteúdo semelhante que consiste em explicar como fazer a inscrição no PosComp. Assim, essas regras indicam que a primeira página é mais visitada que a segunda.

• Na experiência 2, uma das regras induzidas diz que “uma sessão tem muitas páginas acessadas se o usuário acessou, em algum momento, a página

/manuals/HTML/dialogos.html. Essa regra indica que os usuários que acessam o manual de HTML navegam por muitas páginas dele passando pela páginadialogos.html.

• Na experiência 3, Progol induziu duas regras que indicam um robô de busca quando as páginas visitadas referem-se a um determinado usuário. O fato dessas páginas serem freqüentemente acessadas por robôs de busca deve ser melhor in-vestigado.

A análise dessas e outras experiências pode ser encontrada em [Chiara, 2003]. Em geral, os resultados obtidos nessas experiências realizadas com Progol não atingiram as expectativas. Isso se deve, em parte, pelo fato de que muito da arte da PLI está na seleção e formulação apropriada do conhecimento de fundo, já que conhecimento de fundo irrelevante pode piorar os resultados. Entretanto, selecionar esse conhecimento de fundo não é uma tarefa trivial pois, especialmente no caso de Web Usage Mining, há inúmeras formas de ligar as informações das diversas requisições realizadas pelo usuário.

7. Conclus˜oes

Neste trabalho é proposta uma ferramenta para a construção de um Data

Web-house transformando os arquivos de logs de servidores Web em arquivos no formato da

sintaxe padr˜ao do Sistema DISCOVER. Esse sistema permite contornar o problema de se

ter diferentes formatos para arquivos de entrada dos diversos algoritmos de Aprendizado de Máquina. Assim, uma vez que os dados do arquivo de log estão no Data Webhouse no formato da sintaxe padrão do Sistema DISCOVER, é poss´ıvel utilizar todas as

funcionali-dades j´a implementadas no DISCOVER.

Utilizando a ferramenta implementada, realizaram-se alguns experimentos uti-lizando os dados do log do site do ICMC-USP como entrada para algoritmos de Apren-dizado de M´aquina que induzem conceitos proposicionais e relacionais. Os resultados

(11)

obtidos com o algoritmo de indução de conceitos proposicionais C5.0 não foram bons, conforme esperado, devido ao fato de que, apesar dos logs de servidores Web terem o formato atributo-valor, existe um relacionamento entre os seus registros. Esse relaciona-mento é, justamente, as sessões dos usuários do site. Os experirelaciona-mentos realizados com o algoritmo de Aprendizado de Máquina Progol, que induz conceitos relacionais, também não atingiram as expectativas. Consideramos que isso deve-se, em parte, à representação utilizada para descrever os dados, que estavam no formato atributo-valor, como relações do Progol com somente dois argumentos, conforme citado na Seção 5. A maneira de relacionar diversos atributos de um mesmo registro é um aspecto importante que deve ser melhor investigado. Um outro ponto que necessita ser melhor explorado é a incorporação de mais conhecimento de fundo. Nas experiências realizadas com Progol, foi utilizado somente o conhecimento de fundo adicional para explicitar a transitividade de visitas en-tre as páginas, ou seja, os links. Um conhecimento de fundo mais aprimorado permitiria, também, diminuir o espaço de busca do Progol. Nas experiências realizadas, o tempo uti-lizado pelo Progol foi excessivo. O problema de escalabilidade dos sistemas de PLI para aplicações que envolvem logs de servidores Web foi também observado em [Tveit, 2000]. Nesse sentido, consideramos que as informações fornecidas por ferramentas freeware e

open source existentes para análise de logs, tais como as descritas na Seção 4, podem

auxiliar a enriquecer o conhecimento de fundo utilizado pelo Progol, ou outro sistema de AM relacional, diminuindo, assim, o espaço de busca e melhorando a escalabilidade de sistemas de PLI. Assim, um poss´ıvel trabalho futuro seria o de implementar um sis-tema de PLI voltado apenas para o dom´ınio de logs, de forma que o tempo de execução seja reduzido. Além disso, o uso de indução construtiva, isto é, a criação de outros atri-butos em função dos originalmente encontrados nos arquivos de log, merece uma maior investigação. Também, além da análise de logs de servidores Web, existem outros tipos de logs como os gerados por servidores proxy e por firewalls. Esses logs são pass´ıveis de análises similares às efetuadas nos logs de servidores Web. Uma outro possibilidade é a investigação de outras sub-áreas de Web Mining, como Web Content Mining. Um pro-jeto interessante seria construir um site de busca que utilizasse técnicas de Web Content

Mining para indexar o conte´udo dos sites.

Referˆencias

Batista, G. E. A. P. A. (2001). Sintaxe padr˜ao do arquivo de exemplos do pro-jeto DISCOVER. http://www.icmc.sc.usp.br/˜gbatista/Discover/ SintaxePadraoFinal.htm.

Batista, G. E. A. P. A. and Monard, M. C. (2003). Descric¸˜ao da Arquitetura e do Projeto do Ambiente Computacional DISCOVERLEARNINGENVIRONMENT— DLE. Technical

Report 187, ICMC-USP. ftp://ftp.icmc.sc.usp.br/pub/BIBLIOTECA/ rel_tec/RT_187.pdf.

Batista, G. E. A. P. A. and Monard, M. C. (2004). The Discover Object Library (DOL) User’s Manual. Technical report, ICMC-USP.

Chiara, R. (2003). Aplicação de data mining em logs de servidores web. Dissertação de Mestrado, ICMC-USP.

Geromini, M. R. (2002). Projeto e desenvolvimento de uma interface gr´afica para o ambiente de descoberta de conhecimento DISCOVER. Monografia para o Exame de

Qualificac¸˜ao de Mestrado, ICMC-USP.

(12)

Kosala, R. and Blockeel, H. (2000). Web mining reseach: A survey. In SIGKDD

Explo-rations, volume 2, pages 1–15.

Lavraˇc, N. and Dˇzeroski, S. (1994). Inductive Logic Programming: Techniques and

Ap-plications. Ellis Horwood.

Muggleton, S. (1995). Inverse Entailment and Progol. New Generation Computing,

Spe-cial issue on Inductive Logic Programming, 13(3-4):245–286.

Prati, R. C. (2003). Projeto e implementação do framework de integração do Sistema DIS

-COVER. Dissertac¸˜ao de Mestrado, ICMC-USP, http://www.teses.usp.br/

teses/disponiveis/55/55134/tde-20082003-152116/%.

Quinlan, J. R. (1987). Generating Production Rules from Decision Trees. In Proceedings

of the Tenth International Joint Conference on Artificial Intelligence, pages 304–307,

Italy.

Slattery, S. and Mitchell, T. (2000). Discovering test set regularities in relational domains. In Proceedings of the 17th International Conf. on Machine Learning, pages 895–902. Morgan Kaufmann, San Francisco, CA.

Tveit, A. (2000). Web mining with inductive logic programming.

http://www.abiody.com/jfipa/amund/publications/2000/ WebMiningWithILP.pd%f.