• Nenhum resultado encontrado

MINERAÇÃO DA UTILIZAÇÃO DE PÁGINAS WEB, IDENTIFICANDO PADRÕES ATRAVÉS DAS REQUISIÇÕES DOS USUÁRIOS

N/A
N/A
Protected

Academic year: 2021

Share "MINERAÇÃO DA UTILIZAÇÃO DE PÁGINAS WEB, IDENTIFICANDO PADRÕES ATRAVÉS DAS REQUISIÇÕES DOS USUÁRIOS"

Copied!
5
0
0

Texto

(1)

MINERAÇÃO DA UTILIZAÇÃO DE PÁGINAS WEB,

IDENTIFICANDO PADRÕES ATRAVÉS DAS

REQUISIÇÕES DOS USUÁRIOS

Michel Kramer Borges de Macedo

Universidade de Caxias do Sul - UCS, Departamento de Ciências Sociais e Comunicação Brasil, Rio Grande do Sul, Vacaria

Walter Priesnitz Filho

Universidade de Caxias do Sul - UCS, Departamento de Ciências Sociais e Comunicação Brasil, Rio Grande do Sul, Santa Maria

Rafael de Moura Speroni

Universidade de Santa Catarina - UFSC, Departamento de Engenharia e Gestão do Conhecimento Brasil, Santa Catarina, Florianópolis

RESUMO

O acelerado avanço da Internet faz com que, cada vez mais exista uma grande quantidade de conteúdos sendo disponibilizado e acessados por usuários do mundo todo, aumentando a complexibilidade, tamanho e tráfego nos sites da Web, fazendo com que tarefas, como o projeto de sites, necessitem de maiores atenção. Assim, torna-se essencial aos projetistas de sites a análise de como o site está sendo utilizado pelos usuários da Web.

A mineração da utilização da Web é a aplicação de métodos de mineração de dados à análise dos registros dos logs de um servidor, entretanto é uma ferramenta fundamental para a descoberta de padrões de navegação e também de inestimável valor para todos os indivíduos e organizações envolvidas no projeto e implementação de sites Web. Assim, neste trabalho essa metodologia foi utilizada para a coleta e transformação de dados, a qual foi aplicada em um site de publicidade de eventos, no qual qualquer pessoa tem acesso ao conteúdo exibido no site.

Os dados foram coletados através da mineração da utilização da Web, posteriormente submetidos a uma análise estatística multivariada (cluster analysis). Obteve-se a seqüência das páginas acessadas, páginas mais acessadas e páginas que não obtiveram acesso.

PALAVRAS-CHAVE

Web; Mineração da Web; Utilização do Site.

1. INTRODUÇÃO

O acelerado avanço da Internet faz com que, cada vez mais haja uma grande quantidade de conteúdos sendo disponibilizados e acessados por usuários do mundo todo.

A técnicas de mineração da Web vêm sendo utilizadas, uma vez que proporciona informações a respeito da maneira como os usuários estão utilizando os serviços disponíveis em determinado site. Desta forma, sua aplicação mostra-se de grande utilidade nas tarefas de projeto e manutenção de sites, uma vez que os projetistas podem ficar a par de problemas de utilização que necessitam ser resolvidos.

O objetivo deste trabalho foi identificar os padrões de acesso dos usuários em uma página de internet utilizando mineração da utilização da web, possibilitando melhorar o layout, manutenção do site e navegabilidade, uma vez que os projetistas podem ficar a par dos problemas de utilização que necessitam ser resolvidos, bem como possíveis melhorias. Este trabalho segue a seguinte estrutura: Na sessão 2, é

(2)

apresentado a Mineração da web (web mining); a sessão 3, contém a Análise de seqüência de requisições (clickstream analysis); na sessão 4, é apresentado a Mineração de dados; a sessão 5, traz a Aplicação do modelo para o caso em estudo; Finalmente, na sessão 6, são apresentadas as principais conclusões.

2. MINERAÇÃO DA WEB (WEB MINING)

Na manutenção e desenvolvimento de sites da Web, existem, dentre outros, dois tipos de problemas que os projetistas enfrentam: a compreensão de quais são as tarefas que as pessoas estão tentando realizar no site, e a identificação das dificuldades encontradas na execução das mesmas (HONG & LANDAY, 2001).

Para OBERLE et al. (2003), mineração da Web é a aplicação de técnicas de Mineração de Dados ao conteúdo, estrutura e utilização dos recursos da Web, auxiliando na descoberta de estruturas tanto locais quanto globais (modelos ou padrões) entre as páginas Web. A mineração da Web corresponde ao uso das técnicas de mineração de dados para descobrir e extrair, automaticamente, informações de documentos e serviços da Web (KOSALA & BLOSKEEL, 2000).

Uma distinção é geralmente feita entre a mineração da Web, que opera nos próprios recursos da Web (comumente diferenciada ainda entre mineração de estrutura e conteúdo), e a que opera na utilização que os visitantes fazem destes recursos.

2.1 Mineração da utilização da web

Mineração da utilização da Web é a aplicação dos métodos de mineração de dados à análise dos registros da utilização da Web, normalmente na forma de logs de servidores Web (STUMME, 2002).

O comportamento do usuário, em um determinado site, é estudado através da análise do registro das requisições a páginas e documentos, feitas pelos visitantes a um site da Web. Conforme cita COOLEY (1999), as requisições são coletadas em um arquivo tipo log nos servidores Web, constituindo a principal fonte de dados a serem minerados, na busca de informações sobre a utilização.

O conteúdo e estrutura das páginas, e de um site em particular, revelam as intenções do seu projeto. O comportamento daqueles que o utilizam, por outro lado, pode revelar estruturas adicionais e relações que não haviam sido projetadas. Para BORGES (1999), entender as preferências de navegação dos usuários é um passo essencial para a melhoria dos serviços oferecidos pelo site.

É usual combinar a mineração de utilização da Web com análises de conteúdo e estrutura, de maneira a encontrar uma lógica entre os caminhos observados com freqüência e as páginas destes caminhos. Para OBERLE et al. (2003), isto pode ser feito utilizando-se uma variedade de métodos. Dentre as diferentes abordagens alguns autores, (OBERLE et al., 2003), classificam as páginas em termos de uma ontologia pré-definida, enquanto outros, (TINGSHAO et al., 2003), se baseiam na extração de agrupamentos de palavras-chave representados por caminhos mais freqüentes. A própria ontologia pode ser feita manualmente ou aprendida automaticamente, e a classificação das páginas de acordo com a mesma pode ser semi-automatizada de várias formas.

As aplicações de mineração da Web poderiam ser classificadas em duas categorias principais (KOSALA & BLOCKEEL, 2000): as de aprendizado do perfil do usuário ou modelagem do usuário em sistemas adaptativos (personalizadas) e aprendizado de padrões de navegação (não-personalizadas). Os usuários podem estar interessados em técnicas capazes de detectar suas necessidades e preferências, com possibilidade de personalização das páginas, por exemplo. Os projetistas e mantenedores de sites, entretanto, podem estar interessados em técnicas que os permitam promover melhorias no conteúdo e ergonomia, baseadas, por exemplo, no comportamento de seus usuários.

Para o melhor entendimento dos padrões de utilização, a análise pode levar em conta a semântica das URLs visitadas. OBERLE (2003) apresenta um framework para melhorar os registros de utilização da Web com semânticas formais baseadas em uma ontologia que fundamenta o site.

(3)

3. ANÁLISE DE SEQÜÊNCIA DE REQUISIÇÕES (CLICKSTREAM

ANALYSIS)

A navegação na Web gera uma imensa fonte de dados relativos ao comportamento de indivíduos durante suas interações em sites da Web. Segundo LI (2000), à seqüência de requisições (cliques) gerada pelos usuários enquanto movem-se através das páginas de um site, dá-se o nome de “clickstream”.

“Essa seqüência de cliques é literalmente um registro de cada gesto efetuado por cada visitante a cada site da Web”. (KIMBALL & MERZ, 2000).

A seqüência de requisições contém um grande montante de dados quantitativos que podem ser usados para a melhoria do funcionamento do site, conforme afirma LI (2000). Quando propriamente minerada, a análise da seqüência de requisições pode prover respostas a questões específicas, como quais as páginas mais acessadas, o link mais procurado, a maneira como as pessoas chegam ao site, onde as sessões são interrompidas. Tais respostas podem vir a auxiliar, posteriormente, no desenvolvimento e melhoria dos serviços oferecidos.

Os dados obtidos apresentam, ainda, caráter qualitativo, uma vez que a análise da seqüência de requisições pode revelar padrões de uso no site em estudo e fornecer um maior entendimento a respeito do comportamento dos usuários (ANDERSEN et al., 2000). A seqüência não é somente mais uma fonte de dados tradicionais no ambiente Web, e sim uma coleção desenvolvida de fontes de dados, pois diversas são as formas de registrar o comportamento dos usuários, como visto em KIMBALL & MERZ (2000).

Embora os dados estejam desorganizados, têm grande potencial para tornarem-se informações importantes (KIMBALL & MERZ, 2000). O simples registro de todas as ações do usuário, entretanto, não é suficiente para analisar seu comportamento, uma vez que este tipo de dados, sem tratamento, não mostra, de forma geral, os caminhos percorridos e opções feitas pelo usuário.

4. MINERAÇÃO DE DADOS (“DATA MINING”)

A mineração de dados, ou “data mining”, corresponde à atividade automática, ou semi-automática, de exploração e análise de grandes quantidades de dados com o propósito de neles descobrir regras e padrões antes desconhecidos (BERRY & LINOFF, 1997). Por possuir natureza interdisciplinar, faz uso de áreas como a estatística, inteligência artificial, teoria dos grafos, além da teoria de banco de dados.

O problema da mineração de dados parte do pressuposto de que os grandes bancos de dados do mundo real são verdadeiras “minas” de conhecimento (DEOGUN et al., 1997),

4.1 Agrupamento (“clustering”)

“Análise de agrupamentos engloba uma variedade de técnicas e algoritmos cujo objetivo é separar objetos em grupos similares” (GROTH, 1998). O agrupamento ou segmentação, também chamado de Clustering ou aprendizado não supervisionado, é um método cujo funcionamento consiste em agrupar os dados mais parecidos, com base na distância entre eles. Criam grupos menores a partir de grandes conjuntos de registros, levando em consideração as características comuns entre eles.

Na análise de agrupamentos (“clustering analysis”), são reunidos os itens cujas características são semelhantes. A diferença para a classificação é que, neste caso, não se tem conhecimento de quais serão os grupos resultantes até que o processo seja concluído, enquanto que na classificação os grupos são pré-definidos.

Deste modo, buscou-se construir, no agrupamento, modelos que encontrem itens similares entre si, a partir de alguma métrica de “distância” entre estes, que serão assim colocados juntos em novos agrupamentos (“clusters”) ou em agrupamentos já existentes. Para tanto, podem ser utilizados métodos geométricos, estatísticos ou mesmo redes neurais.

(4)

5. APLICAÇÃO DO MODELO PARA O CASO EM ESTUDO

A aplicação do modelo foi feita no site www.vocenabanda.com. O site disponibiliza fotos de eventos ocorridos na cidade de Vacaria, Rio Grande do Sul. Não há restrição de acesso ao conteúdo.

O levantamento da estrutura, consiste em identificar e representar a maneira como as páginas estão dispostas no site, bem como as ligações entre elas e possíveis caminhos a serem seguidos dentro do site.

Uma vez que tenha sido feito o levantamento da estrutura do site, pode-se atribuir rótulos de identificação, para cada página visitada ou ação efetuada pelo usuário, com a finalidade de prover às mesmas uma identificação compreensível, ou seja, com significado de ser mapeado.

A utilização destes rótulos permitiu que as páginas requisitadas, ou ações realizadas, pelo usuário sejam reconhecidas posteriormente nos arquivos de log. Para isto, a cada requisição contida nas páginas e ações que tenham sido determinadas como pontos de estudo, deve-se enviar os rótulos, juntamente com identificadores de eventos, na forma de parâmetros, para que, assim, estes dados fiquem registrados nos arquivos de log do Servidor Web. A coleta dos dados utiliza-se dos arquivos de log, gerados pelo servidor Web, como fonte de dados. A utilização dos rótulos e identificadores vem a auxiliar o processo de coleta, uma vez que estes dados irão enriquecer os arquivos de log.

Foram considerados os dados relativos ao acesso dos usuários ao site, em um determinado período de eventos da cidade. Considerando-se, portanto, tal período como crítico para o funcionamento do sistema, uma vez que o número de acessos cresceu consideravelmente, descobriu-se, através da analise da utilização, quais as reais necessidades de melhoria no site, visando um melhor desempenho.

O conjunto de dados submetido à análise corresponde aos registros das visitas dos usuários ao site em um mês. Os registros compreendem um total de 42.000 acessos aos objetos mapeados. O pré-processamento dos dados, unindo-se as requisições de cada IP, resultou em um total de 2.000 observações, correspondendo, portanto, ao número de IPs.

Foi utilizado o algoritmo de Junção (Joining (Tree Clustering)), que é um método hierárquico aglomerativo, onde cada observação inicia sendo um grupo, e com o decorrer do processo os grupos vão sendo agrupados até que o resultado final seja um único grupo, contendo todas as observações.

Para aplicação das técnicas de agrupamento (clustering) e o algoritmo de Junção (Joining (Tree

Clustering)) foi utilizado o software STATISTICA 5.1.

Os dados submetidos à análise apresentavam apenas valores “0” e “1”, os valores médios ficaram dentro do intervalo [0..1]. Um objeto cujo valor médio, em determinado agrupamento, seja próximo a “1”, é visto, portanto, como um objeto de importância relevante, uma vez que a maioria dos valores para este objeto tem valor igual a “1”.

De posse dos resultados, obtidos na aplicação do método de agrupamento (clustering) e o algoritmo de Junção (Joining (Tree Clustering)), fez-se, então, uma análise nos mesmos, a fim de identificar as características de cada um dos agrupamentos, bem como seu significado.

6. CONCLUSÕES

Conclui-se que os arquivos de log, gerados pelos Servidores Web, são uma fonte de dados para o clickstream, uma vez que registram todas as requisições a documentos e páginas feitas pelos usuários dos sites neles hospedados. A utilização do conceito de Servidores de Conteúdos Nulos auxilia no processo de obtenção dos dados, proporcionando uma forma de identificação das requisições.

A personalização do site, de acordo com o perfil do usuário, pode ser implementada com base nos dados obtidos.

Após a realização do trabalho foram identificados os padrões de acesso dos usuários em uma página de internet utilizando mineração da utilização da web, os links mais procurados do site, a maneira como os usuários estão utilizando os serviços disponíveis no site, quais são as tarefas que as pessoas estão tentando realizar no site, e a identificação das dificuldades encontradas na execução das mesmas, possibilitando melhorar o layout, manutenção do site e navegabilidade, uma vez que os projetistas podem ficar a par dos

(5)

haja uma grande quantidade de conteúdos sendo disponibilizados e acessados por usuários do mundo todo, aumentando a complexibilidade, tamanho e tráfego nos sites da Web.

AGRADECIMENTOS

Aos meus pais, Erlim e Maria Helena e amigos que contribuíram na elaboração deste artigo, Walter e Rafael.

REFERÊNCIAS

Andersen, Jesper; Larsen, Rune S.; Giversen, Anders et al, 2000. Analyzing Clickstreams Using Subsessions. DOLAP’00. VA, McLean, USA.

Berry, Michael J.; Linoff, Gordon, 1997. Data Mining Techniques: For Marketing, Sales, and Customer Support. Wiley Computer Publishing, New York, USA.

Cooley, Robert; Mobasher, Bamshad; Srivasta, Jaideep, 1999. Data Preparation for Mining World Wide Web Browsing

Patterns. VA, McLean, USA.

Groth, Robert, 1998. Data Mining: a hands-on approach for business professionals. Prentice Hall, New Jersey, USA. Hong, Jason; Landay, James, 2001. WebQuilt: A Framework for Capturing and Visualizing the Web Experience.

Proceeding of WWW 10, Hong Kong, Japão.

Kimball, Ralph; Merz, Richard, 2000. Data Webhouse: construindo o Data Warehouse para a Web. Editora Campus, Rio de Janeiro, Brasil.

Kosala, Raymond; Blockeel, Hendrik, 2000. Web Mining Research: A Survey. ACM SIGKDD, New York, USA. Borges, José; Levene, Mark, 1999. Data mining of user navigation patterns. In Web Usage Analysis and User Profiling.

New York, USA, pp. 92-111.

Li, Richard, 2003. ArsDigita Systems Journal. Clickstream Data Warehousing. New York, USA, pp. 59-89.

Oberle, Daniel; Berendt, Bettina, Hotho, Andreas et al, 2003. International Atlantic Web Intelligence Conference.

Conceptual User Tracking, Web Intelligence. Madrid, Spain, pp. 155-164.

Stumme, Gerd; Hotho, Andreas; Berendt, Bettina, 2002. Usage Mining for and on the Semantic Web. Proceedings of

Referências

Documentos relacionados

Deste modo, no último passo de tempo analisado contatou-se a presença de um vórtice em superfície, o que indica que, ao menos no caso estudado, a instabilidade

Keywords: modified glassy carbon electrode; DNA electrochemical biosensor; DNA immobilization; hybridization indicator; chitosan; dengue diagnosis.. Introduction Biosensors have

Mesmo com suas ativas participações na luta política, as mulheres militantes carregavam consigo o signo do preconceito existente para com elas por parte não somente dos militares,

O “tempo necessário” para as atividades complementares foi definido no tópico “Objetivos e Metas”, no qual apresentou duas metas referentes ao eixo da jornada de

No que tange à composição da equipe atual do PAPSE, formada por 6 (seis) técnicos, na visão da G1, esse número é insuficiente, dada à demanda de servidores, tanto

Em suma, ainda que seja uma forma de trabalho vista como degradante pela sociedade, os “ catadores de materiais recicláveis ” fazem do lixo uma forma de obter renda para o

O setor de energia é muito explorado por Rifkin, que desenvolveu o tema numa obra específica de 2004, denominada The Hydrogen Economy (RIFKIN, 2004). Em nenhuma outra área

dois gestores, pelo fato deles serem os mais indicados para avaliarem administrativamente a articulação entre o ensino médio e a educação profissional, bem como a estruturação