• Nenhum resultado encontrado

Uso de agrupamento de interesse e trajetória para caracterização de sessões de aprendizado

N/A
N/A
Protected

Academic year: 2017

Share "Uso de agrupamento de interesse e trajetória para caracterização de sessões de aprendizado"

Copied!
116
0
0

Texto

(1)

FACULDADE DE I N FORM ÁTI CA

PROGRAM A DE PÓS- GRADUAÇÃO EM CI ÊN CI A DA COM PUTAÇÃO

CAREN MORAES NI CHELE

U

SO DE

A

GRUPAMEN TO DE

I

N TERESSE E

T

RAJETÓRI A PARA

C

ARACTERI ZAÇÃO DE

S

ESSÕES DE

A

PREN DI ZADO

Dissert ação apresent ada com o requisit o parcial à obtenção do grau de Mestre, pelo Program a de Pós- graduação em Ciência da Com putação ( PPGCC) da Faculdade de I nform át ica da Pont ifícia Universidade Cat ólica do Rio Grande do Sul.

Orientadora: Prof.a Dr.a Karin Becker

(2)
(3)
(4)

AGRADECI M EN TOS

À m inha orient adora, professora Karin Becker, por sua t oda sua dedicação, apoio e com preensão. Saiba que seu apoio nos m om ent os difíceis t ornou est e t rabalho possível.

Ao m eu m arido, Alexandre Feij ó, por sua com preensão e im ensa paciência durant e m eus est udos. Saiba que seu carinho e encoraj am ent o foram fundam ent ais durant e est e período de grandes m udanças nas nossas vidas.

Ao André da Fonte Lopes e Patrick Pantoj a, bolsistas do proj eto, pelo com prom et im ent o e em penho na realização das t arefas de desenvolvim ent o relat ivas à im plem ent ação do am bient e de apoio definido com o part e dest e t rabalho.

À Hewlet t Packard Com put adores Lt da por acredit ar em m inha capacidade e cust ear m eus est udos durant e os dois anos e m eio de m estrado.

(5)
(6)

Um dos principais problem as evidenciados no dom ínio da Educação a Dist ância ( EAD) é a falt a de percepção que os inst rut ores de cursos Web t êm quant o à int eração dos alunos durant e o processo de aprendizado. Est e problem a é m ais fort em ent e evidenciado no am bient e da EAD devido ao pouco cont at o ent re os inst rut ores e os alunos, dadas as lim it ações dos canais de com unicação, e à falt a de sem ânt ica no registro das páginas acessadas, em relação ao seu significado no dom ínio da aplicação.

A Mineração do Uso da Web ( MUW) oferece t écnicas de m ineração de dados que perm it em descobrir padrões de ut ilização da Web para m elhor ent ender e servir as necessidades das aplicações. O processo de MUW é com posto de etapas, a saber: pré-processam ent o, descobert a de padrões e análise de padrões. Várias t écnicas podem ser aplicadas na et apa de descobert a de padrões. A t écnica de agrupam ent o, foco dest e t rabalho, dest aca- se por agregar valor nest a quest ão, pois t ende a est abelecer grupos de usuários que m ost ram padrões de com port am ent o sem elhant es. O agrupam ent o de sessões Web t em im pulsionado um a grande área de pesquisa que visa caract erizar os usuários com base na navegação na Web. Porém , nenhum t rabalho foi encont rado que aborde a sim ilaridade ent re as páginas considerando a sem ânt ica dos event os da aplicação quando com put ando a sim ilaridade ent re as sessões Web. Além disso, a corret a aplicação da t écnica de agrupam ent o é um a t arefa com plexa que envolve desde a preparação dos dados até a escolha do algoritm o de agrupam ento, além de estar fort em ent e associada à com plexidade do processo de descobert a de conhecim ent o.

Dados os problem as ident ificados, est e t rabalho propõe m ecanism os de agrupam ent o e de int erpret ação de padrões que facilit em , respect ivam ent e, a aplicação da t écnica de agrupam ent o e a análise dos grupos por pessoas leigas, visando auxiliar na caract erização das sessões de aprendizado em um am bient e de EAD. Est es m ecanism os fazem uso de um a t axonom ia com o form a de agregar sem ânt ica aos event os do dom ínio, reduzindo assim a necessidade de ret orno à et apa de pré- processam ent o. O m ecanism o de agrupam ent o propost o visa facilit ar a aplicação da t écnica de agrupam ent o e aum ent ar a qualidade dos grupos, considerando para isso a sim ilaridade ent re as páginas com base na sem ânt ica dos event os do dom ínio. O m ecanism o de int erpret ação propost o perm it e represent ar os grupos visualm ent e, de m odo condizent e com o obj et ivo do agrupam ent o, bem com o inspecionar dinam icam ent e os grupos form ados considerando os diferent es níveis de abst ração das páginas no dom ínio da aplicação. Foi desenvolvido um am bient e de apoio para auxiliar o int rut or durant e a execução das et apas da MUW visando a facilit ar a aplicação do agrupam ent o e a análise das sessões de aprendizado.

(7)

The Web Usage Mining ( WUM) applies dat a m ining t echniques t o discover web usage pat t erns from Web server logs. The WUM process is com posed by three m aj or phases: pre- processing ( where dat a is collect ed, cleaned and t ransform ed) , pat t ern discovery ( in which m ining algorit hm s are applied) , and pat t ern analysis ( where result ing pat t erns are analyzed) .

The cat egorizat ion of visit or’s behavior based on t heir int eract ion in t he web sit e is a key issue in WUM. I n t he E- learning area t his t opic becom es m ore relevant due t o t he lack of face- t o- face cont act bet ween st udent s and professors, given t he physical dist ance, as well as t he sem ant ical gap bet ween URLs and corresponding applicat ion event s. Clust ering, which subj ect of t his research, is a m ining t echnique t hat aim s at grouping obj ect s on basis of high int er- group sim ilarit y and low int er- group sim ilarit y. Several works leverage clust ering t echniques wit h t he purpose of charact erizing web user behavior during navigat ion. However, m ost of t he works do not consider t he m eaning of visit ed URLs in t he applicat ion dom ain, when m easuring sim ilarit y bet ween web sessions. Page sem ant ics is frequent ly considered in t he pre- processing phase, in dat a enrichm ent t asks, in which URLs are m apped int o dom ain concept s. This approach is st at ic in t he sense t hat a new perspect ive of a URL ( e.g. m ore generalized concept ) , t o obt ain bet t er clust ering result s, oft en im plies re- processing dat a. I n addit ion t o t hat , t he correct clust ering t echnique execut ion is a com plex t ask which includes dat a preparat ion and t ransform at ion according t o t he m ining obj ect ives in such way int erest ing pat t erns can be found.

Considering t hese problem s, t his research proposes a clust ering m echanism and an int erpret at ion m echanism as a way t o charact erize st udent ’s behavior in a Web course. These m echanism s aim m ake t he clust ering t echnique execut ion and group analysis easy t o a non dat a m ining expert person. The proposed m echanism s are based in a dom ain t axonom y represent ing t he dom ain event s for addressing t he sem ant ic gap bet ween URLs and applicat ion event s. The clust ering m echanism considers t he sim ilarit y bet ween visit ed pages as a way t o im prove t he qualit y of clust ering result s. The proposed int erpret at ion m echanism allows visualize t he charact erist ics for each group, according t o t he clust ering obj ect ive, as well as inspect s groups dynam ically considering t he different levels of abst ract ion for applicat ion event s in t he dom ain t axonom y. These m echanism s est ablish t he basis for cat egorizat ion of web user behavior, for which a prot ot ype was developed.

(8)

Figura 1 – Matriz de dados... 18

Figura 2 – Matriz de similaridade... 19

Figura 3 – Matriz de diferença... 19

Figura 4 – Fases da Mineração do Uso da Web (adaptado de [COO99])... 24

Figura 5 – Detalhes da etapa de pré-processamento do uso (adaptado de [COO00])... 26

Figura 6 – Exemplo de evento de serviço... 28

Figura 7 – Representação das sessões para o agrupamento de trajetória... 30

Figura 8 – Representação das sessões para o agrupamento de interesse ... 30

Figura 9 – Exemplo da aplicação do filtro de importância ... 32

Figura 10 – Exemplo da remoção de alto suporte... 33

Figura 11 – Exemplo de redução do caminho de navegação... 34

Figura 12 – Exemplo de perfil agregado (adaptado de [MOB04])... 38

Figura 13 – Sessões pertencentes a um mesmo grupo ... 42

Figura 14 – Representação de um grupo utilizando árvore agregada ... 42

Figura 15 – Níveis de representação dos eventos da aplicação... 49

Figura 16 – Exemplo de caminhamento Breadth First Search (BFS) ... 53

Figura 17 – Exemplo de hierarquia conceitual ... 53

Figura 18 – Algoritmo sim_LCS (adaptado de LCS Delta) ... 58

Figura 19 – Similaridade obtida com a subseqüência dada por sim_LCS(s1,s3) ... 59

Figura 20 – Similaridade obtida com a subseqüência dada por sim_LCS (s3,s1) ... 59

Figura 21 – Sessões exemplo utilizadas na análise do mecanismo de agrupamento... 62

Figura 22 – Exemplo de subseqüência entre sessões com conceitos similares ... 63

Figura 23 – Exemplo de melhora no grau de similaridade entre as sessões ... 64

Figura 24 – Re-organização dos conceitos considerando puramente a ordem alfabética... 65

Figura 25 – Re-organização dos conceitos considerando o caminhamento em largura... 66

Figura 26 – Exemplo de enriquecimento dinâmico das sessões ... 66

Figura 27 – Comparação do sim_LCS e LCS (nci=0) ... 67

Figura 28 – Comparação do sim_LCS e LCS (nci=1) ... 68

Figura 29 – Comparação do sim_LCS e LCS (nci=2) ... 68

Figura 30 – Comparação da matriz de similaridade (nci=0) ... 69

Figura 31 – Comparação do resultado do agrupamento (nci=0) ... 70

Figura 32 – Comparação da matriz de similaridade (nci=1) ... 70

Figura 33 – Comparação do resultado do agrupamento (nci=1) ... 71

Figura 34 – Comparação da matriz de similaridade (nci=2 e nci=3) ... 71

Figura 35 – Comparação do resultado do agrupamento (nci=2 e nci=3) ... 72

Figura 36 – Comparação da matriz de similaridade (nci=4) ... 72

(9)

Figura 40 – Exemplo do conjunto de grupos disponibilizados pelo mecanismo agrupamento ... 77

Figura 41 – Exemplo da operação de roll-up no perfil agregado ... 79

Figura 42 – Exemplo da operação de roll-up na árvore agregada... 80

Figura 43 – Exemplo da combinação das operações de roll-up e drill-down ... 82

Figura 44 – Esquema da base de conhecimento... 85

Figura 45 – Arquitetura do ambiente ... 86

Figura 46 – Entradas e saídas de LogPrep ... 87

Figura 47 – Exemplo do conjunto de informações para ACSA... 88

Figura 48 – Interface do módulo de preparação dos dados (LogPrep[MAR04b])... 89

Figura 49 – Operador de transformação das sessões para o agrupamento de interesse ... 90

Figura 50 – Resultado da transformação das sessões para o agrupamento de interesse ... 90

Figura 51 – Operador de transformação das sessões para o agrupamento de trajetória... 91

Figura 52 – Resultado da transformação das sessões para o agrupamento de trajetória... 91

Figura 53 – Entradas e saídas de ACSA ... 92

Figura 54 – Módulo de Agrupamento ... 94

Figura 55 – Módulo de Interpretação... 95

Figura 56 – Amostra do arquivo de log do ambiente da PUCRS Vitual ... 98

Figura 57 – Exemplo de mapeamento de URLs para conceitos na hierarquia conceitual ...101

Figura 58 – Tela principal do protótipo ACSA ...101

Figura 59 – Buscar arquivo de dados (.xml) ...102

Figura 60 – Detalhes do arquivo de entrada importado...102

Figura 61 – Buscar arquivo scluster.exe...103

Figura 62 – Parâmetros para o agrupamento ...103

Figura 63 – Interpretação dos grupos...104

Figura 64 – Inspeção do perfil agregado ...105

Figura 65 – Inspeção da árvore agregada ...105

Figura 66 – Operação de roll-up e drill-down ...106

Figura 67 – Características das sessões de aprendizado ...106

(10)

Tabela 1 – Exemplo de arquivo de acesso (formato ECLF) ... 25

Tabela 2 – Exemplo de sessões para o agrupamento de trajetória... 52

Tabela 3 – Exemplo de sessões para o agrupamento de interesse ... 52

Tabela 4 – Enriquecimento dinâmico das sessões ... 55

Tabela 5 – Enriquecimento dinâmico das sessões com redução da dimensionalidade ... 55

Tabela 6 – Detalhes do arquivo XML... 88

Tabela 7 – Funcionalidades do Módulo de Preparação dos Dados... 89

(11)

CGI Com m on Gat eway I nt erface. É um padrão de com unicação ent re as aplicações ext ernas e servidores Web.

CLF Com m on Log Form at. Form ato de arm azenam ent o de acessos ut ilizado por servidores Web.

EAD Educação a Dist ância.

H TM L HyperText Markup Language. Linguagem ut ilizada para const rução de páginas na Web.

H TTP Hypert ext Transfer Prot ocol.

KDD Knownledge Discovery in Dat abase. M UW Mineração do Uso da Web.

PUCRS Pont ifícia Universidade Cat ólica do Rio Grande do Sul.

Sit e Tipicam ent e é um dom ínio que disponibiliza um a coleção de páginas at ravés de um servidor Web.

URL Uniform Resource Locat or. Padrão de nom enclat ura ut ilizado para ident ificar a localização de um obj et o, t ipicam ent e um a página Web.

W eb Abreviação de WWW.

W ebCT Web Course Tool. Ferram ent a Web responsável pela criação da infra-est rut ura e navegabilidade dos cursos de educação a dist ância inst alados na PUCRS VI RTUAL [ PUC06] à epoca de desenvolvim ent o dest a dissert ação.

W W W World Wide Web.

(12)

1 INTRODUÇÃO ...14

2 AGRUPAMENTO ...18

2.1 Conceitos Básicos ...18

2.1.1 Representação dos Dados...18

2.1.2 Tipos de Dados...19

2.1.3 Propriedades das Medidas de Distância...20

2.2 Categorias de Técnicas de Agrupamento...21

2.2.1 Particional...21

2.2.2 Hierárquico ...21

2.2.3 Baseado em Grafo...22

2.3 Considerações...23

3 MINERAÇÃO DO USO DA WEB...24

3.1 Processo da Mineração do Uso da Web...25

3.1.1 Pré-processamento...25

3.1.2 Tranformação das Sessões ...31

3.1.3 Descoberta de Padrões ...34

3.1.4 Análise de Padrões...35

3.2 Considerações...36

4 TRABALHOS RELACIONADOS...37

4.1 Agrupamento de Interesse ...37

4.1.1 Similaridade entre as Sessões ...37

4.1.2 Interpretação dos Resultados...38

4.2 Agrupamento de Trajetória...39

4.2.1 Similaridade entre as Sessões ...39

4.2.2 Interpretação dos Resultados...41

4.3 Ambientes de Apoio ao Uso da Web no Domínio da EAD ...42

4.4 Considerações...44

5 USO DO AGRUPAMENTO DE INTERESSE E TRAJETÓRIA PARA CARACTERIZAÇÃO DE SESSÕES DE APRENDIZADO ...46

5.1 Objetivos ...46

5.2 Representação Conceitual de Eventos e Nível Conceitual de Interesse...47

5.3 Descrição dos Mecanismos...49

5.4 Pressupostos ...50

5.5 Representação das Sessões...51

5.5.1 Nível Conceitual de Interesse na Representação das Sessões ...54

6 MECANISMO DE AGRUPAMENTO...56

6.1 Similaridade entre Conceitos...56

6.2 Similaridade entre as Sessões ...57

6.3 Agrupamento Dinâmico das Sessões...60

6.4 Análise Comparativa...61

6.4.1 Encontrar Similaridade entre Sessões...62

(13)

6.4.6 Conclusão ...73

7 MECANISMO DE INTERPRETAÇÃO ...74

7.1 Tipos de Visualização ...74

7.1.1 Visualização do Agrupamento de Interesse...74

7.1.2 Visualização do Agrupamento de Trajetória ...75

7.2 Inspeção dos Grupos ...76

7.3 Interpretação Dinâmica...78

7.3.1 Operador de Roll-up...78

7.3.2 Operador de Drill-down...80

7.3.3 Complementariedade dos Operadores...81

8 AMBIENTE DE APOIO À CARACTERIZAÇÃO DE SESSÕES...83

8.1 Arquitetura do Ambiente...83

8.1.1 Módulo de Preparação dos Dados ...83

8.1.2 Módulo de Agrupamento...84

8.1.3 Módulo de Interpretação ...84

8.1.4 Entradas Externas do Ambiente...84

8.2 Implementação ...87

8.2.1 Módulo de Preparação dos Dados ...87

8.2.2 ACSA ...92

8.3 Considerações...96

9 ESTUDO DE UM CASO EM UM AMBIENTE DE ENSINO A DISTÂNCIA...97

9.1 Ambiente de Ensino da EAD da PUCRS Virtual ...97

9.2 Estudo de Caso ...98

9.2.1 Preparação dos Dados ...99

9.2.2 Hierarquia Conceitual ...100

9.2.3 Protótipo ACSA: Cenário de Uso...101

10 CONCLUSÕES ...108

REFERÊNCIAS ...110

(14)

1 I N TRODUÇÃO

A Web ( WWW) vem crescendo rapidam ent e e o fluxo de acessos, o t am anho e a com plexidade das páginas Web vêm acom panhando est e crescim ent o na m esm a proporção. A popularização do uso da Web com o m eio de pesquisa e inform ação é um dos fat ores que cont ribui para est e cont ínuo crescim ent o. Com o conseqüência, podem os not ar o aum ent o na com plexidade das t arefas relacionadas à Web, t ais com o const rução de páginas, infra- est rut ura e planej am ent o de servidores, busca de inform ações, et c.

No dom ínio da Educação a Dist ância ( EAD) baseada na Web, o cont at o ent re os inst rut ores e os alunos não é t ão int enso quant o em sala de aula, um a vez que grande part e do curso é m inist rada de form a assíncrona e/ ou dist ribuída na Web. Dadas as lim it ações no processo de aprendizado im post as pelo canal de com unicação, os inst rut ores t êm dificuldade em avaliar o com port am ent o dos seus alunos durant e o processo de aprendizado, bem com o perceber se os m ateriais preparados para as aulas e os serviços oferecidos pelo am bient e de apoio ao curso est ão sendo adequadam ent e ut ilizados. Os recursos est at íst icos oferecidos por algum as ferram ent as de gerenciam ent o de cursos Web ( ex: WebCT1, TelEduc2, ATut or3,

AulaNet4, et c) apresent am lim it ações analít icas que dificult am a real com preensão das

sessões de aprendizado em cursos Web. As sessões de aprendizado, doravant e denom inadas sim plesm ent e sessões, podem ser vist as com o a seqüência de páginas acessadas por um m esm o aluno durant e a navegação no curso Web.

Nest e cont ext o, surge a Mineração Web que, at ravés das t écnicas de m ineração de dados, vem auxiliar na ext ração de conhecim ent o da Web. A Mineração Web pode ser dividida em t rês classes [ SRI 00, MOB04] : Mineração do Cont eúdo, Mineração da Est rut ura e Mineração do Uso. A Mineração do Uso da Web ( MUW) [ SRI 00] , em part icular, ut iliza as t écnicas de m ineração com o obj etivo de descobrir padrões de ut ilização da Web para m elhor ent ender e servir as necessidades de aplicações Web. O processo de MUW é com posto de etapas, a saber: pré- processam ento ( onde ocorre a colet a, lim peza, ident ificação e enriquecim ent o das sessões) , descoberta de padrões ( onde as t écnicas de m ineração são aplicadas) e análise de padrões ( onde ocorre a int erpret ação dos result ados) [ MOB04] . Todas as fases est ão fort em ent e relacionadas, t ornando o processo int erat ivo e it erat ivo, sendo que o sucesso de um a fase é dependent e do sucesso das ant eriores. Assim , cada et apa deve ser desenvolvida de

1 http://www.webct.com 2 http://teleduc.cinted.ufrgs.br 3

http://www.atutor.ca

(15)

form a adequada, com obj etivos condizentes com o que os dados disponíveis podem revelar, para que os result ados obt idos sej am válidos e passíveis de int erpret ação.

O grupo de Sist em as de I nform ação da PUCRS vem desenvolvendo t rabalhos [ MAC03b, MAR04b, TRI 04, VAN04b, VAN05] na área de MUW volt ados para a concepção e const rução de am bient es de apoio para a análise e m onit oração do processo de aprendizado na EAD, usando com o estudo de caso os cursos da PUCRS VI RTUAL [ PUC06] . Em bora est es t rabalhos abordem alguns dos principais problem as envolvidos durant e as et apas da descobert a de conhecim ent o, não resolvem por com pleto a questão da caracterização e com preensão das sessões.

A t écnica de agrupam ent o t em grande pot encial e pode auxiliar na com preensão do processo de aprendizado na EAD, um a vez que as sessões são agrupadas de acordo com seu grau de sim ilaridade. O agrupam ent o, ou “clust ering”, agrupa as

sessões em grupos de m odo que as sessões dent ro de um m esm o grupo t enham um alt o grau de sem elhança ent re si, e que sej am diferent es das sessões pert encent es aos dem ais grupos [ HAN00] . No cont ext o da MUW, exist em dois grandes t ipos de agrupam ent os int eressant es a serem descobert os [ SRI 00] : agrupam ent o de páginas e agrupam ent o do uso. O agrupam ent o de páginas descobre grupos de páginas que t êm cont eúdo relacionado, cont ribuindo assim com um a inform ação valiosa para as ferram ent as de pesquisa na Web. Já o agrupam ent o do uso, ou agrupam ento de sessões ou t ransações, t ende a est abelecer grupos de usuários que m ost ram padrões de com port am ent o sem elhant es. Por sua vez, o agrupam ent o do uso pode ser dividido, de acordo com os obj et ivos da MUW, em : agrupam ent o de int eresse e agrupam ent o de t raj et ória. O agrupam ent o de int eresse considera som ent e os acessos em com um ent re as sessões. Já o agrupam ent o de t raj et ória leva em consideração o cam inho percorrido pelos usuários durant e a navegação na Web, ou sej a, considera a seqüência e a re- visit a das páginas acessadas nas sessões.

(16)

agrupam ento ( de m odo a obter resultados condizentes com o obj etivo do agrupam ent o) , além de est ar fort em ent e associada à com plexidade do processo de descobert a de conhecim ent o com o um t odo. As t arefas execut adas na et apa de pré-processam ento aj udam a preparar as sessões, obtendo assim agrupam entos de m elhor qualidade e de m ais fácil int erpret ação. Tais t arefas são consideradas pontos crít icos na MUW, e em especial no agrupam ent o, pois, a geração de um a nova perspect iva dos dados, para obt er agrupam ent os m ais significat ivos, im plica ret orno à et apa inicial da MUW.

Dados os problem as ident ificados, est e t rabalho t em com o obj et ivos: a) m elhorar a qualidade dos padrões result ant es do agrupam ent o de sessões, considerando para isso a sim ilaridade ent re as páginas com base na sem ânt ica dos event os associados às páginas do dom ínio da aplicação, b) facilit ar a aplicação da t écnica de agrupam ent o de acordo com o obj etivo da MUW, bem com o c) facilitar na interpretação dos grupos obt idos. Para t ant o, est e t rabalho propõe m ecanism os que facilit am a aplicação da t écnica de agrupam ent o ( m ecanism o de agrupam ent o) e a int erpret ação dos result ados ( m ecanism o de int erpret ação) , visando auxiliar na caract erização das sessões dos usuários. Est es m ecanism os fazem uso de um a t axonom ia com o form a de agregar sem ânt ica aos event os do dom ínio dinam icam ent e, reduzindo assim a necessidade de ret orno à etapa de pré- processam ent o. O m ecanism o de agrupam ent o propost o est ende o agrupam ent o de sessões descrit o por [ BAN01] em dois aspect os: a) considera a sim ilaridade ent re as páginas durant e o cálculo de sim ilaridade ent re as sessões, e b) perm it e lidar t ant o com o agrupam ent o de int eresse quant o com o agrupam ent o de t raj et ória. Além disso, perm it e, com base no obj et ivo da m ineração, ident ificar quais t arefas de pré- processam ent o podem ser aplicáveis para a preparação das sessões. Já o m ecanism o de int erpretação proposto perm ite represent ar os padrões result ant es de m aneira condizent e com os obj et ivos da m ineração bem com o facilit ar a int erpret ação dos m esm os considerando os diferent es níveis de abst ração das páginas no dom ínio da aplicação.

Assim , a cont ribuição deste trabalho é m ostrar com o o agrupam ento pode ser aplicado, de acordo com o obj etivo de m ineração e com a sem ântica dos eventos associados às páginas, de form a a facilitar a com preensão do com portam ento dos alunos durant e o processo de aprendizado em cursos Web.

(17)
(18)

2 AGRUPAMEN TO

Est e capít ulo apresent a um a sínt ese dos principais conceit os relacionados à t écnica de agrupam ent o, em part icular, represent ação dos dados, m edidas de dist ância, e cat egorias de t écnicas de agrupam ent o.

2.1 Conceitos Básicos

De acordo com [ HAN00] , agrupam ento é o processo que aglom era dados em grupos, de m odo que os obj et os dent ro de um m esm o grupo t enham um alt o grau de sim ilaridade ent re si, e que sej am diferent es dos obj et os pert encent es aos dem ais grupos. O grau de sim ilaridade ent re os obj et os é obt ido ut ilizando um a m edida de dist ância ent re os obj et os. A m edida de dist ância calcula quant o os obj et os est ão próxim os ( sim ilaridade) ou dist ant es ( diferença) ent re si, usando os at ribut os que os represent am ( t am bém cham ados “caract eríst icas” , ou ainda, “variáveis”) .

2 .1 .1 Represent ação dos Dados

Os obj et os a serem agrupados podem represent ar inúm eras ent idades do m undo real, com o: pessoas, anim ais, docum ent os, páginas Web, et c. A m aior part e dos algorit m os de agrupam ent o ut iliza dois t ipos de est rut uras para represent ar os dados m anipulados: m at riz de dados e m at riz de correlação.

2.1.1.1 Matriz de Dados

Tam bém conhecida com o “obj eto- por- variável”, est a m at riz represent a n

obj etos com p variáveis. A est rut ura ut ilizada é um a m at riz de t am anho n por p, ilust rada na Figura 1.

                np nf n ip if i p f i x x x x x x x x x K K M M M M M K K M M M M M K K 1 1 1 1 1

Figura 1 – Matriz de dados

2.1.1.2 Matriz de Correlação

Tam bém conhecida com o “obj eto- por- obj eto”, esta m atriz pode arm azenar o

(19)

os obj etos i e j. Est a m at riz é norm alm ent e sim ét rica devido à propriedade de sim et ria da m edida de dist ância. Ou sej a, o t riângulo superior da m at riz é exat am ent e idênt ico ao t riângulo inferior da m at riz.

Se a m edida de dist ância considerar a proxim idade ent re os obj et os ent ão a m at riz é dit a “ m at riz de sim ilaridade” . Na m at riz de sim ilaridade, ilust rada pela Figura 2, quant o m ais d( i,j ) se aproxim a de 1, m ais os obj etos i e j se assem elham . Se os obj etos são a m esm a entidade, i=j, então d( i,j )= 1. Se os obj etos são ent idades diferent es, i• j , e sua sim ilaridade é d( i,j )= 1, então est es obj et os t êm as m esm as caract eríst icas, m as não significa que são necessariam ent e idênt icos.

                1 ) 2 , ( ) 1 , ( 1 1 ) 2 , 3 ( ) 1 , 3 ( 1 ) 1 , 2 ( 1 K K M M M n d n d d d d

Figura 2 – Matriz de similaridade

Caso cont rário, se a m edida de dist ância considerar a diferença ent re os obj et os a m at riz é dit a “ m at riz de diferença” . Na m at riz de diferença, ilust rada pela Figura 3, quant o m ais d( i,j ) se aproxim a de 0, m ais os obj etos i e j se assem elham ( ou estão “próxim os” um do outro) . Se os obj etos são a m esm a entidade, i=j, então

d( i,j )= 0.

                0 ) 2 , ( ) 1 , ( 0 0 ) 2 , 3 ( ) 1 , 3 ( 0 ) 1 , 2 ( 0 K K M M M n d n d d d d

Figura 3 – Matriz de diferença

2 .1 .2 Tipos de Dados

Os principais t ipos de dados que caract erizam os obj et os a serem agrupados est ão classificados dent re as seguint es classes de variáveis [ HAN00] :

(20)

Variáveis binárias: t êm som ent e dois valores possíveis: 0 e 1, onde 0 significa que a variável est á ausent e e 1 significa que a variável est á present e. As variáveis binárias podem ainda ser classificadas com o sim ét ricas ( 0 e 1 t êm o m esm o peso) ou assim ét ricas ( 0 e 1 t êm pesos diferent es) ;

Variáveis nom inais: t am bém denom inadas discret as, são generalizações das variáveis binárias podendo assum ir m ais que dois est ados. Est es est ados podem ser denotados por let ras, sím bolos ou núm eros int eiros, m as sem um a ordem específica ent re eles;

Variáveis ordinais: sem elhant es às variáveis nom inais, excet o pelo fat o que os est ados das variáveis ordinais seguem um a seqüência definida;

Variáveis escalares: fazem um a m edida posit iva em um a escala não linear, com o em um a escala exponencial;

Variáveis m ist as: m ist uram vários t ipos de variáveis ( cont ínua, binária, nom inal, ou escalares) . Est e t ipo de variável expressa bem a realidade, pois de m aneira geral, no m undo real, as bases de dados podem apresentar todos os t ipos de variáveis.

Assim , a m at riz de dados bem com o a m edida de dist ância devem ser adequadas de acordo com o tipo de variáveis que representam os obj etos a serem agrupados.

2 .1 .3 Propriedades das Medidas de Dist ância

Um a m edida de dist ância calcula quão próxim os ou dist ant es os obj et os est ão uns dos out ros. Est a m edida é dada at ravés de variáveis que represent am est es obj etos, ou sej a, depende dos tipos de dados envolvidos. A m edida de distância deve obedecer aos seguint es princípios m at em át icos, onde A e B são dois obj etos e a dist ância ent re eles é um núm ero represent ado por d( A, B) :

N úm ero não negat ivo: d( A,B) ≥ 0;

Sim et ria: d( A,B) =d( B,A) ;

Aut osim ilaridade: d( A,A) = 0 considerando a diferença ent re os obj et os, ou d( A,A) = 1 se considerada a proxim idade entre os obj etos;

Separação: d( A,B) = 0 considerando a diferença ent re os obj et os, ou d( A,B) = 1 considerando a proxim idade ent re os obj et os, som ent e se A= B;

(21)

Um est udo m ais aprofundado sobre os tipos de dados e as m edidas de distância apropriadas para cada tipo de dado é relatado em [ NI C04a] .

2.2 Cat egorias de Técnicas de Agrupam ent o

Exist e um grande núm ero de algorit m os de agrupam ent o disponíveis na lit erat ura. A escolha de um det erm inado algorit m o depende de dois im port ant es fatores: o tipo de dado e o obj etivo da m ineração. De acordo com [ HAN00] , em geral, a m aioria dos algorit m os de agrupam ent o, podem ser classificados dent re as seguint es cat egorias: part icional (part it ioning) , hierárquica (hierarchical) , baseada em densidade (densit y- based) , baseada em grade (grid- based) , e baseada em m odelo (m odel- based) .

As próxim as seções apresent am resum idam ent e as cat egorias de agrupam ent o part icional, hierárquica e baseada em grafo. Um est udo m ais det alhado sobre as cat egorias part icional e hierárquica, bem com o seus principais algorit m os de agrupam ent o foi desenvolvido em [ NI C04a] . Maiores det alhes sobre as dem ais cat egorias de agrupam ent o podem ser encont rados em [ HAN00] .

2 .2 .1 Part icional

A part ir de um conj unt o de n obj et os, um algorit m o de agrupam ent o part icional classifica os elem ent os em k grupos, onde: 1) cada grupo deve conter ao m enos um obj eto, e 2) cada obj eto deve pertencer a som ente um grupo. Resum idam ent e, dado k ( núm ero de part ições para const ruir) , os m ét odos part icionais criam um a part ição inicial, e aplicam it erat ivam ent e um a t écnica de realocação que t ent a m elhorar a part ição criada m ovendo elem ent os de um grupo para out ro. Os m ais populares algorit m os part icionais são k- Means e k- Medoids. Ent re as principais dificuldades ident ificadas nest a cat egoria est ão a definição do núm ero ideal de part ições, a dim ensionalidade dos dados, e a busca pelo valor m édio dos obj etos ou o obj eto que representa o centro de cada grupo.

2 .2 .2 Hierárquico

(22)

Aglom erat ivo: est e algorit m o inicia com cada elem ent o form ando um grupo separado e est es grupos são sucessivam ent e unidos com base em sua sim ilaridade at é que t odos os grupos est ej am unidos em um único grupo ( nível m ais alt o da hierarquia) ou um a condição de t érm ino sej a alcançada;

Divisivo: est e algorit m o inicia com t odos os elem ent os no m esm o grupo e est es grupos são sucessivam ent e divididos em pequenos grupos at é que cada elem ent o est ej a inserido em um grupo ou at é que um a condição de t érm ino sej a alcançada.

Tipicam ent e o m ét odo hierárquico ut iliza um dendogram a ( est rut ura em form a de árvore) para represent ar a hierarquia dos grupos e o grau de sim ilaridade para cada nível. Os quat ro m ét odos m ais ut ilizados na com posição dos grupos hierárquicos são: Single Linkage, Com plet e Linkage, Group Average Linkage e Wards Linkage. Dent re os m ais populares algorit m os hierárquicos pode- se cit ar: AGNES (AGglom erat ive NESt ing) , DI ANA (DI visive ANAlysis) e BI RCH (Balanced I t eract ive reducing and Clust ering using Hierarchies) [ ZAN96] . Maiores det alhes podem ser obt idos em [ HAN01, TAN06] .

2 .2 .3 Baseado em Grafo

O agrupam ent o baseado em grafo ut iliza um grafo esparso onde cada elem ent o é represent ado por um vért ice e suas ligações são definidas pelo valor da sim ilaridade ent re os elem ent os. Est e m odelo com bina diferent es t écnicas de agrupam ent o em duas fases dist int as com o obj et ivo de obt er m elhores result ados:

Prim eira Fase: o grafo é const ruído e ent ão part icionado por um algorit m o de particionam ento baseado em grafo.

Segunda Fase: aplica um algorit m o hierárquico aglom erat ivo nos grupos ident ificados pela prim eira fase, de m odo a m elhorar a qualidade dos m esm os.

Dent re os m ais conhecidos algorit m os de agrupam ent o baseados em grafos pode- se cit ar Met is, hMet is e CHAMELEON [ TAN06] .

(23)

valor lim it e para elim inação de ligações, et c. Após sua const rução, o grafo é part icionado em k grupos usando o algorit m o de part icionam ent o “m in- cut ”.

2.3 Considerações

Considerando a MUW, o agrupam ent o pode ser ut ilizado para agrupar usuários com com port am ent os sim ilares durante a navegação do sit e Web, ou m esm o agrupar sessões sim ilares para det erm inar com port am ent os de navegação diferent es. Para t ant o, é necessário est abelecer a m edida de dist ância ent re as sessões. A m edida de dist ância escolhida depende de dois im port ant es fatores: o tipo de dado e o propósito da aplicação. Com base na sim ilaridade ent re as sessões, um a m at riz de sim ilaridade pode ser const ruída e ut ilizada com o ent rada para qualquer algorit m o de agrupam ent o.

(24)

3 MI N ERAÇÃO DO USO DA W EB

Est e capít ulo apresent a os principais conceit os envolvidos na Mineração do Uso da Web, em part icular aqueles necessários para o reconhecim ent o de sessões. Em seguida, det alha cada um a das et apas do processo de descobert a ident ificando, em cada um a delas, os principais problem as envolvidos.

A Mineração da Web ut iliza t écnicas da m ineração de dados no contexto da Web e se divide em t rês cat egorias, de acordo com as font es e t ipos de dados envolvidos [ COO99, SRI 00] :

Mineração do Cont eúdo: consist e na descobert a de inform ações relevant es sobre o conteúdo das páginas Web;

M ineração da Est rut ura: consist e na descobert a de conhecim ent o a part ir da organização do cont eúdo e referências (links) ent re as páginas;

Mineração do Uso: consist e na descobert a de padrões de ut ilização das páginas Web. A Mineração do Uso da Web ( MUW) est á ligada à análise do com port am ent o do usuário durant e sua navegação no sit e Web.

Figura 4 – Fases da Mineração do Uso da Web (adaptado de [COO99])

(25)

3.1 Processo da Mineração do Uso da Web

A Figura 4 ilust ra as fases de pré- processam ento, descoberta de padrões e análise de padrões, bem com o os principais elem ent os envolvidos durant e t odo o processo da MUW. As principais t arefas envolvidas em cada um a das et apas da MUW são descrit as det alhadam ent e nas seções seguint es.

3 .1 .1 Pré- processam ent o

A etapa de pré- processam ent o na Mineração do Uso da Web realiza a conversão dos dados relativos ao uso, acessos de páginas Web, em abstrações necessárias para a descoberta de padrões. A etapa de pré- processam ent o define tipos, m odelos, e abstrações de dados com o obj etivo de aj ustar e m elhorar a represent ação dos dados que serão post eriorm ent e ut ilizados pelos algorit m os de m ineração.

Geralm ent e est a et apa ut iliza com o font e principal de dados arquivos de acesso provenient es dos servidores Web ( log) . Est es arquivos de acesso podem ser arm azenados em diversos form atos, com o por exem plo, Extended Com m on Log Form at ( ECLF) [ W3C05] . A Tabela 1 ilust ra um exem plo de arquivo de acesso que utiliza o form ato ECLF. O form ato CLF (Com m on Log Form at) é m ais sim ples e não cont ém os dois últ im os cam pos (Referrer e Agent)

Tabela 1 – Exemplo de arquivo de acesso (formato ECLF)

Rem ot e host Auth I D Tim e/ Dat e st am p Met hod/ URL/ Prot ocol St at us Size Re f Agent

16.127.37.124 aluno1 - [ 20/ Jul/ 2004: 13: 13: 10 -0300]

“ GET a.htm l HTTP/ 1.0” 200 2345 - Mozilla/ 4.0

( com patible; MSI E 6.0; Windows NT 5.0) 15.20.17.2 - - [ 20/ Jul/ 2004: 13: 13: 10

-0300]

“ GET b.htm l HTTP/ 1.0” 304 0 a.htm l Mozilla/ 4.0

( com patible; MSI E 6.0; Windows NT 5.0) 16.127.37.124 aluno1 - [ 20/ Jul/ 2004: 13: 13: 10

-0300]

"GET / HTTP/ 1.0" 200 567 - Mozilla/ 4.0

( com patible; MSI E 6.0; Windows NT 5.0)

No form ato ECLF o Rem ot e host ident ifica o nom e ou endereço I P da m áquina de onde originou- se o acesso à página; Aut h e I D correspondem à ident ificação do usuário, onde o sinal “-” indica acesso anônim o; Tim e/ Dat e st am p arm azena a data e

(26)

Ent ret ant o, os dados cont idos no arquivo de acesso não represent am com t ot al confiabilidade a real navegação dos usuários no sit e Web. I sso não se deve som ent e à freqüent e falt a de ident ificação dos usuários, m as t am bém à ausência de regist ros de acessos feit os e à dificuldade de ident ificar o início e fim de um a sessão do usuário. O uso de cache e servidores proxy est ão ent re os fat ores que m ais cont ribuem para a carência de inform ações confiáveis nos arquivos de acesso. Detalhes sobre os principais problem as relacionados ao regist ro de acesso às páginas e à falt a de inform ação no arquivo de acesso podem ser encont rados em [ COO99] .

Um out ro aspect o im port ant e relacionado com o arquivo de acesso é a lacuna sem ânt ica ent re com o é feit o o regist ro das páginas acessadas nest e arquivo e seu significado no dom ínio da aplicação [ BER02, STU02] . Na prát ica, o acesso a um a página do pont o de vist a do usuário pode ser registrado no arquivo de acesso do servidor Web at ravés de várias requisições HTTP, correspondendo, por exem plo, aos diferent es elem ent os necessários para com por um a visão de página ( ex: figuras, est ilos, et c.) [ COO99] . Da m esm a form a, a ut ilização de um m esm o serviço pode ser regist rada at ravés de diferent es requisições HTTP, um a vez que diferent es parâm et ros podem ser passados cada vez que o serviço é requisitado.

A seguir são descrit os os passos prim ordiais da etapa de pré- processam ent o que t êm com o obj et ivo sanar a falt a de inform ações no arquivo de acesso e m elhorar a represent ação dos dados, conform e ilust ra a Figura 5. Maiores detalhes sobre os problem as envolvidos, as t arefas realizadas e as principais t écnicas ut ilizadas podem ser encont rados em [ COO99, COO00, SRI 00, MOB04] .

Figura 5 – Detalhes da etapa de pré-processamento do uso (adaptado de [COO00])

(27)

acesso de figuras, sons, est ilos, anim ações, vídeos, páginas não encont radas, et c;

I dent ificação do Usuário: ident ifica o usuário que acessou cada página. Est a ident ificação não necessit a saber a ident idade do usuário e sim poder dist inguir ent re diferent es usuários. Algum as t écnicas para lidar com acessos anônim os são descrit as em [ COO99, SRI 00, MOB04] ;

I dent ificação de Sessões: separa as ent radas cont idas no arquivo de acesso em sessões individuais por usuário. Um a vez que um usuário pode visit ar inúm eras vezes o m esm o sit e Web, deve- se considerar que o arquivo de acesso pode cont er m últ iplas ent radas para um m esm o usuário. Deste m odo, a ident ificação de sessão busca “quebrar” a seqüência de páginas acessadas

(clickst ream s) por um m esm o usuário. A sessão do usuário t am bém pode ser cont rolada pelo servidor Web, nest e caso é responsabilidade do servidor Web enviar cada URI com um a ident ificação de sessão [ SRI 00] ;

I dent ificação de Visão de Páginas: ident ifica quais regist ros cont idos no arquivo de acesso cont ribuíram para a form ação e visualização de um a página no navegador do usuário. Est a ident ificação est á fort em ent e relacionada à est rut ura int erna da página (hyperlinks para out ras páginas ou arquivos) , além de requerer um conhecim ent o det alhado da est rut ura do sit e [ MOB01] . Est e t arefa fica ainda m ais com plicada com o uso de páginas com fram es [ COO03] ;

Com plem ent o dos Cam inhos de N avegação: com plet a as ent radas da sessão do usuário com as páginas de acesso que estão faltando devido ao uso de proxy ou cache pelo servidor;

I dent ificação de Transações: refina as sessões de usuários em t ransações ( ou episódios) m enores considerando acessos sem ant icam ent e significat ivos dent ro das sessões. Na MUW, est a definição é dependent e do obj et ivo das aplicações às quais dest ina- se a análise. Est e t rabalho som ent e fará dist inção ent re sessão e t ransação quando pert inent e e necessário ao ent endim ento do m esm o.

(28)

sit e Web. A ut ilização de páginas auxiliares e páginas de cont eúdos é propost o por [ COO99] com o um a m aneira de definir dois t ipos de t ransações: t ransações de cont eúdo e t ransações auxiliar- cont eúdo. Na prim eira são elim inados os acessos às páginas auxiliares. Na segunda, cada sessão é form ada pelos cam inhos ut ilizados at é at ingir um cont eúdo/ serviço Web.

3.1.1.1 Enriquecim ent o

O enriquecim ent o dos dados é um a t arefa clássica da et apa de pré-processam ent o, sendo necessária, por exem plo, para a ident ificação de t ransação ou ident ificação de visão de páginas. O enriquecim ento dos dados pode ser realizado visando enriquecer as inform ações do usuário e/ ou da sessão. Para t ant o, é necessário um conhecim ent o do dom ínio da aplicação, da sem ânt ica das páginas, da topologia do sit e Web, bem com o dos bancos de dados operacionais.

Considerando que os dados m anipulados pela MUW são sessões provenient es de servidores Web, pode- se dizer que o principal problem a encont rado na MUW est á relacionado com a lacuna sem ânt ica ent re com o é feit o o regist ro das páginas acessadas nos arquivos do servidor Web e seu significado no dom ínio da aplicação [ BER02] . Ou sej a, sem sem ânt ica, os m esm os cont eúdos/ serviços são t rat ados com o diferent es requisições HTTP.

Nest e cont ext o, surgem as abordagens sem ânt icas que visam fornecer suport e às et apas da MUW at ravés da represent ação do conhecim ent o do dom ínio, t ransform ando os dados disponíveis em unidades significat ivas de event os ao dom ínio da aplicação. Segundo [ STU02] , os event os de aplicação podem ser classificados em event os at ôm icos e event os com plexos. Os event os at ôm icos podem ser:

Event os de cont eúdo: descrevem acesso ao cont eúdo disponível no sit e Web. Por exem plo, no cont ext o da EAD, event os de cont eúdo podem descrever: list as de at ividades de aula, m at eriais oferecidos, t ext os, vídeos, et c;

Event os de serviço: descrevem acesso aos serviços disponíveis no sit e Web. Por exem plo, no cont ext o da EAD, event os de serviço podem descrever: ent rega de at ividades ao professor, consult a à bibliot eca, bat papo, fórum , e-m ail, et c. Est es acessos gerale-m ent e ident ificae-m requisições HTTP at endidas por aplicações Web, contendo a URL do serviço e os possíveis parâm etros, com o ilust ra a Figura 6.

4 4 3 4 4 2 1 4 4 3 4 4 2 1 4 4 4 4 4 4 4 3 4 4 4 4 4 4 4 2 1 parâmetro parâmetro serviço inbox action Maria user pl mail scripts com domain

http:// . / / . ? = & =

(29)

As abordagens sem ânt icas podem ser classificadas quant o à represent ação do conhecim ent o do dom ínio ut ilizado durant e o processo de int egração com a MUW, a saber: t axonom ias e ont ologias [ VAN04a] . Est e t rabalho adot a o enriquecim ent o dos dados at ravés da abordagem sem ânt ica de t axonom ia com o form a de auxiliar na ident ificação de caract eríst icas em com um ent re os event os da aplicação visando proporcionar um a m elhora significat iva no cálculo de sim ilaridade ent re as sessões. A t axonom ia foi escolhida por se t rat ar de um a abordagem sim ples, capaz de agregar sem ânt ica aos event os de aplicação com base nas relações hierárquicas ent re as páginas do curso Web.

A abordagem sem ânt ica de t axonom ia descreve um a m aneira sim ples de represent ação de conhecim ent o, at ravés de um a hierarquia conceit ual form ada de classes e sub- classes de conceit os ligados por relacionam ent os de generalização/ especialização conhecida com o “ hierarquia conceit ual” [ STU02] . Assim , a represent ação do conhecim ent o at ravés de hierarquias conceit uais est á lim it ada a relacionam ent os do t ipo é- um. As hierarquias conceit uais podem ser criadas aut om at icam ent e, pela organização dos cont eúdos/ serviços no sit e, com base em m etadados da própria página, pela ontologia do sit e ( ex: web sem ânt ica) , ou m esm o m anualm ent e com o conhecim ent o do especialist a do dom ínio. A t radução das requisições HTTP para conceit os na hierarquia conceit ual é dada pela dim ensão de int eresse desej ado na abst ração dos event os de aplicação.

O uso da hierarquia conceit ual nas et apas de pré- processam ent o e descobert a de padrões afet a diret am ent e a et apa de análise de padrões, um a vez que o m apeam ent o das requisições HTTP por conceit os em um nível da hierarquia conceit ual e a redução da dim ensão das sessões produzem m elhores result ados no agrupam ent o e por conseqüência, facilit am a int erpret ação dos result ados. Ent ret ant o, dependendo da dim ensão de int eresse escolhida durant e a et apa de pré- processam ent o em relação à hierarquia conceit ual, os result ados podem cont inuar de difícil int erpret ação.

(30)

m enos específicos. Com ist o, padrões m ais generalizados ou especializados são gerados sob dem anda, de acordo com as necessidades de interpretação.

3.1.1.2 Representação das Sessões

Ao final da et apa de pré- processam ent o t em - se com o result ando um conj unt o de n conceit os, P=

{

p1,p2,K ,pn

}

, e um conj unt o m de sessões de usuários ( t ransações ou episódios) . Conceit ualm ent e, cada sessão

s

é represent ada com o a seqüência

nat ural de acessos com t am anho l de pares ordenados de conceito- peso

(

p

sj

,

w

( )

p

sj

)

,

onde j

{

1,K ,n

}

, considerando a ordem e re- visit a das páginas [ MOB04] , com o ilust ra

a Figura 7.

( )

(

)

(

( )

)

(

( )

)

{

s

}

l s l s s s s p w p p w p p w p

s= 1, 1 , 2, 2 ,K , ,

Figura 7 – Representação das sessões para o agrupamento de trajetória

Est e t ipo de represent ação de sessão é ut ilizado quando o obj et ivo da m ineração é descobrir padrões de t raj et ória dos usuários durant e a navegação no sit e Web. Por outro lado, quando o obj etivo da m ineração é descobrir o int eresse em

com um dos usuários, cada sessão

s

pode ser vist a com o um vet or n- dim ensional

s

r ,

onde a ordem dos acessos durante a navegação não é levada em consideração, com o ilust ra a Figura 8.

( ) ( )

( )

{

s

}

n s s p w p w p w

s 1 , 2,K,

r

=

Figura 8 – Representação das sessões para o agrupamento de interesse

O peso at ribuído a cada conceit o,

( )

s j

p

w , pode variar com base no obj etivo da

m ineração, a saber, binário ou t em po de visualização. O peso binário represent a a exist ência ou não do conceit o na sessão, j á o peso pelo t em po de visualização det erm ina quant o t em po o usuário dem orou na sua visit a ao conceit o.

(31)

3 .1 .2 Tranform ação das Sessões

Em com plem ent ação às t arefas convencionais de pré- processam ent o válidas para qualquer t écnica de agrupam ent o, exist e um a variedade de out ras t arefas de transform ação das sessões que podem ser realizadas de acordo com o obj etivo da m ineração [ MOB01, MOB02, MOB04] . Est as t arefas que t ransform am os dados das sessões t êm com o obj et ivo reduzir os ruídos e a dim ensionalidade dos dados, visando m elhorar a qualidade dos result ados na MUW. No cont ext o do agrupam ent o na MUW os ruídos significam sessões que se m ost ram m uit o diferent e das dem ais sessões ident ificadas, por exem plo, sessões m uit o pequenas, sessões m uit o grandes ou m esm o sessões com páginas desconhecidas.

A seguir são descrit as as principais t arefas de t ransform ações das sessões relacionadas às necessidades específicas das t écnicas de agrupam ent o, a saber, filt ro de im port ância, norm alização, est at íst icas do uso, e redução do cam inho de navegação. Sendo as duas últ im as part iculares à MUW.

3.1.2.1 Filt ro de I m port ância

Ut ilizar pesos binários é int eressant e devido à sua eficiência e facilidade em t erm os de arm azenam ent o e cálculo de coeficient es de sim ilaridade ent re as sessões. Ent ret ant o, o uso de pesos binários se t orna ineficient e na ident ificação de padrões m ais precisos de navegação. Por exem plo, um usuário pode acessar um a determ inada página apenas para verificar seu cont eúdo e saber que o m esm o não o int eressa. Ou sej a, em bora o usuário t enha acessado um a página, est a pode não represent ar o real int eresse do usuário se com parado seu t em po de acesso com as dem ais páginas acessadas na sessão. Assim , de acordo com [ MOB01] , a rem oção de páginas da sessão que represent em acessos irrelevant es ao int eresse do usuário pode ser feit a at ravés de filt ros de im port ância( Significance Filt ering) .

Ent ret ant o, deve- se not ar que o filt ro de im port ância é relat ivo às caract eríst icas de navegação de cada usuário, da est rut ura do sit e Web, bem com o de cont eúdo da página [ MOB04] . Assim , o t em po de visualização a um a página gast o por um usuário det alhist a e at ent o t ende a ser m aior que ao t em po gast o por um usuário m ais dinâm ico ou apressado. Além disso, o t em po de visualização de um a página auxiliar ( páginas de m enu, páginas de ent rada, et c.) é m enor do que o t em po de visualização de um a página de cont eúdo ou orient ada a produt os ou serviços.

(32)

t em po gast o nest a página é significat ivam ent e abaixo do t em po m édio dest a m esm a página em t odas as sessões nas quais ela est á present e. Por exem plo, supondo que

exist em 6 páginas em um sit e Web: A, B, C, D, E e F, e a seguint e sessão

s

1,

ilust rada pela Figura 9- A, e um filt ro de im port ância definido em 15 segundos, t em os

a sessão result ant e

s

1

conform e ilust ra a Figura 9- B. Um a vez t ransform ado, o vetor

de sessão passa a cont er som ent e as páginas que at ingiram o lim it e de im port ância ( ex.: páginas C e E) .

( A) Sessão original ( B) Sessão result ant e

A B C D E F A B C D E F

s1 11 0 22 5 127 0 s'1 0 0 22 0 127 0

Figura 9 – Exemplo da aplicação do filtro de importância

3.1.2.2 Norm alização

No contexto da MUW, a norm alização dos pesos é um a tarefa que tem por obj et ivo t ent ar am enizar os fat ores que pot encialm ent e influenciam na dist orção do t em po de visualização das páginas, t ais com o caract eríst icas físicas das páginas ( e.g. t am anho físico dos arquivos que com põem a visualização da página) , classificação de cada página ( cont eúdo ou auxiliar) , bem com o caract eríst icas navegacionais de cada usuário. Mobasher et al. [ MOB01] apresent am dois t ipos de norm alização de pesos aplicados às sessões: norm alização de sessões e norm alização de páginas.

N orm alização de sessão: norm aliza os pesos ent re as páginas pert encent es a um a m esm a sessão. Est e t ipo de norm alização é út il para capt urar a im port ância de um a página para um det erm inado usuário em relação às dem ais páginas por ele acessadas na m esm a sessão;

N orm alização de página: norm aliza o peso de um a página ent re t odas as sessões. Est e t ipo de norm alização é út il para capt urar o peso relat ivo da página associada a um usuário em relação aos pesos da m esm a página para t odos os dem ais usuários.

A norm alização de sessão ou a norm alização de página, ou sua com binação, pode ser aplicada não im portando o tipo de representação das sessões.

3.1.2.3 Est at íst icas do Uso

(33)

pré-processam ent o. Assim , com base nest as inform ações o analist a t em subsídios para aplicar filt ros de suport e que possibilit am a rem oção de sessões ou a rem oção de páginas das sessões (Support Filt ering [ MOB00a] ) .

Rem oção de Páginas: a rem oção de páginas rem ove os acessos às páginas com um det erm inado grau de suport e (URL Support [ MOB00a] ) das sessões. A rem oção de páginas pode ser classificada em rem oção de baixo suporte e rem oção de alto suporte. A rem oção de baixo suporte rem ove páginas com núm ero igual ou inferior a um a porcent agem de acessos. Já a rem oção de alt o suport e rem ove páginas com núm ero igual ou superior a um a porcent agem de acessos. Am bos os tipos de rem oção de páginas podem ser com binados com o obj et ivo de obt er um m elhor result ado.

A rem oção de baixo e alt o suport e não é aplicável quando ut ilizado o peso pelo tem po, dado que o tem po de acesso da página t em grande im pact o no cálculo de sim ilaridade ent re as sessões. Na prát ica, a rem oção de baixo suport e de 0% pode ser realizada quando utilizado o peso pelo tem po com o form a de reduzir a dim ensionalidade dos dados. Por exem plo, considerando as sessões ilust radas pela Figura 10- A e um suport e de 100% , rem oção com alt o grau de suport e equivale à rem oção de um a m esm a página acessada em t odas as sessões com o ilust ra a Figura 10- B.

( A) Sessões Originais ( B) Sessões Result a nt es

A B C D E F B C D E F

s1 1 0 1 0 0 0 s’1 0 1 0 0 0

s2 1 1 1 1 0 0 s’2 1 1 1 0 0

s3 1 0 0 1 0 0 s’3 0 0 1 0 0

Figura 10 – Exemplo da remoção de alto suporte

Rem oção de Sessões: rem ove as sessões m uit o pequenas ( poucas páginas) ou grandes dem ais ( m uit as páginas) com o obj et ivo de reduzir os ruídos. Est e t ipo de rem oção aplica- se para am bos os pesos binário e tem po de acesso. Para t ant o, algum as das inform ações est at íst icas são de sum a im port ância para o analista, com o por exem plo: tam anho da m enor e m aior sessão, m édia do tam anho das sessões e desvio padrão. Por exem plo, considerando 10 sessões onde a m enor sessão t em t am anho 1, a m aior sessão t em t am anho 51, a m édia de t am anho das sessões é 36, e o desvio padrão é de 19 páginas, pode- se elim inar as sessões m enores que 17 e m aiores que 50.

(34)

dim ensionalidade dos dados com o t am bém para a redução de ruídos [ BAN01, FU00, MOB01] , result ando em grupos de m aior qualidade e m ais fácil int erpret ação.

3.1.2.4 Redução do Cam inho de Navegação

Quando considerado o cam inho do usuário durant e a navegação, a dim ensão das sessões é represent ada pelo núm ero de páginas acessadas. Assim , dependendo dest e núm ero, est e t ipo de represent ação pode apresent ar alt a dim ensionalidade dos dados. A redução do cam inho de navegação [ BAN01, FU00] j unt a as páginas cont íguas na seqüência e som a os t em pos de visualização ( quando ut ilizado o peso pelo tem po) . A redução do cam inho de navegação associado ao nível desej ado de abst ração das páginas no dom ínio da aplicação oferece result ados ainda m ais int eressant es, dado que o cam inho pode sofrer um a redução m ais significat iva m ant endo, cont udo, as unidades significat ivas de event os no m esm o. Por exem plo, considerando as sessões ilust radas pela Figura 11- A e peso pelo tem po de visualização, a redução do cam inho de navegação é exem plificada pelas sessões na Figura 11- B onde as páginas cont íguas são unificadas e seus t em pos de visualização som ados.

( A) Sessões Originais ( B) Sessões Result a nt es

P1 P2 P3 P4 P5 P6 P1 P2 P3 P4 P5 P6

s1 ( A,10) ( A,10) ( A,10) ( C,10) ( A,10) ( A,10) s’1 ( A,30) ( C,10) ( A,20) - - -

s2 ( A,10) ( D,10) ( B,10) ( B,10) ( C,10) - s’2 ( A,10) ( D,10) ( B,20) ( C,10) - -

s3 ( D,10) ( D,10) ( A.10) - - - s’3 ( D,20) ( A,10) - - - -

Figura 11 – Exemplo de redução do caminho de navegação

3 .1 .3 Descobert a de Padrões

A m ineração de dados oferece algorit m os desenvolvidos para inúm eras áreas, ent re elas: est at íst ica, m ineração de dados, reconhecim ent o de padrões, int eligência art ificial, et c. No cont ext o da MUW podem os cit ar: análise est at íst ica, regras associat ivas, padrões seqüenciais, agrupam ent o, classificação, m odelagem de dependências e regressão.

(35)

int eresses. Por out ro lado, o agrupam ent o de páginas descobre grupos de páginas que t êm cont eúdo relacionado.

O m apeam ent o das URLs para conceit os de um a hierarquia conceit ual durant e a etapa de pré- processam ento, associado às tarefas de transform ação das sessões, t ende a aum ent ar a qualidade dos grupos result ant es, um a vez que a prim eira agrega sem ânt ica aos acessos ( m elhorando o cálculo de sim ilaridade) e a segunda reduz a dim ensionalidade das sessões e os possíveis ruídos.

3 .1 .4 Análise de Padrões

A últ im a fase da MUW é a análise de padrões. O principal obj et ivo dest a fase é ident ificar som ent e os padrões relevant es encont rados na fase da descobert a de padrões. A m etodologia ut ilizada para realizar est a t arefa é geralm ent e dit ada pela aplicação à qual se dest ina a m ineração de dados. A análise de padrões fornece inform ações út eis que podem ser aplicadas em diferent es áreas de aplicações da MUW com o, por exem plo, personalização do sit e Web, reest rut uração do sit e Web, ferram ent as de recom endação, bem com o caract erização do perfil dos usuários. Técnicas de visualização, t ais com o padrões gráficos, legenda de cores para ident ificar diferent es valores, aj udam a dest acar padrões ou m esm o evidenciar t endências nos dados.

No cont ext o da MUW, m ais especificam ent e no agrupam ent o de sessões, os padrões result ant es são grupos de sessões, onde cada sessão cont ém páginas visit adas pelo usuário. No agrupam ent o de t raj et ória, as abordagens de visualização exist ent es descrevem cada grupo at ravés dos acessos que com põem cada sessão [ BAN01] , ut ilizando cadeias de Markov [ MOB04] , bem com o at ravés da árvore de navegação [ GUN03] . No agrupam ent o de int eresse, as abordagens de visualização exist ent es descrevem cada grupo at ravés de vet ores de at ribut os e pesos, ou at ravés do perfil agregado [ MOB01, MOB02] que represent a cada grupo pela m édia consolidada das sessões que pert encem ao grupo.

Ent ret ant o, a falt a de um em basam ent o sem ânt ico para as páginas do sit e Web, aliada ao processo m anual de int erpret ação dos result ados, é principal fat or que t orna a et apa de análise de padrões ainda m ais árdua para o analist a. Ou sej a, a int erpret ação do significado dos acessos pert encent es às sessões do grupo, bem com o a caract erização do grupo fica rest rit a aos conhecim ent os do analist a.

(36)

3.2 Considerações

Est e capít ulo apresent ou a Mineração do Uso da Web, bem com o os principais elem ent os envolvidos durant e t odo o processo de descobert a de conhecim ent o. Dent re os principais problem as encont rados na MUW est ão a pobreza e a ausência de inform ação relevant es nos arquivos de acesso, devido à nat ureza sint át ica dos arquivos de acesso. Est e problem a é evidenciado m ais freqüent em ent e em sit es Web com cache e/ ou servidores proxy, páginas com fram es, ou sem aut ent icação de usuários. Além disso, a falt a de sem ânt ica no regist ro das páginas acessadas, em relação ao seu significado no dom ínio da aplicação, dificult a a aplicação do agrupam ento e agrava ainda m ais a pobreza dos resultados. Com o conseqüência, devido ao t rabalho exigido para suprir e prover as inform ações necessárias, a et apa de pré- processam ent o se t orna sem dúvida a m ais t rabalhosa na MUW.

O obj etivo da m ineração dita a form a com o as sessões serão representadas e ut ilizadas pelos algorit m os de agrupam ent o. Se o obj et ivo da m ineração é descobrir padrões de traj etória durante a navegação, então as sessões são vistas com o um a seqüência de páginas acessadas, com re- visit as e ordem ent re os acessos. Quando o obj et ivo da m ineração é descobrir os int eresses em com um , as sessões são representadas com o um vetor, onde a ordem dos acessos não é levada em consideração.

Após a ident ificação das sessões dos usuários, as sessões são t ransform adas com a finalidade de reduzir os ruídos e a dim ensionalidade dos dados, visando grupos com m ais qualidade.

A fase de m ineração de dados oferece t écnicas de m ineração para diversas áreas. No cont ext o da MUW, exist em dois t ipos de agrupam ent os int eressant es: agrupam ento do uso e agrupam ento de páginas. O agrupam ento do uso, foco deste t rabalho, via est abelecer grupos de sessões de usuários que t enham padrões de navegação sim ilares, t ant o em sua t raj et ória quant o em seus int eresses em com um .

(37)

4 TRABALHOS RELACI ON ADOS

Est e capít ulo apresent a os principais t rabalhos relacionados ao agrupam ent o de sessões, descrevendo as abordagens de agrupam ent o, int erpret ação dos padrões result ant es do agrupam ent o, bem com o t rabalhos de MUW no cont ext o da EAD.

A m aioria dos t rabalhos de agrupam ent o de sessões foca na represent ação das sessões de acordo com a finalidade do agrupam ent o, ou no cálculo de sim ilaridade ent re as sessões. A represent ação das sessões t em grande im pact o em com o a sim ilaridade é com putada em cada abordagem .

As seções seguint es apresent am o agrupam ent o de int eresse e o agrupam ent o de t raj et ória descrevendo com o os principais t rabalhos na lit erat ura t rat am o agrupam ent o das sessões e int erpret ação dos result ados em cada um a dest as abordagens.

4.1 Agrupam ento de I nteresse

No agrupam ento de int eresse, foco dos t rabalhos [ FU00, HEE02, MOB01, MOB02] , são considerados exclusivam ent e os acessos em com um ent re os usuários. Ou sej a, nest e t ipo de agrupam ent o de sessões, a t raj et ória do usuário não é levada em cont a. Nest e t ipo de agrupam ent o, cada sessão é vist a com o um vet or no espaço

n- dim ensional de páginas do sit e Web, P=

{

p1,p2,K ,pn

}

, com um peso associado

( binário ou t em po de acesso) a cada página, com o ilust rado ant eriorm ent e na Figura 8. Dada est a represent ação, o conj unt o das m sessões, S =

{

sr1,sr2,K ,srm

}

, pode ser visto com o um a m atriz de dados mxn, onde m represent a as sessões e n seus at ribut os.

O t rabalho [ HEE02] aborda ainda outras questões, com o por exem plo, ident ificar o núm ero ideal de grupos, e com plem ent ar as sessões com inform ações de várias font es de dados provenient es da ut ilização, t opologia e/ ou cont eúdo, est abelecendo o conceit o de vet ores de m odalidade para cada sessão.

4 .1 .1 Sim ilaridade ent re as Sessões

(38)

O enriquecim ent o dos dados durant e a et apa de pré- processam ent o m elhora o result ado do agrupam ent o, um a vez que os acessos a um m esm o cont eúdo/ serviço, ant es t rat ados com o diferent es requisições HTTP, são t raduzidos por conceit os na hierarquia conceit ual que represent a o dom ínio. Ent ret ant o, nenhum dest es t rabalhos ut iliza explicit am ent e a sim ilaridade ent re os conceit os durant e o agrupam ent o das sessões.

4 .1 .2 I nt erpret ação dos Result ados

Além da int erpret ação convencional de agrupam ent o, a qual geralm ent e represent a os grupos at ravés dos vet ores de at ribut os e pesos [ FU00] , os grupos result ant es do agrupam ent o de int eresse podem ser represent ados por um perfil agregado [ MOB01, MOB02] .

Na int erpret ação convencional, m esm o ut ilizando o enriquecim ent o dos dados na etapa de pré- processam ent o, o analist a deve avaliar os at ribut os e pesos at ribuídos para as sessões pert encent es ao grupo de m odo a t ent ar int erpret ar as caract eríst icas de form ação do grupo. Conseqüent em ent e, a int erpret ação é dependent e do conhecim ent o do especialist a do dom ínio.

A B C D E F

s8 0 0 1 1 0 0

s4 0 0 1 1 0 0

Grupo 0

s7 0 0 1 1 0 0

s0 1 1 0 0 0 1 Perfil Agregado

s3 1 1 0 0 0 1 Peso Página

s6 1 1 0 0 0 1 100 % B

Grupo 1

s9 0 1 1 0 0 1 100 % F

s2 1 0 0 1 1 0 75 % A

s5 1 0 0 1 1 0 25 % C

Grupo 2

s1 1 0 1 1 1 0

( A) Grupos result a nt es

( B) Perfil Agregado do Grupo 1

Figura 12 – Exemplo de perfil agregado (adaptado de [MOB04])

Imagem

Tabela 1 – Exemplo de arquivo de acesso (formato ECLF)
Figura 12 – Exemplo de perfil agregado (adaptado de [MOB04])
Figura 13 – Sessões pertencentes a um mesmo grupo
Tabela 5 – Enriquecimento dinâmico das sessões com redução da dimensionalidade
+7

Referências

Documentos relacionados

No texto de ontem sobre os títulos das duas grandes “nações” do nosso futebol, vários comentários tocaram em um tema delicado e sempre polêmico: quais são, de

O Ministério da Educação, juntamente com a Secretaria de Educação Continuada, Alfabetização, Diversidade e Inclusão (SECADI), chegaram a um consenso sobre uma

- Se o estagiário, ou alguém com contacto direto, tiver sintomas sugestivos de infeção respiratória (febre, tosse, expetoração e/ou falta de ar) NÃO DEVE frequentar

MUSEALIZAÇÃO DO PATRIMÔNIO INDUSTRIAL: ESTUDO DE CASO DO MUSEU DE ARQUEOLOGIA INDUSTRIAL THOMAZ CRUZ. Ana Flávia

Promovido pelo Sindifisco Nacio- nal em parceria com o Mosap (Mo- vimento Nacional de Aposentados e Pensionistas), o Encontro ocorreu no dia 20 de março, data em que também

Com o objetivo de compreender como se efetivou a participação das educadoras - Maria Zuíla e Silva Moraes; Minerva Diaz de Sá Barreto - na criação dos diversos

A garantia não se aplicará nos casos de: Usos incorretos da máquina; Danos provocados por acidentes; Desgastes normais de uso; Avarias provocadas por descuido de transporte

Para o desenvolvimento do banco de dados da pesquisa, os dados e informações foram coletados de fontes diferenciadas, uma vez que a rodovia está condicionada não apenas a