4 Minera¸ c˜ ao de Dados na WEB
4.4 Categorias de WEB Mining
4.4.1 Minera¸ c˜ ao de Conte´ udo
A falta de estrutura¸c˜ao que domina as fontes de informa¸c˜ao na Internet dificulta a organiza¸c˜ao, administra¸c˜ao, manuten¸c˜ao e busca automatizada de informa¸c˜ao. As search engines s˜ao ferramentas que provˆem algum conforto, mas geralmente n˜ao filtram, interpre-
4.4 Categorias de WEB Mining 48
Fig. 5: Taxonomia da Minera¸c˜ao na WEB
tam os documentos que retornam nas buscas (COOLEY; MOBASHER; SRIVASTAVA, 1997b).
A Minera¸c˜ao de Conte´udo e a Recupera¸c˜ao de Informa¸c˜ao s˜ao muitas vezes utilizadas em conjunto. Enquanto uma realiza a minera¸c˜ao diretamente do conte´udo dos documentos a outra incrementa o poder de busca de outras ferramentas e servi¸cos. ´Audio, v´ıdeo, dados simb´olicos, metadados e v´ınculos de hipertexto fazem parte do conte´udo de documentos da Web atualmente, e como tal, na minera¸c˜ao de conte´udos tamb´em s˜ao analisados. Existem ´
areas de pesquisas destinadas a minera¸c˜ao de dados multim´ıdias, entretanto, como uma enorme parte da Web ´e constitu´ıda de texto e hipertexto, permanecendo assim o foco em dados de texto.
Com o continuo crescimento da Web, as pesquisas voltadas para ferramentas mais eficazes, melhorias nas t´ecnicas de minera¸c˜ao e extra¸c˜ao de dados se desenvolveram. Po- demos observar duas grandes abordagens quando tratamos de Minera¸c˜ao de Conte´udo: Baseado em Agente (Agent-Based ) e Banco de Dados (Database).
Baseado em Agente (Agent-Based ) Esta abordagem de minera¸c˜ao de dados tra- balha diretamente com o campo de Inteligˆencia Artificial, provendo um sistema autˆonomo ou semi-autˆonomo, que trabalha para a coleta de conhecimento e organiza¸c˜ao das infor- ma¸c˜oes na WEB delimitado pelo escopo do sistema. Dentro desta abordagem, temos as seguintes categorias:
4.4 Categorias de WEB Mining 49
Agentes de Busca Inteligentes (Intelligent Search Agents) Muitos sis- temas de Agentes Inteligentes utilizam informa¸c˜oes caracteristicas de um dom´ınio para organizar e interpretar essas informa¸c˜oes de uma forma totalmente autˆonoma. Como exemplo, temos alguns trabalhos como o Harvest (BOWMAN et al., 1995), FAQ-Finder (HAMMOND; BURKE; SCHMITT, 1994), OCCAM (KWOK; WELD, 1996) e ParaSite (SPERTUS, 1997) que extraem e interpretam documentos atrav´es de um dominio espe- c´ıfico. Outros agente como ShopBot (DOORENBOS; ETZIONI; WELD, 1997) e ILA (Internet Learning Agent) (ETZIONI; PERKOWITZ; ETZIONI, 1995) atrav´es de estru- turas de fontes de informa¸c˜ao n˜ao familiares tentam atrav´es da intera¸c˜ao, aprender novos comportamentos. ShopBot coleta informa¸c˜oes de produtos em v´arios sites de venda utili- zando apenas informa¸c˜oes gerais dos produtos, enquanto o ILA aprende com os modelos e traduz para um conceito interno do sistema (COOLEY; MOBASHER; SRIVASTAVA, 1997b).
Categoriza¸c˜ao e Filtragem de Informa¸c˜ao Muitos agentes Web utilizam tecni- cas de Recupera¸c˜ao de Informa¸c˜ao para automaticamente filtrar e categorizar documentos da Web. O BO (Bookmark Organizer) combina t´ecnicas de clustering e intera¸c˜ao com o usu´ario para orgazinar o conjunto de documentos baseado em informa¸c˜ao conceitual (MAAREK; SHAUL, 1996). O HyPursuit usa informa¸c˜ao semˆantica embutida nos links e no conte´udo em si dos documentos para criar uma hierarquia de cluster de hipertex- tosm e estruturar as informa¸c˜oes (WEISS et al., 1996). Google News10 atualmente ´e uma das ferramentas mais populares que classifica noticias de mais de 4.000 fontes (KOLARI; JOSHI, 2004).
Personaliza¸c˜ao Outra categoria de agentes Web incluem aqueles que obtˆem ou aprendem as preferencias do usu´ario e procuram fontes de informa¸c˜ao na Web que corres- pondam aquelas preferˆencias, e possivelmente, utilizando filtragem colaborativa, procuram interesses similares. Exemplos que utilizam esta abordagem s˜ao WebWatcher (ARMS- TRONG et al., 1995), PAINT (OOSTENDORP; PUNCH; WIGGINS, 1994), Firefly
4.4 Categorias de WEB Mining 50
(SHARDANAND; MAES, 1995) e Syskill&Webert (PAZZANI; MURAMATSU; BILL- SUS, 1996).
Banco de Dados (Database) A abordagem de Banco de Dados, como o nome pressup˜oem, trabalha com a organiza¸c˜ao e integra¸c˜ao dos documentos semi-estruturados para um documento estruturado, como em um banco de dados relacional, usando inclusive consultas e mecanismos de banco de dados para acesso e analise das informa¸c˜oes.
Banco de Dados em Multin´ıveis Uma organiza¸c˜ao das informa¸c˜oes em multin´ı- veis ´e proposto por muitos pesquisadores. No n´ıvel principal s˜ao encontrados informa¸c˜oes armazenadas de forma semi-estruturadas em v´arios reposit´orios na Web. Em n´ıveis acima do principal, encontramos meta-dados ou generaliza¸c˜oes que s˜ao extra´ıdas das camadas abaixo e organizadas de forma com uma estrutura rigida como um modelo relacional ou orientado objeto (COOLEY; MOBASHER; SRIVASTAVA, 1997b). Em uma das pesqui- sas desenvolvidas por Han e seu grupo de pesquisa, utilizam um banco de dados de multi- camadas onde cada camada ´e obtida com opera¸c˜oes de transforma¸c˜oes e generaliza¸c˜ao das camadas inferiores (ZA¨ıANE; HAN, 1995). O sistema ARANEUS extrai informa¸c˜oes relevantes de documentos de hipertexto e integra em documentos derivados de hipertexto que s˜ao generaliza¸c˜oes de views de banco de dados (ATZENI; MECCA; MERIALDO, 1997).
Sistemas de Consulta Web (Web Query Systems) Nesta abordagem, a uti- liza¸c˜ao de queries s˜ao utilizadas procurando uma aproxima¸c˜ao das linguagens de consulta como SQL. Cria-se uma abstra¸c˜ao para o usu´ario final que consulta como se estivesse consultado um banco de dados, quando na realidade existe uma estrutura¸c˜ao semˆantica em cima da semi-estruturada Web. Como exemplo, podemos citar WebLog (LAKSHMA- NAN; SADRI; SUBRAMANIAN, 1996) que utiliza uma linguagem de consulta baseado em l´ogica para reconstruir a informa¸c˜ao extraida das fontes na Web. Seguindo a mesma vertente, temos o WebSQL (MENDELZON; MIHAILA; MILO, 1996).
4.4 Categorias de WEB Mining 51
A ´area de minera¸c˜ao de textos est´a bem esclarecida, com muitas t´ecnicas, uma das quais seria reestruturar o documento para uma linguagem entendida pela maquina. Uma minera¸c˜ao que vem ganhando destaque em pesquisas ´e a minera¸c˜ao em servi¸cos da Web tais como grupo de noticias, grupos de e-mails, lista de discuss˜ao. Outro conceito ´e intro- duzido por estes pesquisadores, chamado de Web Intelligence, que promete transformar os servi¸cos da Web em entidades inteligentes, de forma que elas possam interagir e se comunicar atrav´es de uma linguagem comum.