• Nenhum resultado encontrado

Trabalho de Conclusão de Curso. Mário Henrique Akihiko da Costa Adaniya. Web. Londrina

N/A
N/A
Protected

Academic year: 2021

Share "Trabalho de Conclusão de Curso. Mário Henrique Akihiko da Costa Adaniya. Web. Londrina"

Copied!
69
0
0

Texto

(1)

Trabalho de Conclus˜ao de Curso

ario Henrique Akihiko da Costa Adaniya

ecnicas de Extra¸

ao de Informa¸

oes da

Web

Londrina 2009

(2)

ario Henrique Akihiko da Costa Adaniya

ecnicas de Extra¸

ao de Informa¸

oes da Web

Trabalho de Conclus˜ao de Curso apresen-tado ao Curso de Gradua¸c˜ao em Ciˆencia da Computa¸c˜ao da Universidade Estadual de Londrina, como requisito parcial `a ob-ten¸c˜ao do grau de Bacharel.

Orientador: Prof. Dr. Mario Lemes Proen¸ca Jr.

Londrina 2009

(3)

ario Henrique Akihiko da Costa Adaniya

ecnicas de Extra¸

ao de Informa¸

oes da Web

Trabalho de Conclus˜ao de Curso apresen-tado ao Curso de Gradua¸c˜ao em Ciˆencia da Computa¸c˜ao da Universidade Estadual de Londrina, como requisito parcial `a ob-ten¸c˜ao do grau de Bacharel.

COMISS ˜AO EXAMINADORA

Prof. Dr. Mario Lemes Proen¸ca Jr. Universidade Estadual de Londrina

Prof. Dr. Evandro Bacarin Universidade Estadual de Londrina

Prof. Dr. Jacques Du´ılio Brancher Universidade Estadual de Londrina

(4)

Agradecimentos

`

A Deus pelo desafio da vida.

Aos meus pais, pelo apoio, carinho e compreens˜ao em todos os momentos de minha vida.

Aos meus irm˜aos, porque tive com quem brincar quando crian¸ca.

Aos meus familiares, porque a fam´ılia ´e a base de tudo.

`

A minha Namoradinha, que por acaso gosta das mesmas coisas que eu.

Ao professor e orientador Mario Lemes Proen¸ca Junior que sempre deu apoio e me ensinou a realizar uma pesquisa de forma correta.

Aos professores do Dept. de Computa¸c˜ao.

Aos amigos.

(5)

“Tudo vale a pena, Se a alma n˜ao ´e pequena”. Fernando Pessoa

(6)

Resumo

Com o ac´umulo e o crescimento continuo das informa¸c˜oes contidas na Web, nasceu a preocupa¸c˜ao em tratar tanto os documentos quanto as informa¸c˜oes contidas nestes docu-mentos. Este trabalho objetiva uma sintese de algumas ´areas relacionadas a extra¸c˜ao e tratamento da informa¸c˜ao. O campo de pesquisa em Recupera¸c˜ao de Informa¸c˜ao se pre-ocupa com a sele¸c˜ao de documentos, enquanto a Extra¸c˜ao de Informa¸c˜ao com a extra¸c˜ao das informa¸c˜oes contidas nestes. Web Mining ´e a utiliza¸c˜ao de um conjunto de t´ecnicas destes campos, entre outros, para o tratamento e a utiliza¸c˜ao das informa¸c˜oes de uma maneira ´util e automatizada para n´os.

Palavras-Chaves: Recupera¸c˜ao de Informa¸c˜ao, Extra¸c˜ao de Informa¸c˜ao, Web Mi-ning.

(7)

Abstract

The continued growth and accumulation of the information contained on the Web, has raised a concern in treating both the documents and the information contained in these documents. This paper aims at a synthesis of some areas related to extraction and processing of information. The field of research in Information Retrieval is concerned with the selection of documents, while the Information Extraction with the extraction of information contained in these. Web Mining is the use of a set of techniques from these fields, among others, for the treatment and use of information in a useful and automated for us..

(8)

Sum´

ario

1 Introdu¸c˜ao p. 14

1.1 Organiza¸c˜ao do Trabalho . . . p. 16

2 Recupera¸c˜ao de Informa¸c˜ao p. 17

2.1 Modelos de Recupera¸c˜ao de Informa¸c˜ao . . . p. 18 2.1.1 Modelo Booleano . . . p. 18 2.1.2 Modelo Booleano Estendido . . . p. 19 2.1.3 Modelo Vetorial . . . p. 19 2.1.4 Modelo Probabil´ıstico . . . p. 19 2.1.5 Modelo Difuso . . . p. 20 2.1.6 Modelo de Indexa¸c˜ao Semˆantica Latente . . . p. 20 2.1.7 Modelo de Processamento de Linguagem Natural . . . p. 20 2.2 Recupera¸c˜ao de Informa¸c˜ao na WEB . . . p. 21

3 Extra¸c˜ao de Informa¸c˜ao p. 23

3.1 Extra¸c˜ao de Informa¸c˜ao n˜ao ´e Recupera¸c˜ao de Informa¸c˜ao . . . p. 24 3.2 MUC - Message Understanding Conference . . . p. 24 3.3 Conceitos B´asicos . . . p. 25 3.3.1 Abordagens . . . p. 26

(9)

3.3.2 Tipos de Dado . . . p. 26 3.3.3 Fluxo Geral . . . p. 28 3.4 Avalia¸c˜ao . . . p. 32

4 Minera¸c˜ao de Dados na WEB p. 37

4.1 Web Mining . . . p. 38 4.2 Descoberta do Conhecimento . . . p. 38 4.2.1 Identifica¸c˜ao do Problema . . . p. 39 4.2.2 Pr´e-Processamento . . . p. 40 4.2.3 Extra¸c˜ao de Padr˜oes . . . p. 40 4.2.4 P´os-Processamento . . . p. 41 4.2.5 Utiliza¸c˜ao do Conhecimento . . . p. 41 4.3 Etapas do Web Mining . . . p. 41 4.3.1 Coleta de Documentos . . . p. 42 4.3.2 Pr´e-Processamento . . . p. 43 4.3.3 Extra¸c˜ao de Padr˜oes . . . p. 45 4.3.4 Avalia¸c˜ao e Interpreta¸c˜ao de Resultados . . . p. 46 4.4 Categorias de WEB Mining . . . p. 47 4.4.1 Minera¸c˜ao de Conte´udo . . . p. 47 4.4.2 Minera¸c˜ao de Estrutura . . . p. 51 4.4.3 Minera¸c˜ao de Uso . . . p. 51 4.4.4 Web Semˆantica . . . p. 53

(10)

5.1 Tecnologias Empregadas . . . p. 57 5.1.1 Java . . . p. 58 5.1.2 JavaCC . . . p. 59 5.2 NameParser . . . p. 59

6 Conclus˜ao p. 63

(11)

Lista de Tabelas

1 Conferˆencias e seus temas . . . p. 25 2 Exemplos de apari¸c˜ao de nomes . . . p. 32 3 Exemplos de alguns termos extraidos . . . p. 35 4 Resultados da extra¸c˜ao . . . p. 35 5 Regras e exemplos de nomes . . . p. 62

(12)

Lista de Figuras

1 Principais m´odulos de um sistema de Extra¸c˜ao de Informa¸c˜ao . . . p. 29 2 Homepage da Association Alzheimer com nomes extraidos. . . p. 34 3 Etapas do processo KDD (REZENDE et al., 2003) . . . p. 39 4 Etapas do processo de Web Mining . . . p. 42 5 Taxonomia da Minera¸c˜ao na WEB . . . p. 48 6 Camadas propostas pela W3C . . . p. 54 7 Ilustra¸c˜ao simples de uma semˆantica baseado em StarWars. . . p. 56 8 Classes do projeto SalusParser . . . p. 60 9 Declara¸c˜ao das regras de tokens . . . p. 61 10 Declara¸c˜ao da regra do NOME COMPLETO . . . p. 61

(13)

Lista de abreviaturas e siglas

DAML DARPA Agent Markup Language

DARPA Defense Advanced Research Projects Agency EI Extra¸c˜ao de Informa¸c˜ao

GNU GNU is Not Unix GPL General Public License HTML Hypertext Markup Language KDD Knowledge Discovery Database LSI Latent Semantic Indexing

MUC Message Understading Conference NER Named Entity Recognition

OWL Web Ontology Language

PLN Processamento de Linguagem Natural RDF Resource Description Framework RI Recupera¸c˜ao de Informa¸c˜ao SVD Singular Value Decomposition URI Uniform Resource Identifier W3C World Wide Web Consortium

WB Web Mining

WWW World Wide Web

(14)

14

1

Introdu¸

ao

Presenciamos atualmente grandes avan¸cos que auxiliam para uma globaliza¸c˜ao e mo-derniza¸c˜ao do mundo como nunca antes previsto. As informa¸c˜oes e como elas s˜ao trata-das tamb´em sofreram dr´asticas altera¸c˜oes, e podemos destacar como um grande fator o advento da Internet. Atualmente ´e improv´avel nos imaginarmos sem a Internet e suas fa-cilidades, elevando a importˆancia da Internet em nossas vidas num futuro pr´oximo sendo tratada como a necessidade da energia el´etrica, ´agua e saneamento b´asico, entre outros servi¸cos que tomamos como essenciais hoje (JR., 2005). Empresas tˆem preju´ızos na casa dos bilh˜oes por algumas horas sem Internet, tal qual, sua importˆancia hoje.

A World Wide Web (Web) ´e um meio de comunica¸c˜ao popular e interativo para disseminar informa¸c˜ao atualmente (KOSALA; BLOCKEEL, 2000). E cada vez mais en-contramos toda e qualquer informa¸c˜ao dispon´ıveis online. Tornando-se uma tendˆencia que grandes editoras com revistas e publica¸c˜oes impressas est˜ao aderindo, mantendo os im-pressos tradicionais e publicando virtualmente os mesmos conte´udos e adicionando outros exclusivos na edi¸c˜ao online.

Blogs surgem aos milhares com pessoas expressando suas id´eias, opini˜oes e experi-ˆencias. Sites de relacionamento, f´oruns, Wikis armazenam conte´udos imensos dos mais diversificados assuntos. Todo dia, muitas p´aginas s˜ao indexadas pelos motores de bus-cas. E neste pandemˆonio, como encontrar o que realmente estamos procurando? E como avaliar se a informa¸c˜ao recuperada ´e confi´avel?

O acesso a Internet ´e muito mais f´acil, e tamb´em ´e a publica¸c˜ao de qualquer conte´udo por qualquer pessoa, a busca por uma informa¸c˜ao concreta de uma fonte segura torna-se importante. Para tal, ´e necess´ario buscar formas de pesquisa mais interessantes adicionais

(15)

1 Introdu¸c˜ao 15

as pesquisas j´a exitentes.

A busca pela informa¸c˜ao correta se torna um assunto muito mais s´erio quando se trata de sa´ude, pois com o acesso facilitado, muitas pessoas ao primeiro sintoma de alguma doen¸ca buscam informa¸c˜ao na Internet e t˜ao logo, podem ter acesso a informa¸c˜oes, tanto corretas quanto incompletas ou na pior das hip´otese, informa¸c˜oes erradas. A pessoa pode seguir conselhos equivocados e n˜ao procurar assistˆencia m´edica, podendo agravar sua situa¸c˜ao.

Algumas ´areas de estudos buscam solu¸c˜oes para este problema, destacamos a Recu-pera¸c˜ao de Informa¸c˜ao (RI) e a Extra¸c˜ao de Informa¸c˜ao (EI). Obter apenas dados n˜ao possui relevˆancia para o usu´ario e pesquisadores, importante tamb´em ´e o fato da utiliza-¸c˜ao destes dados. Web Mining(WB) envolve in´umeras disciplinas como Recupera¸c˜ao da Informa¸c˜ao, Extra¸c˜ao de Informa¸c˜ao, Estat´ıstica, Inteligˆencia Artificial e Minera¸c˜ao de Dados. Procura extrair, avaliar, estudar e utilizar os dados em ´areas de aplica¸c˜ao como o com´ercio, ou estudos para melhoria de algum servi¸co ( ´ALVAREZ, 2007).

Os estudos em Web Mining possibilita alguns sites de E-Commerce muito mais per-sonalizados. Como grandes exemplos temos o Submarino1 e Amazon.com2, no mercado nacional e internacional. Podemos perceber isto quando efetuamos uma compra de algum livro ou outro produto pelo Submarino, e nas visitas posteriores ao site, ele nos indica gˆeneros liter´arios semelhantes ao livro adquirido ou itens relacionados com a categoria do produto.

O tratamento de informa¸c˜oes no ˆambito da sa´ude torna-se algo importante. Pode-se encontrar muitas informa¸c˜oes corretas e erradas, e a publica¸c˜ao origina-se de fontes confi´aveis e n˜ao confi´aveis. Por este motivo a preocupa¸c˜ao com a informa¸c˜ao extra´ıda e a sua confiabilidade, gera projetos como o Salus Cyted.

1Submarino - http://www.submarino.com.br 2Amazon.com - http://www.amazon.com/

(16)

1.1 Organiza¸c˜ao do Trabalho 16

1.1

Organiza¸

ao do Trabalho

A monografia est´a organizada da seguinte maneira. No cap´ıtulo 2 s˜ao vistos alguns conceitos sobre Recupera¸c˜ao de Informa¸c˜ao. A preocupa¸c˜ao principal desta ´area ´e encon-trar maneiras eficazes de selecionar documentos. Importante ressaltar que a informa¸c˜ao contida n˜ao possui destaque na recupera¸c˜ao. A informa¸c˜ao ganha uma conota¸c˜ao impor-tante no cap´ıtulo 3, onde s˜ao abordados os conceitos sobre Extra¸c˜ao de Informa¸c˜ao. Com alguns destes conceitos fundamentados, analisamos a Web Mining no cap´ıtulo 4 onde en-contramos caracter´ısticas de RI e EI mas com um objetivo mais amplo al´em da sele¸c˜ao de documentos e informa¸c˜oes. Para tornar a extra¸c˜ao p´alpavel, apresentamos um caso de uso simples de uma ferramenta de extra¸c˜ao de nomes utilizada para o projeto Salus Cyted no cap´ıtulo 5.

Ao final, uma conclus˜ao sobre o trabalho pesquisado ´e feita, apontando a dire¸c˜ao das pesquisas realizadas na ´area recentemente.

(17)

17

2

Recupera¸

ao de Informa¸

ao

Recupera¸c˜ao de Informa¸c˜ao (RI) ´e a tarefa de encontrar documentos relevantes a partir de um corpus ou conjunto de textos em resposta a uma necessidade de informa¸c˜ao de um usu´ario (SMEATON, 1997). Um dos maiores problemas enfrentados desde seu in´ıcio, e que perpetua atualmente ´e a informa¸c˜ao estar contida em linguagem natural. Quando a WWW foi concebida, a comunidade acadˆemica que tratava de RI concentraram suas aten¸c˜oes para uma melhoria dos motores de busca, voltando a impulsionar o crescimento da RI.

RI possui limites, e qualquer tarefa al´em de prover ao usu´ario os documentos, n˜ao ´e um sistema de recupera¸c˜ao de informa¸c˜ao. A tecnologia de RI ´e quase sempre encon-trada no n´ucleo de funcionalidades dos sistemas de busca de informa¸c˜oes de uma maneira impercept´ıvel para o usu´ario. T´ecnicas como: filtragem, roteamento, categoriza¸c˜ao e clus-teriza¸c˜ao possuem em comum a busca e compara¸c˜ao dos documentos e as necessidades do usu´ario (SMEATON, 1997).

∙ filtragem - atrav´es do fluxo de documentos entre um certo perfil ou grupo de usu´arios, refletindo a informa¸c˜ao desejada;

∙ categoriza¸c˜ao - ´e a tarefa de categorizar o documento em um conjunto predefinido de categorias;

∙ roteamento - divide a entrada de documentos para grupos ou usu´arios baseado no conte´udo;

∙ clusteriza¸c˜ao - ´e o agrupamento de documentos semelhantes para posterior busca ou outra utiliza¸c˜ao;

(18)

2.1 Modelos de Recupera¸c˜ao de Informa¸c˜ao 18

Sistemas de RI s˜ao estruturados atrav´es da defini¸c˜ao da fonte de informa¸c˜ao com a qual se trabalha, ou seja, os tipos de documentos que ser˜ao indexados. Posteriormente, as opera¸c˜oes que ser˜ao executadas no momento das buscas devem ser determinadas, es-truturando os documentos de acordo com as tarefas a serem executadas. Em seguida, um ´ındice com os termos contidos nos documentos ´e criado (BAEZA-YATES; RIBEIRO-NETO, 1999). Com uma consulta, o usu´ario descreve suas necessidades atrav´es de termos e o processo de RI ´e iniciado (BEPPLER, 2008).

A opera¸c˜ao de recupera¸c˜ao em sistemas de RI objetiva computar graus de coincidˆencia entre a consulta do usu´ario e os documentos para ordenar cada documento. Smeaton (SMEATON, 1997) sugere algumas m´etricas heur´ısticas para tal ordenamento e enumera ´

areas onde a pesquisa de RI s˜ao bem ativas.

O problema da aquisi¸c˜ao de conhecimento de textos vˆem sendo questionado pela comunidade de RI em fun¸c˜ao da r´apida pulveriza¸c˜ao de informa¸c˜ao impulsionada pela Internet. A pesquisa sobre atividades baseadas em corpus de textos tˆem sido encorajada, facilitando o desenvolvimento de solu¸c˜oes.

2.1

Modelos de Recupera¸

ao de Informa¸

ao

Greengrass (GREENGRASS, 2000) prop˜oem duas categorias para os modelos de RI: semˆanticos e est´atisticos. Os semˆanticos tem a preocupa¸c˜ao de “entender” um texto em linguagem natural. Quanto aos modelos est´atisticos, s˜ao atribuidos medidas estat´ısticas mensurando a compara¸c˜ao entre uma consulta e um documento. Na categoria est´atistica enquandramos os modelos: Booleano, Booleano Estendido, Vetorial, Probabil´ıstico, Di-fuso e Indexa¸c˜ao Semˆantica Latente. O modelo de Processamento de Linguagem Natural representa a categoria semˆantica.

2.1.1

Modelo Booleano

Utilizando-se da teoria dos conjuntos e ´algebra booleana, as consultas s˜ao construidas atrav´es de express˜oes booleanas e conectores l´ogicos: AND, OR, NOT. A recupera¸c˜ao de

(19)

2.1 Modelos de Recupera¸c˜ao de Informa¸c˜ao 19

um determinado documento s´o ´e efetuada mediante um valor verdadeiro das express˜oes, no nosso caso, uma consulta. Devido a simplicidade e ao formalismo, temos um resultado n˜ao ordenado, acarretando tamb´em `a recupera¸c˜ao de muitos ou poucos documentos (BAEZA-YATES; RIBEIRO-NETO, 1999).

2.1.2

Modelo Booleano Estendido

Este modelo ´e proposto com algumas melhorias em rela¸c˜ao seu predescessor, imple-mentando uma fun¸c˜ao de ordena¸c˜ao e a utiliza¸c˜ao de diferentes operadores. Este modelo atribui valores no intervalo [0, 1], que equivale ao grau de compara¸c˜ao de uma express˜ao com um documento (LEE, 1994).

2.1.3

Modelo Vetorial

Este modelo ´e representado por um vetor ou uma lista de termos ordenados. O grau de similaridade de um documento em rela¸c˜ao a uma consulta ´e a avalia¸c˜ao entre os vetores que representam o documento e a consulta. Com isto, uma ordena¸c˜ao de acordo com o grau de similaridade ´e executada dada uma consulta (BAEZA-YATES; RIBEIRO-NETO, 1999).

2.1.4

Modelo Probabil´ıstico

Fazendo-se uso de c´alculos probabil´ısticos, o modelo calcula a probabilidade condi-cional em que um determinado documento ´e relevante a uma dada consulta. Consulta e documentos s˜ao representados por meio de um conjunto de termos, calculando-se a probabilidade de ocorrˆencia dos termos de uma consulta em documentos relevante e n˜ ao-relevantes. A fun¸c˜ao probabilistica depende do modelo a ser usado, bem como os termos est˜ao distribuidos entre os documentos (GREENGRASS, 2000).

(20)

2.1 Modelos de Recupera¸c˜ao de Informa¸c˜ao 20

2.1.5

Modelo Difuso

´

E um modelo extendido do modelo booleano e possui uma fun¸c˜ao de ordena¸c˜ao cujo resultado da compara¸c˜ao entre um documento e uma consulta ´e aproximado. Como Zadeh redefiniu o intervalo fechado do conceito cl´assico da pertinˆencia de [0, 1] ∈ ℤ para o intervalo cont´ınuo [0, 1] ∈ ℝ (BAEZA-YATES; RIBEIRO-NETO, 1999).

A aproxima¸c˜ao considera que cada termo de uma consulta define um conjunto difuso e cada documento possui um grau de participa¸c˜ao nesse conjunto. Muitas cr´ıticas s˜ao lan¸cadas a este modelo por gerar medidas incorretas (LEE, 1994).

A principal justificativa para o m´etodo difuso ´e a falta de informa¸c˜ao frequente do usu´ario e do pr´oprio sistema em saber se o documento possui a informa¸c˜ao consultada ou n˜ao (LEE, 1994).

2.1.6

Modelo de Indexa¸

ao Semˆ

antica Latente

A indexa¸c˜ao semˆantica latente (LSI) ´e uma t´ecnica autom´atica que analisa as co-ocorˆencias de termos em documentos textuais almejando descobrir relacionamentos entre eles.

LSI ´e um modelo que consome processamento devido as estruturas escolhidas para a analise dos textos, no caso, uma matriz esparsa termo-documento. Utilizando a Decom-posi¸c˜ao de Valores Singulares (SVD), a matriz ´e decomposta em outras trˆes matrizes.

Este ´e um modelo que visa a captura de termos e suas dependˆencias que podem ter um significado semˆantico.

2.1.7

Modelo de Processamento de Linguagem Natural

O modelo que usa processamento em linguagem natural pode ser categorizado como modelo semˆantico, porque a estrutura e o significado dos documentos est˜ao intimamente ligados ao modelo. Raramente s˜ao utilizadas em RI, mas geralmente s˜ao empregadas em conjunto com outros modelos estat´ısticos (GREENGRASS, 2000).

(21)

2.2 Recupera¸c˜ao de Informa¸c˜ao na WEB 21

Smeaton (SMEATON, 1997) defende que as t´ecnicas de processamento de linguagem natural adotadas na RI apenas auxiliam eficientemente quando utilizadas em pequenas quantidades de textos. Assim sendo, a complexidade de t´ecnicas de PLN ´e oriunda das aplica¸c˜oes para a qual fora desenvolvida como tradu¸c˜ao autom´atica e interfaces de lingua-gem natural.

2.2

Recupera¸

ao de Informa¸

ao na WEB

Quando estamos lidando com a Web temos um cen´ario que contrasta com a chamada RI Cl´assica. Na RI Cl´assica temos um dom´ınio e usu´arios definidos, quando na Web encontramos um cen´ario dinˆamico e usu´arios consultando simultaneamente as informa¸c˜oes (KOBAYASHI; TAKEDA, 2000).

Muitas caracter´ısticas devem ser levadas em conta quando estamos recuperando do-cumentos na WEB (HUANG, 2000):

∙ Tamanho da Internet - O tamanho da Internet, segundo Zhang e seu grupo de pesquisa (ZHANG et al., 2008), estima-se que em Janeiro de 2008 a Internet continha 62400000 hostnames ativos. De acordo com a pesquisa, a Lei de Moore1 ´

e observada, exceto que para a Internet, foi visto que a cada cinco anos, ela dobra de tamanho. Importante esclarecer que os dados do tamanho da Internet v´aria de acordo com grupos de pesquisa, mas todos chegam a resultados similares quanto ao crescimento exponencial;

∙ Dinamismo da Internet - As t´ecnicas de Recupera¸c˜ao de Informa¸c˜ao s˜ao geral-menta est´atica, enquanto a Web est´a em constante metamorfose;

∙ Duplica¸c˜ao - 30% do cont´eudo da Internet ´e uma c´opia de algum conte´udo exis-tente;

1A Lei de Moore foi predita por um dos fundadores da Intel, Gordon Moore, e sugere que a cada

dezoito meses a capacidade de transitores no CPU dobra. Apareceu em 1965 e se manteve como verdade por quase meio s´eculo, e costuma ser utilizada para prever modelos futuros de tecnologias.

(22)

2.2 Recupera¸c˜ao de Informa¸c˜ao na WEB 22

∙ Comportamentos espec´ıficos - ´E estimado que 85% dos usu´arios utilizam apenas a primeira p´agina retornada das search engines, e 28% modificam sua consulta original;

∙ Multiplos tipos de usu´ario - Possui muitos tipos de usu´arios e cada usu´ario utiliza a Internet para uma tarefa espec´ıfica;

∙ Idiomas - Como a Internet se tornou algo mundial, as p´aginas s˜ao encontradas em mais de 100 idiomas;

∙ Alta Linkagem (High Linkage) - Cada p´agina cont´em aproximadamente oito links para outras p´aginas;

Com estas caracter´ısticas, podemos ter uma no¸c˜ao da dificuldade do campo de RI na Web. Se considerarmos a Web como uma grande base de dados, n˜ao temos uma aplica¸c˜ao efetiva das tarefa da RI Cl´assica de indexar, categorizar, organizar ou clusterizar, e as queries de busca de usu´arios distintos para uma mesma informa¸c˜ao apresentam diferen¸cas enormes.

(23)

23

3

Extra¸

ao de Informa¸

ao

N˜ao temos a capacidade de processar megabytes de texto todos os dias, e nesse volume de bytes, quantas oportunidades deixamos de aproveitar ou informa¸c˜oes que estar´ıamos perdendo? Projetos em Processamento de Linguagem Natural (PLN) originaram a Extra-¸c˜ao da Informa¸c˜ao. Extra¸c˜ao de Informa¸c˜ao (EI) tem como objetivo transformar a cole¸c˜ao de documentos, geralmente com o aux´ılio de um sistema de Recupera¸c˜ao de Informa¸c˜ao, em informa¸c˜ao que ´e facilmente analisada e digerida (COWIE; LEHNERT, 1996). Na EI, a compreens˜ao do texto fonte n˜ao ´e obrigat´oria, pois a an´alise ´e feita com o objetivo de encontrar por¸c˜oes que contenham o quˆe deve ser extra´ıdo. A s´aida de um sistema de Extra¸c˜ao da Informa¸c˜ao s˜ao informa¸c˜oes relevantes para o dom´ınio espec´ıfico em um determinado formato pr´e-estabelecido de acordo com as orienta¸c˜oes iniciais.

A Extra¸c˜ao da Informa¸c˜ao ´e uma tarefa mais limitada do que a “compreens˜ao completa do texto”. Na Extra¸c˜ao da Informa¸c˜ao, delimitamos o escopo, estabelecendo assim um limite de compreens˜ao, assim, n˜ao necessitando analisar o texto completo e seu sentido (GRISHMAN, 1997). A Extra¸c˜ao da Informa¸c˜ao tem um potencial muito grande em extrair dados com maior precis˜ao, existindo um interesse muito grande nas pesquisas, uma vez que encontramos uma enorme quantidade de informa¸c˜oes em linguagem natural. O reconhecimento de palavras, an´alise de frases, compreens˜ao do sentindo da frase ou de todo o documento s˜ao envolvidos nas pesquisas de processamento de linguagens, e aumentam a complexidade no desenvolvimento de um sistema de Extra¸c˜ao da Informa¸c˜ao.

(24)

3.1 Extra¸c˜ao de Informa¸c˜ao n˜ao ´e Recupera¸c˜ao de Informa¸c˜ao 24

3.1

Extra¸

ao de Informa¸

ao n˜

ao ´

e Recupera¸

ao de

Informa¸

ao

Recupera¸c˜ao de Informa¸c˜ao ´e uma tecnologia madura que perdura h´a muito mais tempo do que a Extra¸c˜ao da Informa¸c˜ao, que come¸cou a poucas d´ecadas. O objetivo da Recupera¸c˜ao de Informa¸c˜ao ´e selecionar documentos relevantes de uma cole¸c˜ao de docu-mentos de acordo com as necessidades do usu´ario e suas entradas, enquanto Extra¸c˜ao de Informa¸c˜ao extrai informa¸c˜oes relevantes de documentos. Consequentemente, as duas t´ ec-nicas se complementam, e usadas em combina¸c˜ao podem prover uma ferramenta poderosa (EIKVIL, 1999).

3.2

MUC - Message Understanding Conference

Observamos dois fatores principais que impulsionaram os estudos em EI: o crescimento exponencial de informa¸c˜ao conjuntamente com a populariza¸c˜ao da internet e um grande alavancador nas pesquisas em EI, os congressos MUC (Message Understanding Conferen-ces) (GAIZAUSKAS; WILKS, 1998). Eram congressos financiadas pelo DARPA1, e foram assim batizados por tratar-se do processamento de entendimento de mensagens. Surgindo em meados dos anos noventa, ela instaurou m´etricas e algoritmos estat´ısticos para au-xiliar o governo americano na avalia¸c˜ao de novos sistemas de Extra¸c˜ao de Informa¸c˜ao (LEHNERT; SUNDHEIM, 1991).

Na avalia¸c˜ao dos MUC, uma descri¸c˜ao detalhada do cen´ario e quais informa¸c˜oes a serem extraidas era dado aos participantes (formados por grupos de pesquisa acadˆemicos e particulares), junto com um conjunto de documentos e o modelo a ser extraido dos docu-mentos. Os participantes tinham um tempo limitado2 para adaptar os sistemas para um novo cen´ario. Ent˜ao uma nova cole¸c˜ao de documentos era passado para os participantes, e estes enviavam para os organizadores os resultados extra´ıdos. E assim a avalia¸c˜ao era feita, comparando o gabarito com os resultados extra´ıdos (APPELT; ISRAEL, 1999).

1Defense Advanced Research Projects Agency - http://www.darpa.mil/ 2Geralmente de 1 mˆes a 6 meses.

(25)

3.3 Conceitos B´asicos 25

Podemos observar na tabela 1 as edi¸c˜oes e o ano da conferˆencias, bem como as fontes de texto a serem extra´ıdas e os temas (cen´arios).

Tab. 1: Conferˆencias e seus temas

Conferˆencia Ano Fonte de Texto T´opico(Dominio)

MUC-1 1987 Artigos Militares Opera¸c˜oes de fuga MUC-2 1989 Artigos Militares Opera¸c˜oes de fuga MUC-3 1991 Artigos de Jornais Atividades Terroristas na Am´erica Latina MUC-4 1992 Artigos de Jornais Atividades Terroristas na Am´erica Latina MUC-5 1993 Artigos de Jornais Corporate Joint Ventures MUC-6 1995 Artigos de Jornais Negotiation of Labor Disputes MUC-7 1997 Artigos de Jornais Acidente de avi˜oes

O formato de sa´ıda era livre na primeira edi¸c˜ao da conferˆencia, da segunda conferˆencia em diante, o formato de sa´ıda era determinado pelo cˆomite organizador. Alguns campos t´ıpicos relacionados eram: causa, agente, lugar e tempo de um evento, consequˆencias, etc. Existiam cinco tarefas importantes para a Extra¸c˜ao de Informa¸c˜ao dentro das MUC: Na-med Entity Recognition (NER), Coreference Resolution, Remplate Element Construction, Template Relation Construction e Scenario Template Production (CHANG et al., 2006).

3.3

Conceitos B´

asicos

Extra¸c˜ao de Informa¸c˜ao deriva de Processamento de Linguagem Natural e tem como tarefa extrair informa¸c˜oes especificas de documentos, muitas vezes encontrado em Lingua-gem Natural. Muitos sistemas de Extra¸c˜ao de Informa¸c˜ao seguem sequˆencias de passos como analise l´exica, semˆantica, morfologica, reconhecimento de nomes, entre outras tare-fas (APPELT; ISRAEL, 1999).

A meta de um sistema de Extra¸c˜ao de Informa¸c˜ao n˜ao ´e entender o texto do documento em si, e sim analisar por¸c˜oes do texto e extrair informa¸c˜oes pertinentes. A pertinencia ´e determinada pelo dom´ınio e cen´ario, na maioria das vezes, explicitada pelo usu´ario (EIKVIL, 1999). A Extra¸c˜ao de Informa¸c˜ao ´e ´util para quando se tem um conjunto de documentos e existe a necessidade de extrair fatos espec´ıficos, como por exemplo, extrair nome de destinos para se viajar em blogs especializados em viagens.

(26)

3.3 Conceitos B´asicos 26

3.3.1

Abordagens

Na Extra¸c˜ao de Informa¸c˜ao, observamos claramente a distin¸c˜ao de duas abordagens (APPELT; ISRAEL, 1999): Knowledge Engineering e Automatic Training.

Em Knowledge Engineering o sistema ´e praticamente construido manualmente pelo knowledge engineer3. Sua constru¸c˜ao se baseia no conhecimento que o engenheiro possui do cen´ario e dom´ınio com o qual vai se trabalhar. As habilidades do engenheiro que cons-truir´a o sistema ´e crucial para a perfomance da mesma. O processo de desenvolvimento ´e muito trabalhoso, geralmente, ap´os feito a analise dos documentos e criada e aplicada as regras no sistema, o engenheiro executa o sistema sobre os textos de treino. De acordo com o resultado, ele modifica as regras do sistema e refaz o processo.

A abordagem de automatic training n˜ao necessita de um especialista, mas algu´em que tenha o conhecimento suficiente do dom´ınio da aplica¸c˜ao. Uma vez que um conjunto de documentos foram anotados, um algoritmo de treino ´e executado, treinando o sistema para novos textos. Esta abordagem tem uma resposta mais eficaz, mas depende do conjunto de documentos selecionados para treino. Utilizam m´etodos estat´ısticos, e aprendem regras com a intera¸c˜ao com o usu´ario.

Nenhuma das duas abordagens ´e superior a outra, pois a extra¸c˜ao depende de muitas variaveis, e muitas vezes, variaveis externas, logo, n˜ao podemos apontar nenhuma abor-dagem como completa. Ambas utilizadas em conjunto caminha para um sistema ideal.

3.3.2

Tipos de Dado

A Extra¸c˜ao de Informa¸c˜ao se d´a em documentos, e eles s˜ao categorizados em trˆes tipos (EIKVIL, 1999):

I. Documentos livre/sem estrutura¸c˜ao : Texto livre ´e basicamente o texto onde n˜ao encontramos nenhuma forma de estrutura, e ´e o tipo mais encontrado.

Origi-3E a pessoa mais familiarizada com o sistema de Extra¸´ ao de Informa¸ao, e conhece melhor o forma-lismo para expressar as regras para o sistema.

(27)

3.3 Conceitos B´asicos 27

nalmente o objetivo de EI era desenvolver sistemas capazes de extrair informa¸c˜oes chaves de textos em linguagem natural.

O estado da arte em Extra¸c˜ao da Informa¸c˜ao em textos livres muito comumente utiliza t´ecnicas de Processamento de Linguagens Naturais, e as regras de extra¸c˜ao s˜ao tipicamente baseada em padr˜oes envolvendo o aspecto sint´atico e semˆantico. A capacidade do homem de processamento ainda ´e melhor, mas resultados expressivos vem sendo obtidos no processamento em textos sem estrutura. O entendimento de textos sem restri¸c˜ao em Linguagem Natural ainda est´a longe de ser resolvido por completo, entretanto, m´etodos de EI funcionam porque dependem de restri¸c˜oes e padr˜oes que desejamos extrair dos textos (SODERLAND, 1999).

II. Documentos semi-estruturados : N˜ao s˜ao textos totalmente livres de estrutura, mas tamb´em as estrutura existente n˜ao ´e t˜ao r´ıgida, encontram-se no interm´edio. T´ecnicas de PLN concebem regras para a extra¸c˜ao de textos livres, contudo, estas regras funcionam perfeitamente para gram´aticas livre de contexto onde encontra-mos senten¸cas inteiras para analisar, fato que nem sempre ocorre em textos semi-estruturados. Regras muito simples utilizadas em textos puramente estruturados n˜ao ser˜ao eficientes tamb´em.

O pesquisador Sergel Abiteboul diferencia dentro do contexto de semi-estruturados, em cinco categorias (ABITEBOUL, 1997), (SILVEIRA, 2001):

– Estrutura Irregular - Quando uma informa¸c˜ao est´a disposta de mais de uma maneira na estrutura¸c˜ao do documento,e.g., o campo de endere¸co, o qual poderiamos encontrar como uma ´unica string representando todo o endere¸co, ou v´arios campos como string para o nome da rua, um campo de inteiro para o n´umero do logradouro, etc.;

– Estrutura Impl´ıcita - A estrutura existe, mas n˜ao ´e algo natural e possivel-mente necessita de algum processamento, e a representa¸c˜ao l´ogica dos dados n˜ao ´e de imediato obtida. Podemos configurar as p´aginas em HTML nesta categoria, que ´e puramente texto, mesmo contendo tags, n˜ao deixa de ser um

(28)

3.3 Conceitos B´asicos 28

documento semi-estruturado de puro texto, onde ´e necess´ario um processa-mento de suas tags para a obten¸c˜ao de alguma informa¸c˜ao preliminar.;

– Estrutura Parcial - Identificamos parte da estrutura de dados, mas a ou-tra parte, muitas vezes n˜ao ´e necess´aria ou n˜ao ´e pass´ıvel de identifica¸c˜ao, necessitando uma extra¸c˜ao;

– Estrutura Indicativa - Quando encontramos os dados indicados,e.g., o dado de endere¸co j´a possui uma estrutura definida, podendo assumir outras formas, mas geram transtorno para a modifica¸c˜ao do esquema adotado. Muito utilizado quando ocorre uma padroniza¸c˜ao dos dados (ABITEBOUL, 1997);

– Estrutura Flex´ıvel - A instˆancia do objeto consegue assumir outras formas de dados, sendo isso nativo da estrutura em si.

Algumas ferramentas pioneiras em pequisas de dados semi-estruturados na Web foram: Yahoo4 e Altavista5. Utilizam uma t´ecnica chamada full text search, que desconsidera a semˆantica, comparando o texto completo com as entradas do usu´ario (SILVEIRA, 2001).

Entretanto, como apresenta um m´ınino de estrutura¸c˜ao, alguns padr˜oes podem ser construidos, limitando sua utiliza¸c˜ao na extra¸c˜ao.

III. Documentos estruturados : Informa¸c˜oes textuais contidas em banco de dados ou qualquer outro gˆenero de documento com uma estrutura¸c˜ao rig´ıda, s˜ao a base de textos estruturados. Como seguem uma moldura sem grandes diferen¸cas de um documento para outro, sua informa¸c˜ao ´e facilmente extraida.

3.3.3

Fluxo Geral

A estrutu¸c˜ao de um sistema de EI basea-se em alguns passos: Tokeniza¸c˜ao, Proces-samento L´exico e Morfol´ogico, An´alise Sint´atica e An´alise do Dom´ınio. O sistema pode possuir apenas algumas das etapas, e n˜ao necessariamente deve cobrir todas as etapas

4Yahoo - http://www.yahoo.com 5Altavista - http://www.altavista.com

(29)

3.3 Conceitos B´asicos 29

para ser considerado um sistema de EI. As necessidades da aplica¸c˜ao que direcionam as diretrizes dos passos os quais o sistema deve cobrir. Na figura 1 ilustramos os quatro principais m´odulos (APPELT; ISRAEL, 1999).

Fig. 1: Principais m´odulos de um sistema de Extra¸c˜ao de Informa¸c˜ao

Para melhor ilustrar o processo de Extra¸c˜ao, vamos exemplificar aplicando sobre a senten¸ca “O dia ´e belo” as quatro etapas do processo.

Tokeniza¸c˜ao ´e a etapa onde dividimos os textos em tokens. Em EI, comumente adota-se a defini¸c˜ao de um token sendo as palavra separadas por espa¸co, e.g., na frase “O dia ´e belo”, obtemos quatro tokens: “O”, “dia”, “ ´e” e “belo”. Este exemplo ilutra o processo de Tokeniza¸c˜ao. Em alguns idimas este processo ´e simples, mas em outros idiomas n˜ao o ´e, pela falta de estrutura¸c˜ao e uma n˜ao distin¸c˜ao clara dos limites de uma palavra, e.g., Japonˆes, Chinˆes.

O Processamento Morfol´ogico e L´exico, adiciona informa¸c˜oes atrav´es de tags clas-sificando l´exica ou morfol´ogicamente os tokens para posterior utiliza¸c˜ao, e.g., “Oartigo”, “diasubstantivo”, “ ´everbo” e “beload jetivo”. Neste exemplo, aplicamos regras gram´aticais da l´ıngua Portuguesa, mas podemos adotar outras regras como: tamanho da palavra, mai´ us-culas e minusc´ulas ou outras criadas a partir do problema a ser resolvido.

Muitos sistemas de Extra¸c˜ao de Informa¸c˜ao s˜ao constru´ıdos sobre a l´ıngua inglesa, que n˜ao necessita uma an´alise morfol´ogica muito aprofundada onde uma lista com as varia¸c˜oes

(30)

3.3 Conceitos B´asicos 30

das palavras seria o suficiente. O idioma alem˜ao por sua vez, ´e essencial fazer uma an´alise morfol´ogica, pois ´e composto por palavras aglutinadas (APPELT; ISRAEL, 1999).

A maior parte da an´alise do texto ´e feita atrav´es de um conjunto de express˜oes regu-lares (GRISHMAN, 1997). A An´alise Sint´atica objetiva estudar a fun¸c˜ao que as palavras desempenham. Para muitos dom´ınios, o simples processo de obten¸c˜ao de sujeitos, predi-cados e argumentos resolvem a maioria das senten¸cas. Se a express˜ao encontrada estiver inserida no conjunto de express˜oes regulares, t˜ao logo ela receber´a um marcador, e de-pendendo do sistema, outros recursos. Com isto dividimos nossa senten¸ca original em “OdiaSu jeito” e “ ´ebeloPredicado”.

Para demonstrar a An´alise de Dom´ınio, tomamos como regra, a obten¸c˜ao dos subs-tantivos dos sujeitos. Com isto, conseguimos extrair “dia” de nossa senten¸ca original. E finalizamos o processo de extra¸c˜ao.

O processo de Extra¸c˜ao de Informa¸c˜ao pode ser abstra´ıdo em duas grandes partes. Primeiramente a extra¸c˜ao de fatos individuais do texto atrav´es de uma an´alise textual. Ent˜ao, a integra¸c˜ao destes fatos, aumentando os fatos j´a obtidos ou criando fatos novos. E por fim, os fatos pertinentes ao cen´ario, n´os transformamos para o formato de sa´ıda (GRISHMAN, 1997). Para isto, o processo passa por algumas complexidades que se relacionam diretamente com os m´odulos que utilizaremos.

Fatores de complexidade Como a Extra¸c˜ao de Informa¸c˜ao trabalha com textos, enfrentamos dificuldades como a l´ıngua na qual ´e escrita, o gˆenero do documento, pro-priedades e a pr´opria tarefa que efetuaremos sobre o documento (APPELT; ISRAEL, 1999).

Idioma Os documentos se encontram escritos em algum idioma, t˜ao logo nos defrontamos com nossa primeira dificuldade. Algumas l´ınguas necessitam de tratamento morfol´ogico, espa¸camento entre palavras e segmenta¸c˜ao de palavras.

(31)

3.3 Conceitos B´asicos 31

Gˆenero O gˆenero do documento com o qual se vai trabalhar influˆencia tamb´em. Se limitarmos nossa ferramenta a textos de an´uncios de jornais, n˜ao ´e o mesmo que extrairmos informa¸c˜oes de artigos cient´ıficos. Como consequˆencia, o uso da linguagem formal ou informal ´e extremamente ligada ao documento tamb´em.

Propriedades Os textos podem conter tabelas, imagens, gr´aficos entre outros tipos de informa¸c˜ao n˜ao textual que necessitam de formas especiais de tratamento.

Tarefas As tarefas efetuadas pelo sistema tamb´em entram na nossa an´alise de complexidade. Uma ferramenta que apenas procura entidades, possui uma abordagem diferente de uma que procura propriedades a mais de um entidade.

Sistemas de Extra¸c˜ao de Informa¸c˜ao trabalham com o processamento de muitos do-cumentos e um espa¸co muito curto de tempo. Ent˜ao, para n˜ao prejudicar o desempenho, utiliza-se m´aquinas de estado finito em abundˆancia. O alvo da extra¸c˜ao de uma Extra¸c˜ao de Informa¸c˜ao pode ser uma rela¸c˜ao de n-tuplas ou muito mais complexa considerando a hierarquia e organiza¸c˜ao dos dados.

Programas que realizam a tarefa de Extra¸c˜ao de Informa¸c˜ao s˜ao usualmente chama-dos de extratores ou wrappers. Um wrapper geralmente executa a tarefa de encontrar padr˜oes, e estes dependem de um conjunto de regras. Adaptar um sistema de Extra¸c˜ao de Informa¸c˜ao tem muitos pontos a serem observados: tipo de texto, dom´ınio, cen´ario, conjunto de regras (CHANG et al., 2006).

O Reconhecimento de Nomes em um texto ´e uma tarefa de destaque, uma vez que nomes aparecem frequentemente em todos os tipos de texto, e de muitas maneiras. Os nomes aparecem em um conjunto de padr˜ao, podendo conter prefixo ou sufixo, estar escrito com letras ma´ıusculas, facilitando assim sua extra¸c˜ao. Observando a tabela 2, temos algumas maneiras de como o nome Jo˜ao Jos´e da Silva Pereira Junior pode aparecer em um texto.

(32)

3.4 Avalia¸c˜ao 32

Tab. 2: Exemplos de apari¸c˜ao de nomes Exemplos de apari¸c˜ao de nomes

Jo˜ao Jos´e da Silva Pereira Junior Jo˜ao Jos´e da Silva Pereira Jr. Jo˜ao J. da Silva Pereira Jr. Jo˜ao J. S. P. Jr. Sr. Jo˜ao Pereira Jr. JO ˜AO JOS´E DA SILVA PEREIRA JUNIOR JUNIOR, Jo˜ao J. S. P.

um parser para a senten¸ca inteira. Em geral, os sistemas utilizam partes que possuem certeza sobre sua constru¸c˜ao, tanto sintaticamente quanto semanticamente. Na analise sint´atica, podemos ainda ter muitas interpreta¸c˜oes amb´ıguas, para tal, a semˆantica e o dom´ınio especifico da aplica¸c˜ao eliminam outras interpreta¸c˜oes do dados extra´ıdos.

Construir uma estrutura completa de an´alise sint´atica ´e extremamente complicada. Algumas decis˜oes s˜ao particularmente dif´ıceis e dependem do contexto. Parsers que buscam avaliar senten¸cas inteiras pecam no aspecto das decis˜oes locais, pois procuram ser generalistas para n˜ao excluirem algumas op¸c˜oes, acarretando em extrair conte´udos a mais sem muito significado para o dom´ınio. Se as rela¸c˜oes sintaticas forem corretamente extraidas, a interpreta¸c˜ao dos modelos de cen´ario ser˜ao mais simples e corretas.

3.4

Avalia¸

ao

Os crit´erios de avalia¸c˜ao consistem em: quanta informa¸c˜ao foi extra´ıda (recall ), quanto da informa¸c˜ao extra´ıda ´e correta (precision) e quanto da informa¸c˜ao extra´ıda ´e sup´erflua (overgeneration) (LEHNERT; SUNDHEIM, 1991). As conferˆencias MUC possuem um papel fundamental na defini¸c˜ao dessas medidas, na necessidade de avaliar os sistemas de Extra¸c˜ao de Informa¸c˜ao. Inicialmente as medidas de precis˜ao e cobertura foram herdadas do sistema de avalia¸c˜ao de Recupera¸c˜ao de Informa¸c˜ao. Como as t´ecnicas de Extra¸c˜ao e Recupera¸c˜ao s˜ao distintas, os nomes foram mantidos, por´em as defini¸c˜oes das medidas foram alteradas (GAIZAUSKAS; WILKS, 1998).

(33)

3.4 Avalia¸c˜ao 33

∙ Cobertura ou Abrangˆencia(Recall ) : Quanto da informa¸c˜ao extra´ıda ´e relevante. Ou seja, ´e medida atrav´es da informa¸c˜ao corretamente extra´ıda (Nextraido−correto)

so-bre a informa¸c˜ao relevante na p´agina (Ntotal−extraidos). Representada pela f´ormula 3.1

Cobertura= Nextraido−correto

Ntotal−extraidos (3.1)

∙ Precis˜ao(Precision) : Quanto da informa¸c˜ao extra´ıda ´e correta. ´E obtida atrav´es da informa¸c˜ao corretamente extra´ıda (Nextraido−corretos) sobre a informa¸c˜oes extra´ıdas

(Nresposta).

Preciso=Nextraido−correto Nresposta

(3.2)

Importante ressaltar que Ntotal−extraido e Nrespostas˜ao inversamente proporcionais, isto

´

e, quando a Cobertura aumenta, a Precis˜ao tende a diminuir e vice-cersa. Precis˜ao e Cobertura est˜ao sempre no intervalo de [0, 1], sendo 0 o pior resultado e 1 o melhor. ∙ F-measure : A F-measure mede considerando a precis˜ao e a cobertura. O parˆ

a-metro β controla o balanceamento entre a cobertura e a precis˜ao.

F− measure = (β

2+ 1) ∗Cobertura ∗ Preciso

β2∗ (Cobertura + Preciso) (3.3) β = Cobertura/Preciso, onde encontramos a F-measure sendo orientada para cober-tura quando β > 1 e orientada para a precis˜ao quando β < 1. Por este motivo, geralmente utiliza-se β = 1 , balanceando assim as duas medidas, e aplicando na f´ormula 3.3 temos:

F1=2 ∗Cobertura ∗ Preciso

(Cobertura + Preciso) (3.4)

Para ilustrar melhor os c´alculos, utilizando-se da ferramenta em desenvolvimento pelo autor criada para o projeto Salus Cyted, que ser´a discutida no capitulo 5. A ferramenta

(34)

3.4 Avalia¸c˜ao 34

NameParser ser´a aplicada na p´agina Association Alzheimer6, vista na figura 2 como nossa fonte de dados.

Fig. 2: Homepage da Association Alzheimer com nomes extraidos.

A regra criada para a extra¸c˜ao de nome tem como base as defini¸c˜oes da gram´atica, sendo considerado um nome uma palavra que come¸ca com uma letra mai´uscula seguida de letras min´usculas. Como os nomes est˜ao sendo extra´ıdos de p´aginas Web, e elas n˜ao possuem uma regra quanto a sua est´etica, podemos encontrar muitas palavras que n˜ao s˜ao necessariamente um nome. E isto realmente acontece, como podemos observar na tabela 3.

(35)

3.4 Avalia¸c˜ao 35

Tab. 3: Exemplos de alguns termos extraidos Termos extra´ıdos

Medical President Alzheimer Scientific

About Anual Report Plan

Ralph Nixon Samuel Lennart Michigan Chicago National Office

Para esclarecer um pouco mais o conceito de Precis˜ao e Cobertura, utilizando-se da tabela 3, temos o total de 16 termos extra´ıdos. Desses 16 termos, apenas 4 s˜ao nomes corretos e esper´avamos no total 8 nomes, ent˜ao nossa Precis˜ao ´e de 50%. Resultando em uma precis˜ao m´edia. A Cobertura s˜ao os nomes extra´ıdos corretamente sobre o total de termos que extra´ımos, resultando em apenas 25%. Isso significa que de toda informa¸c˜ao extra´ıda, apenas 25% ´e relevante para o dom´ınio do sistema. Note que extraimos nomes como Michigan e Chicago, que est˜ao corretos do ponto de vista de serem nomes, mas s˜ao nomes de lugares, e o foco ´e nome de pessoas.

Para a avalia¸c˜ao real da performance temos a tabela 4 como resultante do processo de extra¸c˜ao dos nomes na pagina Association Alzheimer. Podemos analisar que a ferra-menta possui uma precis˜ao alt´ıssima, conseguindo encontrar todos os nomes com ˆexito. Em contrapartida, extrai muitos dados irrelevantes para o contexto da pesquisa que se enquadram nas regras descritas como nomes.

Tab. 4: Resultados da extra¸c˜ao

P´agina Nomes presentes 16 Nomes identificados pelo programa (usando express˜oes) 83 Nomes corretamente identificados (usando express˜oes) 16 Precis˜ao/Precision 100% Cobertura/Recall 19%

O processo de avalia¸c˜ao ´e muitas vezes efetuada manualmente ou semi-automatizada. Em algum ponto do processo de avalia¸c˜ao ´e necess´aria a interven¸c˜ao do usu´ario. Para o sistema saber se um dado termo extraido ´e um nome, o usu´ario que possui esse conheci-mento passa de alguma maneira para o sistema.

(36)

3.4 Avalia¸c˜ao 36

Devemos lembrar tamb´em que o dom´ınio atribuido ao resultado ´e muito importante, por exemplo, se encontrarmos um nome pela metade, devemos consider´a-lo errado ou correto? Quando o nome se repete ao longo do p´agina, devemos conta-lo apenas uma vez ou mais vezes? Quest˜oes assim dificultam o crit´erio e devem ser relevadas para uma melhor interpreta¸c˜ao dos dados.

(37)

37

4

Minera¸

ao de Dados na WEB

No inicio, a Web continha p´aginas est´aticas objetivando um acesso cˆomodo as in-forma¸c˜oes. Muitas p´aginas eram manualmente implementadas, sem contemplar muito a intera¸c˜ao com o usu´ario. Geralmente seguiam a dire¸c˜ao servidor-usu´ario.

Com a expans˜ao e o acesso crescente, as p´aginas come¸caram a evoluir, assim como a Web. Tornando-se dinˆamica, onde encontramos p´aginas constru´ıdas interagindo-se com o usu´ario. Nos encontramos neste est´agio evolutivo, e caminhamos para um futuro muito mais brilhante.

E como a evolu¸c˜ao n˜ao tem fim, estamos observando a concep¸c˜ao da Web Semˆantica, discutida na se¸c˜ao 4.4.4. Onde apenas apresentar as informa¸c˜oes para o usu´ario n˜ao ´e o suficiente, como ´e preciso, expressar de uma forma semˆantica tamb´em para o entendimento das m´aquinas.

Alguns problemas podem ser encontrados pelos usu´arios quando interagem com a Web (KOSALA; BLOCKEEL, 2000):

a. Achar informa¸c˜oes relevantes - Os usu´arios quando utilizam servi¸cos de pes-quisa, procuram atrav´es de palavras-chaves alguma informa¸c˜ao na Web. O resul-tado da busca, as vezes, ´e enorme e com isso temos: resultados relevantes, pouco relevantes ou sem relevˆancia;

b. Personaliza¸c˜ao da informa¸c˜ao - Usu´arios diferentes, interagem diferentemente e querem conte´udos diferentes, logo, temos o problema no lado do usu´ario e do pr´oprio provedor;

(38)

4.1 Web Mining 38

extra¸c˜ao de informa¸c˜ao, inteligˆencia artificial, banco de dados, recupera¸c˜ao de informa¸c˜ao e entre outras ´areas. Ela faz parte de um todo, que auxiliam de uma maneira para a resolu¸c˜ao dos problemas acimas citados.

4.1

Web Mining

Web Mining ´e o uso das t´ecnicas de Minera¸c˜ao de Dados para descobrir e extrair au-tomaticamente a informa¸c˜ao de documentos na Web (ETZIONE, 1996). A Minera¸c˜ao de Dados refere-se ao processo n˜ao trivial de identifica¸c˜ao de padr˜oes v´alidos, previamente desconhecidos e potencialmente ´uteis de dados (FRAWLEY; PIATETSKY-SHAPIRO; MATHEUS, 1992). Seguindo o conceito de Etzione, que utiliza da Descoberta do Co-nhecimento (KDD - Knowledge Discovery Database) como base, ele decomp˜oe a Web Mining em quatro tarefas: Resource finding (Coleta de Documentos), Information se-lection and pre-processing (Pr´e-processamento), Generalization (Extra¸c˜ao de Padr˜oes) e Analysis (An´alise).

´

E importante ressaltar que Web Mining ´e diferente de Recupera¸c˜ao da Informa¸c˜ao e Extra¸c˜ao da Informa¸c˜ao. Mas uma combina¸c˜ao das t´ecnicas em si s˜ao utilizadas nas etapas do Web Mining.

4.2

Descoberta do Conhecimento

Muitas s˜ao as defini¸c˜oes que os pesquisadores adotam para KDD ou Minera¸c˜ao de Dados, a mais difundida e adotada ´e encontrada nos trabalhos de Fayyad e seu grupo de pesquisa (FAYYAD; PIATETSKY-SHAPIRO; SMYTH, 1996a):

Knowledge Discovery Database ´e o processo n˜ao trivial de identifi-ca¸c˜ao de padr˜oes v´alidos, novos, potencialmente ´uteis e compreen-siveis que estejam presentes nos dados.

Tomamos como defini¸c˜ao que: os dados s˜ao um conjunto de fatos, e padr˜oes s˜ao defi-nidos em uma linguagem e descrevem um subconjunto dos dados ou um modelo aplic´avel aquele conjunto.

(39)

4.2 Descoberta do Conhecimento 39

O processo de Knowledge Discovery Database ´e um processo interativo e iterativo, composto por algumas etapas, resultando na extra¸c˜ao de padr˜oes. As etapas sofreram mudan¸cas no decorrer de seus estudos, alcan¸cando nove etapas (FAYYAD; PIATETSKY-SHAPIRO; SMYTH, 1996b), sendo reduzida para quatro (WEISS; INDURKHYA, 1998) e maturando-se num ciclo (REZENDE et al., 2003). Atualmente, este ciclo se divide em: Identifica¸c˜ao do problema, Pr´e-Processamento, Extra¸c˜ao de Padr˜oes, P´os-Processamento e Utiliza¸c˜ao do Conhecimento ( ´ALVAREZ, 2007). A figura 3 ilustra a ´ultima abordagem utilizada.

Fig. 3: Etapas do processo KDD (REZENDE et al., 2003)

4.2.1

Identifica¸

ao do Problema

Para iniciarmos todo o processo, precisamos ter um conhecimento m´ınimo que seja do dom´ınio com o qual iremos trabalhar, e devemos ter claro o objetivo que almejamos. Nesta fase, constru´ımos nosso conhecimento e todas as etapas posteriores s˜ao dependentes de uma an´alise que cubra as metas, objetivos e restri¸c˜oes. Criamos o conceito de ´util para o sistema e para o us´uario nesta fase.

(40)

4.2 Descoberta do Conhecimento 40

4.2.2

Pr´

e-Processamento

Muitas vezes os dados n˜ao se encontram formatados adequadamente para a utiliza-¸c˜ao na etapa de extra¸c˜ao de padr˜oes, ou outras caracter´ısticas limitam a aplica¸c˜ao. Para adequ´a-los alguma tarefas podem ser inseridas no Pr´e-Processamento: Integra¸c˜ao, Trans-forma¸c˜ao, Limpeza e Redu¸c˜ao de Dados.

∙ Integra¸c˜ao: Os dados muitas vezes s˜ao provenientes de diversas fontes, precisando uma unifica¸c˜ao. Obtemos nesta fase, uma fonte ´unica de dados para utilizar nas etapas posteriores ( ´ALVAREZ, 2007).

∙ Transforma¸c˜ao: Para minimizar as diferen¸cas encontradas nos dados para me-lhorar sua extra¸c˜ao, algumas transforma¸c˜oes aplicadas s˜ao: normaliza¸c˜ao, transfor-ma¸c˜ao de tipo, discretiza¸c˜ao de atributos quantitativos, entre outros (BATISTA, 2003).

∙ Limpeza: Com o conhecimento adquirido no passo de Identifica¸c˜ao do problema, temos um embasamento melhor para remover dados indesej´aveis. Alguns atributos podem estar preenchidos incorretamente ( ´ALVAREZ, 2007).

∙ Redu¸c˜ao: Muitas vezes somos obrigados a limitar nossa a¸c˜ao diretamente ligados a in´umeros fatores. O volume pode ultrapassar a capacidade de processamento, sendo isto observado quando executamos muitas vezes os experimentos (WEISS; INDURKHYA, 1998).

4.2.3

Extra¸

ao de Padr˜

oes

Os objetivos definidos na Identifica¸c˜ao do Problema direcionam este passo. A execu¸c˜ao deste passo pode ser necess´aria muitas vezes para procurar o resultado mais perto do objetivo. As tarefas de Minera¸c˜ao de Dados como classifica¸c˜ao, clustering e regras de associa¸c˜ao s˜ao empregadas nesta etapa de acordo com o modelo escolhido para ser gerado ( ´ALVAREZ, 2007).

(41)

4.3 Etapas do Web Mining 41

4.2.4

os-Processamento

Depois de extra´ıdos os padr˜oes, o ciclo do processo ainda n˜ao ´e fechado, pois se apresentarmos todos os padr˜oes ao usu´ario como extraimos, podemos mostrar padr˜oes muito complicados ou que fujam dos objetivos. Com a qualidade question´avel podemos executar novamente algumas etapas ou o processo inteiro. Para mensurar a qualidade temos alguns artificios como interessabilidade, compreensibilidade, precis˜ao, cobertura e taxa de erro ( ´ALVAREZ, 2007).

4.2.5

Utiliza¸

ao do Conhecimento

´

Ultima fase do processo ´e onde expomos o conhecimento extra´ıdo para o usu´ario, ou ocorre a integra¸c˜ao a um sistema.

A utiliza¸c˜ao dos termos Minera¸c˜ao de Dados ou Knowledge Discovery Database na literatura ´e muito nebulosa. Alguns autores consideram como sendo processos distintos, outros processos que se complementam ou nomeia o mesmo processo. Adoto neste trabalho como sendo tarefas complementares.

4.3

Etapas do Web Mining

Basicamente utilizamos os mesmos conceitos de Knowledge Discovery Database alte-rando a fonte de dados. Como nossa ´unica fonte, utilizamos a World Wide Web. No inicio das pesquisas muitos acreditavam, e ainda acreditam, que a Web ´e muito inst´avel como fonte de dados, devido a suas propor¸c˜oes e falta de estrutura¸c˜ao. Muitas informa¸c˜oes s˜ao encontradas em Linguagem Natural pois o p´ublico-alvo s˜ao os humanos. Alguns defen-deram a posi¸c˜ao de transformar a Web em um banco de dados, mas foram vencidos pelo temperamento ca´otico e dinˆamico (ETZIONE, 1996).

(42)

4.3 Etapas do Web Mining 42

Fig. 4: Etapas do processo de Web Mining

4.3.1

Coleta de Documentos

A Coleta de Documentos ´e uma etapa essencial para todo o processo. Definimos com quais documentos o trabalho sera efetuado. Em algumas situa¸c˜oes os documentos fazem parte do problema como um todo, logo estar˜ao disponiveis de inicio. Por´em, em outras situa¸c˜oes, ´e necess´ario o processo de Coleta de Documentos ( ´ALVAREZ, 2007).

Na grande rede mundial interligando computadores, desde seu inicio, houve uma co-mo¸c˜ao para facilitar a busca de documentos. Dois grandes grupos s˜ao observados na constru¸c˜ao de indexadores: Motor de Busca e Diret´orio WWW (BAEZA-YATES, 1998).

∙ Motor de Busca(Search Engine): Este grupo s˜ao formados por motores de busca que utilizam abordagens baseados em rˆobos, mega-indexadores, entre outras abordagens automatizadas. O ´ındice criado ´e centralizado para responder consultas do mundo inteiro. Em 1998, os indexadores que cobriam a maior ´area eram: Hot-Bot1, AltaVista2, Nothern Light3(LAWRENCE; GILES, 1998). Atualmente, o

ran-1HotBot - http://www.hotbot.com 2AltaVista - http://www.altavista.com

(43)

4.3 Etapas do Web Mining 43

king ´e composto por: Google4, AlltheWeb5, AltaVista (VAUGHAN; THELWALL, 2004). Alguns search engines se especializam em t´opicos, como o SearchBroker6. Neste grupo, incluimos tamb´em os metaseachers, que s˜ao servi¸cos disponiveis que coletam respostas de diversos search engines e unificam. Como exemplos, temos o MetaCrawler7 e SavvySearch8 (BAEZA-YATES, 1998).

∙ Diret´orio WWW: Utiliza uma classifica¸c˜ao pr´oxima do conhecimento humano, na representa¸c˜ao de diret´orios de assunto, que se estruturam como ´arvores. Uma grande vantagem desta t´ecnica ´e a resposta ser, na maiora dos casos, ´util. A desvantagem ´e a falta de especializa¸c˜ao e volume de p´aginas classificadas, esta ´ultima desvantagem se deve ao crescimento exponencial de informa¸c˜oes que s˜ao inseridas na WWW todos os dias. Um grande exemplo deste grupo ´e o Yahoo!9 (BAEZA-YATES, 1998).

Um ponto muito importante nesta etapa, ´e que os documentos coletados estar˜ao na sua maioria em muitos formatos, sendo necess´ario um tratamento para unificar um padr˜ao.

4.3.2

Pr´

e-Processamento

Ap´os a coleta de todos os documentos possiveis, na etapa anterior, partimos para o pr´e-processamento destes documentos. ´E nesta etapa que transformamos uma cole¸c˜ao de documentos em uma representa¸c˜ao estruturada adequada. O custo computacional ´e elevado. Constantemente ´e adotado a representa¸c˜ao de um documento como um conjunto de palavras, chamado de abordagem bag-of-words ( ´ALVAREZ, 2007).

Representa¸c˜ao de Documentos A abordagem bag-of-words consiste em representar cada documento da cole¸c˜ao como um vetor de termos contidos no mesmo. Cada termo que ocorre no documento pode ser composto por apenas uma palavra ou v´arias palavras. Para

4Google - http://www.google.com 5AlltheWeb - http://www.alltheweb.com 6SearchBroker - http://www.searchbroker.com 7MetaCrawler - http://metacrawler.com 8SavvySearch - http://www.savvysearch.com 9Yahoo! - http://www.yahoo.com

(44)

4.3 Etapas do Web Mining 44

identificar todos os termos presentes, ´e efetuado uma tokeniza¸c˜ao dos termos ( ´ALVAREZ, 2007).

Redu¸c˜ao de Representa¸c˜ao Feita a representa¸c˜ao, podemos ter em m˜aos um volume enorme para processar, e as vezes, somos limitados no processamento e armazenamento de tanta informa¸c˜ao. Com esta finalidade, utilizamos algumas t´ecnicas para auxiliar na redu¸c˜ao:

Filtragem Na filtragem, almejamos a remo¸c˜ao de termos com pouca ou nenhuma relevˆancia para a an´alise. Em geral, removemos artigos, preposi¸c˜oes e conjun¸c˜oes.

Podemos tamb´em supor que termos que aparecem muitas vezes no documento, n˜ao revelam muitas informa¸c˜oes sobre o documeto. Analogamente, termos que aparecem pouco tamb´em podem ser excluidos (YANG; PEDERSEN, 1997).

Stemming Nos documentos, as palavras podem ser encontradas flexionadas em diversas formas e as vezes compartilham a mesma raiz semˆantica. O processo de steam-ming consiste em reduzir estas formas encontradas na raiz (stem). Podemos citas Porter (PORTER, 1997) e Lovins (LOVINS, 1968) como grandes pesquisadores nesta ´area. Para a lingua portuguesa, temos o STEMBR : A stemming algorithm for the brazilian portu-guese language.

Filtragem e Stemming s˜ao apenas algumas das t´ecnicas envolvidas no Pr´e-Processamento, podemos adotar muitas outras que trabalham no ˆambito semˆantico, hierarquico, com atri-butos relevantes, etc.

Pr´e-processamento Lingu´ıstico Esta etapa ´e essencial em cen´arios onde a mine-ra¸c˜ao tem como objetivo o reconhecimento de nomes pr´oprios, lugares e organiza¸c˜oes, e se faz necess´ario um pr´e-processamento lingu´ıstico. As seguintes tarefas s˜ao adotadas no processo:

(45)

4.3 Etapas do Web Mining 45

∙ Etiquetagem morfossint´atica (Part-Of-Speech Tagging ) No texto, encontra-mos palavras, s´ımbolos, f´ormulas matematicas, entre outros termos. A etiquetagem morfossint´atica tem como tarefa atribuir uma etiqueta para cada termo encontrado de acordo com sua categoria.

∙ Reconhecimento de frases Com o agrupamento de termos, analisando o docu-mento, tem como objetivo formar senten¸cas (WEISS; INDURKHYA, 1998).

∙ Desambigua¸c˜ao no sentido de palavras A ambiguidade pode gerar transtornos em an´alises futuras, por isto, procura-se eliminar qualquer ambiguidade no sentido das palavras. Em algumas linguas essa elimina¸c˜ao ´e facilmente alcan¸cada, por´em, outras precisam de um conhecimento muito mais aprofundado na pr´opria lingua e o dominio da aplica¸c˜ao.

∙ Parsing Com a gera¸c˜ao da ´arvore sint´atica de uma senten¸ca, criamos a possibi-lidade de analisarmos a rela¸c˜ao existente entre as palavras da senten¸ca. Podemos extrair o sujeito, objeto, entre outros, analisando a fun¸c˜ao exercida pela palavra no contexto da sente¸ca ( ´ALVAREZ, 2007).

As t´ecnicas s˜ao frequentemente utilizadas visando uma melhoria para a utiliza¸c˜ao na Minera¸c˜ao de Dados.

4.3.3

Extra¸

ao de Padr˜

oes

Ap´os o tratamento dos documentos e seus dados, temos como resultado um conjunto em formatos que ter˜ao um aproveitamento melhor para a Extra¸c˜ao de Padr˜oes. Com a aplica¸c˜ao da Extra¸c˜ao de Padr˜oes a obten¸c˜ao de um conhecimento ´util e interessante para o usu´ario ser´a possivel.

Algumas tarefas relacionadas com a Minera¸c˜ao de Dados, utilizam muitos algoritmos de Aprendizado de Maquin´a, que tamb´em s˜ao utilizados na Extra¸c˜ao de Padr˜oes.

(46)

4.3 Etapas do Web Mining 46

Clustering de Documentos Com a cole¸c˜ao de documentos em m˜ao, o processo de agrupar os documentos similares, agrupando assim documentos com conte´udos relativa-mente similares. Estes grupos recebem o nome de cluster, e o processo de Clustering de Documentos. No final deste processo, teremos cluster com documentos similares, mas clusters distintos entre si (ZHONG; GHOSH, 2003).

Categoriza¸c˜ao A partir de um conjunto de classifica¸c˜ao pr´e-definido, com um docu-mento novo induzimos um classificador a enquadra-lo numa categoria. Muitas dificulda-des s˜ao encontradas, pois o documento pode pertencer a nenhum, uma ou mais categorias (YANG; PEDERSEN, 1997).

Extra¸c˜ao de Informa¸c˜ao Como Wilks define, Extra¸c˜ao de Informa¸c˜ao, extrai in-forma¸c˜ao de textos em documentos, utilizando computadores numa velocidade alta, e normalmente encontrada de fontes eletrˆonicas. Prece de uma fase de Recupera¸c˜ao de Informa¸c˜ao, que seleciona um conjunto apropriado para a extra¸c˜ao (WILKS, 1997). Ex-tra¸c˜ao de Informa¸c˜ao ´e discutido no cap´ıtulo 3.

Sumariza¸c˜ao O processo de Sumariza¸c˜ao consiste em construir um terceiro documento contendo um sum´ario com as informa¸c˜oes mais importantes do documento an´alisado, buscando sempre que este sum´ario contenha metade ou menos do tamanho do documento original. Identificar partes importantes no documento continuam sendo um grande desafio nesta ´area (RADEV; HOVY; MCKEOWN, 2002).

Extra¸c˜ao de Informa¸c˜ao e Minera¸c˜ao de Dados partilham algumas dificuldades como a estrutura¸c˜ao do documento, a l´ıngua e o estilo de linguagem utilizada na formata¸c˜ao do documento, e o pr´oprio conte´udo do documento.

4.3.4

Avalia¸

ao e Interpreta¸

ao de Resultados

Para concluirmos o ciclo ou refazer algumas etapas, avaliamos o quanto o processo se aproximou do objetivo almejado. A avalia¸c˜ao pode ser feita pelos usu´arios finais ou

(47)

4.4 Categorias de WEB Mining 47

especialistas, que possuem um conhecimento profundo do dominio ( ´ALVAREZ, 2007). Algumas das m´etricas s˜ao compartilhadas com a Extra¸c˜ao de Informa¸c˜ao, como Pre-cis˜ao, Cobertura ou F-measure. Elas s˜ao abordadas no capitulo 3 na se¸c˜ao 3.4.

A ilustra¸c˜ao dos dados em elementos gr´aficos pode, e muito, auxiliar a an´alise e com-preens˜ao dos dados por seres-humanos. Conseguimos interpretar, armazenar muito mais informa¸c˜oes gr´aficas do que tabelas, diferentemente das m´aquinas. Podemos trabalhar com dados muito mais complexos atrav´es de gr´aficos, podendo assim interagir com deci-s˜oes muito mais r´apidas. O tipo de gr´afico empregado para a visualiza¸c˜ao ´e de extrema importˆancia, uma vez que se escolhermos gr´aficos que sejam dif´ıceis de interpretar, em nada ajudar˜ao na avalia¸c˜ao (KEIM; SOCIETY, 2002).

4.4

Categorias de WEB Mining

Com o crescimento exponencial das fontes de informa¸c˜ao disponiveis na World Wide Web ao nosso redor, cresce a necessidade de automatizar ferramentas que busquem as informa¸c˜oes desejadas e corretamente. Ferramentas mais eficazes no rastreamento, tanto do lado dos servidores como dos clientes, s˜ao comumente alvos de pesquisas e projetos na busca de uma minera¸c˜ao de dados. Do lado dos servidores, temos extensas listas de logs, registros de usu´arios ou perfil de usu´ario, entre outros itens que podem ser an´alisados (COOLEY; MOBASHER; SRIVASTAVA, 1997b). Na figura 5 podemos observar um esbo¸co da taxonomia.

Esta taxonomia pode ser montada atrav´es da jun¸c˜ao dos trabalhos de Cooley (COO-LEY; MOBASHER; SRIVASTAVA, 1997b) e Kolari (KOLARI; JOSHI, 2004).

4.4.1

Minera¸

ao de Conte´

udo

A falta de estrutura¸c˜ao que domina as fontes de informa¸c˜ao na Internet dificulta a organiza¸c˜ao, administra¸c˜ao, manuten¸c˜ao e busca automatizada de informa¸c˜ao. As search engines s˜ao ferramentas que provˆem algum conforto, mas geralmente n˜ao filtram,

(48)

interpre-4.4 Categorias de WEB Mining 48

Fig. 5: Taxonomia da Minera¸c˜ao na WEB

tam os documentos que retornam nas buscas (COOLEY; MOBASHER; SRIVASTAVA, 1997b).

A Minera¸c˜ao de Conte´udo e a Recupera¸c˜ao de Informa¸c˜ao s˜ao muitas vezes utilizadas em conjunto. Enquanto uma realiza a minera¸c˜ao diretamente do conte´udo dos documentos a outra incrementa o poder de busca de outras ferramentas e servi¸cos. ´Audio, v´ıdeo, dados simb´olicos, metadados e v´ınculos de hipertexto fazem parte do conte´udo de documentos da Web atualmente, e como tal, na minera¸c˜ao de conte´udos tamb´em s˜ao analisados. Existem ´

areas de pesquisas destinadas a minera¸c˜ao de dados multim´ıdias, entretanto, como uma enorme parte da Web ´e constitu´ıda de texto e hipertexto, permanecendo assim o foco em dados de texto.

Com o continuo crescimento da Web, as pesquisas voltadas para ferramentas mais eficazes, melhorias nas t´ecnicas de minera¸c˜ao e extra¸c˜ao de dados se desenvolveram. Po-demos observar duas grandes abordagens quando tratamos de Minera¸c˜ao de Conte´udo: Baseado em Agente (Agent-Based ) e Banco de Dados (Database).

Baseado em Agente (Agent-Based ) Esta abordagem de minera¸c˜ao de dados tra-balha diretamente com o campo de Inteligˆencia Artificial, provendo um sistema autˆonomo ou semi-autˆonomo, que trabalha para a coleta de conhecimento e organiza¸c˜ao das infor-ma¸c˜oes na WEB delimitado pelo escopo do sistema. Dentro desta abordagem, temos as seguintes categorias:

(49)

4.4 Categorias de WEB Mining 49

Agentes de Busca Inteligentes (Intelligent Search Agents) Muitos sis-temas de Agentes Inteligentes utilizam informa¸c˜oes caracteristicas de um dom´ınio para organizar e interpretar essas informa¸c˜oes de uma forma totalmente autˆonoma. Como exemplo, temos alguns trabalhos como o Harvest (BOWMAN et al., 1995), FAQ-Finder (HAMMOND; BURKE; SCHMITT, 1994), OCCAM (KWOK; WELD, 1996) e ParaSite (SPERTUS, 1997) que extraem e interpretam documentos atrav´es de um dominio espe-c´ıfico. Outros agente como ShopBot (DOORENBOS; ETZIONI; WELD, 1997) e ILA (Internet Learning Agent) (ETZIONI; PERKOWITZ; ETZIONI, 1995) atrav´es de estru-turas de fontes de informa¸c˜ao n˜ao familiares tentam atrav´es da intera¸c˜ao, aprender novos comportamentos. ShopBot coleta informa¸c˜oes de produtos em v´arios sites de venda utili-zando apenas informa¸c˜oes gerais dos produtos, enquanto o ILA aprende com os modelos e traduz para um conceito interno do sistema (COOLEY; MOBASHER; SRIVASTAVA, 1997b).

Categoriza¸c˜ao e Filtragem de Informa¸c˜ao Muitos agentes Web utilizam tecni-cas de Recupera¸c˜ao de Informa¸c˜ao para automaticamente filtrar e categorizar documentos da Web. O BO (Bookmark Organizer) combina t´ecnicas de clustering e intera¸c˜ao com o usu´ario para orgazinar o conjunto de documentos baseado em informa¸c˜ao conceitual (MAAREK; SHAUL, 1996). O HyPursuit usa informa¸c˜ao semˆantica embutida nos links e no conte´udo em si dos documentos para criar uma hierarquia de cluster de hipertex-tosm e estruturar as informa¸c˜oes (WEISS et al., 1996). Google News10 atualmente ´e uma das ferramentas mais populares que classifica noticias de mais de 4.000 fontes (KOLARI; JOSHI, 2004).

Personaliza¸c˜ao Outra categoria de agentes Web incluem aqueles que obtˆem ou aprendem as preferencias do usu´ario e procuram fontes de informa¸c˜ao na Web que corres-pondam aquelas preferˆencias, e possivelmente, utilizando filtragem colaborativa, procuram interesses similares. Exemplos que utilizam esta abordagem s˜ao WebWatcher (ARMS-TRONG et al., 1995), PAINT (OOSTENDORP; PUNCH; WIGGINS, 1994), Firefly

(50)

4.4 Categorias de WEB Mining 50

(SHARDANAND; MAES, 1995) e Syskill&Webert (PAZZANI; MURAMATSU; BILL-SUS, 1996).

Banco de Dados (Database) A abordagem de Banco de Dados, como o nome pressup˜oem, trabalha com a organiza¸c˜ao e integra¸c˜ao dos documentos semi-estruturados para um documento estruturado, como em um banco de dados relacional, usando inclusive consultas e mecanismos de banco de dados para acesso e analise das informa¸c˜oes.

Banco de Dados em Multin´ıveis Uma organiza¸c˜ao das informa¸c˜oes em multin´ı-veis ´e proposto por muitos pesquisadores. No n´ıvel principal s˜ao encontrados informa¸c˜oes armazenadas de forma semi-estruturadas em v´arios reposit´orios na Web. Em n´ıveis acima do principal, encontramos meta-dados ou generaliza¸c˜oes que s˜ao extra´ıdas das camadas abaixo e organizadas de forma com uma estrutura rigida como um modelo relacional ou orientado objeto (COOLEY; MOBASHER; SRIVASTAVA, 1997b). Em uma das pesqui-sas desenvolvidas por Han e seu grupo de pesquisa, utilizam um banco de dados de multi-camadas onde cada camada ´e obtida com opera¸c˜oes de transforma¸c˜oes e generaliza¸c˜ao das camadas inferiores (ZA¨ıANE; HAN, 1995). O sistema ARANEUS extrai informa¸c˜oes relevantes de documentos de hipertexto e integra em documentos derivados de hipertexto que s˜ao generaliza¸c˜oes de views de banco de dados (ATZENI; MECCA; MERIALDO, 1997).

Sistemas de Consulta Web (Web Query Systems) Nesta abordagem, a uti-liza¸c˜ao de queries s˜ao utilizadas procurando uma aproxima¸c˜ao das linguagens de consulta como SQL. Cria-se uma abstra¸c˜ao para o usu´ario final que consulta como se estivesse consultado um banco de dados, quando na realidade existe uma estrutura¸c˜ao semˆantica em cima da semi-estruturada Web. Como exemplo, podemos citar WebLog (LAKSHMA-NAN; SADRI; SUBRAMANIAN, 1996) que utiliza uma linguagem de consulta baseado em l´ogica para reconstruir a informa¸c˜ao extraida das fontes na Web. Seguindo a mesma vertente, temos o WebSQL (MENDELZON; MIHAILA; MILO, 1996).

Referências

Documentos relacionados

Os testes de desequilíbrio de resistência DC dentro de um par e de desequilíbrio de resistência DC entre pares se tornarão uma preocupação ainda maior à medida que mais

No prazo de 10 dias contada da deliberação, para os condóminos presentes, ou contada da sua comunicação, para os condómino ausentes, pode ser exigida ao administrador a convocação

3 O presente artigo tem como objetivo expor as melhorias nas praticas e ferramentas de recrutamento e seleção, visando explorar o capital intelectual para

Se no cadastro da administradora, foi selecionado na aba Configurações Comissões, para que as comissões fossem geradas no momento da venda do contrato, já é

As principais constatações identificam ações e práticas no âmbito da gestão logística e da cadeia do abastecimento que contribuem para o equilíbrio entre os

Para disciplinar o processo de desenvolvimento, a Engenharia de Usabilidade, também conceituada e descrita neste capítulo, descreve os métodos estruturados, a

Apesar de existirem diversas ferramentas computadorizadas de apoio ao ensino de programação, como foram citadas algumas, nenhuma delas oferece um processo de

Destaca-se, também, a intensa utilização desse sistema de ensino pelas empresas, o que caracteriza o que se chama de Educação a Distância Corporativa. É visível o