Trabalho de Conclusão de Curso. Mário Henrique Akihiko da Costa Adaniya. Web. Londrina

(1)

Trabalho de Conclus˜ao de Curso

M´

ario Henrique Akihiko da Costa Adaniya

T´

ecnicas de Extra¸

c˜

ao de Informa¸

c˜

oes da

Web

Londrina 2009

(2)

M´

ario Henrique Akihiko da Costa Adaniya

T´

ecnicas de Extra¸

c˜

ao de Informa¸

c˜

oes da Web

Trabalho de Conclusão de Curso apresen-tado ao Curso de Gradua¸cão em Ciência da Computa¸cão da Universidade Estadual de Londrina, como requisito parcial à ob-ten¸cão do grau de Bacharel.

Orientador: Prof. Dr. Mario Lemes Proen¸ca Jr.

Londrina 2009

(3)

M´

ario Henrique Akihiko da Costa Adaniya

T´

ecnicas de Extra¸

c˜

ao de Informa¸

c˜

oes da Web

Trabalho de Conclusão de Curso apresen-tado ao Curso de Gradua¸cão em Ciência da Computa¸cão da Universidade Estadual de Londrina, como requisito parcial à ob-ten¸cão do grau de Bacharel.

COMISS ˜AO EXAMINADORA

Prof. Dr. Mario Lemes Proen¸ca Jr. Universidade Estadual de Londrina

Prof. Dr. Evandro Bacarin Universidade Estadual de Londrina

Prof. Dr. Jacques Du´ılio Brancher Universidade Estadual de Londrina

(4)

Agradecimentos

`

A Deus pelo desaﬁo da vida.

Aos meus pais, pelo apoio, carinho e compreens˜ao em todos os momentos de minha vida.

Aos meus irm˜aos, porque tive com quem brincar quando crian¸ca.

Aos meus familiares, porque a fam´ılia ´e a base de tudo.

`

A minha Namoradinha, que por acaso gosta das mesmas coisas que eu.

Ao professor e orientador Mario Lemes Proen¸ca Junior que sempre deu apoio e me ensinou a realizar uma pesquisa de forma correta.

Aos professores do Dept. de Computa¸c˜ao.

Aos amigos.

(5)

“Tudo vale a pena, Se a alma n˜ao ´e pequena”. Fernando Pessoa

(6)

Resumo

Com o acúmulo e o crescimento continuo das informa¸cões contidas na Web, nasceu a preocupa¸cão em tratar tanto os documentos quanto as informa¸cões contidas nestes docu-mentos. Este trabalho objetiva uma sintese de algumas áreas relacionadas a extra¸cão e tratamento da informa¸cão. O campo de pesquisa em Recupera¸cão de Informa¸cão se pre-ocupa com a sele¸cão de documentos, enquanto a Extra¸cão de Informa¸cão com a extra¸cão das informa¸cões contidas nestes. Web Mining é a utiliza¸cão de um conjunto de técnicas destes campos, entre outros, para o tratamento e a utiliza¸cão das informa¸cões de uma maneira útil e automatizada para nós.

Palavras-Chaves: Recupera¸cão de Informa¸cão, Extra¸cão de Informa¸cão, Web Mi-ning.

(7)

Abstract

The continued growth and accumulation of the information contained on the Web, has raised a concern in treating both the documents and the information contained in these documents. This paper aims at a synthesis of some areas related to extraction and processing of information. The ﬁeld of research in Information Retrieval is concerned with the selection of documents, while the Information Extraction with the extraction of information contained in these. Web Mining is the use of a set of techniques from these ﬁelds, among others, for the treatment and use of information in a useful and automated for us..

(8)

Sum´

ario

1 Introdu¸c˜ao p. 14

1.1 Organiza¸c˜ao do Trabalho . . . p. 16

2 Recupera¸c˜ao de Informa¸c˜ao p. 17

2.1 Modelos de Recupera¸cão de Informa¸cão . . . p. 18 2.1.1 Modelo Booleano . . . p. 18 2.1.2 Modelo Booleano Estendido . . . p. 19 2.1.3 Modelo Vetorial . . . p. 19 2.1.4 Modelo Probabil´ıstico . . . p. 19 2.1.5 Modelo Difuso . . . p. 20 2.1.6 Modelo de Indexa¸cão Semântica Latente . . . p. 20 2.1.7 Modelo de Processamento de Linguagem Natural . . . p. 20 2.2 Recupera¸cão de Informa¸cão na WEB . . . p. 21

3 Extra¸c˜ao de Informa¸c˜ao p. 23

3.1 Extra¸cão de Informa¸cão não é Recupera¸cão de Informa¸cão . . . p. 24 3.2 MUC - Message Understanding Conference . . . p. 24 3.3 Conceitos Básicos . . . p. 25 3.3.1 Abordagens . . . p. 26

(9)

3.3.2 Tipos de Dado . . . p. 26 3.3.3 Fluxo Geral . . . p. 28 3.4 Avalia¸c˜ao . . . p. 32

4 Minera¸c˜ao de Dados na WEB p. 37

4.1 Web Mining . . . p. 38 4.2 Descoberta do Conhecimento . . . p. 38 4.2.1 Identifica¸cão do Problema . . . p. 39 4.2.2 Pré-Processamento . . . p. 40 4.2.3 Extra¸cão de Padrões . . . p. 40 4.2.4 Pós-Processamento . . . p. 41 4.2.5 Utiliza¸cão do Conhecimento . . . p. 41 4.3 Etapas do Web Mining . . . p. 41 4.3.1 Coleta de Documentos . . . p. 42 4.3.2 Pré-Processamento . . . p. 43 4.3.3 Extra¸cão de Padrões . . . p. 45 4.3.4 Avalia¸cão e Interpreta¸cão de Resultados . . . p. 46 4.4 Categorias de WEB Mining . . . p. 47 4.4.1 Minera¸cão de Conteúdo . . . p. 47 4.4.2 Minera¸cão de Estrutura . . . p. 51 4.4.3 Minera¸cão de Uso . . . p. 51 4.4.4 Web Semântica . . . p. 53

(10)

5.1 Tecnologias Empregadas . . . p. 57 5.1.1 Java . . . p. 58 5.1.2 JavaCC . . . p. 59 5.2 NameParser . . . p. 59

6 Conclus˜ao p. 63

(11)

Lista de Tabelas

1 Conferências e seus temas . . . p. 25 2 Exemplos de apari¸cão de nomes . . . p. 32 3 Exemplos de alguns termos extraidos . . . p. 35 4 Resultados da extra¸cão . . . p. 35 5 Regras e exemplos de nomes . . . p. 62

(12)

Lista de Figuras

1 Principais módulos de um sistema de Extra¸cão de Informa¸cão . . . p. 29 2 Homepage da Association Alzheimer com nomes extraidos. . . p. 34 3 Etapas do processo KDD (REZENDE et al., 2003) . . . p. 39 4 Etapas do processo de Web Mining . . . p. 42 5 Taxonomia da Minera¸cão na WEB . . . p. 48 6 Camadas propostas pela W3C . . . p. 54 7 Ilustra¸cão simples de uma semântica baseado em StarWars. . . p. 56 8 Classes do projeto SalusParser . . . p. 60 9 Declara¸cão das regras de tokens . . . p. 61 10 Declara¸cão da regra do NOME COMPLETO . . . p. 61

(13)

Lista de abreviaturas e siglas

DAML DARPA Agent Markup Language

DARPA Defense Advanced Research Projects Agency EI Extra¸c˜ao de Informa¸c˜ao

GNU GNU is Not Unix GPL General Public License HTML Hypertext Markup Language KDD Knowledge Discovery Database LSI Latent Semantic Indexing

MUC Message Understading Conference NER Named Entity Recognition

OWL Web Ontology Language

PLN Processamento de Linguagem Natural RDF Resource Description Framework RI Recupera¸cão de Informa¸cão SVD Singular Value Decomposition URI Uniform Resource Identifier W3C World Wide Web Consortium

WB Web Mining

WWW World Wide Web

(14)

14

1 Introdu¸

c˜

ao

Presenciamos atualmente grandes avan¸cos que auxiliam para uma globaliza¸cão e mo-derniza¸cão do mundo como nunca antes previsto. As informa¸cões e como elas são trata-das também sofreram drásticas altera¸cões, e podemos destacar como um grande fator o advento da Internet. Atualmente é improvável nos imaginarmos sem a Internet e suas fa-cilidades, elevando a importância da Internet em nossas vidas num futuro próximo sendo tratada como a necessidade da energia elétrica, água e saneamento básico, entre outros servi¸cos que tomamos como essenciais hoje (JR., 2005). Empresas têm preju´ızos na casa dos bilhões por algumas horas sem Internet, tal qual, sua importância hoje.

A World Wide Web (Web) é um meio de comunica¸cão popular e interativo para disseminar informa¸cão atualmente (KOSALA; BLOCKEEL, 2000). E cada vez mais en-contramos toda e qualquer informa¸cão dispon´ıveis online. Tornando-se uma tendência que grandes editoras com revistas e publica¸cões impressas estão aderindo, mantendo os im-pressos tradicionais e publicando virtualmente os mesmos conteúdos e adicionando outros exclusivos na edi¸cão online.

Blogs surgem aos milhares com pessoas expressando suas idéias, opiniões e experi-ências. Sites de relacionamento, fóruns, Wikis armazenam conteúdos imensos dos mais diversificados assuntos. Todo dia, muitas páginas são indexadas pelos motores de bus-cas. E neste pandemônio, como encontrar o que realmente estamos procurando? E como avaliar se a informa¸cão recuperada é confiável?

O acesso a Internet é muito mais fácil, e também é a publica¸cão de qualquer conteúdo por qualquer pessoa, a busca por uma informa¸cão concreta de uma fonte segura torna-se importante. Para tal, é necessário buscar formas de pesquisa mais interessantes adicionais

(15)

1 Introdu¸c˜ao 15

as pesquisas j´a exitentes.

A busca pela informa¸cão correta se torna um assunto muito mais sério quando se trata de saúde, pois com o acesso facilitado, muitas pessoas ao primeiro sintoma de alguma doen¸ca buscam informa¸cão na Internet e tão logo, podem ter acesso a informa¸cões, tanto corretas quanto incompletas ou na pior das hipótese, informa¸cões erradas. A pessoa pode seguir conselhos equivocados e não procurar assistência médica, podendo agravar sua situa¸cão.

Algumas áreas de estudos buscam solu¸cões para este problema, destacamos a Recu-pera¸cão de Informa¸cão (RI) e a Extra¸cão de Informa¸cão (EI). Obter apenas dados não possui relevância para o usuário e pesquisadores, importante também é o fato da utiliza-¸cão destes dados. Web Mining(WB) envolve inúmeras disciplinas como Recupera¸cão da Informa¸cão, Extra¸cão de Informa¸cão, Estat´ıstica, Inteligência Artificial e Minera¸cão de Dados. Procura extrair, avaliar, estudar e utilizar os dados em áreas de aplica¸cão como o comércio, ou estudos para melhoria de algum servi¸co ( ÁLVAREZ, 2007).

Os estudos em Web Mining possibilita alguns sites de E-Commerce muito mais per-sonalizados. Como grandes exemplos temos o Submarino1 e Amazon.com2, no mercado nacional e internacional. Podemos perceber isto quando efetuamos uma compra de algum livro ou outro produto pelo Submarino, e nas visitas posteriores ao site, ele nos indica gˆeneros liter´arios semelhantes ao livro adquirido ou itens relacionados com a categoria do produto.

O tratamento de informa¸cões no âmbito da saúde torna-se algo importante. Pode-se encontrar muitas informa¸cões corretas e erradas, e a publica¸cão origina-se de fontes confiáveis e não confiáveis. Por este motivo a preocupa¸cão com a informa¸cão extra´ıda e a sua confiabilidade, gera projetos como o Salus Cyted.

1_{Submarino - http://www.submarino.com.br} 2_{Amazon.com - http://www.amazon.com/}

(16)

1.1 Organiza¸c˜ao do Trabalho 16

1.1 Organiza¸

c˜

ao do Trabalho

A monografia está organizada da seguinte maneira. No cap´ıtulo 2 são vistos alguns conceitos sobre Recupera¸cão de Informa¸cão. A preocupa¸cão principal desta área é encon-trar maneiras eficazes de selecionar documentos. Importante ressaltar que a informa¸cão contida não possui destaque na recupera¸cão. A informa¸cão ganha uma conota¸cão impor-tante no cap´ıtulo 3, onde são abordados os conceitos sobre Extra¸cão de Informa¸cão. Com alguns destes conceitos fundamentados, analisamos a Web Mining no cap´ıtulo 4 onde en-contramos caracter´ısticas de RI e EI mas com um objetivo mais amplo além da sele¸cão de documentos e informa¸cões. Para tornar a extra¸cão pálpavel, apresentamos um caso de uso simples de uma ferramenta de extra¸cão de nomes utilizada para o projeto Salus Cyted no cap´ıtulo 5.

Ao final, uma conclusão sobre o trabalho pesquisado é feita, apontando a dire¸cão das pesquisas realizadas na área recentemente.

(17)

17

2 Recupera¸

c˜

ao de Informa¸

c˜

ao

Recupera¸cão de Informa¸cão (RI) é a tarefa de encontrar documentos relevantes a partir de um corpus ou conjunto de textos em resposta a uma necessidade de informa¸cão de um usuário (SMEATON, 1997). Um dos maiores problemas enfrentados desde seu in´ıcio, e que perpetua atualmente é a informa¸cão estar contida em linguagem natural. Quando a WWW foi concebida, a comunidade acadêmica que tratava de RI concentraram suas aten¸cões para uma melhoria dos motores de busca, voltando a impulsionar o crescimento da RI.

RI possui limites, e qualquer tarefa além de prover ao usuário os documentos, não é um sistema de recupera¸cão de informa¸cão. A tecnologia de RI é quase sempre encon-trada no núcleo de funcionalidades dos sistemas de busca de informa¸cões de uma maneira impercept´ıvel para o usuário. Técnicas como: filtragem, roteamento, categoriza¸cão e clus-teriza¸cão possuem em comum a busca e compara¸cão dos documentos e as necessidades do usuário (SMEATON, 1997).

∙ filtragem - através do fluxo de documentos entre um certo perfil ou grupo de usuários, refletindo a informa¸cão desejada;

∙ categoriza¸cão - é a tarefa de categorizar o documento em um conjunto predefinido de categorias;

∙ roteamento - divide a entrada de documentos para grupos ou usu´arios baseado no conte´udo;

∙ clusteriza¸cão - é o agrupamento de documentos semelhantes para posterior busca ou outra utiliza¸cão;

(18)

2.1 Modelos de Recupera¸c˜ao de Informa¸c˜ao 18

Sistemas de RI são estruturados através da defini¸cão da fonte de informa¸cão com a qual se trabalha, ou seja, os tipos de documentos que serão indexados. Posteriormente, as opera¸cões que serão executadas no momento das buscas devem ser determinadas, es-truturando os documentos de acordo com as tarefas a serem executadas. Em seguida, um ´ındice com os termos contidos nos documentos é criado (BAEZA-YATES; RIBEIRO-NETO, 1999). Com uma consulta, o usuário descreve suas necessidades através de termos e o processo de RI é iniciado (BEPPLER, 2008).

A opera¸cão de recupera¸cão em sistemas de RI objetiva computar graus de coincidência entre a consulta do usuário e os documentos para ordenar cada documento. Smeaton (SMEATON, 1997) sugere algumas métricas heur´ısticas para tal ordenamento e enumera ´

areas onde a pesquisa de RI s˜ao bem ativas.

O problema da aquisi¸cão de conhecimento de textos vêm sendo questionado pela comunidade de RI em fun¸cão da rápida pulveriza¸cão de informa¸cão impulsionada pela Internet. A pesquisa sobre atividades baseadas em corpus de textos têm sido encorajada, facilitando o desenvolvimento de solu¸cões.

2.1 Modelos de Recupera¸

c˜

ao de Informa¸

c˜

ao

Greengrass (GREENGRASS, 2000) propõem duas categorias para os modelos de RI: semânticos e estátisticos. Os semânticos tem a preocupa¸cão de “entender” um texto em linguagem natural. Quanto aos modelos estátisticos, são atribuidos medidas estat´ısticas mensurando a compara¸cão entre uma consulta e um documento. Na categoria estátistica enquandramos os modelos: Booleano, Booleano Estendido, Vetorial, Probabil´ıstico, Di-fuso e Indexa¸cão Semântica Latente. O modelo de Processamento de Linguagem Natural representa a categoria semântica.

2.1.1 Modelo Booleano

Utilizando-se da teoria dos conjuntos e álgebra booleana, as consultas são construidas através de expressões booleanas e conectores lógicos: AND, OR, NOT. A recupera¸cão de

(19)

um determinado documento só é efetuada mediante um valor verdadeiro das expressões, no nosso caso, uma consulta. Devido a simplicidade e ao formalismo, temos um resultado não ordenado, acarretando também à recupera¸cão de muitos ou poucos documentos (BAEZA-YATES; RIBEIRO-NETO, 1999).

2.1.2 Modelo Booleano Estendido

Este modelo é proposto com algumas melhorias em rela¸cão seu predescessor, imple-mentando uma fun¸cão de ordena¸cão e a utiliza¸cão de diferentes operadores. Este modelo atribui valores no intervalo [0, 1], que equivale ao grau de compara¸cão de uma expressão com um documento (LEE, 1994).

2.1.3 Modelo Vetorial

Este modelo é representado por um vetor ou uma lista de termos ordenados. O grau de similaridade de um documento em rela¸cão a uma consulta é a avalia¸cão entre os vetores que representam o documento e a consulta. Com isto, uma ordena¸cão de acordo com o grau de similaridade é executada dada uma consulta (BAEZA-YATES; RIBEIRO-NETO, 1999).

2.1.4 Modelo Probabil´ıstico

Fazendo-se uso de cálculos probabil´ısticos, o modelo calcula a probabilidade condi-cional em que um determinado documento é relevante a uma dada consulta. Consulta e documentos são representados por meio de um conjunto de termos, calculando-se a probabilidade de ocorrência dos termos de uma consulta em documentos relevante e n˜ ao-relevantes. A fun¸cão probabilistica depende do modelo a ser usado, bem como os termos estão distribuidos entre os documentos (GREENGRASS, 2000).

(20)

2.1.5 Modelo Difuso

´

E um modelo extendido do modelo booleano e possui uma fun¸cão de ordena¸cão cujo resultado da compara¸cão entre um documento e uma consulta é aproximado. Como Zadeh redefiniu o intervalo fechado do conceito clássico da pertinˆ_{encia de [0, 1] ∈ ℤ para} o intervalo cont´ınuo [0, 1] ∈ ℝ (BAEZA-YATES; RIBEIRO-NETO, 1999).

A aproxima¸cão considera que cada termo de uma consulta define um conjunto difuso e cada documento possui um grau de participa¸cão nesse conjunto. Muitas cr´ıticas são lan¸cadas a este modelo por gerar medidas incorretas (LEE, 1994).

A principal justificativa para o método difuso é a falta de informa¸cão frequente do usuário e do próprio sistema em saber se o documento possui a informa¸cão consultada ou não (LEE, 1994).

2.1.6 Modelo de Indexa¸

c˜

ao Semˆ

antica Latente

A indexa¸cão semântica latente (LSI) é uma técnica automática que analisa as co-ocorências de termos em documentos textuais almejando descobrir relacionamentos entre eles.

LSI é um modelo que consome processamento devido as estruturas escolhidas para a analise dos textos, no caso, uma matriz esparsa termo-documento. Utilizando a Decom-posi¸cão de Valores Singulares (SVD), a matriz é decomposta em outras três matrizes.

Este é um modelo que visa a captura de termos e suas dependências que podem ter um significado semântico.

2.1.7 Modelo de Processamento de Linguagem Natural

O modelo que usa processamento em linguagem natural pode ser categorizado como modelo semântico, porque a estrutura e o significado dos documentos estão intimamente ligados ao modelo. Raramente são utilizadas em RI, mas geralmente são empregadas em conjunto com outros modelos estat´ısticos (GREENGRASS, 2000).

(21)

2.2 Recupera¸c˜ao de Informa¸c˜ao na WEB 21

Smeaton (SMEATON, 1997) defende que as técnicas de processamento de linguagem natural adotadas na RI apenas auxiliam eficientemente quando utilizadas em pequenas quantidades de textos. Assim sendo, a complexidade de técnicas de PLN é oriunda das aplica¸cões para a qual fora desenvolvida como tradu¸cão automática e interfaces de lingua-gem natural.

2.2 Recupera¸

c˜

ao de Informa¸

c˜

ao na WEB

Quando estamos lidando com a Web temos um cenário que contrasta com a chamada RI Clássica. Na RI Clássica temos um dom´ınio e usuários definidos, quando na Web encontramos um cenário dinâmico e usuários consultando simultaneamente as informa¸cões (KOBAYASHI; TAKEDA, 2000).

Muitas caracter´ısticas devem ser levadas em conta quando estamos recuperando do-cumentos na WEB (HUANG, 2000):

∙ Tamanho da Internet - O tamanho da Internet, segundo Zhang e seu grupo de pesquisa (ZHANG et al., 2008), estima-se que em Janeiro de 2008 a Internet continha 62400000 hostnames ativos. De acordo com a pesquisa, a Lei de Moore1 ´

e observada, exceto que para a Internet, foi visto que a cada cinco anos, ela dobra de tamanho. Importante esclarecer que os dados do tamanho da Internet v´aria de acordo com grupos de pesquisa, mas todos chegam a resultados similares quanto ao crescimento exponencial;

∙ Dinamismo da Internet - As técnicas de Recupera¸cão de Informa¸cão são geral-menta estática, enquanto a Web está em constante metamorfose;

∙ Duplica¸cão - 30% do contéudo da Internet é uma cópia de algum conteúdo exis-tente;

1_{A Lei de Moore foi predita por um dos fundadores da Intel, Gordon Moore, e sugere que a cada}

dezoito meses a capacidade de transitores no CPU dobra. Apareceu em 1965 e se manteve como verdade por quase meio s´eculo, e costuma ser utilizada para prever modelos futuros de tecnologias.

(22)

2.2 Recupera¸c˜ao de Informa¸c˜ao na WEB 22

∙ Comportamentos espec´ıficos - É estimado que 85% dos usuários utilizam apenas a primeira página retornada das search engines, e 28% modificam sua consulta original;

∙ Multiplos tipos de usuário - Possui muitos tipos de usuários e cada usuário utiliza a Internet para uma tarefa espec´ıfica;

∙ Idiomas - Como a Internet se tornou algo mundial, as p´aginas s˜ao encontradas em mais de 100 idiomas;

∙ Alta Linkagem (High Linkage) - Cada página contém aproximadamente oito links para outras páginas;

Com estas caracter´ısticas, podemos ter uma no¸cão da dificuldade do campo de RI na Web. Se considerarmos a Web como uma grande base de dados, não temos uma aplica¸cão efetiva das tarefa da RI Clássica de indexar, categorizar, organizar ou clusterizar, e as queries de busca de usuários distintos para uma mesma informa¸cão apresentam diferen¸cas enormes.

(23)

23

3 Extra¸

c˜

ao de Informa¸

c˜

ao

Não temos a capacidade de processar megabytes de texto todos os dias, e nesse volume de bytes, quantas oportunidades deixamos de aproveitar ou informa¸cões que estar´ıamos perdendo? Projetos em Processamento de Linguagem Natural (PLN) originaram a Extra-¸cão da Informa¸cão. Extra¸cão de Informa¸cão (EI) tem como objetivo transformar a cole¸cão de documentos, geralmente com o aux´ılio de um sistema de Recupera¸cão de Informa¸cão, em informa¸cão que é facilmente analisada e digerida (COWIE; LEHNERT, 1996). Na EI, a compreensão do texto fonte não é obrigatória, pois a análise é feita com o objetivo de encontrar por¸cões que contenham o quê deve ser extra´ıdo. A sáida de um sistema de Extra¸cão da Informa¸cão são informa¸cões relevantes para o dom´ınio espec´ıfico em um determinado formato pré-estabelecido de acordo com as orienta¸cões iniciais.

A Extra¸cão da Informa¸cão é uma tarefa mais limitada do que a “compreensão completa do texto”. Na Extra¸cão da Informa¸cão, delimitamos o escopo, estabelecendo assim um limite de compreensão, assim, não necessitando analisar o texto completo e seu sentido (GRISHMAN, 1997). A Extra¸cão da Informa¸cão tem um potencial muito grande em extrair dados com maior precisão, existindo um interesse muito grande nas pesquisas, uma vez que encontramos uma enorme quantidade de informa¸cões em linguagem natural. O reconhecimento de palavras, análise de frases, compreensão do sentindo da frase ou de todo o documento são envolvidos nas pesquisas de processamento de linguagens, e aumentam a complexidade no desenvolvimento de um sistema de Extra¸cão da Informa¸cão.

(24)

3.1 Extra¸cão de Informa¸cão não é Recupera¸cão de Informa¸cão 24

3.1 Extra¸

c˜

ao de Informa¸

c˜

ao n˜

ao ´

e Recupera¸

c˜

ao de

Informa¸

c˜

ao

Recupera¸cão de Informa¸cão é uma tecnologia madura que perdura há muito mais tempo do que a Extra¸cão da Informa¸cão, que come¸cou a poucas décadas. O objetivo da Recupera¸cão de Informa¸cão é selecionar documentos relevantes de uma cole¸cão de docu-mentos de acordo com as necessidades do usuário e suas entradas, enquanto Extra¸cão de Informa¸cão extrai informa¸cões relevantes de documentos. Consequentemente, as duas t´ ec-nicas se complementam, e usadas em combina¸cão podem prover uma ferramenta poderosa (EIKVIL, 1999).

3.2 MUC - Message Understanding Conference

Observamos dois fatores principais que impulsionaram os estudos em EI: o crescimento exponencial de informa¸cão conjuntamente com a populariza¸cão da internet e um grande alavancador nas pesquisas em EI, os congressos MUC (Message Understanding Conferen-ces) (GAIZAUSKAS; WILKS, 1998). Eram congressos financiadas pelo DARPA1, e foram assim batizados por tratar-se do processamento de entendimento de mensagens. Surgindo em meados dos anos noventa, ela instaurou métricas e algoritmos estat´ısticos para au-xiliar o governo americano na avalia¸cão de novos sistemas de Extra¸cão de Informa¸cão (LEHNERT; SUNDHEIM, 1991).

Na avalia¸cão dos MUC, uma descri¸cão detalhada do cenário e quais informa¸cões a serem extraidas era dado aos participantes (formados por grupos de pesquisa acadêmicos e particulares), junto com um conjunto de documentos e o modelo a ser extraido dos docu-mentos. Os participantes tinham um tempo limitado2 para adaptar os sistemas para um novo cenário. Então uma nova cole¸cão de documentos era passado para os participantes, e estes enviavam para os organizadores os resultados extra´ıdos. E assim a avalia¸cão era feita, comparando o gabarito com os resultados extra´ıdos (APPELT; ISRAEL, 1999).

1_{Defense Advanced Research Projects Agency - http://www.darpa.mil/} 2_{Geralmente de 1 mˆ}_{es a 6 meses.}

(25)

3.3 Conceitos B´asicos 25

Podemos observar na tabela 1 as edi¸cões e o ano da conferências, bem como as fontes de texto a serem extra´ıdas e os temas (cenários).

Tab. 1: Conferˆencias e seus temas

Conferˆencia Ano Fonte de Texto T´opico(Dominio)

MUC-1 1987 Artigos Militares Opera¸cões de fuga MUC-2 1989 Artigos Militares Opera¸cões de fuga MUC-3 1991 Artigos de Jornais Atividades Terroristas na América Latina MUC-4 1992 Artigos de Jornais Atividades Terroristas na América Latina MUC-5 1993 Artigos de Jornais Corporate Joint Ventures MUC-6 1995 Artigos de Jornais Negotiation of Labor Disputes MUC-7 1997 Artigos de Jornais Acidente de aviões

O formato de sa´ıda era livre na primeira edi¸cão da conferência, da segunda conferência em diante, o formato de sa´ıda era determinado pelo cômite organizador. Alguns campos t´ıpicos relacionados eram: causa, agente, lugar e tempo de um evento, consequências, etc. Existiam cinco tarefas importantes para a Extra¸cão de Informa¸cão dentro das MUC: Na-med Entity Recognition (NER), Coreference Resolution, Remplate Element Construction, Template Relation Construction e Scenario Template Production (CHANG et al., 2006).

3.3 Conceitos B´

asicos

Extra¸cão de Informa¸cão deriva de Processamento de Linguagem Natural e tem como tarefa extrair informa¸cões especificas de documentos, muitas vezes encontrado em Lingua-gem Natural. Muitos sistemas de Extra¸cão de Informa¸cão seguem sequências de passos como analise léxica, semântica, morfologica, reconhecimento de nomes, entre outras tare-fas (APPELT; ISRAEL, 1999).

A meta de um sistema de Extra¸cão de Informa¸cão não é entender o texto do documento em si, e sim analisar por¸cões do texto e extrair informa¸cões pertinentes. A pertinencia é determinada pelo dom´ınio e cenário, na maioria das vezes, explicitada pelo usuário (EIKVIL, 1999). A Extra¸cão de Informa¸cão é útil para quando se tem um conjunto de documentos e existe a necessidade de extrair fatos espec´ıficos, como por exemplo, extrair nome de destinos para se viajar em blogs especializados em viagens.

(26)

3.3.1 Abordagens

Na Extra¸cão de Informa¸cão, observamos claramente a distin¸cão de duas abordagens (APPELT; ISRAEL, 1999): Knowledge Engineering e Automatic Training.

Em Knowledge Engineering o sistema é praticamente construido manualmente pelo knowledge engineer3. Sua constru¸cão se baseia no conhecimento que o engenheiro possui do cenário e dom´ınio com o qual vai se trabalhar. As habilidades do engenheiro que cons-truirá o sistema é crucial para a perfomance da mesma. O processo de desenvolvimento é muito trabalhoso, geralmente, após feito a analise dos documentos e criada e aplicada as regras no sistema, o engenheiro executa o sistema sobre os textos de treino. De acordo com o resultado, ele modifica as regras do sistema e refaz o processo.

A abordagem de automatic training não necessita de um especialista, mas alguém que tenha o conhecimento suficiente do dom´ınio da aplica¸cão. Uma vez que um conjunto de documentos foram anotados, um algoritmo de treino é executado, treinando o sistema para novos textos. Esta abordagem tem uma resposta mais eficaz, mas depende do conjunto de documentos selecionados para treino. Utilizam métodos estat´ısticos, e aprendem regras com a intera¸cão com o usuário.

Nenhuma das duas abordagens é superior a outra, pois a extra¸cão depende de muitas variaveis, e muitas vezes, variaveis externas, logo, não podemos apontar nenhuma abor-dagem como completa. Ambas utilizadas em conjunto caminha para um sistema ideal.

3.3.2 Tipos de Dado

A Extra¸cão de Informa¸cão se dá em documentos, e eles são categorizados em três tipos (EIKVIL, 1999):

I. Documentos livre/sem estrutura¸cão : Texto livre é basicamente o texto onde não encontramos nenhuma forma de estrutura, e é o tipo mais encontrado.

Origi-3_{E a pessoa mais familiarizada com o sistema de Extra¸}´ _c˜_{ao de Informa¸}_c˜_{ao, e conhece melhor o} forma-lismo para expressar as regras para o sistema.

(27)

nalmente o objetivo de EI era desenvolver sistemas capazes de extrair informa¸c˜oes chaves de textos em linguagem natural.

O estado da arte em Extra¸cão da Informa¸cão em textos livres muito comumente utiliza técnicas de Processamento de Linguagens Naturais, e as regras de extra¸cão são tipicamente baseada em padrões envolvendo o aspecto sintático e semântico. A capacidade do homem de processamento ainda é melhor, mas resultados expressivos vem sendo obtidos no processamento em textos sem estrutura. O entendimento de textos sem restri¸cão em Linguagem Natural ainda está longe de ser resolvido por completo, entretanto, métodos de EI funcionam porque dependem de restri¸cões e padrões que desejamos extrair dos textos (SODERLAND, 1999).

II. Documentos semi-estruturados : Não são textos totalmente livres de estrutura, mas também as estrutura existente não é tão r´ıgida, encontram-se no intermédio. Técnicas de PLN concebem regras para a extra¸cão de textos livres, contudo, estas regras funcionam perfeitamente para gramáticas livre de contexto onde encontra-mos senten¸cas inteiras para analisar, fato que nem sempre ocorre em textos semi-estruturados. Regras muito simples utilizadas em textos puramente estruturados não serão eficientes também.

O pesquisador Sergel Abiteboul diferencia dentro do contexto de semi-estruturados, em cinco categorias (ABITEBOUL, 1997), (SILVEIRA, 2001):

– Estrutura Irregular - Quando uma informa¸cão está disposta de mais de uma maneira na estrutura¸cão do documento,e.g., o campo de endere¸co, o qual poderiamos encontrar como uma única string representando todo o endere¸co, ou vários campos como string para o nome da rua, um campo de inteiro para o número do logradouro, etc.;

– Estrutura Impl´ıcita - A estrutura existe, mas não é algo natural e possivel-mente necessita de algum processamento, e a representa¸cão lógica dos dados não é de imediato obtida. Podemos configurar as páginas em HTML nesta categoria, que é puramente texto, mesmo contendo tags, não deixa de ser um

(28)

documento semi-estruturado de puro texto, onde é necessário um processa-mento de suas tags para a obten¸cão de alguma informa¸cão preliminar.;

– Estrutura Parcial - Identificamos parte da estrutura de dados, mas a ou-tra parte, muitas vezes não é necessária ou não é pass´ıvel de identifica¸cão, necessitando uma extra¸cão;

– Estrutura Indicativa - Quando encontramos os dados indicados,e.g., o dado de endere¸co já possui uma estrutura definida, podendo assumir outras formas, mas geram transtorno para a modifica¸cão do esquema adotado. Muito utilizado quando ocorre uma padroniza¸cão dos dados (ABITEBOUL, 1997);

– Estrutura Flex´ıvel - A instˆancia do objeto consegue assumir outras formas de dados, sendo isso nativo da estrutura em si.

Algumas ferramentas pioneiras em pequisas de dados semi-estruturados na Web foram: Yahoo4 e Altavista5. Utilizam uma técnica chamada full text search, que desconsidera a semântica, comparando o texto completo com as entradas do usuário (SILVEIRA, 2001).

Entretanto, como apresenta um m´ınino de estrutura¸cão, alguns padrões podem ser construidos, limitando sua utiliza¸cão na extra¸cão.

III. Documentos estruturados : Informa¸cões textuais contidas em banco de dados ou qualquer outro gênero de documento com uma estrutura¸cão rig´ıda, são a base de textos estruturados. Como seguem uma moldura sem grandes diferen¸cas de um documento para outro, sua informa¸cão é facilmente extraida.

3.3.3 Fluxo Geral

A estrutu¸cão de um sistema de EI basea-se em alguns passos: Tokeniza¸cão, Proces-samento Léxico e Morfológico, Análise Sintática e Análise do Dom´ınio. O sistema pode possuir apenas algumas das etapas, e não necessariamente deve cobrir todas as etapas

4_{Yahoo - http://www.yahoo.com} 5_{Altavista - http://www.altavista.com}

(29)

para ser considerado um sistema de EI. As necessidades da aplica¸cão que direcionam as diretrizes dos passos os quais o sistema deve cobrir. Na figura 1 ilustramos os quatro principais módulos (APPELT; ISRAEL, 1999).

Fig. 1: Principais módulos de um sistema de Extra¸cão de Informa¸cão

Para melhor ilustrar o processo de Extra¸cão, vamos exemplificar aplicando sobre a senten¸ca “O dia é belo” as quatro etapas do processo.

Tokeniza¸cão é a etapa onde dividimos os textos em tokens. Em EI, comumente adota-se a defini¸cão de um token sendo as palavra separadas por espa¸co, e.g., na frase “O dia é belo”, obtemos quatro tokens: “O”, “dia”, “ é” e “belo”. Este exemplo ilutra o processo de Tokeniza¸cão. Em alguns idimas este processo é simples, mas em outros idiomas não o é, pela falta de estrutura¸cão e uma não distin¸cão clara dos limites de uma palavra, e.g., Japonês, Chinês.

O Processamento Morfológico e Léxico, adiciona informa¸cões através de tags clas-sificando léxica ou morfológicamente os tokens para posterior utiliza¸cão, e.g., “O_artigo”, “dia_substantivo”, “ é_verbo” e “belo_{ad jetivo}”. Neste exemplo, aplicamos regras gramáticais da l´ıngua Portuguesa, mas podemos adotar outras regras como: tamanho da palavra, mai´ us-culas e minuscúlas ou outras criadas a partir do problema a ser resolvido.

Muitos sistemas de Extra¸cão de Informa¸cão são constru´ıdos sobre a l´ıngua inglesa, que não necessita uma análise morfológica muito aprofundada onde uma lista com as varia¸cões

(30)

das palavras seria o suficiente. O idioma alemão por sua vez, é essencial fazer uma análise morfológica, pois é composto por palavras aglutinadas (APPELT; ISRAEL, 1999).

A maior parte da análise do texto é feita através de um conjunto de expressões regu-lares (GRISHMAN, 1997). A Análise Sintática objetiva estudar a fun¸cão que as palavras desempenham. Para muitos dom´ınios, o simples processo de obten¸cão de sujeitos, predi-cados e argumentos resolvem a maioria das senten¸cas. Se a expressão encontrada estiver inserida no conjunto de expressões regulares, tão logo ela receberá um marcador, e de-pendendo do sistema, outros recursos. Com isto dividimos nossa senten¸ca original em “OdiaSu jeito” e “ ébeloPredicado”.

Para demonstrar a Análise de Dom´ınio, tomamos como regra, a obten¸cão dos subs-tantivos dos sujeitos. Com isto, conseguimos extrair “dia” de nossa senten¸ca original. E finalizamos o processo de extra¸cão.

O processo de Extra¸cão de Informa¸cão pode ser abstra´ıdo em duas grandes partes. Primeiramente a extra¸cão de fatos individuais do texto através de uma análise textual. Então, a integra¸cão destes fatos, aumentando os fatos já obtidos ou criando fatos novos. E por fim, os fatos pertinentes ao cenário, nós transformamos para o formato de sa´ıda (GRISHMAN, 1997). Para isto, o processo passa por algumas complexidades que se relacionam diretamente com os módulos que utilizaremos.

Fatores de complexidade Como a Extra¸cão de Informa¸cão trabalha com textos, enfrentamos dificuldades como a l´ıngua na qual é escrita, o gênero do documento, pro-priedades e a própria tarefa que efetuaremos sobre o documento (APPELT; ISRAEL, 1999).

Idioma Os documentos se encontram escritos em algum idioma, tão logo nos defrontamos com nossa primeira dificuldade. Algumas l´ınguas necessitam de tratamento morfológico, espa¸camento entre palavras e segmenta¸cão de palavras.

(31)

Gênero O gênero do documento com o qual se vai trabalhar influência também. Se limitarmos nossa ferramenta a textos de anúncios de jornais, não é o mesmo que extrairmos informa¸cões de artigos cient´ıficos. Como consequência, o uso da linguagem formal ou informal é extremamente ligada ao documento também.

Propriedades Os textos podem conter tabelas, imagens, gráficos entre outros tipos de informa¸cão não textual que necessitam de formas especiais de tratamento.

Tarefas As tarefas efetuadas pelo sistema tamb´em entram na nossa an´alise de complexidade. Uma ferramenta que apenas procura entidades, possui uma abordagem diferente de uma que procura propriedades a mais de um entidade.

Sistemas de Extra¸cão de Informa¸cão trabalham com o processamento de muitos do-cumentos e um espa¸co muito curto de tempo. Então, para não prejudicar o desempenho, utiliza-se máquinas de estado finito em abundância. O alvo da extra¸cão de uma Extra¸cão de Informa¸cão pode ser uma rela¸cão de n-tuplas ou muito mais complexa considerando a hierarquia e organiza¸cão dos dados.

Programas que realizam a tarefa de Extra¸cão de Informa¸cão são usualmente chama-dos de extratores ou wrappers. Um wrapper geralmente executa a tarefa de encontrar padrões, e estes dependem de um conjunto de regras. Adaptar um sistema de Extra¸cão de Informa¸cão tem muitos pontos a serem observados: tipo de texto, dom´ınio, cenário, conjunto de regras (CHANG et al., 2006).

O Reconhecimento de Nomes em um texto é uma tarefa de destaque, uma vez que nomes aparecem frequentemente em todos os tipos de texto, e de muitas maneiras. Os nomes aparecem em um conjunto de padrão, podendo conter prefixo ou sufixo, estar escrito com letras ma´ıusculas, facilitando assim sua extra¸cão. Observando a tabela 2, temos algumas maneiras de como o nome João José da Silva Pereira Junior pode aparecer em um texto.

(32)

3.4 Avalia¸c˜ao 32

Tab. 2: Exemplos de apari¸c˜ao de nomes Exemplos de apari¸c˜ao de nomes

João José da Silva Pereira Junior João José da Silva Pereira Jr. João J. da Silva Pereira Jr. João J. S. P. Jr. Sr. João Pereira Jr. JO ÃO JOSÉ DA SILVA PEREIRA JUNIOR JUNIOR, João J. S. P.

um parser para a senten¸ca inteira. Em geral, os sistemas utilizam partes que possuem certeza sobre sua constru¸cão, tanto sintaticamente quanto semanticamente. Na analise sintática, podemos ainda ter muitas interpreta¸cões amb´ıguas, para tal, a semântica e o dom´ınio especifico da aplica¸cão eliminam outras interpreta¸cões do dados extra´ıdos.

Construir uma estrutura completa de análise sintática é extremamente complicada. Algumas decisões são particularmente dif´ıceis e dependem do contexto. Parsers que buscam avaliar senten¸cas inteiras pecam no aspecto das decisões locais, pois procuram ser generalistas para não excluirem algumas op¸cões, acarretando em extrair conteúdos a mais sem muito significado para o dom´ınio. Se as rela¸cões sintaticas forem corretamente extraidas, a interpreta¸cão dos modelos de cenário serão mais simples e corretas.

3.4 Avalia¸

c˜

ao

Os critérios de avalia¸cão consistem em: quanta informa¸cão foi extra´ıda (recall ), quanto da informa¸cão extra´ıda é correta (precision) e quanto da informa¸cão extra´ıda é supérflua (overgeneration) (LEHNERT; SUNDHEIM, 1991). As conferências MUC possuem um papel fundamental na defini¸cão dessas medidas, na necessidade de avaliar os sistemas de Extra¸cão de Informa¸cão. Inicialmente as medidas de precisão e cobertura foram herdadas do sistema de avalia¸cão de Recupera¸cão de Informa¸cão. Como as técnicas de Extra¸cão e Recupera¸cão são distintas, os nomes foram mantidos, porém as defini¸cões das medidas foram alteradas (GAIZAUSKAS; WILKS, 1998).

(33)

∙ Cobertura ou Abrangência(Recall ) : Quanto da informa¸cão extra´ıda é relevante. Ou seja, é medida através da informa¸cão corretamente extra´ıda (Nextraido−correto)

so-bre a informa¸cão relevante na página (Ntotal−extraidos). Representada pela fórmula 3.1

Cobertura= Nextraido−correto

N_{total−extraidos} (3.1)

∙ Precisão(Precision) : Quanto da informa¸cão extra´ıda é correta. É obtida através da informa¸cão corretamente extra´ıda (Nextraido−corretos) sobre a informa¸cões extra´ıdas

(Nresposta).

Preciso=Nextraido−correto Nresposta

(3.2)

Importante ressaltar que Ntotal−extraido e Nrespostas˜ao inversamente proporcionais, isto

´

e, quando a Cobertura aumenta, a Precisão tende a diminuir e vice-cersa. Precisão e Cobertura estão sempre no intervalo de [0, 1], sendo 0 o pior resultado e 1 o melhor. ∙ F-measure : A F-measure mede considerando a precisão e a cobertura. O parˆ

a-metro β controla o balanceamento entre a cobertura e a precis˜ao.

F− measure = (β

2_{+ 1) ∗Cobertura ∗ Preciso}

β2∗ (Cobertura + Preciso) (3.3) β = Cobertura/Preciso, onde encontramos a F-measure sendo orientada para cober-tura quando β > 1 e orientada para a precis˜ao quando β < 1. Por este motivo, geralmente utiliza-se β = 1 , balanceando assim as duas medidas, e aplicando na f´ormula 3.3 temos:

F₁=2 ∗Cobertura ∗ Preciso

(Cobertura + Preciso) (3.4)

Para ilustrar melhor os c´alculos, utilizando-se da ferramenta em desenvolvimento pelo autor criada para o projeto Salus Cyted, que ser´a discutida no capitulo 5. A ferramenta

(34)

NameParser será aplicada na página Association Alzheimer6, vista na figura 2 como nossa fonte de dados.

Fig. 2: Homepage da Association Alzheimer com nomes extraidos.

A regra criada para a extra¸cão de nome tem como base as defini¸cões da gramática, sendo considerado um nome uma palavra que come¸ca com uma letra maiúscula seguida de letras minúsculas. Como os nomes estão sendo extra´ıdos de páginas Web, e elas não possuem uma regra quanto a sua estética, podemos encontrar muitas palavras que não são necessariamente um nome. E isto realmente acontece, como podemos observar na tabela 3.

(35)

Tab. 3: Exemplos de alguns termos extraidos Termos extra´ıdos

Medical President Alzheimer Scientiﬁc

About Anual Report Plan

Ralph Nixon Samuel Lennart Michigan Chicago National Oﬃce

Para esclarecer um pouco mais o conceito de Precisão e Cobertura, utilizando-se da tabela 3, temos o total de 16 termos extra´ıdos. Desses 16 termos, apenas 4 são nomes corretos e esperávamos no total 8 nomes, então nossa Precisão é de 50%. Resultando em uma precisão média. A Cobertura são os nomes extra´ıdos corretamente sobre o total de termos que extra´ımos, resultando em apenas 25%. Isso significa que de toda informa¸cão extra´ıda, apenas 25% é relevante para o dom´ınio do sistema. Note que extraimos nomes como Michigan e Chicago, que estão corretos do ponto de vista de serem nomes, mas são nomes de lugares, e o foco é nome de pessoas.

Para a avalia¸cão real da performance temos a tabela 4 como resultante do processo de extra¸cão dos nomes na pagina Association Alzheimer. Podemos analisar que a ferra-menta possui uma precisão alt´ıssima, conseguindo encontrar todos os nomes com êxito. Em contrapartida, extrai muitos dados irrelevantes para o contexto da pesquisa que se enquadram nas regras descritas como nomes.

Tab. 4: Resultados da extra¸c˜ao

Página Nomes presentes 16 Nomes identificados pelo programa (usando expressões) 83 Nomes corretamente identificados (usando expressões) 16 Precisão/Precision 100% Cobertura/Recall 19%

O processo de avalia¸cão é muitas vezes efetuada manualmente ou semi-automatizada. Em algum ponto do processo de avalia¸cão é necessária a interven¸cão do usuário. Para o sistema saber se um dado termo extraido é um nome, o usuário que possui esse conheci-mento passa de alguma maneira para o sistema.

(36)

Devemos lembrar também que o dom´ınio atribuido ao resultado é muito importante, por exemplo, se encontrarmos um nome pela metade, devemos considerá-lo errado ou correto? Quando o nome se repete ao longo do página, devemos conta-lo apenas uma vez ou mais vezes? Questões assim dificultam o critério e devem ser relevadas para uma melhor interpreta¸cão dos dados.

(37)

37

4 Minera¸

c˜

ao de Dados na WEB

No inicio, a Web continha páginas estáticas objetivando um acesso cômodo as in-forma¸cões. Muitas páginas eram manualmente implementadas, sem contemplar muito a intera¸cão com o usuário. Geralmente seguiam a dire¸cão servidor-usuário.

Com a expansão e o acesso crescente, as páginas come¸caram a evoluir, assim como a Web. Tornando-se dinâmica, onde encontramos páginas constru´ıdas interagindo-se com o usuário. Nos encontramos neste estágio evolutivo, e caminhamos para um futuro muito mais brilhante.

E como a evolu¸cão não tem fim, estamos observando a concep¸cão da Web Semântica, discutida na se¸cão 4.4.4. Onde apenas apresentar as informa¸cões para o usuário não é o suficiente, como é preciso, expressar de uma forma semântica também para o entendimento das máquinas.

Alguns problemas podem ser encontrados pelos usu´arios quando interagem com a Web (KOSALA; BLOCKEEL, 2000):

a. Achar informa¸cões relevantes - Os usuários quando utilizam servi¸cos de pes-quisa, procuram através de palavras-chaves alguma informa¸cão na Web. O resul-tado da busca, as vezes, é enorme e com isso temos: resultados relevantes, pouco relevantes ou sem relevância;

b. Personaliza¸cão da informa¸cão - Usuários diferentes, interagem diferentemente e querem conteúdos diferentes, logo, temos o problema no lado do usuário e do próprio provedor;

(38)

4.1 Web Mining 38

extra¸cão de informa¸cão, inteligência artificial, banco de dados, recupera¸cão de informa¸cão e entre outras áreas. Ela faz parte de um todo, que auxiliam de uma maneira para a resolu¸cão dos problemas acimas citados.

4.1 Web Mining

Web Mining é o uso das técnicas de Minera¸cão de Dados para descobrir e extrair au-tomaticamente a informa¸cão de documentos na Web (ETZIONE, 1996). A Minera¸cão de Dados refere-se ao processo não trivial de identifica¸cão de padrões válidos, previamente desconhecidos e potencialmente úteis de dados (FRAWLEY; PIATETSKY-SHAPIRO; MATHEUS, 1992). Seguindo o conceito de Etzione, que utiliza da Descoberta do Co-nhecimento (KDD - Knowledge Discovery Database) como base, ele decompõe a Web Mining em quatro tarefas: Resource finding (Coleta de Documentos), Information se-lection and pre-processing (Pré-processamento), Generalization (Extra¸cão de Padrões) e Analysis (Análise).

´

E importante ressaltar que Web Mining é diferente de Recupera¸cão da Informa¸cão e Extra¸cão da Informa¸cão. Mas uma combina¸cão das técnicas em si são utilizadas nas etapas do Web Mining.

4.2 Descoberta do Conhecimento

Muitas são as defini¸cões que os pesquisadores adotam para KDD ou Minera¸cão de Dados, a mais difundida e adotada é encontrada nos trabalhos de Fayyad e seu grupo de pesquisa (FAYYAD; PIATETSKY-SHAPIRO; SMYTH, 1996a):

Knowledge Discovery Database é o processo não trivial de identifi-ca¸cão de padrões válidos, novos, potencialmente úteis e compreen-siveis que estejam presentes nos dados.

Tomamos como defini¸cão que: os dados são um conjunto de fatos, e padrões são defi-nidos em uma linguagem e descrevem um subconjunto dos dados ou um modelo aplicável aquele conjunto.

(39)

4.2 Descoberta do Conhecimento 39

O processo de Knowledge Discovery Database é um processo interativo e iterativo, composto por algumas etapas, resultando na extra¸cão de padrões. As etapas sofreram mudan¸cas no decorrer de seus estudos, alcan¸cando nove etapas (FAYYAD; PIATETSKY-SHAPIRO; SMYTH, 1996b), sendo reduzida para quatro (WEISS; INDURKHYA, 1998) e maturando-se num ciclo (REZENDE et al., 2003). Atualmente, este ciclo se divide em: Identifica¸cão do problema, Pré-Processamento, Extra¸cão de Padrões, Pós-Processamento e Utiliza¸cão do Conhecimento ( ÁLVAREZ, 2007). A figura 3 ilustra a última abordagem utilizada.

Fig. 3: Etapas do processo KDD (REZENDE et al., 2003)

4.2.1 Identiﬁca¸

c˜

ao do Problema

Para iniciarmos todo o processo, precisamos ter um conhecimento m´ınimo que seja do dom´ınio com o qual iremos trabalhar, e devemos ter claro o objetivo que almejamos. Nesta fase, constru´ımos nosso conhecimento e todas as etapas posteriores são dependentes de uma análise que cubra as metas, objetivos e restri¸cões. Criamos o conceito de útil para o sistema e para o usúario nesta fase.

(40)

4.2 Descoberta do Conhecimento 40

4.2.2 Pr´

e-Processamento

Muitas vezes os dados não se encontram formatados adequadamente para a utiliza-¸cão na etapa de extra¸cão de padrões, ou outras caracter´ısticas limitam a aplica¸cão. Para adequá-los alguma tarefas podem ser inseridas no Pré-Processamento: Integra¸cão, Trans-forma¸cão, Limpeza e Redu¸cão de Dados.

∙ Integra¸cão: Os dados muitas vezes são provenientes de diversas fontes, precisando uma unifica¸cão. Obtemos nesta fase, uma fonte única de dados para utilizar nas etapas posteriores ( ÁLVAREZ, 2007).

∙ Transforma¸cão: Para minimizar as diferen¸cas encontradas nos dados para me-lhorar sua extra¸cão, algumas transforma¸cões aplicadas são: normaliza¸cão, transfor-ma¸cão de tipo, discretiza¸cão de atributos quantitativos, entre outros (BATISTA, 2003).

∙ Limpeza: Com o conhecimento adquirido no passo de Identifica¸cão do problema, temos um embasamento melhor para remover dados indesejáveis. Alguns atributos podem estar preenchidos incorretamente ( ÁLVAREZ, 2007).

∙ Redu¸cão: Muitas vezes somos obrigados a limitar nossa a¸cão diretamente ligados a inúmeros fatores. O volume pode ultrapassar a capacidade de processamento, sendo isto observado quando executamos muitas vezes os experimentos (WEISS; INDURKHYA, 1998).

4.2.3 Extra¸

c˜

ao de Padr˜

oes

Os objetivos definidos na Identifica¸cão do Problema direcionam este passo. A execu¸cão deste passo pode ser necessária muitas vezes para procurar o resultado mais perto do objetivo. As tarefas de Minera¸cão de Dados como classifica¸cão, clustering e regras de associa¸cão são empregadas nesta etapa de acordo com o modelo escolhido para ser gerado ( ÁLVAREZ, 2007).

(41)

4.3 Etapas do Web Mining 41

4.2.4 P´

os-Processamento

Depois de extra´ıdos os padrões, o ciclo do processo ainda não é fechado, pois se apresentarmos todos os padrões ao usuário como extraimos, podemos mostrar padrões muito complicados ou que fujam dos objetivos. Com a qualidade questionável podemos executar novamente algumas etapas ou o processo inteiro. Para mensurar a qualidade temos alguns artificios como interessabilidade, compreensibilidade, precisão, cobertura e taxa de erro ( ÁLVAREZ, 2007).

4.2.5 Utiliza¸

c˜

ao do Conhecimento

´

Ultima fase do processo é onde expomos o conhecimento extra´ıdo para o usuário, ou ocorre a integra¸cão a um sistema.

A utiliza¸cão dos termos Minera¸cão de Dados ou Knowledge Discovery Database na literatura é muito nebulosa. Alguns autores consideram como sendo processos distintos, outros processos que se complementam ou nomeia o mesmo processo. Adoto neste trabalho como sendo tarefas complementares.

4.3 Etapas do Web Mining

Basicamente utilizamos os mesmos conceitos de Knowledge Discovery Database alte-rando a fonte de dados. Como nossa única fonte, utilizamos a World Wide Web. No inicio das pesquisas muitos acreditavam, e ainda acreditam, que a Web é muito instável como fonte de dados, devido a suas propor¸cões e falta de estrutura¸cão. Muitas informa¸cões são encontradas em Linguagem Natural pois o público-alvo são os humanos. Alguns defen-deram a posi¸cão de transformar a Web em um banco de dados, mas foram vencidos pelo temperamento caótico e dinâmico (ETZIONE, 1996).

(42)

Fig. 4: Etapas do processo de Web Mining

4.3.1 Coleta de Documentos

A Coleta de Documentos é uma etapa essencial para todo o processo. Definimos com quais documentos o trabalho sera efetuado. Em algumas situa¸cões os documentos fazem parte do problema como um todo, logo estarão disponiveis de inicio. Porém, em outras situa¸cões, é necessário o processo de Coleta de Documentos ( ÁLVAREZ, 2007).

Na grande rede mundial interligando computadores, desde seu inicio, houve uma co-mo¸cão para facilitar a busca de documentos. Dois grandes grupos são observados na constru¸cão de indexadores: Motor de Busca e Diretório WWW (BAEZA-YATES, 1998).

∙ Motor de Busca(Search Engine): Este grupo são formados por motores de busca que utilizam abordagens baseados em rôbos, mega-indexadores, entre outras abordagens automatizadas. O ´ındice criado é centralizado para responder consultas do mundo inteiro. Em 1998, os indexadores que cobriam a maior área eram: Hot-Bot1, AltaVista2, Nothern Light3(LAWRENCE; GILES, 1998). Atualmente, o

ran-1_{HotBot - http://www.hotbot.com} 2_{AltaVista - http://www.altavista.com}

(43)

king é composto por: Google4, AlltheWeb5, AltaVista (VAUGHAN; THELWALL, 2004). Alguns search engines se especializam em tópicos, como o SearchBroker6. Neste grupo, incluimos também os metaseachers, que são servi¸cos disponiveis que coletam respostas de diversos search engines e unificam. Como exemplos, temos o MetaCrawler7 e SavvySearch8 (BAEZA-YATES, 1998).

∙ Diretório WWW: Utiliza uma classifica¸cão próxima do conhecimento humano, na representa¸cão de diretórios de assunto, que se estruturam como árvores. Uma grande vantagem desta técnica é a resposta ser, na maiora dos casos, útil. A desvantagem é a falta de especializa¸cão e volume de páginas classificadas, esta última desvantagem se deve ao crescimento exponencial de informa¸cões que são inseridas na WWW todos os dias. Um grande exemplo deste grupo é o Yahoo!9 (BAEZA-YATES, 1998).

Um ponto muito importante nesta etapa, é que os documentos coletados estarão na sua maioria em muitos formatos, sendo necessário um tratamento para unificar um padrão.

4.3.2 Pr´

e-Processamento

Após a coleta de todos os documentos possiveis, na etapa anterior, partimos para o pré-processamento destes documentos. É nesta etapa que transformamos uma cole¸cão de documentos em uma representa¸cão estruturada adequada. O custo computacional é elevado. Constantemente é adotado a representa¸cão de um documento como um conjunto de palavras, chamado de abordagem bag-of-words ( ÁLVAREZ, 2007).

Representa¸cão de Documentos A abordagem bag-of-words consiste em representar cada documento da cole¸cão como um vetor de termos contidos no mesmo. Cada termo que ocorre no documento pode ser composto por apenas uma palavra ou várias palavras. Para

4_{Google - http://www.google.com} 5_{AlltheWeb - http://www.alltheweb.com} 6_{SearchBroker - http://www.searchbroker.com} 7_{MetaCrawler - http://metacrawler.com} 8_{SavvySearch - http://www.savvysearch.com} 9_{Yahoo! - http://www.yahoo.com}

(44)

identificar todos os termos presentes, é efetuado uma tokeniza¸cão dos termos ( ÁLVAREZ, 2007).

Redu¸cão de Representa¸cão Feita a representa¸cão, podemos ter em mãos um volume enorme para processar, e as vezes, somos limitados no processamento e armazenamento de tanta informa¸cão. Com esta finalidade, utilizamos algumas técnicas para auxiliar na redu¸cão:

Filtragem Na filtragem, almejamos a remo¸cão de termos com pouca ou nenhuma relevância para a análise. Em geral, removemos artigos, preposi¸cões e conjun¸cões.

Podemos também supor que termos que aparecem muitas vezes no documento, não revelam muitas informa¸cões sobre o documeto. Analogamente, termos que aparecem pouco também podem ser excluidos (YANG; PEDERSEN, 1997).

Stemming Nos documentos, as palavras podem ser encontradas flexionadas em diversas formas e as vezes compartilham a mesma raiz semântica. O processo de steam-ming consiste em reduzir estas formas encontradas na raiz (stem). Podemos citas Porter (PORTER, 1997) e Lovins (LOVINS, 1968) como grandes pesquisadores nesta área. Para a lingua portuguesa, temos o STEMBR : A stemming algorithm for the brazilian portu-guese language.

Filtragem e Stemming são apenas algumas das técnicas envolvidas no Pré-Processamento, podemos adotar muitas outras que trabalham no âmbito semântico, hierarquico, com atri-butos relevantes, etc.

Pré-processamento Lingu´ıstico Esta etapa é essencial em cenários onde a mine-ra¸cão tem como objetivo o reconhecimento de nomes próprios, lugares e organiza¸cões, e se faz necessário um pré-processamento lingu´ıstico. As seguintes tarefas são adotadas no processo:

(45)

∙ Etiquetagem morfossintática (Part-Of-Speech Tagging ) No texto, encontra-mos palavras, s´ımbolos, fórmulas matematicas, entre outros termos. A etiquetagem morfossintática tem como tarefa atribuir uma etiqueta para cada termo encontrado de acordo com sua categoria.

∙ Reconhecimento de frases Com o agrupamento de termos, analisando o docu-mento, tem como objetivo formar senten¸cas (WEISS; INDURKHYA, 1998).

∙ Desambigua¸cão no sentido de palavras A ambiguidade pode gerar transtornos em análises futuras, por isto, procura-se eliminar qualquer ambiguidade no sentido das palavras. Em algumas linguas essa elimina¸cão é facilmente alcan¸cada, porém, outras precisam de um conhecimento muito mais aprofundado na própria lingua e o dominio da aplica¸cão.

∙ Parsing Com a gera¸cão da árvore sintática de uma senten¸ca, criamos a possibi-lidade de analisarmos a rela¸cão existente entre as palavras da senten¸ca. Podemos extrair o sujeito, objeto, entre outros, analisando a fun¸cão exercida pela palavra no contexto da sente¸ca ( ÁLVAREZ, 2007).

As técnicas são frequentemente utilizadas visando uma melhoria para a utiliza¸cão na Minera¸cão de Dados.

4.3.3 Extra¸

c˜

ao de Padr˜

oes

Após o tratamento dos documentos e seus dados, temos como resultado um conjunto em formatos que terão um aproveitamento melhor para a Extra¸cão de Padrões. Com a aplica¸cão da Extra¸cão de Padrões a obten¸cão de um conhecimento útil e interessante para o usuário será possivel.

Algumas tarefas relacionadas com a Minera¸cão de Dados, utilizam muitos algoritmos de Aprendizado de Maquiná, que também são utilizados na Extra¸cão de Padrões.

(46)

Clustering de Documentos Com a cole¸cão de documentos em mão, o processo de agrupar os documentos similares, agrupando assim documentos com conteúdos relativa-mente similares. Estes grupos recebem o nome de cluster, e o processo de Clustering de Documentos. No final deste processo, teremos cluster com documentos similares, mas clusters distintos entre si (ZHONG; GHOSH, 2003).

Categoriza¸cão A partir de um conjunto de classifica¸cão pré-definido, com um docu-mento novo induzimos um classificador a enquadra-lo numa categoria. Muitas dificulda-des são encontradas, pois o documento pode pertencer a nenhum, uma ou mais categorias (YANG; PEDERSEN, 1997).

Extra¸cão de Informa¸cão Como Wilks define, Extra¸cão de Informa¸cão, extrai in-forma¸cão de textos em documentos, utilizando computadores numa velocidade alta, e normalmente encontrada de fontes eletrônicas. Prece de uma fase de Recupera¸cão de Informa¸cão, que seleciona um conjunto apropriado para a extra¸cão (WILKS, 1997). Ex-tra¸cão de Informa¸cão é discutido no cap´ıtulo 3.

Sumariza¸cão O processo de Sumariza¸cão consiste em construir um terceiro documento contendo um sumário com as informa¸cões mais importantes do documento análisado, buscando sempre que este sumário contenha metade ou menos do tamanho do documento original. Identificar partes importantes no documento continuam sendo um grande desafio nesta área (RADEV; HOVY; MCKEOWN, 2002).

Extra¸cão de Informa¸cão e Minera¸cão de Dados partilham algumas dificuldades como a estrutura¸cão do documento, a l´ıngua e o estilo de linguagem utilizada na formata¸cão do documento, e o próprio conteúdo do documento.

4.3.4 Avalia¸

c˜

ao e Interpreta¸

c˜

ao de Resultados

Para concluirmos o ciclo ou refazer algumas etapas, avaliamos o quanto o processo se aproximou do objetivo almejado. A avalia¸cão pode ser feita pelos usuários finais ou

(47)

4.4 Categorias de WEB Mining 47

especialistas, que possuem um conhecimento profundo do dominio ( ÁLVAREZ, 2007). Algumas das métricas são compartilhadas com a Extra¸cão de Informa¸cão, como Pre-cisão, Cobertura ou F-measure. Elas são abordadas no capitulo 3 na se¸cão 3.4.

A ilustra¸cão dos dados em elementos gráficos pode, e muito, auxiliar a análise e com-preensão dos dados por seres-humanos. Conseguimos interpretar, armazenar muito mais informa¸cões gráficas do que tabelas, diferentemente das máquinas. Podemos trabalhar com dados muito mais complexos através de gráficos, podendo assim interagir com deci-sões muito mais rápidas. O tipo de gráfico empregado para a visualiza¸cão é de extrema importância, uma vez que se escolhermos gráficos que sejam dif´ıceis de interpretar, em nada ajudarão na avalia¸cão (KEIM; SOCIETY, 2002).

4.4 Categorias de WEB Mining

Com o crescimento exponencial das fontes de informa¸cão disponiveis na World Wide Web ao nosso redor, cresce a necessidade de automatizar ferramentas que busquem as informa¸cões desejadas e corretamente. Ferramentas mais eficazes no rastreamento, tanto do lado dos servidores como dos clientes, são comumente alvos de pesquisas e projetos na busca de uma minera¸cão de dados. Do lado dos servidores, temos extensas listas de logs, registros de usuários ou perfil de usuário, entre outros itens que podem ser análisados (COOLEY; MOBASHER; SRIVASTAVA, 1997b). Na figura 5 podemos observar um esbo¸co da taxonomia.

Esta taxonomia pode ser montada atrav´es da jun¸c˜ao dos trabalhos de Cooley (COO-LEY; MOBASHER; SRIVASTAVA, 1997b) e Kolari (KOLARI; JOSHI, 2004).

4.4.1 Minera¸

c˜

ao de Conte´

udo

A falta de estrutura¸cão que domina as fontes de informa¸cão na Internet dificulta a organiza¸cão, administra¸cão, manuten¸cão e busca automatizada de informa¸cão. As search engines são ferramentas que provêm algum conforto, mas geralmente não filtram,

(48)

interpre-4.4 Categorias de WEB Mining 48

Fig. 5: Taxonomia da Minera¸c˜ao na WEB

tam os documentos que retornam nas buscas (COOLEY; MOBASHER; SRIVASTAVA, 1997b).

A Minera¸cão de Conteúdo e a Recupera¸cão de Informa¸cão são muitas vezes utilizadas em conjunto. Enquanto uma realiza a minera¸cão diretamente do conteúdo dos documentos a outra incrementa o poder de busca de outras ferramentas e servi¸cos. Áudio, v´ıdeo, dados simbólicos, metadados e v´ınculos de hipertexto fazem parte do conteúdo de documentos da Web atualmente, e como tal, na minera¸cão de conteúdos também são analisados. Existem ´

areas de pesquisas destinadas a minera¸c˜ao de dados multim´ıdias, entretanto, como uma enorme parte da Web ´e constitu´ıda de texto e hipertexto, permanecendo assim o foco em dados de texto.

Com o continuo crescimento da Web, as pesquisas voltadas para ferramentas mais eficazes, melhorias nas técnicas de minera¸cão e extra¸cão de dados se desenvolveram. Po-demos observar duas grandes abordagens quando tratamos de Minera¸cão de Conteúdo: Baseado em Agente (Agent-Based ) e Banco de Dados (Database).

Baseado em Agente (Agent-Based ) Esta abordagem de minera¸cão de dados tra-balha diretamente com o campo de Inteligência Artificial, provendo um sistema autônomo ou semi-autônomo, que trabalha para a coleta de conhecimento e organiza¸cão das infor-ma¸cões na WEB delimitado pelo escopo do sistema. Dentro desta abordagem, temos as seguintes categorias:

(49)

Agentes de Busca Inteligentes (Intelligent Search Agents) Muitos sis-temas de Agentes Inteligentes utilizam informa¸cões caracteristicas de um dom´ınio para organizar e interpretar essas informa¸cões de uma forma totalmente autônoma. Como exemplo, temos alguns trabalhos como o Harvest (BOWMAN et al., 1995), FAQ-Finder (HAMMOND; BURKE; SCHMITT, 1994), OCCAM (KWOK; WELD, 1996) e ParaSite (SPERTUS, 1997) que extraem e interpretam documentos através de um dominio espe-c´ıfico. Outros agente como ShopBot (DOORENBOS; ETZIONI; WELD, 1997) e ILA (Internet Learning Agent) (ETZIONI; PERKOWITZ; ETZIONI, 1995) através de estru-turas de fontes de informa¸cão não familiares tentam através da intera¸cão, aprender novos comportamentos. ShopBot coleta informa¸cões de produtos em vários sites de venda utili-zando apenas informa¸cões gerais dos produtos, enquanto o ILA aprende com os modelos e traduz para um conceito interno do sistema (COOLEY; MOBASHER; SRIVASTAVA, 1997b).

Categoriza¸cão e Filtragem de Informa¸cão Muitos agentes Web utilizam tecni-cas de Recupera¸cão de Informa¸cão para automaticamente filtrar e categorizar documentos da Web. O BO (Bookmark Organizer) combina técnicas de clustering e intera¸cão com o usuário para orgazinar o conjunto de documentos baseado em informa¸cão conceitual (MAAREK; SHAUL, 1996). O HyPursuit usa informa¸cão semântica embutida nos links e no conteúdo em si dos documentos para criar uma hierarquia de cluster de hipertex-tosm e estruturar as informa¸cões (WEISS et al., 1996). Google News10 atualmente é uma das ferramentas mais populares que classifica noticias de mais de 4.000 fontes (KOLARI; JOSHI, 2004).

Personaliza¸cão Outra categoria de agentes Web incluem aqueles que obtêm ou aprendem as preferencias do usuário e procuram fontes de informa¸cão na Web que corres-pondam aquelas preferências, e possivelmente, utilizando filtragem colaborativa, procuram interesses similares. Exemplos que utilizam esta abordagem são WebWatcher (ARMS-TRONG et al., 1995), PAINT (OOSTENDORP; PUNCH; WIGGINS, 1994), Firefly

(50)

(SHARDANAND; MAES, 1995) e Syskill&Webert (PAZZANI; MURAMATSU; BILL-SUS, 1996).

Banco de Dados (Database) A abordagem de Banco de Dados, como o nome pressupõem, trabalha com a organiza¸cão e integra¸cão dos documentos semi-estruturados para um documento estruturado, como em um banco de dados relacional, usando inclusive consultas e mecanismos de banco de dados para acesso e analise das informa¸cões.

Banco de Dados em Multin´ıveis Uma organiza¸cão das informa¸cões em multin´ı-veis é proposto por muitos pesquisadores. No n´ıvel principal são encontrados informa¸cões armazenadas de forma semi-estruturadas em vários repositórios na Web. Em n´ıveis acima do principal, encontramos meta-dados ou generaliza¸cões que são extra´ıdas das camadas abaixo e organizadas de forma com uma estrutura rigida como um modelo relacional ou orientado objeto (COOLEY; MOBASHER; SRIVASTAVA, 1997b). Em uma das pesqui-sas desenvolvidas por Han e seu grupo de pesquisa, utilizam um banco de dados de multi-camadas onde cada camada é obtida com opera¸cões de transforma¸cões e generaliza¸cão das camadas inferiores (ZA¨ıANE; HAN, 1995). O sistema ARANEUS extrai informa¸cões relevantes de documentos de hipertexto e integra em documentos derivados de hipertexto que são generaliza¸cões de views de banco de dados (ATZENI; MECCA; MERIALDO, 1997).

Sistemas de Consulta Web (Web Query Systems) Nesta abordagem, a uti-liza¸cão de queries são utilizadas procurando uma aproxima¸cão das linguagens de consulta como SQL. Cria-se uma abstra¸cão para o usuário final que consulta como se estivesse consultado um banco de dados, quando na realidade existe uma estrutura¸cão semântica em cima da semi-estruturada Web. Como exemplo, podemos citar WebLog (LAKSHMA-NAN; SADRI; SUBRAMANIAN, 1996) que utiliza uma linguagem de consulta baseado em lógica para reconstruir a informa¸cão extraida das fontes na Web. Seguindo a mesma vertente, temos o WebSQL (MENDELZON; MIHAILA; MILO, 1996).