O WEB CRAWLER - Rafael de Faria Scheidt.pdf

O sistema proposto pode ser compreendido basicamente pela Figura 8, na qual se mostram os macroprocessos do sistema. Em linhas gerais, o processo inicia-se com o apontamento do link a ser indexado e o apontamento da seleção dos arquivos a serem indexados. Pode-se optar por indexar arquivos HTML, PDF e/ou DOC.

Figura 8. Processo de indexação e pesquisa

Partindo-se da premissa de que essa estrutura está pronta, necessita-se agora de um alvo de aplicação do web crawler. O aconselhável é aplicar esse tipo de estrutura em centros de pesquisa com grande volume de recursos onde se possa extrair informações realmente relevantes para a instituição.

O presente trabalho está focado na instituição de ensino superior UNIVALI, da qual todos os trabalhos de conclusão de curso desenvolvidos pelos alunos se encontram em uma ferramenta de gerenciamento de materiais chamada Pergamum.

3.4.1 Pergamum

O Pergamum é o Sistema Integrado de Bibliotecas adotado pela UNIVALI. Nele é possível consultar acervos de livros e materiais em geral. O sistema foi implementado na arquitetura cliente/servidor na linguagem Delphi e possui banco de dados relacional SQL. O sistema contempla os principais recursos de uma biblioteca, desde a aquisição até o empréstimo, o que o torna um software de gestão de biblioteca. Iniciou-se sua comercialização em 1997, e hoje está funcionando em 145 instituições, tais como UNIVALI, UFSC, UNISUL, UDESC, UFRRJ, entre outras.

Entretanto, o Pergamum é um software voltado especificamente para o gerenciamento de bibliotecas, suas funções para busca são previamente cadastradas. Sendo assim, ele busca somente por palavras-chaves que o operador do sistema anteriormente cadastrou.

Uma funcionalidade importante que o Pergamum possui para o presente trabalho é a de que os trabalhos de conclusão de curso são cadastrados como uma aquisição da biblioteca. Assim, pode- se consultar por todos os trabalhos de conclusão de curso que ele contém, como mostra a Figura 9.

Figura 9. Pergamum, Sistema Integrado de Bibliotecas

A Figura 9 mostra a parte de pesquisa do Pergamum, no campo “Material” foi selecionada a opção “On-line” e no campo “palavra-chave” está sendo procurada a palavra “trabalho”, isso quer dizer que a busca vai ser dar pelos trabalhos de conclusão de curso com esses filtros que foram selecionados. Como resposta, o sistema mostra o nome do autor do trabalho e o link para se fazer o

download do arquivo PDF². Neste ponto torna-se relevante ressaltar que a ferramnta Pergamum começou a ser utilizada a partir do ano de 2004, porém nela estão contidos trabalhos científicos de anos anteriores.

3.4.2 Funcionamento do Web Crawler

Como a ferramenta de repositório de trabalhos científicos é uma ferramenta pública, como descrito no item anterior, é utilizada em outras instituições de pesquisa para armazenar os trabalhos.

Com base nessas informações, torna-se necessária uma interface gráfica para o usuário operar a ferramenta de web crawler, tornado-a mais flexível e visando a uma possível mudança de instituição-alvo.

A Figura 10 mostra a chamada da área administrativa do web crawler por meio da qual se pode configurar atributos relativos à execução do web crawler.

2 O link da resposta do Pergamum que está na barra de endereço é:

<http://siaibib01.univali.br/search_htdig/htsearch.exe?config=htdig&restrict=&exclude=TRABALHO&material=TO25 ON&biblioteca=&words=trabalho+and+%28TO25ON&sort=title&method=and&format=long[0]>.

Figura 10. Área administrativa referente ao web crawler

O primeiro atributo “Link que será indexado” trata-se do link inicial por meio do qual o sistema de crawler dará início às buscas. Esse mesmo link, que foi devolvido como mostrou o item anterior, faz uma consulta pelos trabalhos de conclusão de curso e utiliza a palavra “trabalho” como palavra-chave. Essa palavra foi utilizada, pois consta na maioria dos documentos nos quais o Pergamum faz uma pesquisa por um campo pré-cadastrado chamado de “Nota de Grau Acadêmico”, em que o valor pode ser “Trabalho acadêmico (graduação) - Universidade do Vale do Itajaí, 2006”.

No segundo campo “Endereço do índice” ficarão armazenados o arquivo gerado pelo sistema de crawler, um índice invertido contendo todas as palavras encontradas no texto e sua respectiva referência de link. Esse arquivo é chamado também de banco de dados ou documentos indexados, ele será a fonte consultável para a próxima etapa de pesquisa.

O terceiro campo “Palavra domínio” servirá como um moderador para que o sistema não encontre rotas de outros sites de links contidos na página e acabe perdendo o foco da indexação.

O quarto campo “Agendar para rodar dia” serve para marcar uma data futura para que seja ativado o sistema de crawler automaticamente.

Enfim, o quinto campo é uma área de escolha das extensões dos arquivos que serão indexados pelo sistema. No caso do presente trabalho, todos os documentos estão no formato PDF.

Após a configuração manual do sistema, como mostra a Figura 10, ele irá indexar todos os documentos do tipo PDF que se encontram no link requisitado pelo usuário³ e todos os links contidos dentro dessa página recursivamente, sempre respeitando a palavra domínio.

Segundo Wikipédia (2007), a palavra “link” pode ser definida como:

Uma hiperligação, ou simplesmente uma ligação (também conhecida em português pelos correspondentes termos ingleses, hyperlink e link), é uma referência num documento em hipertexto a outro documento ou a outro recurso. Como tal, pode-se vê-la como análoga a uma citação na literatura. Ao contrário desta, no entanto, a hiperligação pode ser combinada com uma rede de dados e um protocolo de acesso adequado e assim ser usada para ter acesso direto ao recurso referenciado. Este pode então ser gravado, visualizado ou mostrado como parte do documento que faz a referência.

Para uma melhor compreensão, a palavra “indexar” pode ser entendida como uma leitura completa do documento, indexando todo o seu conteúdo, no caso aqui um documento científico em formato PDF, para que se possa realizar buscas de uma forma otimizada e de fácil acesso às palavras contidas no índice. As pesquisas realizadas nesse índice podem ser consideradas equivalentes à pesquisa em banco de dados, nos quais por meio de comandos pode-se obter informações valiosas.

3.4.3 A Composição do Índice

Ainda com relação ao processo de crawler e à geração do índice, é interessante ressaltar a formação desse índice e as colunas das quais eles serão compostos. Essa formação do índice e a forma de pesquisa das palavras podem ser comparadas a uma busca em um banco de dados relacional por meio de comando SQL. Os índices a seguir foram especificados anteriormente, e julgou-se necessário os seguintes itens:

- autor: alunos que escreveram o trabalho;

3 Link requisitado pelo usuário na tela do sistema:

"http://siaibib01.univali.br/search_htdig/htsearch.exe?config=htdig&restrict=&exclude=TRABALHO&material=TO25 ON&biblioteca=&words=trabalho+and+%28TO25ON&sort=title&method=and&format=long"

- data do trabalho: data de entrega do trabalho;

- orientador: quem orientou o autor do trabalho;

- curso: a que curso pertence o trabalho;

- palavra-chave: as palavras-chaves do trabalho;

- texto: texto completo referente ao arquivo PDF indexado; e - Url: local onde se encontra o arquivo original.

Na Figura 11 está sendo utilizada a ferramenta Luke para acessar diretamente⁴ o índice. Essa ferramenta permite realizar consultas e visualizar os resultados. Como se pode observar, está sendo feita a pesquisa pela palavra “ciência da computação” no campo “texto”. Como resultado, são encontrados 80 documentos contendo essa palavra composta.

Figura 11. Pesquisa por “ciência da computação” com a ferramenta Luke

Essa mesma pesquisa poderia ser realizada sobre qualquer índice previamente especificado, como exemplo poderia ser feita uma pesquisa sobre o índice “curso” com a palavra “direito”, a qual retornaria todos os trabalhos científicos referentes a esse determinado curso.

No documento Rafael de Faria Scheidt.pdf - Univali (páginas 46-53)