• Nenhum resultado encontrado

VISÃO GERAL DA SOLUÇÃO

No documento Diogo Luiz Bizatto.pdf - IIS Windows Server (páginas 86-93)

A ferramenta possui duas partes principais. A área de administração permite o gerenciamento das coleções de documentos, a edição da stoplist e a manutenção do dicionário de tesauros. A outra é destinada para a realização das buscas por documentos.

Na área administrativa, após sua autenticação, o usuário possui as opções de listar as coleções criadas, visualizar os logs de indexação, criar uma nova coleção, criar ou editar um tesauro e editar a stoplist. A página principal do painel de administração pode ser visualizada através da Figura 38.

Figura 38. Painel de administração do sistema.

72

No painel principal são exibidas informações sobre as coleções de documentos, como o tamanho do índice, a quantidade de documentos indexados, a quantidade de termos e as operações de pré-processamento textual que foram realizadas (“bolinhas” verdes indicam as operações ativadas e vermelhas, operações desativadas). Também se pode obter informações adicionais sobre os índices, o status da indexação (“bolinhas” verdes sinalizam o fim da indexação, amarelas que a indexação está em andamento e vermelhas correspondem às coleções aguardando para serem indexadas). É possível reindexar uma coleção, visualizar os logs de indexação e excluir uma coleção.

Na Figura 39 são exibidos detalhes de uma coleção de documentos, onde se pode visualizar os tokens mais freqüentes da coleção.

Figura 39. Informações adicionais de uma coleção.

73

Nesta tela o usuário pode visualizar informações sobre a coleção selecionada, bem como identificar através da listagem dos tokens mais freqüentes, palavras candidatas a stopwords que podem ser adicionadas através da área de edição da stoplist, exibida na Figura 40.

Figura 40. Tela de edição da stoplist.

As stopwords devem ser separadas por vírgula, o sistema realiza uma verificação para evitar que palavras repetidas sejam incluídas. As stopwords são gravadas no banco de dados para que, posteriormente, possam ser utilizadas no pré-processamento dos documentos.

O sistema também possibilita a criação de um dicionário de tesauros. A respectiva tela pode ser visualizada na Figura 41.

74

Figura 41. Tela que permite a criação do dicionário de tesauros.

Para cadastrar um item de tesauro é necessário inserir um termo ideal e seus sinônimos separados por vírgula, sendo que, para evitar palavras repetidas nos termos ideais e nos sinônimos, o sistema realiza uma verificação. A estrutura de tesauros é armazenada em um banco de dados para posterior criação de uma estrutura em memória para realização do pré-processamento.

Para realizar as pesquisas foram elaboradas duas telas, uma para busca simples (Figura 42) e uma para busca avançada (Figura 43).

75 Figura 42. Tela de busca simples.

Na tela de busca simples é exibida uma caixa de texto onde o usuário pode digitar as palavras chave para identificar os documentos que deseja buscar, podendo ser selecionada a coleção na qual deseja-se realizar a busca ou buscar em todas as coleções, caso seja necessário. A quantidade de resultados retornados pela busca também pode ser selecionada.

Uma palavra-chave é dividida em termo e operadores. Existem dois tipos de termos, simples e compostos. O termo simples é aquele que contém uma única palavra, como “indexação”. O termo composto é um grupo de palavras entre aspas como, “indexação de documentos”.

Algumas palavras e caracteres comuns, sem conteúdo semântico são descartados, pois no momento da busca é realizado um pré-processamento do texto melhorando a qualidade da busca.

Ou seja, são automaticamente descartados termos como "de" e "para", assim como dígitos ou letras isoladas, porque raramente ajudam na busca e podem torná-la consideravelmente mais lenta.

Pode ser utilizado o operador "+" ou “AND” para indicar que a palavra obrigatoriamente deve estar contida nos documentos, como também pode ser utilizado o operador “-” ou “NOT”, indicando que a palavra não deve estar contida em nenhum dos documentos retornados pela busca.

O operador “OR” indica documentos que contenham qualquer uma das palavras contidas na expressão de busca (o sistema automaticamente identifica espaços entre as palavras como o operador “OR”).

76

Assim, são possíveis várias combinações para realizar uma busca. Na Tabela 7 são exibidos os operadores que podem ser utilizados nas buscas, bem como exemplos de utilização.

Tabela 7. Buscas avançadas.

Operador Descrição Exemplo

OR ou “espaço”

Permite buscar documentos que contenham qualquer uma das palavras, pode ser utilizado espaço ao invés do operador.

Apache OR Lucene ou

Apache Lucene

AND ou “+”

Permite selecionar os documentos que contenham todas as palavras, em qualquer ordem.

Apache AND Lucene Ou

+Apache + Lucene

NOT ou “-” Exclui dos resultados documentos que contenham a palavra.

Apache NOT Jakarta ou

Apache -Jakarta

Agrupamentos

booleanos Permite criar expressões avançadas. (“apache lucene”) NOT jakarta

“~” Busca palavras dentro de uma distância

específica entre elas. “Apache Lucene”~8

Podem ser realizadas combinações dos operadores com termos compostos, como o exemplo da Equação 16.

+indexação +(+"apache lucene" ) +(busca booleana) -jakarta Equação 16

No exemplo, serão retornados os documentos que contém a palavra “indexação”, exatamente a expressão “apache lucene”, qualquer ocorrência, de uma das palavras, “busca” ou

“booleana” e que não contém a palavra “jakarta”.

Foi criada uma tela de busca avançada para auxiliar os usuários com dificuldade na construção de sua busca, abstraindo os operadores booleanos, agrupamento de palavras e buscas compostas que, muitas vezes, requerem dos usuários conhecimento de lógica booleana. A tela pode ser visualizada na Figura 43.

77 Figura 43. Tela de busca avançada.

A tela de busca avançada permite buscar documentos com todas as palavras, com exatamente uma expressão, com pelo menos uma das palavras e sem as palavras da expressão.

Podem ser selecionados os formatos de arquivos desejados, a quantidade de resultados e também em qual coleção de documentos a busca será realizada.

A tela que exibe os resultados da busca é apresentada na Figura 44. Os resultados são ordenados por similaridade, sendo que, os documentos mais similares serão os primeiros a serem exibidos. No lado esquerdo são exibidos os agrupamentos dos documentos, ou seja, grupos que contém os documentos similares entre si (Clusters). Pode ser realizada uma busca por documentos similares a partir de um documento retornado pela busca, clicando em “Buscar similares”.

Figura 44. Resultados da busca.

78

Na Figura 44 são exibidos os resultados de uma busca pela palavra chave “RESOLUÇÃO 1.081” e, neste caso, somente um resultado foi encontrado. A busca foi efetuada em 62 milissegundos e o tempo total para montar a página e exibi-la também foi de 62 milissegundos.

Como foi retornado apenas um documento na busca, o tempo de clusterização é praticamente nulo.

Enfim, o sistema desenvolvido permite métodos de busca utilizados nos sistemas de busca mais modernos, e ainda, contemplando todo o conteúdo dos documentos, fornecendo uma simples e amigável interface de utilização.

No documento Diogo Luiz Bizatto.pdf - IIS Windows Server (páginas 86-93)

Documentos relacionados