Extração de informação na Internet - Anotação automática e recomendação personalizada de docume

4.2.1 Leitura automática de sites

Os sites que formam uma rede universitária reúnem profissionais ou estudantes com neces- sidades intelectuais semelhantes e por isso constituem, de certa forma, Comunidades de Prática, grupos que podem ser identificados por meio da análise do conteúdo textual existente em pági- nas dos sites de departamentos e outros órgãos da Universidade de Brasília. Com uma Filtragem baseada em Conteúdo (cf. p. 2.3.3) é possível relacionar estes interesses ao conteúdo específico dos vídeos selecionados. E o mesmo tipo de programa usado para a navegação na Internet, capaz de ler códigos da Web e apresentar texto e imagem visualmente organizados, é usado no módulo DOCBUSCA para a extração das informações em sites, como está detalhado na seção 5.1.2.

A informação existente em páginas codificadas em HTML e PHP é de fácil captura, pois são baseadas em texto, no entanto a configuração atual da Web permite a existência simultânea de muitos outros tipos de arquivos e serviços – como o acesso a banco de dados por exemplo –, que dificultam sobremaneira a identificação e extração de informações textuais. No processo mais usual, todo o conteúdo de um site é transferido para o computador do pesquisador e posteriormente analisado, mas existem também métodos para realizar a extração do texto diretamente do servidor remoto e apresentá-lo devidamente formatado. Para conhecer estes processos foram realizados testes com alguns softwares de busca e indexação como o Swish-e, capaz de criar rela- tórios de vários tipos e que tem o código livre; o TropesZoom, sistema comercial muito eficiente e preparado para busca em português; e o Isobel, que pode recuperar documentos em formatos PDF e RTF entre outros. Contudo, com o objetivo de facilitar a integração das diversas ferramentas necessárias ao sistema proposto, foi utilizado um aplicativo mais elementar, voltado apenas para o acesso à Internet mas que permite a extração textual do conteúdo codificado em páginas do tipo HTML e PHP, o software Lynx.

O Lynx6 é um navegador capaz de apresentar um resultado em texto formatado de páginas na Web, indicando links e identificação de figuras e outros objetos, e também é um programa em linha de comando que pode extrair o texto presente em arquivos HTML, XML, PHP e outros, de sites inteiros. Utilizado com a opção de busca em árvores de diretórios, o Lynx pode criar um

arquivo-texto individual para cada página de um site e, posteriormente, estes arquivos podem ser reunidos em um texto único com todo o conteúdo textual do site.

Criado para que sistemas operacionais que não contam com interface gráfica possam acessar a Web em modo texto o Lynx tem sido usado também para auxiliar a leitura de páginas por deficientes visuais, com um módulo que facilita o uso de sintetizadores de voz. Outros programas semelhantes são o links, o elinks e o w3m. Com o Lynx se pode examinar todo o conteúdo textual de um site, tanto o texto apresentado no navegador quanto o texto-fonte em HTML. Isso possibilita a fácil extração e categorização dos diversos elementos presentes nas páginas, como os endereços de e-mails por exemplo. A esse resultado podem ser aplicadas diversas ferramentas que complementam a formatação e permitem selecionar as partes de interesse. Utilitários comuns no ambiente do shell Unix como grep, awk, sed ou scripts em Perl são utilizados para extrair endereços de e-mail. Por exemplo; a expressão em Perl a seguir retorna e-mails de um texto corrido:

perl -wne’while(/[\w\.]+@[\w\.]+\w+/g){print "\$&\n"}’

O Lynx produziu o texto base que reflete o conteúdo das páginas que compõem um site, para posterior processamento tanto por um utilitário de edição/seleção de texto quanto por um sumarizador, o que será examinado no próxima seção. Procurando por subdomínios da rede UnB foram localizadas, com a pesquisa no Googlelabs7, um número aproximado de 300.000 páginas dentro do domínio ”unb.br”. Poder-se-ia copia-las todas para um banco de dados único para todos os filmes, e indexar todo o conteúdo destas páginas, mas conservar todo este conteúdo exigiria um grande poder de armazenamento. Uma abordagem mais dinâmica é acionar um mecanismo de busca individual para cada filme, levando em conta inclusive a rápida mudança que sofrem as páginas na Web.

Assim, como componente do programa DOCBUSCA foi adotado o Lynx e seu clone mais adaptado à leitura de javascript, o Links28. Sobre o texto extraído pela leitura de páginas será feita uma sumarização que serve de base para a busca das palavras-chave atribuídas a cada filme, e a obtenção deste extrato é o assunto da próxima seção.

7_{http://labs.google.com/} 8_{http://links.twibright.com/}

4.2.2 Sumarização de texto

O texto extraído dos sites será submetido a uma busca textual usando como itens de busca a seqüência de palavras-chave associadas aos filmes nos passos anteriores. Em sites compostos por muitas páginas e conseqüentemente por muito texto, é interessante realizar uma condensação prévia obtendo extratos, o que pode reduzir o tempo de busca e possivelmente limitar o texto aos assuntos mais relevantes no site. Foram realizados testes com alguns sumarizadores disponí- veis, dos quais somente o OTS apresentou possibilidade de integração ao módulo DOCBUSCA: TropesZoom9 é um sistema comercial, oferece um demo limitado no número de documentos analisados. Tem o melhor suporte para o Português e permite vários tipos de análise; Isobel10, sistema poderoso e de uso livre capaz de acessar diversos protocolos, faz conversão de documentos “.pdf”, “.doc” e outros; análises gráficas, indexação e armazenagem, registros em XML e tem ferramentas estatísticas. É eficiente e rápido porém ocupa muito espaço para guardar todas as páginas que indexa; GistSumm11 é um dos primeiros sumarizadores automáticos para o Por- tuguês do Brasil. Baseado em um método de sumarização extrativa (as sentenças do sumário são retiradas integralmente do texto) e estatística, que utiliza a contagem da freqüência de palavras para determinação do que é relevante e pode ser usado apenas para pesquisas; OTS (Open Text Summarizer)12, sumarizador livre e que tem suporte ao Português. O programa é capaz de selecionar as partes mais importantes de um texto e apresentá-las isoladas ou como anotações no texto original. Pode-se também definir uma razão de sumarização. Com o OTS se eliminam re- petições e redundâncias, obtendo-se um texto reduzido mas que preserva os aspectos conceituais mais relevantes do texto original. O OTS tem sido usado no ambiente acadêmico e alcançado excelentes marcas em comparação com outros sumarizadores, inclusive comerciais.

Como exemplo de uso, o quadro a seguir mostra o resultado da sumarização obtida com o OTS sobre uma tradução do artigo “As We May Think", de Vannevar Bush (BUSH, 1945). Este artigo foi originalmente publicado em “The Atlantic Review”, em julho de 1945. A tradução não é do artigo completo, mas apenas de partes selecionadas, e foi realizada por Eduardo O. C. Chaves, com base no texto reimpresso em Steve Lambert e Suzanne Ropiequet, orgs., CD- ROM:“The new papyrus - the current and future state of the art” Redmond: 1986.

9_{http://www.acetic.fr/zoom.htm} 10_{http://www.isobel-project.org/}

11_{http://www.icmc.usp.br/ taspardo/GistSumm.htm, acesso em 15 junho de 2007.} 12_{http://libots.sourceforge.net/}

A tradução de “Como podemos pensar” contém 3.000 palavras. O texto foi sumarizado na proporção de 15%, tem 180 palavras, e coerentemente apresenta a justificativa e a idéia central descrita no artigo. O grifo é nosso, e procura evidenciar essa coerência destacando palavras muito significativas no contexto do artigo.

O investigador fica perplexo quando tem quelidar com o produto da pesquisa de milhares de colegas – não tendo tempo para ler, muito menos para analisar e me- morizar tudo o que é publicado, mesmo em sua área de especialização. Dadas as

taxas de miniaturização e compressão que vêm sendo desenvolvidas, é concebível que, em pouco tempo, a Encyclopaedia Britannica possa ter o seu tamanho reduzido ao de uma caixa de fósforos e que umabiblioteca de um milhão de volumes possa

ser acomodada em cima de uma escrivaninha. Quando elaapreende um item, ela

salta imediatamente para o próximo que lhe é sugerido por associação de idéias,

em função de algum processo complexo de elaboração de"trilhas" que é executado

pelo seu cérebro. Como o material é pertinente à discussão, ele apertaum botão que reproduz os itens associados, através de processo fotográfico, e dá a cada

um de seus amigos uma cópia da trilha, para que eles possam introduzir o material emseus próprios memexes, se assim o desejarem, fazendo, assim, com que trilhas

pessoais sejam interligadas emtrilhas mais amplas e gerais

No programa DOCBUSCA foi incorporado o OTS para a criação de extratos a partir do corpo de texto extraído dos sites, o que visa a produzir um arquivo mais condensado, com freqüência menor de palavras, porém estas devem ser mais específicas ao texto. Este extrato servirá como base para a busca por ocorrências das palavras-chave de cada filme. Ainda assim os resultados refletiram alguns dos grandes desafios que se impõem na sumarização de conteúdos na Web, tais como os citados por Kondratyev (2005):

• A complexidade de alguns sites que combinam páginas dinâmicas e está- ticas em grande número.

• As páginas que integram o site não têm a mesma importância e algumas não contem qualquer informação.

• Um site pode cobrir muitos assuntos diferentes e independentes.

• Não existem padrões ou modelos para construção de sites (KON- DRATYEV, 2005, p. 1).

à existência de coincidências com as palavras associadas aos vídeos. A seguir se descreve este processo de comparação que pode levar à recomendação personalizada dos documentários do CPCE.

No documento Anotação automática e recomendação personalizada de documentários brasileiros - Sistema DocUnB (páginas 195-199)