Sumarização automática - Recuperação da informação

2.2 Recuperação da informação

2.2.4 Sumarização automática

Resumir, sintetizar, condensar ou agrupar informações importantes de uma fonte de dados e descartar informações irrelevantes são os objetivos da pesquisa em sumarização automática. Utilizado sistemas computacionais para gerar automaticamente um resumo de trechos mais importantes, ou expressões mais freqüentes, no caso de textos escritos, inclui também a sumari- zação multimídia, como na navegação por quadros-chave, por exemplo, ou na classificação da informação em áudio.

De modo geral, processos de sumarização automática buscam produzir uma versão reduzida de um texto, geralmente pela seleção ou generalização de seu conteúdo informativo mais relevante. Desse processo, se origina um extrato ou um sumário. Um extrato corresponde ao texto produzido diretamente pela extração de segmentos inteiros desse texto, justapostos na mesma or- dem original. Já um sumário envolve a reescrita do texto e, portanto, consiste de um novo texto, com a criação de frases novas e a reestruturação do texto, de forma condensada (RINO; PARDO, 2003, p. 6). Tais processos podem ser baseados em procedimentos estatísticos ou semânticos:

[...] as pesquisas de indexação automática visavam, de início, a imitação ou simulação de procedimentos manuais. Numa determinada linha de pesquisa predominava a análise do texto completo a ser recuperado, valendo-se os in- dexadores de processos e recursos fornecidos pela própria Lingüística. Numa

outra linha de pesquisa se visava a aplicação de recursos e métodos da Estatís- tica. Muitos projetos procuravam integrar ambas as linhas de pesquisas. Poste- riormente, a primeira linha de estudos passou a preocupar predominantemente os pesquisadores em Inteligência Artificial. Constatamos aqui uma nova ênfase no uso da linguagem natural como meio mais adequado nos sistemas de diá- logo homem-computador. [...] Ao observar a evolução mais recente em Ciência da Informação, constata-se também um progressivo apagamento das fronteiras entre indexação propriamente dita e a busca da informação. Como ficou de- monstrado de modo evidente nos últimos vinte anos, ambas não podem mais ser separadas na teoria e na prática. Mas foi sobretudo a implantação dos sistemas de diálogo homem-computador que veio condicionar e acelerar essa fusão (BARANOW, 1983, p. 24-25).

Os frutos dessa fusão, embora ainda não estejam maduros, apontam para soluções cada vez mais eficazes. Para realizar a sumarização textual o sistema SuPor - Sumarização automática de textos em Português, do NILC (Núcleo Interinstitucional de Lingüística Computacional), da Uni- versidade Federal de São Carlos, utiliza aprendizado de máquina bayesiano em que um usuário especialista treina o sistema, selecionando características a serem usadas na tarefa de julgamento da relevância das sentenças componentes do texto. As características utilizadas para treinar o sistema durante a fase de aprendizagem, para que ele possa reconhecer os segmentos e compor os extratos são:

• tamanho das sentença, medido por seu número de palavras; • posição da sentença no parágrafo e no texto como um todo; • freqüência das palavras da sentença no texto;

• presença de nomes próprios da sentença;

• presença de cadeias lexicais (conjuntos de palavras relacionadas por sino- nímia/antonímia ou hiperonímia/hiponímia);

• importância dos tópicos do texto (LEITE; RINO, 2007, p. 1).

São recursos desenvolvidos no contexto do Processamento da Linguagem Natural (PLN) que “surge como uma possível solução aos problemas relacionados à recuperação de informação pela simples observação de que os documentos e as expressões de busca são objetos lingüísticos. O PLN é um conjunto de técnicas computacionais para a análise de textos em um ou mais níveis lingüísticos, com o propósito de simular o processamento humano da língua.” (FERNEDA, 2003, p. 82) Alguns desses processos são detalhados por Aires (2003):

A remoção das palavras de alta freqüência (stop-words) é uma forma de imple- mentar o limiar superior – isto pode ser feito comparando a entrada com uma

lista de palavras negadas. Um passo complementar seria remover sufixos (suffix stripping), assim muitas palavras equivalentes seriam mapeadas através de uma única forma. Outro passo seria checar os radicais, supondo que se duas palavras possuem o mesmo radical (stem) estas então se referem ao mesmo conceito e devem ser indexadas juntas. A saída final será um conjunto de classes, uma para cada radical detectado. O nome de uma classe é associado a um documento apenas se um de seus membros ocorre como uma palavra significante no documento. A representação de um documento será então uma lista de nomes de classes, também chamada de índice de um documento ou palavras-chave (keywords) (AIRES, 2003, p. 9).

No entanto, ainda que sofisticadas técnicas sejam disponíveis, no que diz respeito ao tratamento do conteúdo, ainda estamos em fase experimental. Como ressalta BRÄSCHER (2002, p. 17), de nada adianta desenvolver interfaces de busca inteligentes ou a disponibilização de documentos em rede se a recuperação conduz a documentos irrelevantes. A autora ressalta que o tratamento de conteúdo se constitui no coração do sistema de recuperação da informação e que quanto mais conhecimento lingüístico/cognitivo for incorporado ao sistema, maior precisão se obterá na recuperação. Razão para buscar melhor compreensão do uso da linguagem natural no meio computacional.

De acordo com Neto, Nascimento e Gomes (2007, p. 2) há duas abordagens principais em Processamento de Linguagem Natural (PLN) para a sumarização automática: a profunda e a superficial. A primeira se concentra no âmbito das teorias lingüísticas e formais, ao passo que a segunda utiliza métodos estatísticos e experimentais. A sumarização extrativa emprega técni- cas puramente estatísticas e superficiais para a seleção de um subconjunto de sentenças do texto original que possam expressar a idéia central do mesmo, e são baseados no conjunto de palavras- chave associadas aos textos e em algumas outras pistas simples para a seleção de informação relevante. A pesquisa de Pereira e Souza (2002) discorre sobre a extração de palavras-chave em textos científicos e chega à conclusão de que a classificação por etiquetas (tags) agrupa documentos de forma mais geral, enquanto uma análise textual do conteúdo é capaz de agrupar documentos de forma mais específica e precisa.

Esquemas robustos de anotação são fundamentais para que acervos e instituições possam ter o controle de seus estoques, e conseqüentemente estejam aptos a iniciar processos de difusão de informações sobre seus itens. A próxima seção explora o desenvolvimento da Web como facilitadora desses processos.

No documento Anotação automática e recomendação personalizada de documentários brasileiros - Sistema DocUnB (páginas 112-115)