• Nenhum resultado encontrado

2. RECUPERAÇÃO DE INFORMAÇÃO

2.2 Modelos Clássicos de Recuperação de Informação

3.1.1 Extração dos Sintagmas Nominais

O trabalho de Kuramoto compreendeu o desenvolvimento de um protótipo de interface de busca utilizando os sintagmas nominais como forma de acesso à informação. Para testar esse protótipo foram examinados e extraídos, segundo Kuramoto (2002), cerca de 8.800 sintagmas nominais de uma amostra de 15 artigos selecionados aleatoriamente da revista Ciência da Informação.

Kuramoto (1995, p. 6) relata que:

a extração dos sintagmas nominais foi realizada de forma manual, simulando uma extração automática. Este procedimento foi adotado em função da não-existência ainda de um sistema de extração automática de SN em acervos contendo documentos em Língua Portuguesa.

Como os SN nem sempre se apresentam de forma clara, Kuramoto aponta a ocorrência normal em todo texto em linguagem natural de anáforas8 e de elipses9 que dificultou a identificação dos SN. Essas dificuldades, segundo Kuramoto (1995), aumentam em um processo automatizado. Algumas das dificuldades encontradas por Kuramoto no procedimento de extração dos SN são descritas a seguir.

a) SN escondidos em frases com fatoração

Para Kuramoto (1995, p. 06) as “frases com fatoração são aquelas que contêm uma seqüência de palavras que precedem um outro conjunto de palavras coordenadas pelas conjunções e/ou, por exemplo, o processo de negociação dos setores privado e público”.

Percebe-se, nesse exemplo, que o SN de nível 1 compreende tanto os setores privado e público, visto que a referência dos dois adjetivos está contida na palavra em plural “setores”. Existem outros exemplos de frases com fatoração nas quais as palavras coordenadas aparecem entre parênteses, significando um complemento combinatório do termo ou da frase que precede o parêntese, por exemplo, profundas transformações (políticas, econômicas, sociais, tecnológicas).

b) Artigo Zero

8 Em Lingüística, segundo Ducrot e Todorov (1972 apud KURAMOTO, 1995), um segmento do discurso é dito anafórico quando, para interpretá-lo (inclusive do ponto de vista literário), for necessário se reportar a um outro segmento do mesmo discurso.

9 A figura de sintaxe “elipse” é definida por Cunha e Cintra (1991 apud KURAMOTO, 1995) como sendo a omissão de um termo que o contexto ou a situação permitem facilmente suprimir.

Um outro fator de dificuldade na extração dos SN é a freqüente ausência de determinantes10 na língua portuguesa, diferente da língua francesa na qual são raros os SN com ausência de um determinante. Motivo pelos quais algumas regras estabelecidas para a língua francesa não foram utilizadas. De acordo com Kuramoto (1995, p. 7), “no procedimento de extração dos SN, constatou-se que 28,89% dos SN não eram precedidos de qualquer determinante. Em uma amostra de 6.010 SN, 1.736 SN não são precedidos por nenhum determinante”. Estes números demonstram que o modelo necessário deve considerar este fator.

c) Cálculo das anáforas

Quando uma entidade é referenciada pela primeira vez em um texto, segundo Gasperin, Goulart e Vieira (2003), a expressão que a descreve é dita nova no discurso. Quando tal entidade é retomada no texto, a expressão que a descreve é dita anafórica, sendo considerado o seu antecedente a expressão anterior correferente.

Para Kuramoto (1995, p. 7-8), “os elementos anafóricos, em português, aparecem freqüentemente mediante partículas como os pronomes”. No entanto, na proposta do autor, não foi possível resolver dois casos de anáforas.

Um primeiro caso de anáfora ocorre nas palavras sem fonte explícita no texto, tais como “nesse sentido” (em que sentido?), “nossa experiência” (de quem? do autor? dos técnicos de informação?) etc. Como a interpretação das idéias está contida no documento não fica evidente a solução desse tipo de anáfora.

O segundo caso é constituído de termos cujas fontes se encontram, como por exemplo, na história dos acontecimentos, como “esse período pré-industrial, esse sistema de comunicação” etc. Por este motivo os SN foram extraídos da mesma forma como se encontravam no texto.

d) Cálculo das elipses

Outra questão que necessita um entendimento do contexto de uma frase é o problema ligado a este tipo de figura de sintaxe. Visto que, depende da capacidade de percepção da falta de alguma palavra no contexto de uma frase. Segundo Kuramoto (1995), é preciso, para identificá-la, analisar não somente as frases precedentes, mas também as frases seguintes. Como neste exemplo: “uma visão de longo prazo que assegure não só a sobrevivência (?) 10 Segundo Silva e Koch (1993), o determinante, quando simples, é representado por um artigo, numeral ou pronome adjetivo.

como também o crescimento da organização”. Que promove o questionamento de “qual o complemento do termo ‘sobrevivência’? ‘Sobrevivência’ de quem?” A solução encontrada poderia estar na frase seguinte: “o crescimento da organização”.

Para promover a extração completa da frase o SN seria: “uma visão de longo prazo que assegure não só a sobrevivência da organização como também o crescimento da organização”.

3.1.1.1 Extração Automática de Sintagmas Nominais

A extração automática de SN é considerada importante para a área de RI, pois, segundo Chishman et al (2000), agiliza este processo, e gera um percentual baixo de erros. Já foi desenvolvido um extrator automático de sintagmas nominais para a língua portuguesa no âmbito do projeto VISL chamado “Palavras”11, que vem sendo usado pelo grupo de pesquisa da UNISINOS.

Segundo Abreu, Goulart e Vieira (2004), para obter a análise das sentenças dos textos, utiliza-se o analisador sintático “Palavras”, que é considerada uma ferramenta robusta para a análise sintática do português.

A partir da saída do analisador sintático, segundo Gasperin, Goulart e Vieira (2003), a ferramenta “Xtractor” gera três arquivos XML. O primeiro é o arquivo de palavras; o segundo inclui as categorias morfossintáticas; e o terceiro é o arquivo com as estruturas sintáticas das sentenças.

Assim, após todo esse processo é possível extrair de modo automático os sintagmas nominais das sentenças de um texto, ressaltando-se que estes não estão ainda organizados segundo a estrutura de níveis que propõe Kuramoto.

Documentos relacionados