Conceituação de um programa para indexação automática de textos

(1)

025 347: 6 8 J 3

CONCEITUAÇÀO DE UM PROGRAMA PARA INDEXAÇÃO AUTOMÁTICA hc

TEXTOS 1

Jaime ROBREDO, Ex-Diretor do Projeto PNUD/FAO/BRA/72/020 (Sistema Nacional de Informação e Documentação Agrícola - SNIDA), Professor Titular do Departamen to de Biblioteconomia, Universidade de Brasília, Brasília, DF.

1

José Adalberto de Paula FERREIRA, Analista - Programador, Biblioteca Nacional d Agricultura BINAGRI, Brasília-DF.

Apresenta a conceituação de um programa para a indexação automática de textos, tendo com o principal característica a apresentação dos descritores de forma normalizada.

1 INTRODUÇÃO

As bases conceituais de qualquer programa de indexação automática são amplaraen te conhecidas, rem ontando, provavelmente, a primeira aplicação prática a geração de índi ces do tipo KWIC (Key-word-in-context index) de acordo com as idéias de LUHN (1). (2). Dentre a volumosa e as vezes contraditória literatura publicada sobre o assunto, al guns artigos e certos trabalhos de revisão contribuíram particularmente a firmar o interes se pelos m étodos de indexação automática (3), (12), (14), (15), (18).

O princípio geral de um programa de indexação autom ática encontra-se esquemati zado na Figura 1, extraída de uma publicação recente (19) de um dos autores desta co municação, que tem participado anteriormente no desenvolvimento de um sistema que inclui rotinas de indexação e tradução automáticas (13), (16), (17).

Apresenta-se, de maneira sucinta, nesta comunicação a conceituação geral de um programa para indexação automática de textos, sendo sua principal característica a apre sentação dos descritores em forma normalizada, o que diminui grandemente a dispersão das formas dos descritores representativos de um mesmo conceito e, consequentemente, aumenta a confiabilidade do processo de recuperação da informação.

2 CONCEITUAÇÃO DO PROGRAMA

O programa aqui apresentado denominou-se AUTOMINDEX/II, para deixar patente que se trata de um aperfeiçoamento do programa AUTOMINDEX, anteriorm ente defini do, de acordo com os princípios básicos esquematizados na Figura 1, e correntemente utilizado pela Biblioteca Nacional de Agricultura (BINAGRI) ( * ).

Na versão inicial do programa, utiliza-se, de acordo com princípio bem conhecido, uma tabela de palavras vazias, que assegura a exclusão das palavras desprovidas de signi ficado. Consideram-se como separadores de palavras diversos signos e caracteres

previa-( * ) O programa AUTOMINDEX, além de permitir a indexação dos títulos incluidos na refe rências de diversas bibliografias recentemente publicadas por este órgão, serviu para realizar a in d e x a ç ã o

por assuntos de mais de nove mil títulos de projetos de pesquisa agrícola em andamento, atualmente incorporados à base d e dados explorada pelo Sistema BRACARIS (Brasilian Current Agricultural Re search Information System ) (20), (21), implantado e gerenciado pela BINAGRI.

(2)

IN DEXAÇÃO AUTOMATICA DE TEXTOS

F/GURA 1 Conceituação geral d e um programa d e indexação autom atica

m ente indentificados (espaços, sinais ortográficos e de pontuação, etc.). Um m ínim o de editoração dos títulos perm ite melhorar o nível da indexação. Assim, hifenando palavras que constituem um bloco de significado indivisível (por exemplo: nomes geográficos (São Paulo, Rio-Grande-do-Sul, Rio-São-Francisco), nomes científicos (Allium-Sativum. Ananas-Comosus, Hevea-Brasiliensis, etc.), obtém-se as expressões hífenadas como des critores. O programa gera uma tabela de freqüências de aparecimento dos descritores en contrados, em cada arquivo, o que representa uma notável ajuda no m om ento da escolha dos descritores na sua forma mais provável (ou mais frequentem ente encontrada), quando se formula posteriormente a pergunta com vistas a recuperação da informação. De qual quer maneira, os resultados obtidos na indexação, com programas deste tipo,

(3)

JAIME ROBREDO E JO Sf ADALBERTO DE PAULA FER REIR A

se por uma grande dispersão na forma de aparecimento dos "descritores” correspond a um mesmo conceito. Por exemplo:

ANALISE ANALISADA ANALISADO ANALISAMOS ANALISANDO ANALISOU-SE ANALÍTICA ANALÍTICAS ANALÍTICO ANALÍTICOS, etc.

As variações de forma de um conceito podem ser demasiado numerosas para permitir, no m om ento de formular a pergunta com vistas a recuperação da informação, a utilização de todas as formas possíveis, conduzindo a escolha das formas mais freqüentes a uma certa perda de resposta pertinentes, que pode ser significativa em alguns casos.

Por outra parte, a seleção de descritores compostos, limitada aos casos de hifenaçâc previamente decididos, é imcompleta e, na hora de form ular a pergunta, faz-se necessário multiplicar o número de combinações por meio dos operandos AND(E) e OR(OU), para alcançar um mínimo de confiabilidade.

Por estas razões, principalmente, considerou-se interessante definir uma nova versíc do programa (a versão AUTOMINDEX/II), capaz de eliminar os inconvenientes acima mencionados, garantindo porém as vantagens próprias da indexação automática, ou seja a eliminação de qualquer influência subjetiva do indexador, na escolha dos termos, e a rapi dez do processo.

A dispersão da forma de aparecimento dos “ descritores” correspondentes a um mes m o conceito fica consideravelmente diniinuida, quando não eliminada t o t a l m e n t e , utili

zando as raízes significativas dos termos como critérios de seleção:

ANALI SE AN ALI SADA ANALI SADO ANALI SAMOS ANALI SANDO ANALI SOU-SE ANALI TICA ANALI TICAS ANALI TICO

ANALI TICOS, etc.

Esta opção implica na preparação de uma tabelas que permite identificar as ra,zej^poi deradas significativas e, a partir destas, imprimir o descritor em forma n o r m a l i z

exemplo: ANALISE), qualquer que seja a forma em que aparece no texto. ^

N a nova versão do p r o g r a m a , os termos que não figuram nem na tabela e P ^

vazias, nem na tabela de raízes significativas, são gravados no registro i n d e x a ^ “candidatos a descritores” , gerando-se. para cada arquivo indexado, uma lista g e critores e de candidatos com suas respectivas freqüências de a p a r e c i m e n t o , ° ^ atjV0 (n1 consideravelmente a decisão de considerar o candidato como termo não nQva raí2 cluindo-o na tabela de palavras vazias) ou c o m o novo descritor (após inclusão

1980*

(4)

INDEXAÇÃO AUTOMATICA DE TEXTOS

I M P R IM I R RELAÇÃO DE

C A ND ID ATOS COM IGNORAR PR EOO C NC IA DE A PA REC IM EN TO ( • ) ( • ) D E C IS Ã O • ) NÃO S I G N I T I C A T I V O r IM C L U IK NA TA BELA I * P A L A V R A S /R A IZ E S V A I IA S b ) S I G N I F I C A T I V O : IN C L O I R NA TABELA DE R A IZ E S S I G N I F I C A T IV A S

I _^ f ig u r a

2

~ r_{'~onceituação d o novo programa d e indexação autom atica}

(5)

JAIME ROBREDO E JOSÉ ADALBERTO DE PAULA FER REIR A o g .to s? s 2

|

£ 3 Q >3

1

O s

(6)

IN DEXAÇÃO AUTOMATICA DE TEXTOS T *>*-*/! i* - c&r. 4*3a» at <r * «-» (X * 3 2 '' *

^ Biblintecnn. Brasília, 8( 2) iul. dez. 1980 259

F /G Í/ /L 4 J b-D um pa U de um re g is tr o fo rm a ta d o

(7)

JAIME ROBREDO F JOSfi ADALBERTO DF PAULA FERREIRA <* 1 ÜO DU. H | azx U1K u-3

(8)

INDEXAÇÃO AUTOMATICA DE TEXTOS p t S C H | I Ü H l S i í i í J W í t t I— fcISÜCÍS SeSWhI •frCq. 5lNríSI‘ÍM' CtfIvOHOM S LiL r t SlAU VLOt a . e ^ e uA

fSíSíci-f J J fSíSíci-f . TKÜLt ^iíhlcLV i^U O -? í : t ! : Í Í 5 - U * * S E t < E N T t l B * g i i t h C A i - O t - A L H O £NÍt»t>ítUAu€-

---£ I 1 IA 0 (* I A

£1 l ü t ü b l A FtHrtU6É.M FuLm« f y N ( jU .^LfcACüti — Gl* L l u t * Hü bf- tut i NU | K L o C A O . I l â f L U á O---Ir«Ui«uACAü InV t HNU L A O A h T A LA&AKl A*«üSCA-wA Ck úS ^ UhI U ^ P O R R I m a n qâ MA f . r h a - H v j K P U R A KihI í»I tK A M i L L- 4 Q MübÀ 1 C U WvjHCMA -KueCná-uLrfjjiAAlÜM- C e » t H A U P A H A b l T A P A S b b ÊLf-Lr.uihüRA^cLsiHucias. P t b - u t - A L M Q p« P L A Ma p O t fo 1 0 A J PúlîLAÜ*bRANCA J j j j j M ü . ü - i E C » pxtjoiiu P n t VLNC«ü P h ‘ m . 1 p a L| . ; E n U í s í R í j f P l ü í í ^ o u i i í 1* “ -LÍI s i í i i ü r s ; » * " ^ * ^ ;r ? ; ^ c i : F0LH<s 5*1' XU LH(jT j üM Hgura

Tabela d e descritores e candidatos com as respectivas freqüências d e aparecimento.

(9)

JAIME ROBREDO E JOSÊ ADALBERTO DE PAULA FER R EIR A

na tabela de raízes significativas).

O programa AUTOMINDEX/II prevê, numa etapa posterior, a substituição da tabela de palavras vazias por um a tabela de raízes vazias, de acordo com o mesmo princípj0 utilizado para os termos significativos, simplificando-se assim o processamento e dimi- nuindo-se o tem po necessário para indexar um arquivo.

Na Figura 2, pode ver-se o esquema simplificado (não se inclui a rotina de seleção de descritores compostos), do novo programa de indexação automática.

3. TESTE DO PROGRAMA <

Para testar a nova versão do programa (AUTOMINDEX/II), escolheram-se alguns re sumos informativos, relativos a alho, publicados na série Resumos Informativos, editada pela Empresa Brasileira de pesquisa Agropecuária (EMBRAPA). Na Figura 3 pode-se ver um dumpall de um registro com pleto, formado por dois elementos: 1) referência biblio gráfica completa e 2) “resum o” a indexar, que inclui: o núm ero de registro, o títu lo , e o resumo propriamente dito. A partir desta parte do registro, o programa gera um novo registro indexado (com descritores e candidatos) (v. Fig 4) e as correspondentes listas de descritores e candidatos com as respectivas treqüências de aparecimento (v. Fig. 5).

0 programa AUTOMINDEX/II encontra-se, no m om ento de redigir a presente co municação, em fase final de teste e depuração. Uma versão mais avançada, incluindo o uso de raízes de palavras vazias, assim como. rotinas para seleção de descritores compos to e identificação de descritores simples a partir dos descritores hifenados, encontra-se em fase avançada de desenvolvimento.

The general conception o f a programme for automatic text indexing is p resen -

ted. Its principal characteristics is the presentation o f the descriptors in a standardi- zed form

REFERÊNCIAS

( 1 ) LUNHN, H. P. A statistical approach to mechanized encoding and searching o f litcrary I n f o r m a

tion. IBM. J. Res. Dev. 1 : 309-317, 1957

( 2 ) LUHN, H. P. Key-word-in-context index for technical literature (KWIC index), IBM A d v a n c e d

S ystem s D evelopm en t Division R ept. RC- 12, 1959.

( 3 ) MONTGOMERY, C. & SWANSON, D. R. Machine-like indexing by people. American ü o a im en

tacion, 13 (4) : 359-366, 1962.

( 4 ) BORKO, H. & BERNICK, M. Automatic document classification. Journ Assoc. ComputingM a

chinery. 1 0 ( 2 ) : 151-162, 1963.

( 5 ) 0 ’C 0 N N 0 R , J. Mechanized indexing m ethods and their testing. Journ. Assoc. Com puting M a ch i-

nery. 11 (4), 4 3 7 -4 4 9 ,1 9 6 4 .

( 6 ) 0 'C 0 N N 0 R , J. Automatic subject recongnition in scientific papers: an empirical study. Jo u rn .

Assoc. Com puting Machinery. 1 2 ( 4 ) : 490-515, 1965.

( 7 ) COYAUD, M. & SIOT-DECAUVILLE. N. L an alyse autom atiqu e des docum ents. Paris. La H ayc-

Mouton. 1967.

( 8 I JOLLEY, J. L. The logic o f coordinate indexing. AS1.1B Proceedings. 19 (9) : 295-308, 1967. ( 9 ) KEEN, M. Search strategy evaluation in manual and automated systems. ASI.IB Proceedings 20

(1) : 65-87. 1968.

(10)

INDEXAÇÃO AUTOMAT1CA DE TEXTOS

( J0) DOYLE, L. B. Is automatic classiffication a researeh application o f statistical analysis o f text?

Journ. Assoc. Com puting Machinery. 16 (4): 264-284 1959

(11) MARON, M. E. & KUHNS. J. L. On relev (11l MARON, M. E. &

(1 1) M ARON, M. E. & KUHNS, J. L. On relevance, probabilistic indexing and information retneval.

Journ. Assoc. C om puting Machinery. 1 7 0 ) : 216-244, 1970.

(12) SIMMONS. R. F. Natural language question-answering systems: 1969. Comunications o f the

ACM. / Í ( l > : 15-30. 1970.

(13) ROBREDO, J. Experiences comparatives d'indexage et possibilite d’indexage mécanise en vue d une recherche automatique des inform ations. sans barrières lingüistiques. R apport I n f 7 1/10, Paris, Institute du Verre, 1971.

(1 4) STIBIC, V. T. Het automatisch indexeren van documenten: pro en contra. Inform atie Jaargang 14 (11) : 516-522, 1972.

(15) WILLIAMS, M. E. Use o f machine-readable data bases. Anual R eview o f Inform ation Science and

Technology. C. A. Cuadra, ed. Americam Society for Information Science, New York 9 •

221-284, 1974.

(1 6) ROBREDO, J. & BRISNER, O.An international computerised system for information retneval in the glass and ceramic field. Glass Technol. 14 (4) : 112-117, 1973.

(17) BRISNER, O. & BRUDAL, P. J. The ALLIANCE system with automatic indexing as the basis for international documentation services in the field o f glass, ceramics and refractories.

Norsk Senter fo r Inform atikk R pt. N? 7504, Oslo, 1975.

(18) BORKO, H. & BERNIER, C. L. Indexing concepts and m ethods. New York, São Francisco, London. Academic Press. 1978.

(19) ROBREDO, J. Docum entação d e hoje e d e amanhã. Brasília, Associação dos Bibliotecários do Distrito Federal, 1978.

(20) ROBREDO, J. & CURVO Filho, P. F. O Projeto BR A C A R IS com o base do Sistem a Brasileiro

d e Informação sobre Pesquisa sobre Agrícola em A ndam ento. Brasília, SNIDA, 1977.

Comunicação apresentada ao Congresso Brasileiro de Biblioteconomia, 9. &Jornada Sul- Rio-GRandense, 5., Porto Alegre, julho. 3-8, 1977. (Projeto PN U D /FA O /BR A /72/020. DO C/TEC/77/036.)

(21) ROBREDO, J. &CURVO Filho, P. F. Um sistema au tom atizado d e informação sobre pesquisa

agrícola em andam ento no Brasil. Brasília, SNIDA, 1978). Comunicação apresentada ao

Internacional Symposium on Animal Health and Disease Data Banks, Belsville, Maryland, dezembro, 4-6, 1978 (Projeto P N U D /FA O /B R A /72/020. D o c./T ec/78/033.)

Manuscrito recebido em 3 de março de 1980.