025.3476813
255
IGNOItAM:
""
DlCOIlPOIWl セitoオNウ AO
III!GISftO
a.SIDERAJ
coco
DESCRITOR
IMPRIMI.
llU.AÇAo <DI セiaBB
BGセdieiito OB
DR8CIUTOIlES
COfll'eituação geral de um programa de indexação automaticQ
FIGURA I
R. Bihliutecon. Bras aia. ,'{
(l)jul.
dez. I
(),'{oU:.
セaNlavオN
DO TlTUU'l
INDEXAÇÃO AUTOMATlCA DE TEXTOS
CQHPARJ.fl
COM TABELA DE
PALAVRASIRAIZES VUIAS
mente indentificados (espaços, sinais ortográficos e de pontuação, etc.). Um mínimo de
editoração dos títulos permite melhorar o nível da indexação. Assim, hifenando palavr&s
que constituem um bloco de significado indivisível (por exemplo: nomes geograficos
(São Paulo, Rio-Grande-do-Sul, Rio-Sã'o-Francisco), nomes científicos (Allium-Sativum.
Ananas-Comosus, Hevea-Brasiliensis, etc.), obtém-se as expressões hífenadas como des.
critores. O programa gera urna tabela de freqüências de aparecimento dos descritores
en-contrados, em cada arquivo. o que representa uma notável ajuda no momento da escolha
dos descritores na sua fomla mais provável (ou mais frequentemente encontrada), quando
se formula posteriormente a pergunta com vistas a recuperação da infoonação. De
qual-quer maneira. os resultados obtidos na indexação. com programas deste tipo,
c<lracterizam-R. Bibliotecon. Brasz1ia. R
(2)jul.
dez. 1980
I. INTRODUÇÃO
As bases conceituais de qualquer programa de indexação automática são
amplamen-te conhecidas, remontando_ provavelmenamplamen-te, a primeira aplicação prática a geração de
índi-ces do tipo KWIC
(Key-word-in-context index)
de acordo com as idéias de
LUHN (1),
(2).Dentre a volumosa e as vezes contraditória literatura publicada
sobre o assunto,
al-guns artigos e certos trabalhos de revisão contribuiram particularmente a firmar o
interes-se pelos métodos de indexação automática
(3),
(12),
(14), (15), (18).
O princípio geral de um programa de indexação automática encontra-se
esquemati-zado na Figura
1,
extraída de uma publicação recente
(19)
de um dos autores desta
co-municação, que tem participado anteriormente no desenvolvimento de um sistema que
Inclui rotinas de indexação e tradução automáticas
(13), (16), (17).
Apresenta-se, de maneira sucinta, nesta comunicação a conceituação geral de um
programa para indexação automática de textos, sendo sua principal característica a
apre-sentação dos descritores em foona noonalizada, o que diminui grandemente a dispersão
das foonas dos descritores representativos de um mesmo conceito e, consequentemente,
aumenta a confiabilidade do processo de recuperaçcTo da infoonação,
CONCEITUAÇÃO DE UM PROGRAMA PARA INDEXAÇÃO AUTOMÁTICA DE
TEXTOS
Jaime ROBREDO, Ex-Diretor do Projeto PNUD/FAO/BRA/72/020 (Sistema Nacional de
Infoonação e Documentação Agrícola - SNIDA), Professor Titular do
Departamen-to de Biblioteconomia, Universidade de Brasília, Brasília, DF.
José Adalberto de Paula FERREIRA, Analista
セProgramador, Biblioteca Nacional de
Agricultura - BINAGRI, Brasília-DF.
Apresenta a conceituação de um programa para a Illdexação automática de to tm. tendo como principal característica a apresentação dos descritores de fonna normalizada.
2.
CONCEITUAÇÃO
DO
PROGRAMA
O programa aqui apresentado denominou-se AUTOMINDEX/lI, para deixar patente
que se trata de um aperfeiçoamento do programa AUTOMINDEx., anterioonente
defini-do, de acordo com os princípios básicos esquematizados na Figura
1, e correntemente
utilizado pela Biblioteca Nacional de Agricultura (BINAGRI) (
* ).
Na versão inicial do programa, utiliza-se, de acordo com princípio bem conhecido,
uma tabela de palavras vazias, que assegura a exclusão das palavras desprovidas de
signi-ficado. Consideram-se como separadores de palavras diversos signos e caracteres
previa-( *) O programa AUTOMINDEX, além de permitir a indexação dos títulos ll1c1uidos na
refe-rénllas de diversas bibliografias recentelllentepublicadas por este órgão. serviu para realizar a mdexaç,jo por assuntos de mais de nove mil títulos de projetos de pesquisa agrícola em andamento, atualmentc
incorporados
à
base de dados explorada pelo Sistema BRACARIS (Brasilian Current Agfll:ulturalRe-scarch Information System) (20), (21), implantado eァ・イ・ョセGゥ。、ッ pela BINAGRI.
I
257
à
ai w.loSIGNIFICATIVO: JWCLOJIt NA TAItELA
DePAl.\VMS/ltAZIES
VUIAll
b) SIGNIFICATIVO: I1fCLOU lUt. TABEI-'
dセ MIZES SIGNIFICA TIVU (-. DECISIo
DlPIlI.MIR
aEu.cAoDE
CAllDIDkTOS COI
..-.cuDE
»ADCnIEIn'O ( ••
8UBS"l'ITUtIt
. . . . .IIIO
l'OaOB8On'Qa
セiiado
SIM
.Ao
.DI
DlPaDlIIt
JW.AÇlIo """
PaBQUlllcIA C. APAJtBCDIDTODI: Dl:SCJU'I'ORES
DICOU'OIWl
DESCRITOR .OR!IIALIIADO AO
....IBTRO
1&•
...
COMPAaAII
COM TABELA OE
PALAVRAS/JlAUE&
VAlIAS
COMPARAa COM
TABELADe:ltAu:::s
SICNIFICATIVAS
('I'HJ:SAUIID61
FIGURA 2 セ Conceituação do novo programa de indexação automatica
R. Bib1iotecon. Brasilia.
8 (2)
jul.
dez.
1
c;SO
[) Biblio/eco!l. Bras ma. H
{:!}ju/.dez.
1
WW
SE SADA SADO SAMOS SANDO SOU-SE TlCA TlCAS TICO
ncos,
etc.ANAL! ANAL! ANALI ANALI ANALI ANALI ANALI ANALI ANAL! ANAL!
256
As variações de forma de um conceito podem ser demasiado numerosas para permitir, no
momento de formular a pergunta com vistas a recuperaçllo da informação, a utilização de
todas as formas possíveis, conduzindo a escolha das formas mais frequentes a uma certa
perda de resposta pertinentes, que pode ser significativa em alguns casos.
Por outra parte, a seleção de descritores compostos, limitada aos casos de hifenaç[o
previamente decididos,
é
imcompleta e, na hora de formular a pergunta, faz-se necessário
multiplicar o número de combinações por meio dos operandos
AND(E)
e
OR(OU),
para
alcançar um mínimo de confiabilidade.
Por estas razões, principalmente, considerou-se interessante defmir uma nova versão
do programa (a versão
AUTOMINDEX/lI),
capaz de eliminar os inconvenientes acima
mencionados, garantindo porém as vantagens próprias da indexação automãtica, ou seja a
eliminação de qualquer influência subjetiva do indexador, na escolha dos termos, e a
rapi-dez do processo.
A dispersão da forma de aparecimento dos "descritores" correspondentes a um
mes-mo conceito fica consideravelmente dinünuida, quando não eliminada totalmente,
utili-zando as raízes significativas dos termos como critérios de seleção:
Esta opção implica na preparação de uma tabelas que permite identificar as raízes
consi-deradas significativas e, a partir destas. Imprimir o descritor em forma normalizada (por
exemplo:
ANALISE),
qualquer que seja a forma em que aparece no texto.
Na nova versão do programa, os termos que não fi61Ham nem na tabela de palavras
vazias, nem na tabela de raízes significativas,
84"0
gravados no registro indexado como
"candidatos a descritores". gerando-se. para cada arqUivo indexado, uma listagem de dcs
critores e de candidatos
COlOsuas respectivas freqüências de aparecimento. o que fadlita
consideravelmente a decisão de considerar o candidato como termo não significativo
(in-cluindo-o na tabela de palavras vazias) ou como novo descritor (após inclusão da nova raíz
JAIME ROBREDO E
JOsf
ADALBERTO DE PAULA FERRFIRAANALISE ANALISADA ANALISADO ANALISAMOS ANALISANDO ANALISOU-SE ANALITlCA ANALITICAS ANALITlCO
ANALITlCOS,etc.
セ PPPPPPQPGni{セウG
J.I
cGセoaDG セGsッャK1TAJIM"
Eo"o'
V1
00
001S00000012000001
FIGURA 3a- Dumpall de um registro formatado
FIGURA
3
b-Dumpall de um registro
fOTm/ltJJdoleJJO)10000000ÚOZ
I
000000171-
000000001-E S'OIA$, OIlTI0'S O000000001-E "000000001-ERlST000000001-EMA$ O000000001-E
iiuセQiQセwoslhFtTAoOS 'OR ylRUSot
Gセantas
OE
Gセko GaセセャumSATIVU"1 SU'OSrAMENT
セ セ00000017
U-.-+
--=::... ....
- - - jMMMMMMMMMMMMMMセセMMMMMMMMMMセPT。oooセooo
••
Tセ
00001711l0CõUElflA, soa
セ
...MMMMNLNセMZMMZMBBBGQイMMMMMQ
セMMMMMMMMMMMZWB
セlM⦅K⦅MMMMMMMMMMᆳ
MMMpragゥセ
AI.HQ E DAcエ「qセaL
:j'l
261
CANDIDAlo CANO DA O
-'ANil IOAT I l I l
-CANlllOATO
- CAIlD 1&/1
T-QQ---*F'REQ'
dez.IWm
Tahela ele elescritores e candielatos com as respectivas freqüências ele aparecimento.
rJGUR45 oセセch Itャjォセs
R Bihliotccoll. Brast'lia.
8 (::)
jul.a|ャエセャャ - - - I ON0IOÁ-f
U
-ALlALINU) I CANO DA O
Glセo )
.LLI ...ᄋセaャi .. \i+' -l- 'AI<OIO....rO
alQセBセaBiNᄋpqrhi セ CANOIOATU
aセaセセセセcimento I
セZセエQZャNA、u _ _
J __
セanセZセaN⦅イ⦅o _XBLlセBL セ
cセBlla セ
clャセls I
セセZZセuiセャセtッ
l--cÁNDioATuCu r·TK0Ll _
cBLセtャカo セ
____clslセカlカャセセセ j
olセセcT 4
C...エセlaUᄋuaᄋseセentャャra I
oオエィセaIᄋoエᄋGセho I
----\ZセA t!t""VA ...E I
eiiセlo|ャu I
[IIULU,IA I
イエセBセ「ャセ 3
- -ヲセャエォセセエBᄋuaヲエᄋfGMiャBhᄏ - - - 1
イセlセG I
イオセセオ セ
イBLセセセ ャセᄋᄋᄋセーー セ CANDIDAIO
HLuNacゥZNセ - - - . _ _ _ _ _ _ _ l-tI.NO .04- セ _
セセ←ャオla I
セオBlオエャャエ|ゥ I
ャセャLLセNo I
___ li.!L\.il.O- __Nセ⦅⦅⦅⦅⦅⦅ 1-. _
Ir.LJ.,l.oACAU
t
QiBエ|ャエNBGセオ
セNオセBQa I
W
セaaセャaᄋrオゥ --'AI<DIOl.r セ
BNセhオsセオBiuBᄋporri I CANDIDATO
BBLᄋイMNcセa 1 /"
]セセァセセZセォpセu⦅ra⦅ jセセdioALセ・ZZZN
_
"I LL" U ⦅Mセ
MMMゥセセヲセセセuセNM|jャ^セャセ
エMlセZaセdエャャatャェMMM
ァセセセNセZ[ukaセセlsuセ
pエᅮᄋBGエᄋNlセoL
Iセ[[セ ャセ[セセ
caセoャXaヲu_
pセ I CANO A O
plaセia I
P ..aセiaセᄋエNᄋBiN ..u_ - ャセMMcanoャoatqNMMM
pカセhAdaェ セ
pセャBilセlM「rNセca 3 caセdidato
pBiGhGゥjセuMセeca I caセoidato
Prt.".
.l. . _PHLJulLU I
pイエエvlセcセu 2
pャエャセ|Nャーalmeセャ{ I CANDIOATO
MMセセ ..NャNャNjカャオA^セBャiィᄋhXs '
I-EANDI8Afa---ーBLcャセiaᄋacセQ I caセb OA O
PuCCI:d.·Accll セ CAN DA O
Q",t I"A I
ャNオセimaᄋオaセNーセャaU
I--ÇAN01DATIl----セuiBᄋMオaセᄋイqセhaA^
1
CANDIDATorエNセLNNLオuカcNオ
SAI. lu I
S\.Lt."OT I UI'· - . - - -MセMセMMMMM I--CAI<DI DA TO
sᅪlセォutiumᄋcepiydォuャG セ CANOIDATO
S セtuma 3 .
sセl u I
- - s....
tエNKGGGlhMaMャセ セB|i\oIllA-Tl-llIl>---tlセpセBaャオAエN I
tエャエBlセqItBipセ
t
CAN818AfOtAN A U
..__ -UJti!;Al.lL_. __セ⦅セセ I •
YlútlAL I
vlMu!> I
I
"t
セ
§
\.:)1<:
セ
セ
Nセ
t3'
"-fi:
::s
セ
1
::s Cl c z: '.I <I: :>•
'"
..
"
::> lA...
X u Z c•
li. :L'"
•
•
; ) ;:ocセコZ
, ::> ',,-icr I::> IlL ,
.
:c ,xiセ
' c ..>
-li< o...
"'.
°
,",,<IIue
..
.,
a ... O lo.
•
...
..
O•
..
lE'"
O o"-セi
..,...
セャ
x'.;)
..
...
""
セdez. 1980
o-o IX...
-tC vu <i>Z C X cD.
°
c .;) lL...
v•
:o: :> .:0: </::> x => >I
...:セi
セi
1
セ
...
セ
i
°
c
o
-
o...
a -I ... -' I ...
I
:-I c , -<I> zc -x u J '.I=> ::>o.. 'ャlセQ
o o
xo • I
-IX
11
C - l ...c• "::>1
...
"'
....
Q " ' ' ' '
• "'<1: '" ... 0
c á.
v •
Z c
...
o-
aoo c Z
'"
...
J,.,.
!
o o <> o o o u'"
""
o o•
...
.-a..
oiセ
"
:>J:
'"
...
...
..
...
O a:...
.r: a v C J .;) III...
...
<.»- "'1
e:t I'"
o-u -
...
...
_."
••
"'a:>--.
,." c cu'"
NイZセ
...
a _ o
c
"'.I
..
...
c.'"
, , " o
c c
1>:0
<1.-セャ
.,...
c ...
!
...
1IL-
<J> .r:-
...
IL a »セi
H
ェ
-
セ..
---I:>
1
.
.
...
....
-
.cz'-Q-c
'"
セQBGセ
::><1.o :La<
.i.
...
...
..>...
IL. , _ I
'" cc
• - v I :
'2. " ' Z u
セM MMセ Qセセ
セ
::>ェセGZZ
..oc . . . . ':::t
...
I>:-
xc...
C o r
" o ...
o
Z-'I\\J
c ÓlLOC O<C \ ... \TヲMセ
U u t \ \ t-t •
セ
w.::
"
ェセ
"; セ
\
\ セセセo c u \ \ li< >c
o Nu f\ o..-X
セ
M[セ
I\\
Qセ
ᆰセ[
||jセ
セ
ゥセGゥZ
. . . \ , ; \ ' -<I:
X -:>
li
C -""Z oセ - セ
O C«.t cr I ocre..
u オセQBB c.
I
", .
... ·1
-0..4:IZ
...
-
セ セ セ Jセ': I
...
GZLセ
|オセ
1
TM\i^セ
'i.
lMMB[Mセセセセ Mセ MZ^Z[セ,.---
セM」セM
イMセ
r'
J
セMョMM[[[キセセ
I cOto- lllIM 1 I c o zセ
I -oz. 4>
I
XI
I .,:) oU ....dII ....
01&&...
J...j oe o o....
ゥセセM[セ/
セg
a.I... oxc: , _ o セ
..
... c"'... "':
izNセZI
/
<JU\^セ」GB
o • .::ati:l o . セ o o
I
i
OlL
.>.
- li: •セ o '. / -,
I
&I) .... イMセi
セZセᄋ
0
I ';
セエ セ セ
l
1
-' _ u e a. 4; - >O
C -
1
o "":L- C - =iOt'JS
セ ッセ セ jiャMセ
セ キセ / セN セセ
oe
10.
x " " . a::
セSヲ
ᄃZ`セA
1
NZャセ
\Gエセ...
..::JXセQ
""II C \to.C:i_II-- ---'
QセMᄋMᄋ
セNZNセ
.",v • JCloL.
.,:)11) ..I) . . 。セ
a _ c (t" o ...
li< o :>.O
'-'I Z.
Il-
...., •
.... o '" ..".
o
I
セZ[
:-
I';
セセ←
' " (JIoC ' " o 1I')\X(r
J ) C C X -...:>
:1
: : c ,
_ .0cセ
Zセ
I.-, a
-...
-(lO " - . .
",...
..
セセ C 3
I
。セI
R.
Bibliotecon. Brasz1ia.
8 (2) juL-'
セ
...
v ::>°
z....
o x -' c'"
"
""
°
...
v
'"
:> :x a..
u...
...
z-JAIME ROBREDO E
JOsf.
ADALBERTO DF PAULA FERREIRA-
:1
•
X :>...
-I el
ª
°
-
Q c...
...
'"
C J IL c...
Z c -IX ... :> >.
-(lO o o <> <>
coセ
01: Q ... c
•
..
u•
...
•
260
ァセセ
..,..
..
f
...
セセBBjセ
ZセGゥ
,..
クZNッセセセ
ú!l
セ
セ..'Z'1.
.:J...:J:....1' .J: .;1;..3
1
0-''-GBセセ
1J) zGMセ
エセNォ
ャセZQ
.:;-o lL::tL
c:, ( LjLセBGQ
セNLLセ..j,:>J-4
QセァZQ セ
>3:ct
セセェ
セvwJ
.",g.,J
Nセ
...!
セゥ
NキコZセQZ'"
セ
セセ" 'f
エMセエッ「
z-C
... ""'Ó ... ..Ir:'JII"4Oc. 00+0.J:>X""-'
」ーNNjセBBBBG[Go . .セcセSZ
ヲセエョッQセ セセBj。エセ
セ !L.:JJ ... .."
:41 uuc_
z: ...c_ir>
"u'rc
.J.c ....セ
セ\Noo
'lO'" x
セNョ
f
"...
c:;
- c
.n.-.::>
c.n-1
"C%',..
...
ッセB
cz c
エNョNZLMセ
...
i.ooz ..
o:>D <:>
c <J -I:
>C <>:
Fセ
ゥ
,BZciセ
Naセ 'C C'!C" I r>lL III
....
N[ZNN^セ
..
" ,-n-.n ... -..J4 I.
ョ
]GᄋセQNG
..セ
.P·">lc
A
カセ セ"
...
..:T'-4 '-'1
!
J-t I ... ,-"-:lr lCJAIME ROBREDO E
JOsf.
ADALBERTO DI- PAULA FERREIRArefeセncias
263
Manuscrito recebido em
3
de março de 1980.
INDEXAÇÃO AUTOMAnCA DE TEXTOS
(10) DOYLE. L. B. Is automatil' classiffication a re,earch application01' statistical analysis of text?
Journ, Assoe. Computing Machinery. /ó(4): 264-284.1959.
(II) MARüN, M. E. &K UHNS. I. L. On relev
(11) MARON. M. E. &
(II) MARON. M. E. & KUHNS, J. L. On relevance, probabilistic indexing and information retrieval.
Journ. Assoe. ComputingMaehinery. 17(3):21ó-244, 1970.
(12) SIMMONS. R. F. Natu{:1! language question-answering systems: 1969. Comunications of the
ACM. 13(1):15·30.1970.
(13) RüBREDO, J. Experienccs comparatives d'indexage et possibilité d'indexage mécanisé en vue
d'une recherche automatique; des informations. sans barrieres lingüistiques.Rapport Inf.
71/10, Paris, Institute du Verre, 1971.
(\4) STlBIC, V. T. Het automatisch indexeren van documenten: pro encontra.lnformotielaargang.
14(11) :516-522,1972.
(15) WILLIAMS, M. E. Use01' machine-readable data bases.Anual Review ofInformation Scienee and
Techn%gy. C.A. Cuadra, ed. Americam Society for Information Science, New York, 9 :
221-284,1974.
(\ 6) RüBREDO, J. & BRISNER, O.An international computerised system for information retrieval
in the glass and ceramic field. G/ass Teehnol. 14 (4) : 112-117, 1973.
(17) BRISNER, O. & BRUDAL, P. J. The ALLlANCE system with automatic indexing as the basis
for international documentation services in the field of glass, ceramics and refractories.
Norsk Senter for Informatikk Rpt. Nl? 7504, Oslo, 1975.
(\8) BORKO, H. & BERNlER, C. L. Indexing coneepts and methods. New York, São Francisco,
London. Academic Press. 1978.
(\ 9) ROBREDO, J. Documentação de hoje e de amanhã. Brasllia, Associação dos Bibliotecários do
Distrito Federal, 1978.
(20) ROBREDO, J. & CURVO Filho, P. F. O Projeto BRACARIS como base do Sistema Brasileiro
de Informaçaõ sobre Pesquisa sobre Agrieola em Andamento. Brasília, SNIDA, 1977.
Comunicação apresentada ao Congresso Brasileiro de Biblioteconomia, 9. &Jornada Sul-Rio-GRandense, 5., Porto Alegre, julho, 3-8, 1977. (Projeto PNUD/FAO/BRA/72/020. DOC/TEC/77 /036.)
(21) ROBREDO, J. &CURVO Filho. P. F, Um sistemo automatizado de informação sobre pesquisa
agr(eola em andamento no Brasil. Brasllia, SNIDA, 1978). Comunicação apresentada ao
Internacional Symposium on Animal Health and Disease Data Banks, Belsville, Maryland, dezembro, 4-6, 1978 (Projeto PNUD/FAO/BRA/72/020. Doc./Tec/78/033.)
R.
Bih/iotecon. Brasilia,
8 (2)
jul.
dez. ]lJ80
R. Bih/iotecon. BrasI1ia. X
(2)
juL
dez. / lJSU
262
( 1 ) LUNHN, H. P. A statistical approach to mechanized encoding and ,carching of Iitcrary
mforma-tion.IBM. J. Res. Dev. 1: 309-317, 1957
( 2 ) LUHN, H. P. Key-word-in-context index for' technical literature (KWlC index),IBM
a、セG。ョ・・、
Systems Development Division Rept.RC - 12, 1959.
( 3 ) MONTGOMERY,C.& SWANSON, D. R. Machine-like indexing by people.Ameriean Documen'
tacion, 13(4) : 359-366,1962.
( 4 ) BORKO, H. & BERNICK, M. Automatic document classification.lourn. Aswe. Computing
Ma-ehinery. /O (2) : 151-162, 1963.
( 5 ) O'CONNOR, J. Mechanized indexing methods and their testing.Journ. Assoe. Computing
Maehi-nery. l1(4),437-449,1964.
(6) O'CONNOR, J. Automatic subject recongnition in scientific papers: an empirical study.Journ.
Assoe. ComputingMaehinery. 12(4):490-515, 1965.
( 7 ) COY AUD, M. & SIOT-DECAUVILLF. N.L 'analyse automotique des documents. Paris, La Hayc.
Mouton.1967.
( II I JOLLEY, J. L. The logil of coordinalt' indcxing.ASLlB Proceedings. /9(9) : 295-3011, 1')(,1.
( 9 I KEEN, M. Search 'lralegy cvaluatioll ln manual and automated ,ystcms.ASLIB Proeeedings. :!(J
(I): 65-87. 1968.
lhe gencral eonception01' a programme for automatic text indexmg I'
pre\Cn-ted. It, prinCipal charactaistie- j,the prcsentation 01' lhe dc,criptor, in a
,tandardl-zed formo