U. iNHTDUOO
J
!il
AゥNAセNᄋN
,I
"
I
105R. Bibliotecon. Brasflia, 11 (1):105-113jan./jun. 1983
COMUNICAÇOES
ANALISE AUTOMATICA DE TEXTOS EM SISTEMAS DE
INFOR-MAÇAO
•
Uma análise lingüística completa é um instrumento poderoso para melhorar a capacidade de um sistema automatizado de armazenamento e recuperação de informações. O presente artigo descreve um programa experimental que está sen-do desenvolvisen-do na Universidade de Brasília. Os passos da análise lingüística são, no presente modelo: segmentação (de um texto em frases e palavras); procura no dicionário e análise morfológica de palavras portuguesas; clareza de homo-grafias sintáticas; construção de uma árvore de dependência; análise de pronomes. Com estes algoritmos, várias contribuições podem ser produzidas para ajudar o indexador humano ou para integrar, junto com processos estatísticos adicionais, um sistema de indexação automática: descritores simples em forma base; descri-tores compostos (grupos nominais); descridescri-tores com peso, baseado nas funções sintáticas dentro da frase; correção estatística com as referências dos pronomes. O programa experimental está sendo testado com várias bases de dados. O desenvol-vimento futuro vai se dirigir para a construção de redes semânticas a partir de
textos em linguagem natural. •
CDU: 025.4:681.3
JOHANN HALLER
Departamento de Letras e Lingüística, Universidade de Brasília, Brasília, D.F.
nセ セ[igセGa goセ セiセtセGセs DL Nセセセセenセセeィtッ E ィeセuセerセcad DE
rhF0G ••セG ャセiセiintセセG セセq セpセGゥャnGNds ap{naセ OS DACOi
セイウャrオWオセaulUB vf オセ セョエオセentセ IAuTuR' ANO. LUGAR [le.l.
O TITOLU E ャセャnゥャGlmゥセtャ uセ PEtulNO RLSU"O.
Gャeセ diセsN FAZ-SE voA FセoHセᄋcNu M'hU'L:OU N{miMセutlセatica
ONfl O lョセーオャadオf aセ VELES ajセlィ PRLFONDO l{slritopiセ POR "LIO
CE sャstャuaセ pGイセャHB セャエG
, . GlセャャNU ? uャセセ siセャlカas rxlsTE A イossi「iャidaoセ DE fA2ER UMA ・uセca
, ".lM セョ T 'ln セesセl ( ••LX. stNirsOiセyャ •
.., S.,
o
U >rii' E EL lfd 1•• ;, i.5 P Al AVR• S " DE p,Ic
uセ ,.,CIA" (AkTIGiJS , t' " ,,:-;OMé. S f C.) I セャセ Q セ CE オセN LISTA OL PALftVAAS セvGziaセセ cセe VARIAH Uャセuセou1.1. LUTu"A ür hセゥls
I. anGlャセe ャinセセistiャa Ui UM TI.TU エセ セinguNgセm nGtセrGl
107
•
lo
f F
"
Ele
M
,
f foi M lo rAC CNF TIG cセp TlC FセNqr C'
セac
=
fセtuセ OE GlセHljエU (1 セ SO uMA セオセcNd セintatAciN 2 • 2 ヲuncoセs ET,.lC
=
fATEb8Rj' セintGャica Hfoセ iX. u9 • deQセrminNdgrN 26 • AOV(RgIO •• lセセ セセL i,.Jl.,It.. '"'C (51r-..{.ii.;I..セBGN P L U R A.. )
P セ ャセセ (1'i,3)
iI セ エuセ HエBセエNセe[L[tエNQ r-Ht.T セャB■エjG F\;TL:FiU)
G :o rセN E C' i'f\セ rGM. '"'セLU イセ Li:,0, セLェ A1セ lti ;..セ c., Fl '" ., f't[IJ Ttio)
• urG セNセ Glセyaセ vセhNa 5 (INLILATlvO. suオjセntャvdN cdndicionaセャ
A 3095 '295
A4 IIセウ
セTquエGu 21153 '12S3
AII'DELAS 211P3 F12P3
A4Çu!:LF 211 S3 "12s3
HCuELES 2l1P3 "'12P3
セO[セZGjAャo ?l153 セQRウS
A/lS 118P
'tAso 2(;IS /·26
AGI "I.H ャセ「 L
Gccセa 1<;6 T
'n
1,,6 Lto :イセ 0 A leI> T
AL.GU セャエGsS iii
Glgオエャセ é11 S3 セL 12S3
• L (;i...'M 211 53 I"12S3
AL GlJI;A ,,1153 'Ii'SJ
セl G:;;,A5 nlP3 FI2Pj
• f.Tt. Ije
Ar,H,s
na
T26leH[セエNda I
T,PELA II AMOSTRA ou UICIONARIL DE rNlQuENCIA
1.2. OHIUN'R!O:'
1.2.1. GICl0NARlrCE BfBeセuセセciaB
NES1E Apoul'O SAL arセazエnセdas aセ PALAVRAS ,MAIs fREOUENTES út
uセa lャセセua Guセ セcnUtャャuiem maiセ Ou セeセus 50 セ lセ UM TEXTO NwRMAL.
uセa "R[iCUkA f.Cn,,["I1Cio 1 [Gssiセ HLaraセャ IDA.
ESTAS palaセraセ セauN AG M[5MU ャャセpuL AS MAIS iセportantes DA LINGUA
RARA oeQeォセinar A l:'IRUTUHA E ATE A SEMANTICA Hセogicaャ DE UMA
FRA5E, E PLR isセ{ ELA:' PRlClSAM DE bM MAXIMU uE inイurセacoes
MüFFQLCc,ICAS. siセtaticLウ E セemanticasG
{セ COMPENS'CAO. ELAS NAU teセ "5ENTIuO セhqーrQPB セ H'O PODEM セntrak
PCP EXEMPLO cオnセ OESCHITOHES PARA UM SlSTEMA DE INfORM'CAO. AセエHLオirN uセa AMeSTRA セd lQcャjセahio DE ヲreセオenᅦャa OE _ontオgセesN
..
--
__
-
-
_-
-.-
.
R. Biblíotecon. Brasl7ia,
11 (7)jan.ljun. 1983
n'eEl.I,:', ヲHZセセ[オ ....S =.lC,) l \.U'L A lhFuRMI'C'''' r••,,,-ESlr'l./1uRADA
(rrISES fM LINGvAGEM N'lUMAll セオe vセi SER SUbMEIIDA A analiセe
Lp. (,Li1STTCA •
ヲUtセ .lbnRITMu ieセ PuR ゥZNxeセplo セuヲ GECIOIR 'UANLO uセ PONTO
reGャセセntヲ UQgセャエャca ü fiM DE UMA frAsf [ ァuaセuo ELE E
APENAS セオ FlN1G エeciセalHBェNouB^L UM FONTO wl PARAGRAFU ("1.) Ou
FAZ pセhtエ セe uセセ PL1ICLNCIA HエャNLNセjN
estセ E nflヲセsaゥェゥ{ PAhA エセtaセelエcer セウ unidaセeセ Aseセem TRATaOAS
sセqャenc[セlセャnQe ヲeluセ AL'ORITMG5 LA aセaliセe ャinセオiUtica proーセャaN
セャnte lITA. SG セセ ーオオcoセ caセPs vAI SER neceセsapiP キecoセrヲNr AS
IhELR"ACOES Dt ultraセ FRASEs. PGR eセeキーセo NA ANALISl DE pronoセイs
R. Bibliotecon. Bras(fja,
11 (1)jan./jun. 1983
オセ proセrGma eセpエfャセャntGl ESTA SENDO DESENVDLVIDU NO AMbITO
セa POS-GRADUACAv NA セnャカエNrUidadエ OE bRAS1LIA. Gセm A CDLABORACAO DE ALUhLS LeS dセpartameセャus DE liィセuiセtica セ UE uiXセioteconumiaN
Sep AclPセc{セaセaH OU AU10k. NO CDMPuTADuR エオrイャoセgォs 6700 DO CPO OA UNe.
A SlGuIP, セerao エセschitus gセ セaセsPU DE オセa aセセセise セinguistica
•セtumaticセ E セua iセセuセtaセcia PARA • iィdセセacao dセ UM TExTO Ou OE uMA
イraUeMperセuィtセN
o tョataセイnt」 U' fAIUhIA DEslls PROPLEMIS PLUE SlR セャlhcrado
」」セ A IfLICAc.n LE U"A ANALISE LINGbISTICA LüMFLET. DO TEXTb
sr
lLE eセiste nセヲ HlJD セlャt[ョセェャo lU quセv'l
セャBo
CASU NUMrUTuRO セオイャl PRw)IMúl.
• Ap, l' Aセ セ lil Tセ ;!U!'lU .. LIx(;)" NA PR [, CLiRA DA lNfl;RIoiH AC.
A pセャcA AO [ セャNエオエセj
- NEH TQC 5 AS FURM.S UI pGlavセa PlSCU[SALA セau enccntnauaセQ
HセeセエcsG
surlxos.
PLURAIs ャhセヲlulareU ETc.lセ Hf(ILL E pセGueセセ
• "CMl'(,PAf!AS セェBtL|tゥca セ Si.MA/,Tl .. AS CAUSAI', PROBllHAS セhionaQs
("SfbUNLl" - セgセ lu セ r i l
- hAO I PC5SIV ..L TN'bAL AR cdセ セィuhos uE GlSLNITONlS linguQsticセmentセ Cúf.H.fiI, 5.
ESTA GセaliUQ UA lャィセla l UM ーセg eUsセ イャセpeィljiオセl POhcuE
pーセHQUG OE ヲuゥtオセ lセlPs HpAセsaᄋ E セセセ dャ{ilセaBャオI E alセdritmos セuャャャ clオセャセxlsi A liセgオセlセセ Bセ aセa E ALGO lオセplicNlッN
PCR QUセlN fャdeᄋセe cuGヲ{セh ClM A APl,CJCAG セlmエセte DLS PRIMEIROS
pasセds ャセ セヲgセャセN dャセcセャャls aセセ Tl)"ILS uesャャセagオウ A ZnuセxaᅦaoN
A aセalャウe tエセ qセe sャセ c{Lセsileセセla DENTkU uE UM lONTtXTC maiセ ANPlO
n.
セrッイucaャL セqmazenGlヲBN ヲオセエN E TnADuCAD uE TtXT05. ONDE tLA AoREuセ 「セaセイe セaセa uE fuセUiオiャiセNセes pA"A OS オエセaBャオs DE UM oocオセeセtオャ • CCRfECAO dセ lセォlセ Uf datildVセaイia
• ィifenGcセャ AUIGM.lIC.
• p_eᄋᄋtBaョセセo Nャjtオセatica LE lUTOS TtCNICLS
• ANALiSE LA 'LPuLNTA UO usuaセセoN LONTHleLlNuO pARA UMA MElhUq イセセオセicacau DU usオaセゥo cuセ o sistエセa
é.TC•
106
A!t セ 4 セGl Jf. セ U I)! ,l>, lJp.' oL'セセ セ ArJlo.'tセ P kCセ Li'"Aセ úA I..H Aセ p,oA
セlャイNgオQセtiセセ lA}セセutaHャイn⦅ャGエ QUf セセ セcセセa na aiセalise AuTO·
セ ;. TI.;;' L( • EXI ()j f: u fセ íQ Cセ ( (iセ 1f ITliS ;. セ[ tf, ::. " Tr, ATADセ S "A uE.. Iセ TEM
セ :'セ • nNセ u!,セ lセ li'<1u"liFセ l, A PE" Iil H セ i)l l' Ci.J ,.セZ[ TAl' [) R. QLIA i.o uI:' SO O, ci)NRE• S!C:\JfIL.l. セャNjイ í) lf/1C ャlセMQ セLMヲ セセr {ZG[NGLtiluZvィZaセaud CE i'ullLJ 01,.; t.NíAO
L
a
u セ Ck ;;'. "A. (. 1", HセゥLB I, L/' ,. Ll I Tl ".. Li I lU", lu" o '" 5Uiliセ o u PRo LESセo
AH Gセ r,Ar' tセ TA"fS,f'<'deLd l:li f,セ "'"AI", l Eセ C" L'" NIr:; C,LiI S U:,OS Sセ ;."c" "'.'1Tセ S ["f· .)S Lt !;ATIC(1., I.n lA Ol'
li,
Lt I lU" A Ol;ul ENCAPECEpGセGaセtセ Ü セru」Nセウョ LA GnGャisセ lU TlRTO .. alエセ Dl ANLllk A VaNTAGtM DO tセmセo •
•GNセN cャセョ セtB ZZNeセャIij H';ilUCuZ1u,· セBs E セLQQセ AセᄋLTH[ャina Df
F
se ..
CYfエセ E セN Tセᄋij 1\1 CA L U li MI:'>11lO ( (,j ...r.LJI ;.c:
liK FPf.,t.. " F RO..; UCAG DEfi:),iCJ5 l:"" セカオ エBG[Nセa セ tセGaZLLZGセャセセjMNc L,t.L..fS, E.51f.. r,fLt:L.t.;JA ャeB[GBoセ
A t:..SAr ," r-l t;;' セA ....セN FLi 1 LJセ L b IIセ ,.Ôl,iNセ 1E セ 1'\Li , 1イNセ U •
R, 5 1 Ati:.SI Cw" n l ), lJ i\/ou r'iIL"';, la n セ íl ci"G LI S' H D .1 PENAS A 1ARfEI< OE
Análise Automática de Textos em Sistemas...
POR ESTA RAZAu. A PROCURA NO dicioセariッ TEM セオe SER FEITO CUM TOUAS AS POSSIBILIDAS 'UE A TERMINACAU PERMITE.
A SEGUIR, CLMO エIeセセloL ApBiセャira FARTE OA TAbtlA FARA Aaセaセisl DOS VtRbO) PEGuLARES DA LIRGUA portu「uエsセN
NA VERSAn ATU.L LO ulCIüNARlD UE fPlOUENCIA Du pッrtセguャsL
iiセua tャセ pguャGセ iセヲcrセaceセ s{セGnticGsN
se
PARAos
prcnᅳセヲセL セlintオセes
(PCSITIVC. neセaiivoN 1000' POucuS. NADA ETC.) l algセセセセ preposi」セeウN ESlt CllTGNARIQ f lエセalセ{セtヲ UMA pヲエィtセ DAS paセaカras セvaziasᄋ
deセtro UE up siセiema UF IhCEXALAD.
109
CAli NA PALAVRA
LONTHARIO
..
\I AR
li
ULTIpA leセra GA pセlavセa (ATE •••••••• )
lセャrエ セreceセeセGe (RtSl01
tャNセセd
Yu(O
plセUda
ᅦセャ (wuAN1AS LElpAS clrtaセI
ィBセAnBoᅳ [,0 l".FlNli;vl' C"?R" NO:' 050S DE
iBlエZcャセad I -;';, -A. ETC •• QUE SAO RESCLVIDOS
nセ ppᅳcuセa NO DIClúNAnIO)
LtlR, PkECEOENTi
P,,(;XIPlA LiNH. PARA COI'.ThUAR
sセ LElhA ォrecセdエnQe aNoセtece lFGセa セara CON1Il'.uAH セj cセso
cオセイNNnQa[[iャ[
f'RS ? 7 li ?f< FuT
f'RT pRT
Xx P-L P-S !'i-S
ccセmfnt
c
T'"
?
S
A E
lEGt.NOA1 LETTER
R. Bib/iotecon. Brasflia, 11 (1)jan./jun. 1983
ENGUANTU OS dicャャイセaセャウ ainセa sセo PEQUEI,OS - t セesmu DEPOIS, P:PuUE NUNC, sE PODE CONTAR cdセ TDD.S AS paセavras dセ UMA
lipセua セfntセo Du UTCIUNAHlü HnヲuluGasセds ETl.) - Aanセlise
ycセヲclイセAcヲ ャャセ (UE SER aセlHcadィ A IODAS AS PALAVRAS TECNICAS PAkA
AS clasセs sャセiaiicaセ セdセsiカゥiセ l Ü pャaxiセo OE inセormacoes
QuE セe セョdeセ uEKIVAH DI terセinaエaN SO' Nsセim E pOSSIvEL tambeセ NC tA5C DE VARIAS palavィaセ UESlUNHELIUAS ーeセo DICIONARIO ESTA8ELlClk A eセtrutlセa CURREIA DA IRASt.
SE PUR エNeᄋセluN A PALAVRA BGセセuuB AINDA NAL [AISTE NO oicioセariッL ELA SERjA LDNS!I/(RADA COMU オセ puS.lvlL SUbSTAI'.T1VO <o wuE ELA E rE vヲセdauセIN uセ PuSSIVEL ADJE1IVÜ HBセunuoNMaBI E UM
セsssivAl vEF8U ("MUNGAR" UU BセオnderB ITC.).
aセNiPpia セeウイ{セ caセcセ ouviセusPセ VAU SER RESOLViDOS NA SEGUINTf
ETAPA rA Gセalisエ OA hoセオ「セaGia L DA ESTRUTU"A SINTATICA.
JOHANN HALLE R
E
p
u
1.a. A'ALISE siセtaャャca
eセGオrセ セfj^ puUセiveセ fセャer ャsイセ ANALISE EM UM PASSO SO,
E イセ PH't.··jR
A 3 v 11 セU
E 5 15 46
I I I I 17 16
M b A Rセ 62
O A ;1 32
5 A 33 34
U pPT I 3 O 41 42
Z FRS I 3 U LR YY 99 lFAZ ETC.
P A 64 65 -R
*** ••
*••
** ••JJJJNJNJセJJJ •••••**** •••**.** ••****
V 1M? I I R 9Y セセ
-v"
r
h 43 44 MiaHmGsGmoセIFRS? O?R セセ yy -A(M)
. S Vセ 63 -Sl(M)
99 9y -E(M.S.MOS)
75 76 -I
99 22 MrエiNMremoセ 52 21 Mセei 99 9v -fI
R 24 25 -AM
セ ャセ 16 -EM
TAeElA 21 ppiセeipa セart{ CA TA&lLA セe MURfCLObIA veセbal LETTER T セ P L XX P-L pMセ セᄋウ セomm{nャar
-
...••....••....•...
-
...••..•
-
....
DAS _oセsivセis
E advャNrゥゥioセL
rOf'MA5 BASICAS E TAMBEM ENTRE ELAS E
R. 8ibliotecon. Brasl'lia,11 (1)jan./jun. 1983
1.2.2. GU1PCS O&CIONARIus
UP SISTEYA UE inde^aセao NAn preliセa a「UPlオtapセnie DE セais D,CIONARIOS CoPO ELES SAO nセcessarャオウN POR エNeセiᄋluL PAPA yp sIsflMA OE ャracオセa。N
POPlM.
sr
existセ UM ャesaurオセ pセヲMlsiauelecAセd RAPA A INDEXALAO dセTEXTOS cE LP (E"TO aセsuLNtgN peLIP 5tH ALPESCENTAOA& inforセalPQs
mcーヲolH「イl。セN siLtatャャャセ l セemLセticセs I EsTAS セalavィas PIRA fACILITAR
G TRAhALHO lA セBalャsセ linセPQsiQHQN
o
Gセe eprセ」ゥセo lE tgPPセ セcセcUN SIC LISTAS LA. fCpuAS irregケlareセ DE セalaセセas E RAIZEs セaィa C ィeclセセヲliセeセto E Al」rセセsponoenieBncセmaャャzacadB Ui PAlAVhA. 1.E. APKODUCAO LA fuRMA 8A51CA Lv
ャexャセa HAnイAnQtャセo
ue
V<RwO, ヲcpセa セinオlaroe
suBSTANTIVO,rOFMA sゥngセlar MISCULINO 00 AOJtllVü Ele.).
1.2.4. EQUIvALENCIAS eセ LINGUAl ESTkANGEIRAS
lSt arセuivd cn"lEp aセ ヲohセas bASES DE PALAVRAS DA LINCUA eウtranセeiha Cop iセformaHoes SObRE DECLINACla E fLEXAQ DAS palavセas
PARA SERVIR DE h{fereセcia nセm ウisteセa OE INfORMACAD MULTILINGUAL
Ou
NUM sI.1EMA セャ TNAOUCAU.NOS SISlEPAS uE TRADUCAL haャセ ANTIGuS' AS PARTEs 1.2.2. E 1.2.4. ESTAO ARPAiENADuS nuセ Se arセuiカlG ISTO E UMA DESVANTAGEM QUANDO セe QUER tヲセpalpaセ セlセ VARIAS LINGUAS.
108
1.2.3. DICIONÁRiO DE EXFRESSOEs fiXAS
セuitas VElES ACüpTECE セue ッeセtro DE UNA L!hGUI. UM GRUFO dセ
PALAVRAS TOME UM nuvセ SlNTloO E ATE UMA FUhlAO SINTATICA DIFERENTE OLINOU OCLhRf JUNTO NONA fRASE.
ESTES rASOS TEN セue 5ER anセazeセaods tGmセeセ NUM ARQUIVO, CLASSIflCADLS Dt PREPtRoNCiA PELA PALAVRA ChAVE DA expreウセauN
オセ ャクeセplu セセ セオセtオセオセᄃ PUDL SEH セ「aterG セm セapoB Oセual TEM セオe
SEP reclnhセciuo Huセセ bRuPU lSPlC:AL - coセ セ vエrセo BセNteセB
pocエセdイ セpaセeceh EN lODOs lセ TEhPGS E
Terus cセ セcgoセ セHセsiveiウ - セara SER TRADUZltO PUR EXEMPLO
イNorr{tセセGセャゥ セaォa OuTRA セinセuGN
eセ inセlャsN Biセ ャセe phdcesセ Dr" TOMA coセo GRUPO A NOVA fUNCAU OE
PREPÓS!CAO CUE iセtrカdオz UM LRUPO PREPOSICIONAL.
ESTA cャaセu セue ッセtas Lクpkャsセoeウ セuiQP POUCAS カeセヲs VAO ENTRAR
NA INDExAC-O セe lセ TExTo.
exeセーldsi ᄋセarセセ PHEP05JCAO. FOhMA セepraャ
Bセauaᄋ pplnoセeN ヲopセa vepセal
ᄋcasaセ su「sQantャカセN fORMA vERbAL ETC.
1.3. Gセalise MOHFULUülCA E fRO(URA NO DICIONIHIu
PAPA SE 'AlER uセa anNljセe muaヲcャoGtセaG セrecャsana
[epセャセセcoエs DE NerセオsN adjセャiカoセN SUES1ANTIVUS
E tamセヲセ iセヲorhaHoeセ soセrャ I セcセejnatcrii CtM aセ
HBlセクemasᄋI DOS エiciセィariオsN
podエセ ACONTECER セoセu「hafAas ENTRE eセtas CLASSES
1,·.2. lョセUtrオcal DA ARVORE ESTRUTuHAL (DE leセeィdeセ・iaャ
111
..
...
-
...
••••••••••• OLsENHO AhVORE
2.2. athiセオャcao DE "PESO" AOS DESCRITORES
ccセg A ANALISE LINlUl5TICA NAU 50 FLRNECE A ヲurセa セaseN
sエセGオ Cuu 0 pasセd CA analisセ セャィtaャェca taBbセm A fUNCAO DA
PALAVkA dセィtr vA ヲォセsヲL POul·SE ATnIBUIR UM pャセo BlinセuiiticoB • C'OA suセstaセtivd UU AUJETIVQ, DLPtNütNOO セdk E_EMPLO SE
fLE fuセliオnG coセg ウオセ{itoG COMO OBJtTG, COMU ーセエoicaooL
Si ELE SE ャセcunira UlhTHO DA fpASE PRINCIpAL. DÁ SUbORDENACÁ.
イーasセs セセセativaセ ETC.
ESTAS iセセupセacoセs ーuo{セ CURRIGIH A MERA ESTITI51ICA NO prgcセssc O. CONS1RutAO aオtuセaQicN UO J[SAURUS Ou NA lNuEaACAU.
A セセalise siセtaQQca <l,Q.2.) E tameeセ CAPAZ CE セerar UMA LISTA
rL dヲUHpャャャセヲセ セgセーセャクョセL POR e。emセセo TuDOS oセ セeguint{セ GRuPOi.
• セu「sャNセQQvoMaljeQQd
セl「UGャィQAvuMiLegセᅦaoᄋaujヲtエセセ
• suセstantャカオMセfuヲᅵ prセーsicioィNl
ETC •• セiLe gerセlセentャ SAO エxQrセigos DE uセ TlaTU NO PROClSSO
DA ャnd{xGcセlN
2.3. gLセ」[、tgBヲ[L compleセos
R. Bibliotecon. Brasilia,
11 (1)jan./jun. 1983
2.1. DE scritcセᄋッセ simpBeセ
DlPCIS DA セeslオエao CAS HOMLGRAflAS SINTATIlAS ipaUセo 1.4.1. DA ANALISE liセgオャsticaN E flssiセel Lopセeceセ セma LIsTA oセ
slセセャaGャャGus E .CJlTIV05 Heセentualセlnte taセ「em vERBOS E advlrセiッセI
NAS sセaU ヲofセas LEXILALIZADA5, セuntオ CUM A ヲfャセオencia ABSOLUTA
Nr
T[ITU tセatadオN セo GRuPU uE tlxQPセ TRATADUS E A FkEQUENCIA PELAT!VAoe
TEXIL DlNTRu DU gセオpuNEsTA LIsTA POuE SER,IR luセoᄋprcヲostB OE DESCRiTuREs PAKA o ゥndeクセᄋ
DOr ィuGセnu L QUL セhャ 'ACILI1. セlャャP D '"AdALhU' POR EXtMPLO,
OE ccセstpオif オセ TESALRUS NUMA AREA NOVA.
SE JI {。istセ セオ ャ{sセlfuセ PAhA Aaheセ cdセreUセセndlセteG OS eleセentッセ
OA LisTA セgャeセ セer ClMPARADuS cセセ dセ elセセeセtdセ UO TlSAUHU5 l ASSIM EsTAeELlC1GG5 dセセcセNャgpエs P.RA セau。 uocuセeセtN
cgセ オセ イpucャsセセBAntu estセャャセtェcu セaェsMreヲinadオ セッoeᄋセe tambセm
pエセセar セa aオtセセィtQzaca。 cオセplャャ。 DA ELA oセalau Ur uセ Tl5AURuS
E DA iセufxacGu vE UM セovd dセcオセャnto oセp SD SLRjA セecessaセiオ
uセ ccセtroャe DuS FESuLtセセos ーeセd iセdャiad R ィuセnuN 2. APLICACAG セN INDE_ACAO
eセ algl[セs CASOS. SEHA NlCESSARIO TE" ACCESSC セ KESULTAOOS oセ DUTkAS
FRA5ESJ PUk eieセセセoG 'UANDO, NA TRAUUCAO,
o
PKONOME ingセes "THEY" SE peUl reセirir p UM su「sイaセtivッ NA fraseLaセtlridrNPAPA ッizeセ
sE,
セセ ーオセtuセオエsN E BeleセB Ou BeセaセBN teセos QUESA8tR A eキuゥvalエセcia poセtオguesa 00 「uセstantivu REFERIDO NA fRASE ANTERIuF.
1.5. aセセlise Na TExTU
L
R. Bibliotecon. Bras(lia,
11(1)jan./jun. 1983
1.4.1. R[SDLueAU GAS HOMO'RAfIAS SINTATICAS
"Ah·U r" ャuaセ ,TAPA:.t AエゥエsaセGuセuゥGca DAS hlit'l;(,RM IAS 5lNTATICAS
E AcセGstrオciャ[ uA NaセvオFセ ESTRuTuRAL.
Os SIsTfMIS exiセt{セイes セue セBefereセ FAZtR DEStJE JA ANALISES
ヲウtnutセセaャs DAS VARiAS loィbゥセacles セe BuセoHLnaエos POSSIVEIS
SAC TDrus セヲstrセQPウ I RESPEITO LO vャ[」aセuャariP E DAS
fSTHUTGRAS TRATICAS' セd CASU セa ENTNADA OE uセ TEXTO QUALQUEN.
Os セrdセlemis uo セlQu セumeno OE possセXQャidaエeU A ANALIZAR E uOS RETORNOS
rcs
CA'INM0s ERrtAUOS NAU イoセaセ AINO" PESOLVIDu5.Tcrus LS セiウteセセs CPERACIUNIIS NO A'HIru DA INDusTRIA Ou DE ORGIUS UI' 'CVEPhLS tBapilhiセ ccセ LWA ANALISE SINTATICI eセ Duls PASses sepGhGuoセN
paセG oヲ」iオャセ セual ヲuセcセオ siセtセャャエa LE UM huセoセraイッ esセa reNセizセda
nuセa d{ャeィセiセadB ヲrasセL セャ セtェliza セm PHOC!SSu UE aセroximacBd
_a[[tャセイl [,,(. C(.;'dExTU (.;Á fi'L.VRA.
セャsj{ セセoceセsオN SE FAZEM vセィias fasセaGins FELA FRASt, COMECANDD
clセ • セfiセヲ Aセa セl Aultェmセ PALIVRA ャoエpeセoiセdu DA linセua
GセalゥzaPQIN SL Besolveセ pセiセヲェォl OS CASUS maiセ FACEls [ SEGuROS.
g{イᄋlmeセtiL taセセヲセ セ セelhur セセオ oltlセセinar ャセ StGUILA
A fuィセaP ATUAL w' ヲalavセa SINAU COMtCAR FOR EXCLUiR
o
'uEfLA セhG "'ULE
s'"
NO LOI:TLqC AhAL.uセ ャxeセflu ウeBiセ D SLbUINIl1 SE deセiro uE UMA fRASE SEM NENHUMA VIRGULA
neセ coGセunladL セA inclセtra セa uセN FURMA VERbAL
OUE s。セAntf TEM !SIA FUNCAD PDSSIVFL, EsTA foセsセbilioave DE SER verセo
VAI SEF EALLUIO" COM CFRTtZA セg「 OUTROS hoセセlBaヲosN
セo FIM uE CID, セセsセaMエケ E aセuQald SE セlセumN COIbA pセoia 5ER
FlI1u ! Sl II:.DA '.Ublt:-; tIC.O(,I-AfェaセN
SE, オefセャ「 CE UM' iMassiセem セad fOI ョesolvidセ MAIS. NADA. exiセtiセdセ AINDA
hoセuセrGヲiasL bE PHuClú[ AU ウe「オセcc セセup DE REbnAS QUE SE セaウ{iam NA
pセcセa「ャセiセGce • •úR エセャセセlgL
o
.lhbO PURTUGUlS Gャralセentャ WEM セャーセis Ollセ sセェsQantivl セセ aオセエtャカ QYセQ f'ZlM PAPTE OU セrupl NOMINAL SUullTü)
E PODE 5tH tELIuIDU セヲUte 5iNTluD.
uセa outセG ーgssiセilャセaue E pgrQGセto LElxAR aセ POuCAS E5TRUTUHAS AINDA
PCSSIVEIS A aセaセise lbTRU1URAL fARA DEfiNIR QU'L E A ESTRUTURA CCI-RE1At EsTA セHsウiエilioacャ DA CúNIA taキセ{セ uE FRASES COM セuas Ou VARIAS ESThUIUHAS PDssIVlIs COMO ELA5 aparャ・ャセ fィequャnQeセente
eセ TRAFALHOb セa liセセlQsiica TELRICA.
110
P/P eセtセ「eleceセ AS LlPENOENCIAb LAS PALAVRAS CENTRO DA イraセeN
E P ECIsO priセ{iセo tST'DELlCER セs fセonteira「 uセセ PARlES DA 'RASE
Hーセ ィZiセalG subセrdenGoasG GHU?DS adセepセiais E1C.). iST8 E FLITO
cッセ A {エterセiセalao UE VIR'ULAS, cunセuセcッ{s LE セuXPruinacao E
clchceセacag Ele.
o
phqIiセョ p.SSO coセsjste eセ estNセelエ」er Os セrオplセ NOMINAIS.vefオGiセL pᄋe_lsNエャ」セais [ alvセh「ャaャ「 DENTRO LtSTAS PARTES.
ACUI SE USA Couu AJULA A iセitiTセNcao セchヲoluセila DAS palavraセ
HgeセエpcN セlNeBoL TUM.U, セolu [lC,).
NG ultiセo PASSO SE uetイォセinaB ENTAO AS ヲunlueセ sintセticas DlSTEs
Grセセosi SUJEITO, udjセtイセ (DIRETL E ャnciセetuIN clセplエmentos
noセinaャ「L セreuiladッセ Hgォuセos veィ「aiセI l • LEPENUENClA DE UM GRUPU
ADVErBIAL (CE オセ GRufe nomiセalN Ou prヲdjcacセ uU DA ヲhaセe IN1EIHAlJ
05 セeセNィos CE U. GRuPG TEM セue TER uセ CONJUNTO LOMUM DESTAS
INrOpMlcnlb セorLイluセicaセ [ siセtaticasG
U5A·SE U MODELO LA セhaセatica DE DEPENDENCIA WuE toセa COMO NUCLEO UA fraセイ [ cuセplexo セehuNlN
O RESULTADO OlSIA aセalise UQセQセtica E apセ{sentaセo EM イukセa UE UMA
3. peSSIAILIDADtS FuTURASI REDE SEMANilCA
2.4. cgセセecセo セエdiante PRONLMEs
Análise Automática de Textos em Sistemas...
H
J"I',:,'jJ
113•
R. Bibliotecon. Brasflia, 11 (1) jan./jun. 1983
JOHANN HALLER
c
o
No o
R , AN IN1EúRATEO oataMbaセe iセformation ANOretrieセal systエセ Fú" sャku」tオrセd ANO unセャqucQureo DATA
SlEMENS EORSCM. UNO ENTw.-BERIChTE 「erlinOnセキ yoセk 1961 HuTCHINS. セNjNi ーセgセess lN DOCuMEN1ATION - MAChINE TRANSLA1ION ANO
セachineᄋaided TRANSlAiION
EMI wOURNAL DF OOCUMENTATION, VUL' 34, NO. セ junセ 197
autoセatic inforセaQiun DRGANlSATION AhO RETRIEVAL
セeィ YORK QYセV
SCHANK, rNcNOcoセセyNkᄋmNQ エoセputlr mオッeセウ Df THúUGHT AND LANGUAGE
セan fセanciscq QセWS
SALTON, G.I FISCHlR,H.GoI
"OOOS' ".A. eNセNi THE LUNAR scilncヲセ NATURAL LANGUAGE INFúPMATION SYSllM, rINAl RtPQRl 86N 2316. GambBiogeOmaセsN QセWR referセncias
pelケLnNOroセilloGaNOセャrpeャGjNOsゥッゥᄋdャcauvilleGnNQ PRúCEUURES
o'
ANALYSlセHセantiセオe ap_lャセオels A LA セoセumentNtion StlENTlFIQU[
CNhS - PARIS QセWP
pidエrmセセG セNtLi linセisticセ coセputセ」ionalN セm DESAFIO
vE
TRINTA ANOSEMI セds E idセiasG JUNMO/JOLHO L977, PAG. ,9-39
THE experiセエntaセ PPOGRAM キiセl UNOEPGO NOW A SERIE
or
TESTS キitセVARlouS oatセ BASES; fURTNER deセelopmenャ Is úlkECTEO TO THE CONSTRU1ION Df A SEMANTIC NETwOkK.
R. Bibliotecon. Brasflia, 11 (1)jan./jun. 1983 Abstrat
Automatic analysis of texts in information systems
oセe oF lHE セost poセeセful iィUtrオセeセtU TO impセdセe THE CAPACITY
OF aオtoセNゥi」 inイcrセatidセ セtイagセ anセ petrieセaセ セystャセウ wDULO BE
A CVMPLlTE ャャセgカiセtic ANALysls DF ThE FULL lExT DF A DOCUMENT. THE AHTICLE oエslribeセ AN eperャセャntaセ approaセn BlING OEVELOPlO A' lhE uセivセrsiQy DF BRASllIA, bPAZ'L.
THE PASsES セ TME LINGUISTICANAlYSIS lN ThE presentGmooeセ AREI • segセentation (PnRASES. セordsI
- OICTIúNARY セearcセ ANÚ セrfhllᅳgical analysiセ (PúRTUGUESl) • OISAubIGUATICN or SYNTAC1IC hoセgraphャャU
- coセstォuction DF Aoepeセdency tpセe
• PRONOUN anaセysisN
WITH ャセese FEAruFES, VARIOUS ャtャセs CAN セe PROVleEO TO helpセャne
huセan INDEX(R ッセ TO lNTEGRATE, lN CUNJUNCTlúN wITH AODITIONAL
STA1ISTIC pセoceuresG AN auQPセati」 lNDEXING PKOCESSI - SINGLE deUcセiptuns lN LEXICALIZlO foセm
- coセセounc ueセcォiptrs (NúUN GRúUPS ETC.)
- wEIGHTEú オeセcriセャops (kfIGNT tiASEO LN ThE
sGセtacQic PuNCTlCNSl
• ST.TISTIC CuPHECTION wlTH ThE REfERENCEs UF pRONOUNS.
geralセイセtャL Os イponuセヲs NAC SAO TUMAOOS EM LONTA NA ESTATISTICA
Dc palaセpasN CJMC Aanセlise LINúUISTICA IOENTlfICA o SUBSTANTIVO
COPRESPLNClNTt. rODE SEH ACkESCENTAUO UM pONTu (OU MEIO PONTO ?)
NA ヲセeclヲセcャG DLSTE SUBSTANTIVu
o
QUE DA MAIS RlLEVANCIA ASfrfGオeセcャaセ AaSuLUTAS E relatャセasN
POLlM Uエセ dャsenセllセiセos mecセnismos セue ANALISAM OIVERSAS FOKMAS LINGU15TICAS セオセ geralセente TEM e MlSMO CeNTEuOu, pセr exempセ・
FRASE セelativa • gpuセo COM paセticipャo ETC.
A aセalャsf linセuiFtica DlSePITA ESTA SENOO APLICADA A VARIAS
HASlS rt oセエdウN rEpUIS UE セtingih UM CERTO GRAU DE ESTAbILIvADE,
SEFA dヲウeセカイlvjオエ
o
FPOXIHO paセセdi Acoセstrucao DE セma REDEセeセanticセ DE UM TExlC.
NESTA PEDE. ッセ セオbstaセtャvos (Ou UM SUbGRUPO dエlセUG p. Ex. oセ
elヲセentls DE UM teUセlセuセIG ヲorセam dセ NOS,
r.
oセ セerbdウ SERAOOs ARcrS.
ALGUNS セセB「lU pオdeセ fUNCIONAR DENTRU DE UMA SU HELACAO, SIMPLIFICANDO ASSIM CUNSloENAvELMENTF A RtDl.
UNA ーrccurセ DE ャセヲorセacao PUDERA toセar UMA palaセra COMO PONTO DE
pセセtida r tエntaセ ACHAR NA RlOE UM "LAMINHO" SlMELHANTE A PEwUENA REDE
fcrセalセ pelセ ANALISE lINGUIsTICA APLICADA AfォaセeNpャrguntaN
seセa AThTbUICu u PEse セオ DOCUNENTu A fASE DAS sエセelmancas eセcontkaoas
eセtセe A PERGUNTA E A セeoe 00 teセtoN ーodeセdoセsエ APRESENTAR eセtas
FPASES セo TExTO AO USUAkIO セuanᅳo EsTE QUER VERIFICAk SE O オdcumセnto
ccpォesflセe A NtCESsIUAúE DELE.
coセ ESTIS PPOCEuIMENTOS, SERA DADO セm GRANDE paセso PARA UMA MELHuH CCMMUNICACAO lNTPE U HOMEM E O COMPuTADOR E PARA o MELHOR uセo
OE SIsTEMAS OE iセeonセacaoG