Maria Rute
Vilhena
Costa
Pressupostos
teoricos
e
metodolgicos
para
a
extracgo
automtica
de
unidades
terminolgicas
multilexmicas
Universidade
Nova de
Lisboa
Faculdade
de
Cincias Sociais
e
Humanas
Mana Rute Vilhena Costa
Pressupostos
tericos
e
metodolgicos
para
a
extrac?o
automtica
de
unidades
terminologicas
multilexmicas
V
Dissertaco
para
obtengo
do
grau
de Doutor
em
Linguistica. especialidade
de
Lexicologia
-Terminologia
realizada
sob
aonentaco da
Professora Doutora Mana Teresa
Rijo
da Fonseca Lino
'O '.::
Universidade
Nova
de
Lisboa
Faculdade
de
Cincias
Sociais
eHumanas
Agradecimentos
Ao
terminar
estetrabalho no
posso
deixar de
agradecer
atodos
osque contribuiram
para
a suarealizago,
cujo contnbuto foi
essencial.
dentro
efora do mbito
acadmico.
Professora Doutora Mana Teresa
Rijo
daFonseca Uno.
pela
orientago
da
dissertago.
pela
oportumdade
dediscutir ideias obtendo
sugestes
eesclarecimentos
de
grande
valor.
pela
total
confianga
e aliberdade
de
escolha cientfica que sempre
meconcedeu;
pela
aposta
que
umdia
fez
emmim;
pelos
seusensinamentos
aolongo
da minha
progresso
universitna
epela
ligo
de
humamsmoque
quotidianamente
metransmite,
o meumuito
obngada.
Professora
Doutora Maria
Francisca
Xavier
eProfessora
Doutora
Maria
de Lourdes
Crispim agradego-lhes
oapoio
incondicional
candidatura
a umaBolsa PRODEP.
Ao
Professor
Doutor Didier
Bourigaut agradego
teraceite deslocar-se
aLisboa
com ointuito
de debater
questes
cientificas
de
grande importncia
para
odesenvolvimento
desta
dissertago.
Ao
Eng
Pedro Santos
agradego
agrande
disponibilidade
para
oapoio
aonivel
da
programago
informtica.
Dr3.
Helena
Manuelito.
pela
leitura
minuciosa
que fez
deste
trabalho,
os meusmuito
snceros
agradecimentos
Dr3.
Raquel
Silva
agradego:
para alm da
amizade,
todo
oapoio.
disponibilidade
evontade incansvel para
ajudar.
Dr* Ftima
Ferreira
agradego
aatengo
sempre
demonstrada,
nomeadamente para
colaborar
nasobrigages
comunsde
relages
universitnas
internacionais.
Ao Dr.
Paulo
Morgado
Sousa
e aoDr Jos Carlos Ferreira
reconhego
eagradego
oesprito
de
solidariedade
que sempre
demonstraram.Mana Joo Patinha
agradego
oprecioso
econtnuo
apoio
demonstrado
emtodas
ascircunstncias
davida.
NDICE
Introduco
1
.Objectivos
2.
Apresentaco
da
dissertago
Capitulo
I
-Corpora
5
12
16
45
48
1.
Lingusticas
de
corpora
16
1
.1
Definico
de
lingustica
de corpora
1
6
1.2
Arquivo
ecorpus
19
2.
Tipologia
de
corpora
26
2.1
Corpora
de
textos
integrais
ecorpora de extractos de
textos
28
2.2
Corpora
comparativos
ecorpora
paraielos
29
2.3
Monitor corpora
ou2.4
Corpora
de referncia
31
2.5
Corpora
de
especialidade
ecorpora
especiais
35
3.
Corpora
anotados
37
3.1
SGML
39
3.2
TEI
3.3
CES
3.4
Etiquetagem
gramatical
JUCaptulo
II
-Constituico
de
corpus
57
1
.Comunidade cientifica,
produtora
de
textos
de
especialidade
57
2.
Texto
de
especialidade
60
2.1
Texto
ediscurso
2.2
Contextos
67
70
2.3
Intervenientes
3.
Tipologia
de
tipos
outipologia
de
gneros^
4.
Constituigo
do
corpus
emDetecgo
Remota
4.1.
Definigo
da
rea
de
especialidade
emanlise:
Detecco
Remota
4.2.
Constituigo
de
tipologias
4.2.1
.Tipologia
de
tipos
de discurso
Captulo
III
-Denominaco:
expresses
nominais multilexmicas
107
107
1.
Denominagao
2.
Expresses
nominais multilexmicas
113
113
2.1.
Lexias
117
2.2.
Sinapse
2.3.
Nomecomposto
2.4.
Colocago
128
2.5.
Frasemas
145
1
df\
3.
Fraseologia
Captulo
IV
-Etiquetador
gramatical
automtico:
EtiqueLex
156
1
.Tratamento do corpus
informatizado
1
56
2. Tabela de
etiquetas
158
3.
Constituigo
dos dicionrios
166
3.1.
Dicionrio de formas
simples
flexionadas
1
66
3.1.1. Desdobramento de formas
166
3.1.2. Variantes
ortogrficas
3.2.
Dicionrio de
locuges
3.3.
Dicionrio
de
unidades
terminolgicas
multilexmicas
da
Detecgo
Remota
175
4.
Etiquetadorgramatical:
EtiqueLex
178
5.
Tipologia
de matrizes
terminognicas
1
82
5.1.
Tipologia
elementar
182
5.2.
Anlise
da
composigo
das
unidades
terminolgicas
multilexmicas
186
1
Q7
5.3.
Tipologia
de base
168
171
5.4.
Dicionrio
de
estruturas
tipo
200
Captulo
V
-Extractor automtico
de
unidades
terminolgicas
multilexmicas: ExtracTerm
203
203
203
1
.Concepgo
do
ExtracTerm
1.1.
Aplicago
do
dicionrio
de
tipologias
907
1
.2.
Anlise
dos
resultados
9 1R
2.
Regras
de
desambiguago
2.1.1.
Regras lingusticas
de
aprendizagem
221
2.2.
Adjectivo
eparticpio passado
ps-nominal.
224
2.2.1.
Regras lingusticas
de
aprendizagem
226
2.3.
Nome
eadjectivo
236
2.3.1.
Regras lingusticas
de
aprendizagem
238
3.
ExtracTerm:
utilizago
das
regras
de
aprendizagem
240
3.1.
Anlise dos resultados
244
3.2.
Teste do ExtracTerm
sobre
umcorpus
alargado
247
3.2.1. Anlise dos resultados
248
Concluso
251
Bibliografa
258
Anexos
301
Anexo
1
-Dicionrio de formas flexionadas
303
Anexo 2
-Dicionrio de
locuges
314
Anexo
3
-Dicionrio de unidades
terminolgicas
da
detecgo
remota
323
Anexo
4
-Texto
etiquetado
com oEtiqueLex,
sem aaplicago
de regras
de
326
desambiguago
Anexo 5
-Sequncias
extradas
comExtracTerm
apartir
de
texto
etiquetado
332
no
desambiguado
Anexo 6
-Texto
etiquetado
com oExtracTerm.
com aaplicago
de
regras de
339
desambiguago
Anexo 7
-Sequncias
extradas
comExtracTerm
apartir
de
texto
etiquetado
345
desambiguado
Anexo 8
-Texto
etiquetado
comExtracTerm,
apartir
de
novocorpus,
com351
aplicago
de
regras
de
desambiguago
Anexo
9
-Sequncias
extradas
comExtracTerm
apartir
de
texto
etiquetado
358
Introdu^o
1.
Objectivos
Introdugo
1.
Objectivos
0
tratamento automtico da
lngua
produzida
emcontexto
de
especialidade
o
pano de fundo que
subjaz
reflexo
terica
emetodolgica apresentada
nesta
dissertago.
0
objectivo
da
nossainvestigago
consiste,
desta
forma.
naformulago
dos
pressupostos
tericos
da
Lexicologia
eda
Terminologia
que
esto
nabase
da
concepgo
de
umprograma informtico
destinado
aolevantamento
automtico
a
partir
de
descriges
de
anlises
de carcter
linguistico
de unidades
terminolgicas
multilexmicas.
Com
efeito,
desenvolvemos
neste
trabalho
umainvestigago
que,
baseada
em
critrios exclusivamente
lingusticos
permite
aidentificago
automtica
de
unidades
terminolgicas
multilexmicas
da
rea
de
especialidade
da
Detecgo
Remota.
No
momento da
concepgo
do extractor,
tommos conscincia da
necessidade
da
criago
de
umetiquetador
que
est
nabase do
primeiro.
Deste
modo,
concebemos
dois
programas:
oEtiqueLex
e oExtracTerm.
O
primeiro
atribui
etiquetas
gramaticais
aoslexemas do
corpus. Funcionando
sobre
ocorpus
etiquetado,
oExtracTerm
extrai unidades
terminolgicas
multilexmicas,
partindo
de regras
de
reconhecimento
ede
regras
de
aprendizagem,
0
EtiqueLex
umacomponente
indispensvel
do
ExtracTerm,
sem aqual
este
ltimo
no
funciona.
No obstante.
oEtiqueLex pode
serutilizado
exclusivamente
para
aetiquetagem,
semque
seja
necessrio
proceder-se
aolevantamento automtico
de termos,
gozando,
assim, de autonomia
face
aoextractor.
A
emergncia
e odesenvolvimento
de
umaabordagem lexicolgica
Terminologia
coloca-nos
nocentro
dos
debates actualmente
em curso.Neste
mbito,
levantam-se
questes
como asseguintes:
oque
distingue
umapalavra
de
umtermo?
Que
metodologia(s) adoptar
emTerminologia?
Actualmente,
aTerminologia
umarea
de
especialidade
noseio
da
Lingustica
que
estuda
ocomportamento
lingustico
das
unidades
terminolgicas,
recorrendo
aoscontextos
e,
de
forma mais
abrangente,
aostextos
emque
ocorrem.Neste
debate
entram
emconfronto
duas ideias
distintas:
por
umlado,
aperspectiva
que defende
umaabordagem
normativa
terminologia,
por outro,
aque
encara aterminologia
numaperspectiva
descritiva.
A doutrina wsteriana
apologista
da
normalizago terminolgica,
porque
aunivocidade
dos
termos
umacondigo
necessria
comunicago
entre
especialistas,
sendo
aredugo
da
sinonmia
eda
ambiguidade
umdos
principais
objectivos.
Foi
nos anostrinta que
Wuster
levou
acabo
trabalhos
terminolgicos
dando
especial
relevo
organizago
sistemtica
das
terminologias,
incrementando
adefinico de
postulados
fundamentais para
odesenvolvimento
de
mtodos
de
Normalizago
Terminolgica
do Instituto
de
Normalizago
do
Concelho
dos
Ministros da
URSS
emembro da Academia
das
Cincias,
que
aterminologia
nasce como
cincia
(cf.
Rondeau,
1983).
Em
consequncia
das
preocupages metodolgicas
de
Wuster
edas
preocupages
tericas
de
Lotte,
criado
umorganismo,
oISA
-International
Organization
for
Standardization,
cujo
objectivo
ofavorecimento
do comrcio
intemacional,
desenvolvendo
anormalizago
dos
produtos
edos processos.
Os
membros fundadores deste
organismo
so
aFranga,
aGr-Bretanha,
aAlemanha
e aURSS.
A
2a Guerra Mundial
interrompe
asactividades da
ISA,
mas em1946
nasce aISO
-International
Organization
for
Standardiaztion,
sendo criada
em1951
oComit
Tcnico
37
(TC
37)
que,
reunindo
pela
primeira
vez em1952,
tem
por
fungo
anormalizago
da
Terminologia
edos
seus
princpios metodolgicos.
A
metodologia preconizada pelos seguidores
de Wuster
parte
da anlise
do
objecto
para
chegar
denominago,
uma vezque
,
essencialmente,
atravs
desta que
osespecialistas
veiculam
conhecimentos. 0 conceito est
nocentro
da
metodologia onomasiolgica, desempenhando
adenominago
afungo
de
etiqueta:
[...]
/a dmarche
terminologique,
aucontraire
de la dmarche
linguistique.
nepart
pas d'une
appellation
pour
dcouvrir
l'tre
oule
groupe
d'tres
reprsent
par
cette
appellation:
elle
procde
l'inverse,
partir
des
entits pour tudier
leurs
dnominations.
(Rondeau, 1983:12).
A
normalizago
do
termo
passa
pela normalizago
do
conceito,
pressupondo
tal
abordagem
a suauniversalidade,
uma vezque
para
aISO
osrefere
Lerat
(1995),
oslinguistas
no
podem
aceitar esta
perspectiva,
porque:
[...]
les notions sont lies
auxconceptualisations,
donc
auxlocuteurs,
leurs
cultures
et
leurs
langues (Lerat.1995
17).
A
rpida evolugo
da
tcnica,
das
cincias
eda
tecnologia
fazem
com aconceptualizago
dos
factos cientficos
no
seja
universal,
porque
dependente
de
factores
sociais
eculturais evidentes. Por
esta
razo,
linguistas
comoBjoint
eThoiron
rejeitam
adoutrina
wusteriana,
perspectivando
anormalizago
como umprocesso artificialmente
construdo,
comvista
aatingir
o
ideal
da
biunivocidade:
umtermo
para
umconceito:
[...]
bref de la
langue
fabrique
de
toutes
pices
et
contrle
par la
communaut
linguistique
pour
fagonnerle
monde
(Bjoint;
Thoiron,
2000:6).
Do
ponto
de vista terico
emetodolgico,
defendemos
umaabordagem
descritiva
Terminologia.
Numa
perspectiva lingustica,
aautomatizago
requer
no
so adescrigo
do
comportamento lingustico
das
denominages
emsituago
real.
comotambm
adescrigo
dos contextos
emque tais
denominages
ocorrem.A
evolugo
da
capacidade
de
armazenamento
da
informago
emsuporte
electrnico,
bem
como oaumento
crescente
dos
recursoslinguisticos
plurilingues
informatizados contribuem para
asviragens metodolgica
eterica
que
neste momento
atingem
claramente
aterminologia.
Os
textos
eschtos
que
compem
oscorpora
so
omeio mais
efectivo
para
osespecialistas
transmitirem
edivulgarem
o seuconhecimento
quer
noseio
da
potencial inegvel
para
olevantamento
de
terminologias,
que
reflectem
oestado
do
conhecimento de
umadeterminada comunidade
A
quantidade
de
produgo
cientfica
textual,
tal
como afacilidade de
aceder
a
textos
informatizados,
enorme,
levando
oterminlogo
areequacionar
assuas
metodologias.
Assim,
otexto
passa
a ser ocentro
das
suaspreocupages.
0
estudo
das
denominages,
com recurso aocontexto
lingustico
emque
estas ocorrem, leva-nos
apreconizar
aexistncia
de
umaterminologia
textual:
Les
applications
de la
terminologie
sont
le
plus
souvent
des
applications
textuelles
(traduction,
indexation,
aide
/a
rdaction);
la
terminologie
doit
venirdes
textes
pour mieux
y retourner.
C'est parce
qu'elle n'estjamais
dlie du
texte
qu'on
parle
de
terminologie
textuelle. C'est
dans
les
textes
produits
ouutiliss par
unecommunaut
d'experts,
qui
sesont
exprimes,
et
donc
accessibles,
unebonne
partie
des
connaissances
partages
de
cette
communaut,
c'est
donc par l
qu'il
faut
commencer
l'analyse.
(Bourigault,
Slodzian,
1999:30).
Em
nossoentender,
esta
abordagem
vemmanifestamente contribuir para
um
desenvolvimento
das
anlise
edescrigo
emlingustica, permitindo
umdesenvolvimento renovado de
gramticas
edicionrios.
O
levantamento
eorganizago
da
terminologia
,
actualmente,
umanecessidade
politica,
econmica
eindustrial
aoservigo
da
inovago
eda
Sociedade
da
Informago
edo
Conhecimento,
mbito
emque
asaplicages
informatizadas
so
concebidas
para
fins
especficos,
sendo
aidentificago
do
pblico
alvo
umaprioridade.
Deste modo.
umadenominago
tem
umaacepgo
cientfica
especfica.
sendo
que: /_a tche de
description
lexicale est
untravail
de
fixation,
de
stabilisation.
d'homognisation
d'une
signification,
dont le
rsultat
est le
terme.
[...]
C'est
ainsi
qu'on parle
de
normalisation,
non
plus
ausens
que
la
planification terminologique
donne
aumot,
mais au sensou la
communaut
d'experts
entrine
des
signifis
commedes
termes
du
domaine.
(Bourigault,
D..
Slodzian,
M.
1999:30).
Apesar
de
osprocedimentos
metodolgicos
propostos
ede
osprogramas informticos desenvolvidos
poderem
servir
qualquer
rea de
especialidade,
podemos
interrogar-nos
sobre
apertinncia
da
escolha
dos
textos de
Detecgo
Remota
comocorpus de
experimentago
do
nossotrabalho.
Em
primeiro
lugar,
acomunidade cientfica
e ostextos
produzidos
nesta
especialidade
apresentam
umagrande
identidade,
mesmoquando
asfronteiras
tcnicas
ecientficas dos
discursos da
Detecgo
Remota evidenciam
alguma
interdisciplinaridade
comoutros
ramosdo
saber,
nomeadamente
com aFsica,
a
Matemtica,
aGeografia
e asCincias da
Terra
(cf.
Captulo
3).
Esta
caracterstica
faz
comque
ocorpus
constitudo
seja seguramente
representativo
do
universo
de discursos
produzidos.
Em
segundo lugar.
aDetecgo
Remota
assistiu,
emPortugal,
nosltimos
dez
anos,
a umdesenvolvimento
semprecedentes,
quer
aonvel do
ensino quer
da
investigago.
Esse facto traduziu-se
naprodugo exponencial
de textos de
especialidade,
nomeadamente
apartir
de meados
da
ltima
dcada, Assim,
foi-nos
possvel
confrontar
ocorpus
inicial
com umcorpus
criadas
-por
via do
enriquecimento
tcnico
ecientfico dos
prprios
discursos
-,com
vista
subsequente
expehmentago
dos
programas informticos
desenvolvidos.
Em
terceiro
lugar,
acomunidade cientfica
da
Detecgo
Remota
emPortugal
tem
vindo
areconhecer
anecessidade
de
harmonizago
terminolgica.
nosentido de dar
resposta
s
exigncias
dos
discursos
cientfico-pedaggicos.
So
umexemplo
dessa
preocupago,
asconcluses do
Workshop
ROT'2000,
subordinado
aotema
0 Ensino
da
Detecgo
Remota
emPortugal,
que
reuniu,
emLisboa,
cercade
70
especialistas
emensino
destas matnas. Entre
outras
concluses,
esta
reunio salientou
anecessidade
de
harmonizago
lingustica
de
termos, por forma
aaumentar
aqualidade
do
saber
produzido
eministrado
nasuniversidades
portuguesas.
Em
quarto lugar.
aDetecgo
Remota
detm
umlugar
de
destaque
entre
as
Tecnologias
de
Informago
Geogrfica
para
aSociedade da
Informago.
A
difuso
de
inovago,
que est inevitavelmente associada
Sociedade da
Informago,
requer
qualidade;
essaqualidade
passa
no
s
pelo
enriquecimento
dos
contedos
disponibilizados
via Internet
-disso
exemplo
oprojecto
GEOCID.
promovido pela
Centro Nacional
de
Informago Geogrfica
(CNIG),
e oPrograma
para
aSociedade
da
Informago (POSI),
emdesenvolvimento
aoabrigo
do
Quadro Comunitrio
de
Apoio (QCA
III)
- comotambm
pela utilizago
de
umreferencial tcnico
ecientfico
aperfeigoado
do
2.
Apresentago
da
dissertago
A
presente
dissertago
desenvolve-se
emcinco
captulos.
Nos
trs
primeiros
expomos
ospnncipais pressupostos
tericos que
fundamentam
ejustificam
asopges
eonentages
metodolgicas
que
apresentamos
nosdois
ltimos
captulos.
Captulo
1:
Neste
captulo,
fazemos
umaincurso
pelas
lingusticas
de
corpora. Definimos
oconceito
de corpus,
distinguindo-o
do de
arquivo,
antes
de
abordarmos
oscorpora informatizados. Em ntima
associago
com anogo
de
corpora
informatizados.
damos
conta
das mais
recentes
tcnicas de
anotago,
ou
seja,
das
diversas
formas
de
acrescentar
informago metalingustica
aoslexemas,
sublinhando
particularmente
opapel
da
etiquetagem gramatical.
Captulo
2: Os
corpora
so
constitudos por
textos
de
especialidade
produzidos
por comunidades cientficas.
Descrevemos
oque
entendemos
por
comunidade
cientfica,
antes
de
justificarmos.
do
ponto
de
vista
teorico,
aselecgo
dos
textos que
constituem
ocorpus
emanlise.
Debatemos,
de
igual
forma,
osconceitos
de texto
ede
discurso,
bem
como opapel desempenhado
pelos
intervenientes
activos
epassivos
naprodugo
de
textos.
Salientamos
aimportncia
dos
contextos
lingusticos
eextra-lingusticos
naconstituigo
de
Captulo
3: As
denominages
que
nosinteressam
identificar
eanalisar
so
as
unidades
terminolgicas
multilexmicas, Neste
ponto,
debatemos
anogo
de
expresses
nominais multilexmicas
efazemos
umasinopse
de
algumas
abordagens lingusticas
s
expresses
nominais. que
sereflectem
nadiversidade
de
terminologias
utlizadas
para
asdenominar.
Captulo
4:
Iniciamos,
neste
captulo.
aexposigo
da
metodologia
que
nospermite proceder
aolevantamento automtico de unidades
terminolgicas
multilexmicas.
A
primeira
fase consiste
naelaborago
de dicionrios: dicionrios de formas
flexionadas,
dicionrio de
locuges
edicionrios
de
unidades
terminolgicas
multilexmicas
da
detecgo
remota. A todas
asformas
que
osconstituem so
atribudas
etiquetas metalingusticas.
O
Etiquelex, etiquetador
automtico,
adiciona
etiquetas
aoslexemas
do corpus que consegue identificar.
Com
base
naobservago
do corpus
etiquetado
criamos
umatipologia
de
regras
elementares
ede regras
base,
que
servemde
fundamento
aodicionrio
de regras de reconhecimento.
Captulo
5: A
partir
das
regras de
reconhecimento,
oExtracTerm,
programa
que
extrai
automaticamente
unidades
terminolgicas
multilexmicas,
efectua
umprimeiro
levantamento
automtico.
Com
base
nosdados
observados,
estabelecemos regras
lingusticas
de
desambiguago,
que
nospermitem
elaborar
regras de
aprendizagem.
Com
ambiguidades,
antes
de
recorrers
regras
de
reconhecimento,
que
permitem
um
levantamento mais
rigoroso
das unidades
terminolgicas
multilexmicas.
Atravs
da
reflexo
terica
emetodolgica
que
expomos
nesta
dissertago.
esperamos contribuir para
arenovago
das teorias
emetodologias
em
Terminologia
nombito
do
tratamento
automtico
da
lngua
de
Captulo
I
Corpora
1
.Lingusticas
de
corpora
1
.1
Definigo
de
lingustica
de corpora
1.2
A
rq
ui
vo ecorpus
2.
Tipologia
de corpora
2.1
Corpora
de
textos
integrais
ecorpora de
extractos
de
textos
2.2
Corpora comparativos
ecorpora
paralelos
2.3
Monitorcorpora
2.4
Corpora
de
referncia
2.5
Corpora
de
especialidade
ecorpora
especiais
3.
Corpora
anotados
3.1
SGML
3.2
TEI
3.3
CES
Captulo
I
-Corpora
1.
Lingusticas
de
corpora
1.1.
Definigo
de
lingusticas
de corpora
0
corpus,
objecto
de
estudo que est
naorigem
das
lingusticas
de corpora,
um
lugar
de
observago
que
permite
adescrigo
de
actualizages
da
lngua
organizadas
emenunciados,
discursos
outextos.
Na base da
constituigo
destes
conjuntos
de
dados
lingusticos
esto
critnos
de
selecgo
sistematizados,
que facultam
alegtima atribuigo
do
estatuto
de corpus
atais
conjuntos
de dados.
0 facto
de
otermo corpus
linguistics
no
serutilizado
nostextos
anteriores
aChomsky,
no
significa
que
oscorpora
no
fossem
usados
eexplorados
com afinalidade de anlise
lingustica.
Assim,
recorrer aoscorpora
como
objecto
de
anlise
no
umprocedimento
inovador.
Em
1951,
Harris
considerava
j
ocorpus
onico
objecto legtimo
da
lingustica
edesignava
por
lingustica
estrutural
ainvestigago
que operava,
apriori
ou aposteriori,
comcorpora.
Aarts,
por
suavez,
considera
que
oconceito de corpus
linguistics
no
d
conta
de
umaactividade
totalmente
nova emlingustica:
[...]
ifwe
take
corpus
linguistics
asreferring
to
linguistic
research
based
onobserved
utterances,
we cansay
that
this
type
of research
has
avery
long history
indeed.
Only
in earlier
Chomsky (1957.
1965)
modificou
oobjecto
da
lingustica,
considerando que
os
corpora
no
poderiam
nunca serentendidos
comoobjectos
de anlise teis
para
olingutsta;
privilegia,
recorrendo
introspecgo
umaaproximago
racionalista
aoobjecto,
emdetrimento
de
umaaproximago
empnca:
Chomsky changed
the
object
of
linguistic
enquiry
from
abstract
descriptions
of
language
to
theories which reflected
apsychological
reality,
cognitively
plausible
models of
language (McEnery,
Wilson,
1997:
4).
Para
este
autor,
oscorpora do
conta
exclusivamente
dos actos
de
performance,
no
revelando
osactos de
competncia,
que
podem
serunicamente determinados
pelo
falante.
No que
concerne
aocorpus,
McEnery
eWilson
sintetizam
oposicionamento
de
Chomsky
do
seguinte
modo: A
corpus
is
by
its very
nature
acollection of
externalised
utterances;
it
is
performance
data,
and
such
it
must
ofnecessity
be
a
poorguide
to
modelling
linguistic
competence (1997:5).
Nos
anossessenta,
asmetodoiogias
e asteorias associadas
aoscorpora
ganham
uma novadinmica. Vnos autores
(Aarts,
1990; Leech, 1997; Habert,
1997)
consideram
esta
dcada
um marco nahistria
recente
das
lingusticas
de corpora: The
year
of
1961,
which
morefamously
sawthen first
manned
space
flight,
is
the
date
to
which corpus
linguistics
canlook back
asthe
date
when the
entreprise
nowknown
ascorpus
linguistics
(or
moreprecisly
computer
corpus
linguistics)
cameinto
being (Leech,
1997:1).
a
escola
anglo-saxnica
que
populariza
otermo
corpus
linguistics,
que
recobre
simultaneamente
oobjecto,
bem
como asmetodologias
e asteorias
que
seconstroem
apartir
dos
corpora.
A
prpria definigo
de
corpus
formato
electrnico,
incrementando
asperspectivas
de anlise:
/n
the
past
thirty-five
years.
the
term
corpus
has
been
increasingly applied
to
abody
of
language
material which exists
in
electronic
form,
and which
may
be
processed
by computer
for
various purposes
such
aslinguistic
research and
language
engineering
(Leech, 1997:1).
Tambm
Sinclair
(1996)
prope
umadefinigo
de
computer
corpus,
independente
da
de
corpus
:A
computer
corpus
is acorpus which is encoded
in a
standardised and
homogenous
way for
openended
retrieval tasks.
Its
constituent
pieces
of
language
aredocumented
asto
their
origins
and
provenance
(Sinclair, 1996:6).
Tal
definigo
pressupe, implicitamente,
que
ocorpus
seja
entendido
como:[...]
collection
of
pieces
of
language
that
areselected and ordered
according
to
explicit
linguistic
criteria
in order
to
be
used
as a
sample
ofthe
language (Sinclair, 1996:6).
0 corpus
informatizado
pode apresentar-se
sob duas
formas,
isto
,
na suaforma bruta
(raw corpus)
ouanotada.
Enquanto
que
ocorpus
bruto
umobjecto
para
testar
hipteses
[...]
the test
bed
for
his
hypotheses
about
the
structure ofthe
language,
which
he
has
expressed
in
aformal grammar
(Aarts,
1990:18),
ocorpus anotado
enriquecido
cominformago
de
diversa
natureza:
morfolgica.
smtctica.
semntica,
prosdica,
crtica,
etc,
e[...]
serves as a
linguistic
database
for all
linguists studying
the structure of
the
language,[...]
(Aarts,
1990:18).
Pensamos,
deste
modo,
que
aslingusticas
de
corpora
assumem umduplo
estatuto:
por
umlado,
de
sub-disciplina
no seioda
lingustica,
por
outro,
lingustica:
lt
creates
textuat
databases which
have been
ennched with
detailed
morphological
and
syntactica
information and
where
possible,
with
phonological
and
semantic
information. Within the
foreseeable
future, every
linguist
will
be able
to
make
useof
such
databases. which
meanshe
will
also
have at
immediate numencal
data
about the
useof
constructions and
sentence
pattems,
the
realisation
ofgrammatical
sentences. etc.
(Aarts, 1990:16).
Para que
osresultados
obtidos
apartir
de corpora
sejam
fiveis,
indispensvel
que
oobjecto
sobre
oqual
recaem as nossashipteses
seja
adequadamente
definido
edelimitado.
Com
oaumento
crescente
evariado dos
corpora,
surge
anecessidade
de reflectirmos
adequadamente,
por
umlado,
sobre
ascaractersticas
do
corpus merecedor
dessa
designago,
por outro
saber
comoclassificar
adiversidade resultante de tal
proliferago.
1.2
Arquivo
ecorpus
Possuir
umacolecgo
de textos
mformatizados
no
condigo
suficiente
para que
possamos
considerar
estar
empresenga
de
umcorpus;
para
oconstituir
necessno
ter
emconta
umconjunto
de
pressupostos
tericos
emetodolgicos
considerados
de
importncia
fundamental.
Com
base
nestes
princpios,
sentimos,
numapnmeira
instncia,
anecessidade
de
distinguir
corpus
de
arquivo, conceitos que,
frequentemente,
so
usados
de
forma
arbitrria.
Em
1969,
Foucault dedica
grande
parte
da
suaobra
Archologie
du
efeito
osdiscursos cientificos caractersticos de cada
poca,
centrando
a suareflexo
narelago
que cada
umdos
enunciados mantm
entre
si,
com oobjectivo
de
seconcentrar
naorganizago
interna
do
conhecimento,
secundarizando
oscontedos
particulares
veiculados
pelo
mesmo.Acredita,
assim, que
oarquivo
/e
domaine
des choses
dites. Para
chegar
aesta
concepgo
de
arquivo,
Foucault
(1969)
aborda
aquesto
das
formages
discursivas,
que
define
comoconjuntos
de
enunciados,
historicamente demarcados
utilizando
o mesmosistema de
regras. Para
este
autor,
aunidade dos
enunciados
que.
segundo
ele,
seorganizam
emfamlias,
tais
como aMedicina,
aEconomia
ou aBiologia,
identificvel atravs da
descrigo
das
dissemelhangas
que
caracterizam
osmesmos,
constituindo
sistemas de
disperso
merentes
s
formages
discursivas: Une telle
analyse
n'essaierait
pas
d'isoler,
pour
endcrire la structure
interne,
des lots de
cohrence;
elle
ne sedonnerait pas pour tche de
soupgonner
et
de
porter
enpleine
lumire
les
conflits
latents;
elle
tudierait
des formes de
rpartition
(Foucault,
1969:52).
Foucault
recorre aoconceito
de
formago
discursiva para
contornar
noges
to
genricas
eabrangentes
como asde
cincia,
ideologia
eteoria
(cf.
Foucault,
1969:53),
que
considera,
noque
conceme as suasimplicages.
seremdemasiadamente
complexas:
Dans le
caso
onpourrait
dcrire,
entre
uncertain
nombre
d'noncs,
unpareil systme
de
dispersion,
dans
le
casou
entre
les
objets,
les
types
d'nonciation,
les
concepts,
les
choix
thmatiques.
onpourrait
dfinir
unergularit,
[..,],
ondira,
par
convention,
comunicago
restrito
comparativamente
aoespago de
comunicago
da
cincia,
entendida
aqui
na suaacepgo
mais
ampla.
Desta
forma,
oconceito de nunciado
fundamental para
oentendimento do
conceito
de
arquivo,
que Foucault
define,
no
como umaestrutura,
mas comouma
fungo
:[...]
qui
croise
undomaine de
structures et
d'units
possibles
et
qui
les fait
apparatre.
avecdes contenus
concrets,
dans
le
temps
et
l'espace
(Foucault,
1969:115).
0 enunciado
olugar
onde
ossignos
e asregras
existem
eonde so actualizados.
Em
Foucault,
osujeito
do enunciado
umafungo
vazia que,
enquanto
entidade
singular,
desprovido
de
valor,
quando equiparado
aosvalores
de
espago
ede
tempo,
elementos
fulcrais
na suateoria para
aconstrugo
do
conceito de
arquivo:
[...]
le
sujet
de l'nonc
est
unefonction
dtermine,
mais
qui
n'est pas forcment le mme d'un auteur
autre;
dans
la
mesureo
c'est
une
fonction vide.
pouvant
tre
remplie
par
des
individus,
jusqu'
uncertain
point,
indiffrents,
lorsqu'ils
viennent
formuler
l'nonc;
[...] (Foucault,
1969:123).
As
formages
discursivas
que
constituem
umarquivo
so
geradoras
de
sistemas
discursivos: /_'
archive
c'est
la
loi de
cequi peut
tre
dit,
le
systme
qui rgit
l'apparition
des
noncs
commevnements
singuliers
(Foucault,
lugar
aglomerador,
que
permite
o acesso aosistema
geral
da
formago
eda
transformago
dos
enunciados
pertencentes
aformages
discursivas.
A
fungo
do
arquivo
situa-se
entre
alngua
e ocorpus: Entre la
langue
qui
dfinit
le
systme
de construction des
phrases
possibles.
et
le
corpus
qui
recueille
passivement
les
paroles prononces,
l'archive dfinit
unniveau
particulier:
celui
d'une
pratique
qui
fait
surgir
unemultiplicit
d'noncs
commeautant d'vnements
rguliers,
commeautant
de choses offertes
autraitement
et
la
manipulation (Foucault, 1969:171).
Assim,
no
existe,
emmomento
algum, identificago
entre
arquivo
ecorpus, caracterizado
oprimeiro
comoum
lugar
de
actualizages
e osegundo
como umrepertrio
passivo
de
palavras
ditas.
0 que motiva
Foucault,
oobjectivo
de
compreender
ede descrever
as
leis
que regem
osdiscursos de
especialidade,
para comprovar
que
aunidade
destes advm de
irregularidades
que
esto
elas
prprias sujeitas
aregulago:
Je voudrais
montrer
que
cesunits forment autant de domaines
autonomes,
bien
qu'ils
nesoient pas
indpendants,
rgls.
bien
qu'ils
soient
enperptuelie
transformation. anonymes
et
sanssujet,
bien
qu'ils
traversent tant
d'oeuvres
individuelles
(Foucault,
1969).
Como
afirma
oprprio
filsofo,
aanlise
do
discurso
que
preconiza
no
pretende
dar
conta
da universalidade de
umsentido,
massim
de
umaordem
do
discurso
independente
do
seuobjecto
material,
distanciando-se desta forma
do
formalismo
lingustico (cf.
Foucault,
1971:72-73).
Por
seuturno,
asreflexes
explicativas
de
Maingueneau
sobre
corpus
evista terico,
osdois
conceitos parecem
aproximar-se
nodiscurso
deste autor.
No
obstante,
noque
serefere
a umaaproximago
emprica
aosreferidos
conceitos.
a suaperspectiva
assume.porventura,
umavertente
mais
operacional.
Na
qualidade
de
linguista,
Maingueneau
entende
oarquivo
comosendo constitudo
por
enunciados
que
seorganizam
emcorpora:
On
fera
ici
distinction
entre
l'archive,
sasurface discursive et les corpus que
cette
dernire
permet
de
dterminer.
La
surface discursive
correspond
l'ensemble des
inscnptions
relevant d'une mme archive.
[...]
En fonction de
cesobjectifs
le
chercheur
peut
extrair de
multiples
corpus
de cette
surface discursive
(un
corpus de
mots.
de
phrases
de tel
outel
type, etc.) qu'il
soumet
manipulations,
untraitemenh
(1991:25).
0
arquivo
perfilha
ovalor de
instituigo,
enquanto
que
ocorpus est
sujeito
amanipulago,
decorrendo
este
ltimo
do
primeiro.
A
anlise
do
discurso,
domnio
da
lingustica
que
Maingueneau pretende
estabilizar,
tem
por
objecto
de
estudo
textos
legitimados;
aincluso
de
umenunciado
noarquivo
oreconhecimento da
sualegitimidade:
L'AD
[analyse
du
discours]
s'intresse
eneffet
surtout
auxdiscours autoriss
qui,
au-del
de
leur
fonction
immdiate,
supposent
unrapport
auxfondements
et
auxvaleurs
(Maingueneau,
1991:
23).
Neste
aspecto,
asposiges
de
Foucault
ede
Maingueneau
convergem:
tanto
um comooutro
consideram que
oarquivo
constitudo
por enunciados
legitimados
no seiode
instituiges:
[...]
[les
noncs
sont
des]
choses qui
setransmettent
et
seconservent,
qui
ont
unetransforme:
auxquelles
onmnage
des circuits
prtablis
et
auxquelles
ondonne statut dans l'instituion
(Foucault, 1969:157).
Enquanto,
para
Foucault,
oarquivo
no
analisvel
no seutodo,
uma vezque,
na suaessncia,
demasiadamente
complexo
En
satotalit,
l'archive
n'est pas
descriptible;
et
elle
est
incontournable
en sonactualit
(Foucault,
1969:171),
para
Maingueneau,
oarquivo possui
umasuperfcie
discursiva
apartir
da
qual
podem
serextrados
corpora.
correspondendo
estes
aoconjunto
dos
enunciados,
sendo que para
osidentificar
necessrio
recorrer asaberes
discursivos
eextra-discursivos.
Segundo
estes
autores,
o_arquivo
,
assim,
constitudo
por
umconjunto
de
enunciados
legitimados,
que
estabelecem
relages
de
diversa
ordem,
quer
entre
si quer
com omundo que
representam.
Uma anlise
emconcreto
exige,
naperspectiva
de
Maingueneau,
otrabalho
apartir
de
corpora exrados dos
arquivos,
esegundo
aterminologia
de
Foucault,
aextracgo
de
fragmentos
desses
mesmosarquivos.
Desta
forma,
oscorpora,
partes
constituintes
de
umtodo
- oarquivo
-caractenzam-se
pela
presenga
ouausncia
de
tragos
lingusticos
e/ou
extra-lingusticos,
identificados
aquando
do
estabelecimento
dos
crithos
subjacentes selecgo
dos
enunciados que
osconstituem.
sets
of
texts
that
do
not need
to
be
selected,
ordo
not
need
to
be
ordered,
orthe selection
and /
orordenng
do
not
need
to
be
onlinguistic
criteria.
They
aretherefor
quite
unlike corpora
(Sinclair, 1996:7).
Para
este
autor,
arquivo
ecorpora
so
divergentes
nosobjectivos
que
justificam
as suasexistncias,
considerando
que
s
osegundo pode
serseleccionado
eorganizado segundo
critrios
lingusticos,
osnicos
parmetros
alegitimarem
oscorpora.
Estabelecemos
umparalelismo
entre
asterminologias
de
Foucault
ede
Maingueneau
e ade Sinclair.
Este
ltimo
designa
por monitor corpora
oque
Foucault
eMaingueneau
designam
por
arquivo
epor
subcorpora
oque
Maingueneau designa
por corpora.
Para
Sinclair,
A
corpus
canbe
divided
in
subcorpora.
A
subcorpus
has
all
the
properties
of
acorpus
but
happens
to
be
partofa larger
corpus
(Sinclair,
1996:9).
Sinclair
privilegia
oconceito de
monitor
corpora.
emdethmento do
de
arquivo:
[...]
adynamic
rather
than
astatic
phenomenon, consisting
of
very
large
amounts of
electronicaily-held
text
...A
certain
proportion
of
the
data wiil
be
stored
at
any
onetime,
but the bulk
will
necessarily
be
discarded after
processing.
The
object
will
be
to
'monitor' such
data,
from various
points
of
view,
in
order
to
record facts about
the
changing
nature
of
the
language
(Sinclair
1991:21).
Este
tipo
de
corpora
desempenha,
assim,
afungo
de
observatrio
da
lngua.
Para este
autor,
primordial
aconstituigo
de
ummonitor corpora
para todas
aslnguas
que
tenham
umestatuto
internacional
(cf.
Sinclair,
1991:25),
devendo
aextenso
deste.
idealmente,
igualar
ada
no