• Nenhum resultado encontrado

Maria Rute Vilhena Costa

N/A
N/A
Protected

Academic year: 2019

Share "Maria Rute Vilhena Costa"

Copied!
369
0
0

Texto

(1)

Maria Rute

Vilhena

Costa

Pressupostos

teoricos

e

metodolgicos

para

a

extracgo

automtica

de

unidades

terminolgicas

multilexmicas

Universidade

Nova de

Lisboa

Faculdade

de

Cincias Sociais

e

Humanas

(2)
(3)

Mana Rute Vilhena Costa

Pressupostos

tericos

e

metodolgicos

para

a

extrac?o

automtica

de

unidades

terminologicas

multilexmicas

V

Dissertaco

para

obtengo

do

grau

de Doutor

em

Linguistica. especialidade

de

Lexicologia

-

Terminologia

realizada

sob

a

onentaco da

Professora Doutora Mana Teresa

Rijo

da Fonseca Lino

'O '.::

Universidade

Nova

de

Lisboa

Faculdade

de

Cincias

Sociais

e

Humanas

(4)
(5)

Agradecimentos

Ao

terminar

este

trabalho no

posso

deixar de

agradecer

a

todos

os

que contribuiram

para

a sua

realizago,

cujo contnbuto foi

essencial.

dentro

e

fora do mbito

acadmico.

Professora Doutora Mana Teresa

Rijo

da

Fonseca Uno.

pela

orientago

da

dissertago.

pela

oportumdade

de

discutir ideias obtendo

sugestes

e

esclarecimentos

de

grande

valor.

pela

total

confianga

e a

liberdade

de

escolha cientfica que sempre

me

concedeu;

pela

aposta

que

um

dia

fez

em

mim;

pelos

seus

ensinamentos

ao

longo

da minha

progresso

universitna

e

pela

ligo

de

humamsmo

que

quotidianamente

me

transmite,

o meu

muito

obngada.

Professora

Doutora Maria

Francisca

Xavier

e

Professora

Doutora

Maria

de Lourdes

Crispim agradego-lhes

o

apoio

incondicional

candidatura

a uma

Bolsa PRODEP.

Ao

Professor

Doutor Didier

Bourigaut agradego

ter

aceite deslocar-se

a

Lisboa

com o

intuito

de debater

questes

cientificas

de

grande importncia

para

o

desenvolvimento

desta

dissertago.

Ao

Eng

Pedro Santos

agradego

a

grande

disponibilidade

para

o

apoio

ao

nivel

da

programago

informtica.

Dr3.

Helena

Manuelito.

pela

leitura

minuciosa

que fez

deste

trabalho,

os meus

muito

snceros

agradecimentos

Dr3.

Raquel

Silva

agradego:

para alm da

amizade,

todo

o

apoio.

disponibilidade

e

vontade incansvel para

ajudar.

Dr* Ftima

Ferreira

agradego

a

atengo

sempre

demonstrada,

nomeadamente para

colaborar

nas

obrigages

comuns

de

relages

universitnas

internacionais.

Ao Dr.

Paulo

Morgado

Sousa

e ao

Dr Jos Carlos Ferreira

reconhego

e

agradego

o

esprito

de

solidariedade

que sempre

demonstraram.

Mana Joo Patinha

agradego

o

precioso

e

contnuo

apoio

demonstrado

em

todas

as

circunstncias

da

vida.

(6)

NDICE

Introduco

1

.

Objectivos

2.

Apresentaco

da

dissertago

Capitulo

I

-

Corpora

5

12

16

45

48

1.

Lingusticas

de

corpora

16

1

.

1

Definico

de

lingustica

de corpora

1

6

1.2

Arquivo

e

corpus

19

2.

Tipologia

de

corpora

26

2.1

Corpora

de

textos

integrais

e

corpora de extractos de

textos

28

2.2

Corpora

comparativos

e

corpora

paraielos

29

2.3

Monitor corpora

ou

2.4

Corpora

de referncia

31

2.5

Corpora

de

especialidade

e

corpora

especiais

35

3.

Corpora

anotados

37

3.1

SGML

39

3.2

TEI

3.3

CES

3.4

Etiquetagem

gramatical

JU

Captulo

II

-

Constituico

de

corpus

57

1

.

Comunidade cientifica,

produtora

de

textos

de

especialidade

57

2.

Texto

de

especialidade

60

2.1

Texto

e

discurso

2.2

Contextos

67

70

2.3

Intervenientes

3.

Tipologia

de

tipos

ou

tipologia

de

gneros^

4.

Constituigo

do

corpus

em

Detecgo

Remota

4.1.

Definigo

da

rea

de

especialidade

em

anlise:

Detecco

Remota

4.2.

Constituigo

de

tipologias

4.2.1

.

Tipologia

de

tipos

de discurso

(7)

Captulo

III

-

Denominaco:

expresses

nominais multilexmicas

107

107

1.

Denominagao

2.

Expresses

nominais multilexmicas

113

113

2.1.

Lexias

117

2.2.

Sinapse

2.3.

Nomecomposto

2.4.

Colocago

128

2.5.

Frasemas

145

1

df\

3.

Fraseologia

Captulo

IV

-

Etiquetador

gramatical

automtico:

EtiqueLex

156

1

.

Tratamento do corpus

informatizado

1

56

2. Tabela de

etiquetas

158

3.

Constituigo

dos dicionrios

166

3.1.

Dicionrio de formas

simples

flexionadas

1

66

3.1.1. Desdobramento de formas

166

3.1.2. Variantes

ortogrficas

3.2.

Dicionrio de

locuges

3.3.

Dicionrio

de

unidades

terminolgicas

multilexmicas

da

Detecgo

Remota

175

4.

Etiquetadorgramatical:

EtiqueLex

178

5.

Tipologia

de matrizes

terminognicas

1

82

5.1.

Tipologia

elementar

182

5.2.

Anlise

da

composigo

das

unidades

terminolgicas

multilexmicas

186

1

Q7

5.3.

Tipologia

de base

168

171

5.4.

Dicionrio

de

estruturas

tipo

200

Captulo

V

-

Extractor automtico

de

unidades

terminolgicas

multilexmicas: ExtracTerm

203

203

203

1

.

Concepgo

do

ExtracTerm

1.1.

Aplicago

do

dicionrio

de

tipologias

907

1

.2.

Anlise

dos

resultados

9 1R

2.

Regras

de

desambiguago

(8)

2.1.1.

Regras lingusticas

de

aprendizagem

221

2.2.

Adjectivo

e

particpio passado

ps-nominal.

224

2.2.1.

Regras lingusticas

de

aprendizagem

226

2.3.

Nome

e

adjectivo

236

2.3.1.

Regras lingusticas

de

aprendizagem

238

3.

ExtracTerm:

utilizago

das

regras

de

aprendizagem

240

3.1.

Anlise dos resultados

244

3.2.

Teste do ExtracTerm

sobre

um

corpus

alargado

247

3.2.1. Anlise dos resultados

248

Concluso

251

Bibliografa

258

Anexos

301

Anexo

1

-

Dicionrio de formas flexionadas

303

Anexo 2

-

Dicionrio de

locuges

314

Anexo

3

-

Dicionrio de unidades

terminolgicas

da

detecgo

remota

323

Anexo

4

-

Texto

etiquetado

com o

EtiqueLex,

sem a

aplicago

de regras

de

326

desambiguago

Anexo 5

-

Sequncias

extradas

com

ExtracTerm

a

partir

de

texto

etiquetado

332

no

desambiguado

Anexo 6

-

Texto

etiquetado

com o

ExtracTerm.

com a

aplicago

de

regras de

339

desambiguago

Anexo 7

-

Sequncias

extradas

com

ExtracTerm

a

partir

de

texto

etiquetado

345

desambiguado

Anexo 8

-

Texto

etiquetado

com

ExtracTerm,

a

partir

de

novo

corpus,

com

351

aplicago

de

regras

de

desambiguago

Anexo

9

-

Sequncias

extradas

com

ExtracTerm

a

partir

de

texto

etiquetado

358

(9)

Introdu^o

1.

Objectivos

(10)

Introdugo

1.

Objectivos

0

tratamento automtico da

lngua

produzida

em

contexto

de

especialidade

o

pano de fundo que

subjaz

reflexo

terica

e

metodolgica apresentada

nesta

dissertago.

0

objectivo

da

nossa

investigago

consiste,

desta

forma.

na

formulago

dos

pressupostos

tericos

da

Lexicologia

e

da

Terminologia

que

esto

na

base

da

concepgo

de

um

programa informtico

destinado

ao

levantamento

automtico

a

partir

de

descriges

de

anlises

de carcter

linguistico

de unidades

terminolgicas

multilexmicas.

Com

efeito,

desenvolvemos

neste

trabalho

uma

investigago

que,

baseada

em

critrios exclusivamente

lingusticos

permite

a

identificago

automtica

de

unidades

terminolgicas

multilexmicas

da

rea

de

especialidade

da

Detecgo

Remota.

No

momento da

concepgo

do extractor,

tommos conscincia da

necessidade

da

criago

de

um

etiquetador

que

est

na

base do

primeiro.

Deste

modo,

concebemos

dois

programas:

o

EtiqueLex

e o

ExtracTerm.

O

primeiro

atribui

etiquetas

gramaticais

aos

lexemas do

corpus. Funcionando

sobre

o

corpus

etiquetado,

o

ExtracTerm

extrai unidades

terminolgicas

multilexmicas,

partindo

de regras

de

reconhecimento

e

de

regras

de

aprendizagem,

(11)

0

EtiqueLex

uma

componente

indispensvel

do

ExtracTerm,

sem a

qual

este

ltimo

no

funciona.

No obstante.

o

EtiqueLex pode

ser

utilizado

exclusivamente

para

a

etiquetagem,

sem

que

seja

necessrio

proceder-se

ao

levantamento automtico

de termos,

gozando,

assim, de autonomia

face

ao

extractor.

A

emergncia

e o

desenvolvimento

de

uma

abordagem lexicolgica

Terminologia

coloca-nos

no

centro

dos

debates actualmente

em curso.

Neste

mbito,

levantam-se

questes

como as

seguintes:

o

que

distingue

uma

palavra

de

um

termo?

Que

metodologia(s) adoptar

em

Terminologia?

Actualmente,

a

Terminologia

uma

rea

de

especialidade

no

seio

da

Lingustica

que

estuda

o

comportamento

lingustico

das

unidades

terminolgicas,

recorrendo

aos

contextos

e,

de

forma mais

abrangente,

aos

textos

em

que

ocorrem.

Neste

debate

entram

em

confronto

duas ideias

distintas:

por

um

lado,

a

perspectiva

que defende

uma

abordagem

normativa

terminologia,

por outro,

a

que

encara a

terminologia

numa

perspectiva

descritiva.

A doutrina wsteriana

apologista

da

normalizago terminolgica,

porque

a

univocidade

dos

termos

uma

condigo

necessria

comunicago

entre

especialistas,

sendo

a

redugo

da

sinonmia

e

da

ambiguidade

um

dos

principais

objectivos.

Foi

nos anos

trinta que

Wuster

levou

a

cabo

trabalhos

terminolgicos

dando

especial

relevo

organizago

sistemtica

das

terminologias,

incrementando

a

definico de

postulados

fundamentais para

o

desenvolvimento

de

mtodos

de

(12)

Normalizago

Terminolgica

do Instituto

de

Normalizago

do

Concelho

dos

Ministros da

URSS

e

membro da Academia

das

Cincias,

que

a

terminologia

nasce como

cincia

(cf.

Rondeau,

1983).

Em

consequncia

das

preocupages metodolgicas

de

Wuster

e

das

preocupages

tericas

de

Lotte,

criado

um

organismo,

o

ISA

-

International

Organization

for

Standardization,

cujo

objectivo

o

favorecimento

do comrcio

intemacional,

desenvolvendo

a

normalizago

dos

produtos

e

dos processos.

Os

membros fundadores deste

organismo

so

a

Franga,

a

Gr-Bretanha,

a

Alemanha

e a

URSS.

A

2a Guerra Mundial

interrompe

as

actividades da

ISA,

mas em

1946

nasce a

ISO

-

International

Organization

for

Standardiaztion,

sendo criada

em

1951

o

Comit

Tcnico

37

(TC

37)

que,

reunindo

pela

primeira

vez em

1952,

tem

por

fungo

a

normalizago

da

Terminologia

e

dos

seus

princpios metodolgicos.

A

metodologia preconizada pelos seguidores

de Wuster

parte

da anlise

do

objecto

para

chegar

denominago,

uma vez

que

,

essencialmente,

atravs

desta que

os

especialistas

veiculam

conhecimentos. 0 conceito est

no

centro

da

metodologia onomasiolgica, desempenhando

a

denominago

a

fungo

de

etiqueta:

[...]

/a dmarche

terminologique,

au

contraire

de la dmarche

linguistique.

ne

part

pas d'une

appellation

pour

dcouvrir

l'tre

ou

le

groupe

d'tres

reprsent

par

cette

appellation:

elle

procde

l'inverse,

partir

des

entits pour tudier

leurs

dnominations.

(Rondeau, 1983:12).

A

normalizago

do

termo

passa

pela normalizago

do

conceito,

pressupondo

tal

abordagem

a sua

universalidade,

uma vez

que

para

a

ISO

os

(13)

refere

Lerat

(1995),

os

linguistas

no

podem

aceitar esta

perspectiva,

porque:

[...]

les notions sont lies

aux

conceptualisations,

donc

aux

locuteurs,

leurs

cultures

et

leurs

langues (Lerat.1995

17).

A

rpida evolugo

da

tcnica,

das

cincias

e

da

tecnologia

fazem

com a

conceptualizago

dos

factos cientficos

no

seja

universal,

porque

dependente

de

factores

sociais

e

culturais evidentes. Por

esta

razo,

linguistas

como

Bjoint

e

Thoiron

rejeitam

a

doutrina

wusteriana,

perspectivando

a

normalizago

como um

processo artificialmente

construdo,

com

vista

a

atingir

o

ideal

da

biunivocidade:

um

termo

para

um

conceito:

[...]

bref de la

langue

fabrique

de

toutes

pices

et

contrle

par la

communaut

linguistique

pour

fagonnerle

monde

(Bjoint;

Thoiron,

2000:6).

Do

ponto

de vista terico

e

metodolgico,

defendemos

uma

abordagem

descritiva

Terminologia.

Numa

perspectiva lingustica,

a

automatizago

requer

no

so a

descrigo

do

comportamento lingustico

das

denominages

em

situago

real.

como

tambm

a

descrigo

dos contextos

em

que tais

denominages

ocorrem.

A

evolugo

da

capacidade

de

armazenamento

da

informago

em

suporte

electrnico,

bem

como o

aumento

crescente

dos

recursos

linguisticos

plurilingues

informatizados contribuem para

as

viragens metodolgica

e

terica

que

neste momento

atingem

claramente

a

terminologia.

Os

textos

eschtos

que

compem

os

corpora

so

o

meio mais

efectivo

para

os

especialistas

transmitirem

e

divulgarem

o seu

conhecimento

quer

no

seio

da

(14)

potencial inegvel

para

o

levantamento

de

terminologias,

que

reflectem

o

estado

do

conhecimento de

uma

determinada comunidade

A

quantidade

de

produgo

cientfica

textual,

tal

como a

facilidade de

aceder

a

textos

informatizados,

enorme,

levando

o

terminlogo

a

reequacionar

as

suas

metodologias.

Assim,

o

texto

passa

a ser o

centro

das

suas

preocupages.

0

estudo

das

denominages,

com recurso ao

contexto

lingustico

em

que

estas ocorrem, leva-nos

a

preconizar

a

existncia

de

uma

terminologia

textual:

Les

applications

de la

terminologie

sont

le

plus

souvent

des

applications

textuelles

(traduction,

indexation,

aide

/a

rdaction);

la

terminologie

doit

venir

des

textes

pour mieux

y retourner.

C'est parce

qu'elle n'estjamais

dlie du

texte

qu'on

parle

de

terminologie

textuelle. C'est

dans

les

textes

produits

ou

utiliss par

une

communaut

d'experts,

qui

se

sont

exprimes,

et

donc

accessibles,

une

bonne

partie

des

connaissances

partages

de

cette

communaut,

c'est

donc par l

qu'il

faut

commencer

l'analyse.

(Bourigault,

Slodzian,

1999:30).

Em

nosso

entender,

esta

abordagem

vem

manifestamente contribuir para

um

desenvolvimento

das

anlise

e

descrigo

em

lingustica, permitindo

um

desenvolvimento renovado de

gramticas

e

dicionrios.

O

levantamento

e

organizago

da

terminologia

,

actualmente,

uma

necessidade

politica,

econmica

e

industrial

ao

servigo

da

inovago

e

da

Sociedade

da

Informago

e

do

Conhecimento,

mbito

em

que

as

aplicages

informatizadas

so

concebidas

para

fins

especficos,

sendo

a

identificago

do

pblico

alvo

uma

prioridade.

Deste modo.

uma

denominago

tem

uma

acepgo

(15)

cientfica

especfica.

sendo

que: /_a tche de

description

lexicale est

un

travail

de

fixation,

de

stabilisation.

d'homognisation

d'une

signification,

dont le

rsultat

est le

terme.

[...]

C'est

ainsi

qu'on parle

de

normalisation,

non

plus

au

sens

que

la

planification terminologique

donne

au

mot,

mais au sens

ou la

communaut

d'experts

entrine

des

signifis

comme

des

termes

du

domaine.

(Bourigault,

D..

Slodzian,

M.

1999:30).

Apesar

de

os

procedimentos

metodolgicos

propostos

e

de

os

programas informticos desenvolvidos

poderem

servir

qualquer

rea de

especialidade,

podemos

interrogar-nos

sobre

a

pertinncia

da

escolha

dos

textos de

Detecgo

Remota

como

corpus de

experimentago

do

nosso

trabalho.

Em

primeiro

lugar,

a

comunidade cientfica

e os

textos

produzidos

nesta

especialidade

apresentam

uma

grande

identidade,

mesmo

quando

as

fronteiras

tcnicas

e

cientficas dos

discursos da

Detecgo

Remota evidenciam

alguma

interdisciplinaridade

com

outros

ramos

do

saber,

nomeadamente

com a

Fsica,

a

Matemtica,

a

Geografia

e as

Cincias da

Terra

(cf.

Captulo

3).

Esta

caracterstica

faz

com

que

o

corpus

constitudo

seja seguramente

representativo

do

universo

de discursos

produzidos.

Em

segundo lugar.

a

Detecgo

Remota

assistiu,

em

Portugal,

nos

ltimos

dez

anos,

a um

desenvolvimento

sem

precedentes,

quer

ao

nvel do

ensino quer

da

investigago.

Esse facto traduziu-se

na

produgo exponencial

de textos de

especialidade,

nomeadamente

a

partir

de meados

da

ltima

dcada, Assim,

foi-nos

possvel

confrontar

o

corpus

inicial

com um

corpus

(16)

criadas

-por

via do

enriquecimento

tcnico

e

cientfico dos

prprios

discursos

-,

com

vista

subsequente

expehmentago

dos

programas informticos

desenvolvidos.

Em

terceiro

lugar,

a

comunidade cientfica

da

Detecgo

Remota

em

Portugal

tem

vindo

a

reconhecer

a

necessidade

de

harmonizago

terminolgica.

no

sentido de dar

resposta

s

exigncias

dos

discursos

cientfico-pedaggicos.

So

um

exemplo

dessa

preocupago,

as

concluses do

Workshop

ROT'2000,

subordinado

ao

tema

0 Ensino

da

Detecgo

Remota

em

Portugal,

que

reuniu,

em

Lisboa,

cerca

de

70

especialistas

em

ensino

destas matnas. Entre

outras

concluses,

esta

reunio salientou

a

necessidade

de

harmonizago

lingustica

de

termos, por forma

a

aumentar

a

qualidade

do

saber

produzido

e

ministrado

nas

universidades

portuguesas.

Em

quarto lugar.

a

Detecgo

Remota

detm

um

lugar

de

destaque

entre

as

Tecnologias

de

Informago

Geogrfica

para

a

Sociedade da

Informago.

A

difuso

de

inovago,

que est inevitavelmente associada

Sociedade da

Informago,

requer

qualidade;

essa

qualidade

passa

no

s

pelo

enriquecimento

dos

contedos

disponibilizados

via Internet

-

disso

exemplo

o

projecto

GEOCID.

promovido pela

Centro Nacional

de

Informago Geogrfica

(CNIG),

e o

Programa

para

a

Sociedade

da

Informago (POSI),

em

desenvolvimento

ao

abrigo

do

Quadro Comunitrio

de

Apoio (QCA

III)

- como

tambm

pela utilizago

de

um

referencial tcnico

e

cientfico

aperfeigoado

do

(17)

2.

Apresentago

da

dissertago

A

presente

dissertago

desenvolve-se

em

cinco

captulos.

Nos

trs

primeiros

expomos

os

pnncipais pressupostos

tericos que

fundamentam

e

justificam

as

opges

e

onentages

metodolgicas

que

apresentamos

nos

dois

ltimos

captulos.

Captulo

1:

Neste

captulo,

fazemos

uma

incurso

pelas

lingusticas

de

corpora. Definimos

o

conceito

de corpus,

distinguindo-o

do de

arquivo,

antes

de

abordarmos

os

corpora informatizados. Em ntima

associago

com a

nogo

de

corpora

informatizados.

damos

conta

das mais

recentes

tcnicas de

anotago,

ou

seja,

das

diversas

formas

de

acrescentar

informago metalingustica

aos

lexemas,

sublinhando

particularmente

o

papel

da

etiquetagem gramatical.

Captulo

2: Os

corpora

so

constitudos por

textos

de

especialidade

produzidos

por comunidades cientficas.

Descrevemos

o

que

entendemos

por

comunidade

cientfica,

antes

de

justificarmos.

do

ponto

de

vista

teorico,

a

selecgo

dos

textos que

constituem

o

corpus

em

anlise.

Debatemos,

de

igual

forma,

os

conceitos

de texto

e

de

discurso,

bem

como o

papel desempenhado

pelos

intervenientes

activos

e

passivos

na

produgo

de

textos.

Salientamos

a

importncia

dos

contextos

lingusticos

e

extra-lingusticos

na

constituigo

de

(18)

Captulo

3: As

denominages

que

nos

interessam

identificar

e

analisar

so

as

unidades

terminolgicas

multilexmicas, Neste

ponto,

debatemos

a

nogo

de

expresses

nominais multilexmicas

e

fazemos

uma

sinopse

de

algumas

abordagens lingusticas

s

expresses

nominais. que

se

reflectem

na

diversidade

de

terminologias

utlizadas

para

as

denominar.

Captulo

4:

Iniciamos,

neste

captulo.

a

exposigo

da

metodologia

que

nos

permite proceder

ao

levantamento automtico de unidades

terminolgicas

multilexmicas.

A

primeira

fase consiste

na

elaborago

de dicionrios: dicionrios de formas

flexionadas,

dicionrio de

locuges

e

dicionrios

de

unidades

terminolgicas

multilexmicas

da

detecgo

remota. A todas

as

formas

que

os

constituem so

atribudas

etiquetas metalingusticas.

O

Etiquelex, etiquetador

automtico,

adiciona

etiquetas

aos

lexemas

do corpus que consegue identificar.

Com

base

na

observago

do corpus

etiquetado

criamos

uma

tipologia

de

regras

elementares

e

de regras

base,

que

servem

de

fundamento

ao

dicionrio

de regras de reconhecimento.

Captulo

5: A

partir

das

regras de

reconhecimento,

o

ExtracTerm,

programa

que

extrai

automaticamente

unidades

terminolgicas

multilexmicas,

efectua

um

primeiro

levantamento

automtico.

Com

base

nos

dados

observados,

estabelecemos regras

lingusticas

de

desambiguago,

que

nos

permitem

elaborar

regras de

aprendizagem.

Com

(19)

ambiguidades,

antes

de

recorrer

s

regras

de

reconhecimento,

que

permitem

um

levantamento mais

rigoroso

das unidades

terminolgicas

multilexmicas.

Atravs

da

reflexo

terica

e

metodolgica

que

expomos

nesta

dissertago.

esperamos contribuir para

a

renovago

das teorias

e

metodologias

em

Terminologia

no

mbito

do

tratamento

automtico

da

lngua

de

(20)

Captulo

I

Corpora

1

.

Lingusticas

de

corpora

1

.

1

Definigo

de

lingustica

de corpora

1.2

A

rq

u

i

vo e

corpus

2.

Tipologia

de corpora

2.1

Corpora

de

textos

integrais

e

corpora de

extractos

de

textos

2.2

Corpora comparativos

e

corpora

paralelos

2.3

Monitorcorpora

2.4

Corpora

de

referncia

2.5

Corpora

de

especialidade

e

corpora

especiais

3.

Corpora

anotados

3.1

SGML

3.2

TEI

3.3

CES

(21)

Captulo

I

-Corpora

1.

Lingusticas

de

corpora

1.1.

Definigo

de

lingusticas

de corpora

0

corpus,

objecto

de

estudo que est

na

origem

das

lingusticas

de corpora,

um

lugar

de

observago

que

permite

a

descrigo

de

actualizages

da

lngua

organizadas

em

enunciados,

discursos

ou

textos.

Na base da

constituigo

destes

conjuntos

de

dados

lingusticos

esto

critnos

de

selecgo

sistematizados,

que facultam

a

legtima atribuigo

do

estatuto

de corpus

a

tais

conjuntos

de dados.

0 facto

de

o

termo corpus

linguistics

no

ser

utilizado

nos

textos

anteriores

a

Chomsky,

no

significa

que

os

corpora

no

fossem

usados

e

explorados

com a

finalidade de anlise

lingustica.

Assim,

recorrer aos

corpora

como

objecto

de

anlise

no

um

procedimento

inovador.

Em

1951,

Harris

considerava

j

o

corpus

o

nico

objecto legtimo

da

lingustica

e

designava

por

lingustica

estrutural

a

investigago

que operava,

a

priori

ou a

posteriori,

com

corpora.

Aarts,

por

sua

vez,

considera

que

o

conceito de corpus

linguistics

no

d

conta

de

uma

actividade

totalmente

nova em

lingustica:

[...]

ifwe

take

corpus

linguistics

as

referring

to

linguistic

research

based

on

observed

utterances,

we can

say

that

this

type

of research

has

a

very

long history

indeed.

Only

in earlier

(22)

Chomsky (1957.

1965)

modificou

o

objecto

da

lingustica,

considerando que

os

corpora

no

poderiam

nunca ser

entendidos

como

objectos

de anlise teis

para

o

lingutsta;

privilegia,

recorrendo

introspecgo

uma

aproximago

racionalista

ao

objecto,

em

detrimento

de

uma

aproximago

empnca:

Chomsky changed

the

object

of

linguistic

enquiry

from

abstract

descriptions

of

language

to

theories which reflected

a

psychological

reality,

cognitively

plausible

models of

language (McEnery,

Wilson,

1997:

4).

Para

este

autor,

os

corpora do

conta

exclusivamente

dos actos

de

performance,

no

revelando

os

actos de

competncia,

que

podem

ser

unicamente determinados

pelo

falante.

No que

concerne

ao

corpus,

McEnery

e

Wilson

sintetizam

o

posicionamento

de

Chomsky

do

seguinte

modo: A

corpus

is

by

its very

nature

a

collection of

externalised

utterances;

it

is

performance

data,

and

such

it

must

ofnecessity

be

a

poorguide

to

modelling

linguistic

competence (1997:5).

Nos

anos

sessenta,

as

metodoiogias

e as

teorias associadas

aos

corpora

ganham

uma nova

dinmica. Vnos autores

(Aarts,

1990; Leech, 1997; Habert,

1997)

consideram

esta

dcada

um marco na

histria

recente

das

lingusticas

de corpora: The

year

of

1961,

which

more

famously

saw

then first

manned

space

flight,

is

the

date

to

which corpus

linguistics

can

look back

as

the

date

when the

entreprise

now

known

as

corpus

linguistics

(or

more

precisly

computer

corpus

linguistics)

came

into

being (Leech,

1997:1).

a

escola

anglo-saxnica

que

populariza

o

termo

corpus

linguistics,

que

recobre

simultaneamente

o

objecto,

bem

como as

metodologias

e as

teorias

que

se

constroem

a

partir

dos

corpora.

A

prpria definigo

de

corpus

(23)

formato

electrnico,

incrementando

as

perspectivas

de anlise:

/n

the

past

thirty-five

years.

the

term

corpus

has

been

increasingly applied

to

a

body

of

language

material which exists

in

electronic

form,

and which

may

be

processed

by computer

for

various purposes

such

as

linguistic

research and

language

engineering

(Leech, 1997:1).

Tambm

Sinclair

(1996)

prope

uma

definigo

de

computer

corpus,

independente

da

de

corpus

:

A

computer

corpus

is a

corpus which is encoded

in a

standardised and

homogenous

way for

openended

retrieval tasks.

Its

constituent

pieces

of

language

are

documented

as

to

their

origins

and

provenance

(Sinclair, 1996:6).

Tal

definigo

pressupe, implicitamente,

que

o

corpus

seja

entendido

como:

[...]

collection

of

pieces

of

language

that

are

selected and ordered

according

to

explicit

linguistic

criteria

in order

to

be

used

as a

sample

ofthe

language (Sinclair, 1996:6).

0 corpus

informatizado

pode apresentar-se

sob duas

formas,

isto

,

na sua

forma bruta

(raw corpus)

ou

anotada.

Enquanto

que

o

corpus

bruto

um

objecto

para

testar

hipteses

[...]

the test

bed

for

his

hypotheses

about

the

structure ofthe

language,

which

he

has

expressed

in

a

formal grammar

(Aarts,

1990:18),

o

corpus anotado

enriquecido

com

informago

de

diversa

natureza:

morfolgica.

smtctica.

semntica,

prosdica,

crtica,

etc,

e

[...]

serves as a

linguistic

database

for all

linguists studying

the structure of

the

language,[...]

(Aarts,

1990:18).

Pensamos,

deste

modo,

que

as

lingusticas

de

corpora

assumem um

duplo

estatuto:

por

um

lado,

de

sub-disciplina

no seio

da

lingustica,

por

outro,

(24)

lingustica:

lt

creates

textuat

databases which

have been

ennched with

detailed

morphological

and

syntactica

information and

where

possible,

with

phonological

and

semantic

information. Within the

foreseeable

future, every

linguist

will

be able

to

make

use

of

such

databases. which

means

he

will

also

have at

immediate numencal

data

about the

use

of

constructions and

sentence

pattems,

the

realisation

ofgrammatical

sentences. etc.

(Aarts, 1990:16).

Para que

os

resultados

obtidos

a

partir

de corpora

sejam

fiveis,

indispensvel

que

o

objecto

sobre

o

qual

recaem as nossas

hipteses

seja

adequadamente

definido

e

delimitado.

Com

o

aumento

crescente

e

variado dos

corpora,

surge

a

necessidade

de reflectirmos

adequadamente,

por

um

lado,

sobre

as

caractersticas

do

corpus merecedor

dessa

designago,

por outro

saber

como

classificar

a

diversidade resultante de tal

proliferago.

1.2

Arquivo

e

corpus

Possuir

uma

colecgo

de textos

mformatizados

no

condigo

suficiente

para que

possamos

considerar

estar

em

presenga

de

um

corpus;

para

o

constituir

necessno

ter

em

conta

um

conjunto

de

pressupostos

tericos

e

metodolgicos

considerados

de

importncia

fundamental.

Com

base

nestes

princpios,

sentimos,

numa

pnmeira

instncia,

a

necessidade

de

distinguir

corpus

de

arquivo, conceitos que,

frequentemente,

so

usados

de

forma

arbitrria.

Em

1969,

Foucault dedica

grande

parte

da

sua

obra

Archologie

du

(25)

efeito

os

discursos cientificos caractersticos de cada

poca,

centrando

a sua

reflexo

na

relago

que cada

um

dos

enunciados mantm

entre

si,

com o

objectivo

de

se

concentrar

na

organizago

interna

do

conhecimento,

secundarizando

os

contedos

particulares

veiculados

pelo

mesmo.

Acredita,

assim, que

o

arquivo

/e

domaine

des choses

dites. Para

chegar

a

esta

concepgo

de

arquivo,

Foucault

(1969)

aborda

a

questo

das

formages

discursivas,

que

define

como

conjuntos

de

enunciados,

historicamente demarcados

utilizando

o mesmo

sistema de

regras. Para

este

autor,

a

unidade dos

enunciados

que.

segundo

ele,

se

organizam

em

famlias,

tais

como a

Medicina,

a

Economia

ou a

Biologia,

identificvel atravs da

descrigo

das

dissemelhangas

que

caracterizam

os

mesmos,

constituindo

sistemas de

disperso

merentes

s

formages

discursivas: Une telle

analyse

n'essaierait

pas

d'isoler,

pour

en

dcrire la structure

interne,

des lots de

cohrence;

elle

ne se

donnerait pas pour tche de

soupgonner

et

de

porter

en

pleine

lumire

les

conflits

latents;

elle

tudierait

des formes de

rpartition

(Foucault,

1969:52).

Foucault

recorre ao

conceito

de

formago

discursiva para

contornar

noges

to

genricas

e

abrangentes

como as

de

cincia,

ideologia

e

teoria

(cf.

Foucault,

1969:53),

que

considera,

no

que

conceme as suas

implicages.

serem

demasiadamente

complexas:

Dans le

cas

o

on

pourrait

dcrire,

entre

un

certain

nombre

d'noncs,

un

pareil systme

de

dispersion,

dans

le

cas

ou

entre

les

objets,

les

types

d'nonciation,

les

concepts,

les

choix

thmatiques.

on

pourrait

dfinir

une

rgularit,

[..,],

on

dira,

par

convention,

(26)

comunicago

restrito

comparativamente

ao

espago de

comunicago

da

cincia,

entendida

aqui

na sua

acepgo

mais

ampla.

Desta

forma,

o

conceito de nunciado

fundamental para

o

entendimento do

conceito

de

arquivo,

que Foucault

define,

no

como uma

estrutura,

mas como

uma

fungo

:

[...]

qui

croise

un

domaine de

structures et

d'units

possibles

et

qui

les fait

apparatre.

avec

des contenus

concrets,

dans

le

temps

et

l'espace

(Foucault,

1969:115).

0 enunciado

o

lugar

onde

os

signos

e as

regras

existem

e

onde so actualizados.

Em

Foucault,

o

sujeito

do enunciado

uma

fungo

vazia que,

enquanto

entidade

singular,

desprovido

de

valor,

quando equiparado

aos

valores

de

espago

e

de

tempo,

elementos

fulcrais

na sua

teoria para

a

construgo

do

conceito de

arquivo:

[...]

le

sujet

de l'nonc

est

une

fonction

dtermine,

mais

qui

n'est pas forcment le mme d'un auteur

autre;

dans

la

mesure

o

c'est

une

fonction vide.

pouvant

tre

remplie

par

des

individus,

jusqu'

un

certain

point,

indiffrents,

lorsqu'ils

viennent

formuler

l'nonc;

[...] (Foucault,

1969:123).

As

formages

discursivas

que

constituem

um

arquivo

so

geradoras

de

sistemas

discursivos: /_'

archive

c'est

la

loi de

ce

qui peut

tre

dit,

le

systme

qui rgit

l'apparition

des

noncs

comme

vnements

singuliers

(Foucault,

(27)

lugar

aglomerador,

que

permite

o acesso ao

sistema

geral

da

formago

e

da

transformago

dos

enunciados

pertencentes

a

formages

discursivas.

A

fungo

do

arquivo

situa-se

entre

a

lngua

e o

corpus: Entre la

langue

qui

dfinit

le

systme

de construction des

phrases

possibles.

et

le

corpus

qui

recueille

passivement

les

paroles prononces,

l'archive dfinit

un

niveau

particulier:

celui

d'une

pratique

qui

fait

surgir

une

multiplicit

d'noncs

comme

autant d'vnements

rguliers,

comme

autant

de choses offertes

au

traitement

et

la

manipulation (Foucault, 1969:171).

Assim,

no

existe,

em

momento

algum, identificago

entre

arquivo

e

corpus, caracterizado

o

primeiro

como

um

lugar

de

actualizages

e o

segundo

como um

repertrio

passivo

de

palavras

ditas.

0 que motiva

Foucault,

o

objectivo

de

compreender

e

de descrever

as

leis

que regem

os

discursos de

especialidade,

para comprovar

que

a

unidade

destes advm de

irregularidades

que

esto

elas

prprias sujeitas

a

regulago:

Je voudrais

montrer

que

ces

units forment autant de domaines

autonomes,

bien

qu'ils

ne

soient pas

indpendants,

rgls.

bien

qu'ils

soient

en

perptuelie

transformation. anonymes

et

sans

sujet,

bien

qu'ils

traversent tant

d'oeuvres

individuelles

(Foucault,

1969).

Como

afirma

o

prprio

filsofo,

a

anlise

do

discurso

que

preconiza

no

pretende

dar

conta

da universalidade de

um

sentido,

mas

sim

de

uma

ordem

do

discurso

independente

do

seu

objecto

material,

distanciando-se desta forma

do

formalismo

lingustico (cf.

Foucault,

1971:72-73).

Por

seu

turno,

as

reflexes

explicativas

de

Maingueneau

sobre

corpus

e

(28)

vista terico,

os

dois

conceitos parecem

aproximar-se

no

discurso

deste autor.

No

obstante,

no

que

se

refere

a uma

aproximago

emprica

aos

referidos

conceitos.

a sua

perspectiva

assume.

porventura,

uma

vertente

mais

operacional.

Na

qualidade

de

linguista,

Maingueneau

entende

o

arquivo

como

sendo constitudo

por

enunciados

que

se

organizam

em

corpora:

On

fera

ici

distinction

entre

l'archive,

sa

surface discursive et les corpus que

cette

dernire

permet

de

dterminer.

La

surface discursive

correspond

l'ensemble des

inscnptions

relevant d'une mme archive.

[...]

En fonction de

ces

objectifs

le

chercheur

peut

extrair de

multiples

corpus

de cette

surface discursive

(un

corpus de

mots.

de

phrases

de tel

ou

tel

type, etc.) qu'il

soumet

manipulations,

un

traitemenh

(1991:25).

0

arquivo

perfilha

o

valor de

instituigo,

enquanto

que

o

corpus est

sujeito

a

manipulago,

decorrendo

este

ltimo

do

primeiro.

A

anlise

do

discurso,

domnio

da

lingustica

que

Maingueneau pretende

estabilizar,

tem

por

objecto

de

estudo

textos

legitimados;

a

incluso

de

um

enunciado

no

arquivo

o

reconhecimento da

sua

legitimidade:

L'AD

[analyse

du

discours]

s'intresse

en

effet

surtout

aux

discours autoriss

qui,

au-del

de

leur

fonction

immdiate,

supposent

un

rapport

aux

fondements

et

aux

valeurs

(Maingueneau,

1991:

23).

Neste

aspecto,

as

posiges

de

Foucault

e

de

Maingueneau

convergem:

tanto

um como

outro

consideram que

o

arquivo

constitudo

por enunciados

legitimados

no seio

de

instituiges:

[...]

[les

noncs

sont

des]

choses qui

se

transmettent

et

se

conservent,

qui

ont

une

(29)

transforme:

auxquelles

on

mnage

des circuits

prtablis

et

auxquelles

on

donne statut dans l'instituion

(Foucault, 1969:157).

Enquanto,

para

Foucault,

o

arquivo

no

analisvel

no seu

todo,

uma vez

que,

na sua

essncia,

demasiadamente

complexo

En

sa

totalit,

l'archive

n'est pas

descriptible;

et

elle

est

incontournable

en son

actualit

(Foucault,

1969:171),

para

Maingueneau,

o

arquivo possui

uma

superfcie

discursiva

a

partir

da

qual

podem

ser

extrados

corpora.

correspondendo

estes

ao

conjunto

dos

enunciados,

sendo que para

os

identificar

necessrio

recorrer a

saberes

discursivos

e

extra-discursivos.

Segundo

estes

autores,

o_arquivo

,

assim,

constitudo

por

um

conjunto

de

enunciados

legitimados,

que

estabelecem

relages

de

diversa

ordem,

quer

entre

si quer

com o

mundo que

representam.

Uma anlise

em

concreto

exige,

na

perspectiva

de

Maingueneau,

o

trabalho

a

partir

de

corpora exrados dos

arquivos,

e

segundo

a

terminologia

de

Foucault,

a

extracgo

de

fragmentos

desses

mesmos

arquivos.

Desta

forma,

os

corpora,

partes

constituintes

de

um

todo

- o

arquivo

-caractenzam-se

pela

presenga

ou

ausncia

de

tragos

lingusticos

e/ou

extra-lingusticos,

identificados

aquando

do

estabelecimento

dos

crithos

subjacentes selecgo

dos

enunciados que

os

constituem.

(30)

sets

of

texts

that

do

not need

to

be

selected,

or

do

not

need

to

be

ordered,

or

the selection

and /

or

ordenng

do

not

need

to

be

on

linguistic

criteria.

They

are

therefor

quite

unlike corpora

(Sinclair, 1996:7).

Para

este

autor,

arquivo

e

corpora

so

divergentes

nos

objectivos

que

justificam

as suas

existncias,

considerando

que

s

o

segundo pode

ser

seleccionado

e

organizado segundo

critrios

lingusticos,

os

nicos

parmetros

a

legitimarem

os

corpora.

Estabelecemos

um

paralelismo

entre

as

terminologias

de

Foucault

e

de

Maingueneau

e a

de Sinclair.

Este

ltimo

designa

por monitor corpora

o

que

Foucault

e

Maingueneau

designam

por

arquivo

e

por

subcorpora

o

que

Maingueneau designa

por corpora.

Para

Sinclair,

A

corpus

can

be

divided

in

subcorpora.

A

subcorpus

has

all

the

properties

of

a

corpus

but

happens

to

be

partofa larger

corpus

(Sinclair,

1996:9).

Sinclair

privilegia

o

conceito de

monitor

corpora.

em

dethmento do

de

arquivo:

[...]

a

dynamic

rather

than

a

static

phenomenon, consisting

of

very

large

amounts of

electronicaily-held

text

...

A

certain

proportion

of

the

data wiil

be

stored

at

any

one

time,

but the bulk

will

necessarily

be

discarded after

processing.

The

object

will

be

to

'monitor' such

data,

from various

points

of

view,

in

order

to

record facts about

the

changing

nature

of

the

language

(Sinclair

1991:21).

Este

tipo

de

corpora

desempenha,

assim,

a

fungo

de

observatrio

da

lngua.

Para este

autor,

primordial

a

constituigo

de

um

monitor corpora

para todas

as

lnguas

que

tenham

um

estatuto

internacional

(cf.

Sinclair,

1991:25),

devendo

a

extenso

deste.

idealmente,

igualar

a

da

(31)

no

final extent

because,

like the

language

itself.

it

keeps

on

developping

(Sinclair,

1991:25).

Apesar

de

Sinclair

preferir

o

conceito

de monitor corpora

ao

de

arquivo

(cf.

Leech,

1991:12),

Leech

no

abandona

este

ltimo conceito

sem

primeiramente

o

distinguir

do de corpus.

apontando algumas

iniciativas que

surgiram

no seio

da

escola

americana,

com o

propsito

de

distanciar

os

referidos conceitos, delimitando

as

respectivas

funges.

Assim,

imputa

Association of

Computational Linguistics

Data

Coding

inttiative,

nos

Estados

Unidos,

a

intengo

de querer

:

[...]

make the

concept

of

an

archive

almost

comparable

in

scope

to

that of

a

national

copyright

library (Leech, 1991:11),

sendo que

[... ]

the

difference

between

an

archive and

a

corpus must

be

that

the

latter is

designed

or

required

for

a

particular 'representative'

function

(Leech,

1991:11).

Como

podemos

constatar,

os

conceitos

de

arquivo

e

de

corpus

assumem

valores diferenciados

nas

escolas francesa

e

anglo-saxnica,

revelando

tais

valores

posicionamentos

filosficos

e

tericos distintos.

A

investigago

que

subjaz

a

esta

dissertago

situa-se

no

mbito das teorias

lingusticas.

Desta

feita,

o

objecto

sobre

o

qual

efectuamos

as

anlises

um

corpus informatizado

que,

numa

pnmeira

instncia.

desprovido

de

qualquer

acrscimo

informativo.

2.

Tipologia

de

corpora

No

devemos

considerar

todo

e

qualquer

tipo

de

corpora

um

objecto

vlido,

Referências

Documentos relacionados

Abstract: We consider the problem of robust model predictive control for linear sampled– data dynamical systems subject to state and control constraints and additive and

A capacidade das biomassas de sorverem metais pesados em meio líq uido (biossorção) é unida a processos de separação sólido- líquido, tais como flotação e floculação, nos

A coleta de dados será realizada pela autora deste estudo através de entrevista com roteiro semi-estruturado (Apêndice A); obtendo-se informações sobre dados de

No ambiente de trabalho, onde passamos cerca de um terço de nossa vida, é fundamental saber conviver com as pessoas e respeitá -las em suas individualidades.

O estudo indicou que a utilização de méto- dos de interpolação para a construção de modelos digitais da batimetria de cursos d’água é uma al- ternativa viável para

Para a elaboração de um diagnóstico das iniciativas para a prevenção e para o atendimento às vítimas dos acidentes e violências, tomamos como norte o que é preconizado

Figura 5-7: Número de vezes em que os usuários entrevistados (população flutuante) utilizam os banheiros do HC-UNICAMP na realização de atividades com o emprego de água em

Como o cultivo de Copépodes ainda não está suficientemente normalizado, a utilização de mesocosmos revelou-se o modelo mais adequado para o cultivo desta espécie, uma vez que