• Nenhum resultado encontrado

O Sistema de Anotação Sintática em um Corpus. Eletrônico do Português: propostas e desafios. Silvia Regina de Oliveira CAVALCANTE.

N/A
N/A
Protected

Academic year: 2021

Share "O Sistema de Anotação Sintática em um Corpus. Eletrônico do Português: propostas e desafios. Silvia Regina de Oliveira CAVALCANTE."

Copied!
19
0
0

Texto

(1)

O Sistema de Anota¸c˜

ao Sint´

atica em um Corpus

Eletrˆ

onico do Portuguˆes: propostas e desafios

Silvia Regina de Oliveira CAVALCANTE

silviare@gmail.com

UFF / UNICAMP

V Congresso Internacional da ABRALIN

Fevereiro de 2007

(2)

1

Apresenta¸

ao

Este trabalho tem como objetivo apresentar o sistema de anota¸c˜ao sint´atica adotado para o Corpus Tycho Brahe, bem como discutir os desafios inerentes ao processo de anota¸c˜ao sint´atica, tanto do ponto de vista ling¨u´ıstico quanto do ponto de vista tecnol´ogico. O pro-cesso de anota¸c˜ao sint´atica consiste basicamente em duas fases (1) fase de anota¸c˜ao manual dos dados e (2) treinamento do analisador sint´atico, o parser. O parser ´e um algoritmo que atribui uma determinada estrutura sint´atica `a seq¨uˆencia de palavras de um texto etiquetado morfologicamente. A partir das etiquetas morfol´ogicas, o parser constr´oi uma estrutura sint´atica, em forma de sintagmas e via de regra preserva as etiquetas morfol´ogicas. Atu-almente, o Corpus Tycho Brahe conta com um parser desenvolvido na Universidade da Pensilvˆania por Daniel Bikel (cf. Bikel 2004) que ´e treinado com dados de v´arias l´ınguas, pois pretende dar conta de um maior n´umero de l´ınguas poss´ıvel. ´E esse o algoritmo uti-lizado na anota¸c˜ao sint´atica do Penn-Helsink Parsed Corpus of English, coordenado pelo Professor Antnhony Kroch, que colabora com o Projeto Tem´atico Padr˜oes R´ıtmicos Fixa¸c˜ao de Parˆametros e Mudan¸ca Ling¨u´ıstica.

Numa l´ıngua morfologicamente rica como o portuguˆes, as etiquetas recebem sub-etiquetas que indicam aspectos da morfologia, tais como flex˜ao de n´umero (plural), gˆenero (feminino) e os tempos e modos verbais (presente do indicativo, futuro do subjuntivo, etc.), como vimos com o trabalho de Namiuti. No caso do Corpus Tycho Brahe, n˜ao s˜ao etiquetadas ainda marcas de pessoa e n´umero verbais, mas isso n˜ao impede que se possa marc´a-las: no Cordial-Sin, Corpus Dialetal do Portuguˆes, da Universidade de Lisboa, essas marcas s˜ao etiquetadas.

(3)

Assim, uma palavra como “viu” recebe no Corpus Tycho Brahe a etiqueta “VB-D”, que indica verbo no pret´erito perfeito, e no Cordial-Sin, recebe a etiqueta “VB-D-3S”, o que indica, al´em do tempo e modo verbais, a “terceira pessoa do singular”.

Na primeira fase do Projeto, tamb´em se decidiu marcar as contra¸c˜oes por meio do sinal “+”, como por exemplo no caso de contra¸c˜ao de preposi¸c˜ao com determinante (P+D: “no”), ou no caso de ˆenclises (VB-P+SE: “vende-se”).

Com base numa senten¸ca etiquetada, como (1a), a anota¸c˜ao sint´atica ser´a algo como (1b):

(1) a. A/D-F menina/N-F viu/VB-D os/D-P meninos/D-P em/P casa/N b. (IP-MAT (NP-SBJ (DP (D-F A) (N-F menina))) (VB-D viu) (NP-ACC (DP (D-P os) (N-P meninos))) (PP (P em) (N casa)))

Pode-se ver nessa configura¸c˜ao, que o sistema de anota¸c˜ao sint´atica que adotamos ´e uma ´arvore em parˆenteses etiquetados cujos r´otulos dos sintagmas obedecem, via de regra, `

as etiquetas morfol´ogicas. Uma senten¸ca declarativa ser´a um IP-MAT, um “IP matriz”, ao passo que uma subordinada ser´a um CP, que seleciona um IP-SUB, um “IP subordinado”. Todos os sintagmas s˜ao diretamente ligados ao n´o raiz: o sujeito (NP-SBJ), o verbo (VB-D), o objeto direto (NP-ACC) e o sintagma preposicional (PP).

Um determinante seguido de um nome projeta um sintagma determinante (DP): Os/D-P meninos/N-P : (DP (D-P Os) (N-P meninos)); uma preposi¸c˜ao seguida de um nome

(4)

pro-jeta um sintagma preposicional (PP): em/P casa/N : (PP (P em) (N casa)). N˜ao se pro-jeta, entretanto, um sintagma verbal, como VP. Da´ı decorre que se vale de uma estrutura plana (“flat”) – adapta¸c˜ao da Teoria X-barra – em que todos os n´os est˜ao ligados ao IP-MAT. As rela¸c˜oes entre os n´os s˜ao de dois tipos: dominˆancia e precedˆencia. Em (1b), o IP-MAT domina imediatamente os n´os NP-SBJ, VB-D, NP-ACC e PP. O n´o NP-SBJ precede imediata-mente VB-D, e precede NP-ACC e PP. As buscas s˜ao feitas com base nessas rela¸c˜oes. Para estudar a varia¸c˜ao SV-VS em senten¸cas matrizes, com sujeito lexicais, por exemplo, deve-mos escrever um comando de busca do tipo: IP-MAT domina imediatamente NP-SBJ e VB-*. NP-SBJ domina imediatamente DP, e NP-SBJ precede VB-*, para termos as senten¸cas com ordem SV. Para capturarmos as senten¸cas VS, basta especificar que VB-* precede NP-SBJ.

Essa ramifica¸c˜ao tem como base a Teoria X-barra (cf. Haegeman 1994, Mioto et al. 1999), sem ter como requisito ramifica¸c˜oes bin´arias, mas sim ene´arias, como vimos em (1b). Isso facilita tanto o parser, pois a estrutura arb´orea fica “mais simples” para o algoritmo, bem como as buscas que ser˜ao feitas no corpus anotado sintaticamente. Al´em disso, numa estrutura com ramifica¸c˜ao bin´aria t´ıpica da Teoria X-barra, como vemos em (2a) a seguir, s˜ao representados resultado de movimento, categorias vazias, que numa ramifica¸c˜ao em que n˜ao projetamos o VP, tornam-se desnecess´arias, como em (2b):

(2) a. [IP Pedroi [I0 [I amav [VP [V0 [V tv Maria ]]]]]]

b. [IP −MAT [NP −SBJ Pedro] [VB −P ama] [NP −ACC Maria]]

Como a estrutura se inspira na Teoria X-barra, alguns pressupostos s˜ao preservados, tais como “toda senten¸ca tem uma posi¸c˜ao de sujeito”. Da´ı, numa senten¸ca com sujeito nulo, ´e

(5)

projetado um sintagma NP-SBJ, por´em com uma categoria vazia do tipo pro: (3) (IP-MAT (NP-SBJ *pro*)

(VB-D vimos)

(NP-ACC (NPR Maria)) (ADVP (ADV ontem)))

Da´ı se observa que a anota¸c˜ao sint´atica n˜ao deve, e nem pretende, seguir as tendˆencias de an´alise mais recente propostas pela Teoria Gerativa. Por exemplo, algumas an´alises dentro das vers˜oes mais recentes do Programa Minimalista, como a de Kato 1999, prop˜oem que se tire a categoria pro do sistema, por raz˜oes de economia. A desinˆencia verbal e o pro seriam categorias redundantes, por isso a tendˆencia a n˜ao considerar pro no sistema. A inten¸c˜ao em apresentar um corpus anotado sintaticamente ´e apresentar o maior n´umero poss´ıvel de dados a serem analisados, e n˜ao apresentar uma an´alise dos dados. Por isso, se fez necess´ario estabelecer crit´erios sistem´aticos de anota¸c˜ao sint´atica. ´E com essa premissa que se propuseram algumas modifica¸c˜oes no sistema de anota¸c˜ao sint´atica implementado num primeiro momento para o Corpus Tycho Brahe (cf. Britto 2001).

Apresentarei agora algumas modifica¸c˜oes do ponto de vista ling¨u´ıstico que foram reali-zadas no sistema de anota¸c˜ao sint´atica para depois apresentarmos alguns desafios computa-cionais, ou operacomputa-cionais, que aparecem ao longo do trabalho de anota¸c˜ao sint´atica.

(6)

2

Algumas Reformula¸

oes no Sistema de Anota¸

ao Sint´

atica

Nesta se¸c˜ao, vou discutir algumas modifica¸c˜oes que se fazem necess´arias implementar no sistema de anota¸c˜ao sint´atica do Corpus Tycho Brahe, para simplificar o sistema e apresentar maior uniformidade no tratamento de dados. A t´ıtulo de exemplifica¸c˜ao, mostro como se decidiu marcar os cl´ıticos, principalmente os encl´ıticos, e as contra¸c˜oes, a fim de que se obtivesse um certo paralelismo.

2.1

Coloca¸

ao Pronominal

As etiquetas morfol´ogicas marcam al´em das classes gramaticais, marcas flexionais, e con-tra¸c˜oes. Um cl´ıtico procl´ıtico, por exemplo, ´e marcado como uma palavra separada do verbo, ao passo que o cl´ıtico encl´ıtico ´e marcado como um “sufixo” ao verbo. Compare-se (4a) com (4b) a seguir:

(4) a. Jo~ao/NPR a/CL ama/VB-P b. Jo~ao/NPR ama-a/VB-P+CL

O resultado desse tipo de etiquetagem ´e que, para preservar a morfologia, a anota¸c˜ao sint´atica teve que levar em conta categoria vazia gerada por movimento (representada por (CL *T*-1), o que faz com que a ˆenclise “desapare¸ca” dentro da senten¸ca, e tamb´em faz com que o paralelismo entre uma senten¸ca com objeto lexical e com cl´ıtico se perca. Compare-se a senten¸ca (5a) com (5b) a seguir: na primeira o cl´ıtico faz parte do sintagma do objeto, ao passo que no segundo, o objeto tem um vest´ıgio de movimento. A configura¸c˜ao em (5c), em que h´a um objeto direto lexical n˜ao ´e paralela `a senten¸ca com cl´ıtico:

(7)

(5) a. (IP-MAT (NP-SBJ (NPR Jo~ao)) (NP-ACC (CL a)) (VB-P ama))

b. (IP-MAT (NP-SBJ (NPR Jo~ao)) (VB-P+CL-1 ama-a) (NP-ACC (CL *T*-1))) c. (IP-MAT (NP-SBJ (NPR Jo~ao))

(VB-P ama)

(NP-ACC (NPR Maria)))

Ao contr´ario, se estabelecermos um sistema de anota¸c˜ao sint´atica em que essas etiquetas morfol´ogicas s˜ao separadas, a diferen¸ca entre pr´oclise e ˆenclise, do ponto de vista da con-figura¸c˜ao, ´e a ordem dos elementos na senten¸ca. Obviamente, que essa anota¸c˜ao sint´atica n˜ao pressup˜oe qualquer an´alise sobre coloca¸c˜ao pronominal, mas possibilita um acesso mais direto `a diferen¸ca na coloca¸c˜ao pronominal e tamb´em uma certa homogeneidade que facilita o aprendizado do parser. A sugest˜ao pode ser vista a seguir com as senten¸cas em (6a) e (6b) a seguir:

(6) a. (IP-MAT (NP-SBJ (NPR Jo~ao)) (NP-ACC (CL a)) (VB-P ama))

b. (IP-MAT (NP-SBJ (NPR Jo~ao)) (VB-P ama)

(NP-ACC (CL a)))

No sistema de anota¸c˜ao sint´atica, temos que pensar tamb´em em como as buscas v˜ao ser implementadas. As configura¸c˜oes em (6a) e (6b) diferem pela ordem dos cl´ıticos em rela¸c˜ao ao verbo. Al´em disso, como h´a um paralelismo de representa¸c˜ao entre a senten¸ca com objeto lexical (5c) e as com cl´ıtico (6), isso facilitaria uma pesquisa sobre a varia¸c˜ao do objeto direto: lexical, cl´ıtico ou oracional, por exemplo.

(8)

Al´em das vantagens de ordem tecnol´ogica, esse tipo de configura¸c˜ao pode ser condizente com a varia¸c˜ao de ortografia no que tange `a coloca¸c˜ao pronominal que ocorreu em per´ıodos anteriores do portuguˆes: os pronomes tanto encl´ıticos quanto procl´ıticos poderiam aparecer junto ao verbo: medisse, disseme.

2.2

As contra¸

oes

Dadas as caracter´ısticas morfol´ogicas do portuguˆes, as contra¸c˜oes marcadas na etiquetagem morfossint´atica causaram um problema para a anota¸c˜ao sint´atica. Consideremos os exemplos a seguir: (7) mostra como fica a estrutura de um sintagma preposicional com contra¸c˜ao da preposi¸c˜ao com um determinante (P+D) e (8) mostra como fica o sintagma preposicional quando n˜ao h´a contra¸c˜ao da preposi¸c˜ao:

(7) a. Jo~ao/NPR sentou/VB-D no/P+D ch~ao/N b. (IP-MAT (NP-SBJ (NPR Jo~ao))

(VB-D sentou) (PP (P+D no)

(N ch~ao)))

(8) a. Jo~ao/NPR ficou/VB-D em/PP casa/N b. (IP-MAT (NP-SBJ (NPR Jo~ao))

(VB-D ficou) (PP (P em)

(N casa)))

Ao tentar preservar as informa¸c˜oes morfol´ogicas (contra¸c˜ao da preposi¸c˜ao com o deter-minante) na anota¸c˜ao sint´atica, acaba-se gerando um “braketing paradox”: como que a preposi¸c˜ao mais o determinante v˜ao projetar um sintagma preposicional? E h´a outros tipos de contra¸c˜oes, como preposi¸c˜ao mais cl´ıtico: pelos/P+CL fazer/VB; preposi¸c˜ao mais

(9)

pro-nome: dele/P+PRO; preposi¸c˜ao mais quantificador: n’algum/P+Q, etc. Desse modo, quando se tratar de um sintagma preposicional, cujo n´ucleo esteja contra´ıdo com um elemento deter-minante, a proje¸c˜ao n˜ao vai corresponder ao n´ucleo. A sugest˜ao que se d´a ´e que se desfa¸cam todas as contra¸c˜oes na etiquetagem morfossint´atica no arquivo a ser submetido ao parser. Assim, nossa ´arvore ficar´a da seguinte forma:

(9) a. Jo~ao/NPR sentou/VB-D em/PP o/D ch~ao/N b. (IP-MAT (NP-SBJ (NPR Jo~ao))

(VB-D sentou) (PP (P em)

(DP (D o)

(N ch~ao))))

Desse modo, ocorre um paralelismo em que todo PP ser´a a proje¸c˜ao de um P. A confi-gura¸c˜ao em (9a) pode facilitar buscas para a pesquisa da varia¸c˜ao no uso do artigo diante de possessivo, por exemplo. Em sintagmas preposicionais, anotados sintaticamente como em (7), o artigo “desaparece” diante do possesssivo. Ao contr´ario, numa vers˜ao editada, as buscas s˜ao facilitadas. A an´alise que vir´a dos contextos em que h´a a contra¸c˜ao ficar´a a cargo de pesquisas espec´ıficas, e n˜ao do sistema de anota¸c˜ao sint´atica.

Uma quest˜ao que se pode levantar ´e que com esse tipo de edi¸c˜ao muitas informa¸c˜oes relevantes sobre a morfologia poder˜ao se perder na estrutura anotada sintaticamente. A´ı entra a integra¸c˜ao entre os v´arios momentos de tratamento computacional de um mesmo texto. Como Paix˜ao de Sousa expˆos, as v´arias “camadas” de um mesmo texto est˜ao ligadas por meio da codifica¸c˜ao em XML.

(10)

Nesse formato, h´a v´arias edi¸c˜oes: a edi¸c˜ao original, a edi¸c˜ao modernizada e o que cha-maremos de edi¸c˜ao t´ecnica.

Na edi¸c˜ao original, o texto ´e apresentado com sua ortografia original, al´em de se preservar as contra¸c˜oes, abreviaturas, etc., o que viabiliza estudos hist´oricos. Na edi¸c˜ao modernizada, ocorre a moderniza¸c˜ao da ortografia, as abreviaturas s˜ao abertas, mas se preservam ainda algumas contra¸c˜oes, como as que ainda vigoram hoje: “do”, “naquele”, “pelo”, “fazˆe-los”, etc., o que facilita a leitura dos textos por pessoas que n˜ao est˜ao necessariamente interessadas nos aspectos hist´oricos.

A edi¸c˜ao t´ecnica apresentar´a al´em da grafia modernizada, algumas modifica¸c˜oes que viabilizem a anota¸c˜ao sint´atica. Al´em de desfazer as contra¸c˜oes de preposi¸c˜ao com um outro elemento (pelo/P+D : por/P o/D; polos/P+CL fazer/VB : por/P os/CL fazer/VB), tamb´em vamos editar pronomes encl´ıticos, como mencionei na se¸c˜ao 2.1 (lavou-se/VB-D+SE : lavou/VB-D se/SE).

Isso n˜ao significar´a de forma alguma perda nas informa¸c˜oes dos textos, mas apenas prepara¸c˜ao para submetˆe-los a ferramentas computacionais. Como os textos s˜ao tratados com a linguagem XML, como explica Paix˜ao de Sousa (2004b, 2005), cada texto ´e apresentado em v´arias vers˜oes e cada senten¸ca ´e identificada, de modo que se pode ter acesso a todas as camadas de cada texto.

Assim, para fins de implementa¸c˜ao das ferramentas computacionais, como o etiqueta-dor morfol´ogico e o analisador sint´atico, s˜ao operadas determinadas transforma¸c˜oes que s´o modificam esses textos e que viabilizam uma pesquisa sobre um tema espec´ıfico do ponto

(11)

de vista ling¨u´ıstico, como ordenamento de constituintes na senten¸ca, coloca¸c˜ao pronominal, uso de determinadas preposi¸c˜oes, etc.. O original est´a preservado para qualquer outro tipo consulta, ling¨u´ıstica ou hist´orica.

3

Desafios

Nesta se¸c˜ao, apresento dois desafios `a anota¸c˜ao sint´atica que apareceram principalmente ao iniciar dos trabalhos com a anota¸c˜ao sint´atica das Mem´orias do Marquˆes da Fronteira e d’Alorna (1802), em desenvolvimento. Discutirei aqui dois pontos importantes: a quest˜ao da precis˜ao do parser (sua performance) e a quest˜ao das ferramentas computacionais utilizadas na anota¸c˜ao sint´atica.

Conforme j´a foi mencionado, o parser utilizado para os textos do Corpus Tycho Brahe est´a na Universidade da Pensilvˆania e foi desenvolvido, n˜ao para o portuguˆes, mas para um grande n´umero de l´ınguas. Advoga-se, inclusive, o objetivo do autor em desenvolver um parser universal. Desse modo, como os dados do portuguˆes ainda n˜ao s˜ao t˜ao numerosos – at´e agora s´o foram utilizadas 100.000 palavras para treinar o parser –, ainda estamos distantes de uma precis˜ao como o etiquetador desenvolvido especialmente para o Corpus Tycho Brahe, o tagger de Finger, apresenta. Atualmente, o tagger apresenta em torno de 96% de acerto na sua etiquetagem, e o parser n˜ao chega aos 20%.

Um parser universal vai identificar padr˜oes comuns entre v´arias l´ınguas, entre elas o Inglˆes e o Portuguˆes, por exemplo. Isso pode diminuir o avan¸co da precis˜ao para o portuguˆes. Um exemplo desse problema ´e que o parser utilizado se baseia principalmente na ordem dos

(12)

constituintes da senten¸ca para fazer suas previs˜oes sobre as categorias sint´aticas a serem anotadas num texto. Uma l´ıngua como o portuguˆes, principalmente o Portuguˆes Cl´assico e Portuguˆes Europeu apresenta a maioria dos seus sujeitos como uma categoria vazia (cf. Duarte (1995, 2000) e Paix˜ao de Sousa (2004a)), contrariamente ao que ocorre com o Inglˆes (de diferentes fases). Assim, os resultados das anota¸c˜oes sint´aticas do parser est˜ao, por enquanto, muito prec´arios, pois na maioria das senten¸cas dos textos em portuguˆes n˜ao ocorre um Sintagma Nominal precedendo o sujeito, o que poderia ser o fator desencadeador da marca¸c˜ao do sujeito na senten¸ca.

Nos exemplos em (10) a seguir, retirados das Mem´orias do Marquˆes da Fronteira e d’Alorna, verificamos trˆes exemplos de como Sintagma Nominal sujeito pode aparecer em portuguˆes: em (10a), temos um sujeito nulo; em (10b) o sujeito aparece na posi¸c˜ao pr´e-verbal e em (10c) o sujeito ´e p´os-verbal:

(10) pro Darei princ´ıpio a estas minhas mem´orias pela minha genealogia. a. ( (IP (CODE <comment>[a_003_s_1]</comment>)

(NP-SBJ *pro* ) (VB-R Darei) (NP (N princ´ıpio)) (PP (P a) (NP (D-F-P estas) (PRO$-F-P minhas) (N-P mem´orias))) (PP (P por) (NP (D-F a) (PRO$-F minha) (N genealogia))) (. .)))

Ele e n´os vest´ıamos de seda de Fran¸ca com ramos de matiz e grandes rendas na camisa e punhos.

(13)

b. ( (IP (CODE <comment>[a_003_s_1067]</comment>) (NP-SBJ (NP (PRO Ele) (CONJP (CONJ e) (NP (PRO n´os))))) (VB-D vest´ıamos) (PP (P de) (NP (N seda) (PP (P de) (NP (NPR Fran¸ca))))) (PP (P com) (NP (N-P ramos) (PP (P de) (NP (N matiz))))) (CONJP (CONJ e)

(NP (ADJP (ADJ-G-P grandes)) (N-P rendas) (PP (P em) (NP (D-F a) (N camisa)) (CONJP (CONJ e) (N-P punhos))))) (. .))

Principiavam os nossos trabalhos, quase ao nascer do dia, por uma esp´ecie de coro na capela, capitulando o bom do padre.

c. ( (IP (CODE <comment>[a_003_s_1127]</comment>) (VB-D Principiavam) (NP-SBJ (NP (D-P os) (PRO$-P nossos) (N-P trabalhos))) (, ,))) ...

Nesses trˆes casos, e tamb´em nas demais senten¸cas do texto, o parser n˜ao identificou o Sintagma Nominal sujeito das senten¸cas. O nosso desafio, no momento, ´e produzir um n´umero suficiente de dados anotados para que o parser possa “aprender” que as senten¸cas do portuguˆes sempre ter˜ao um NP sujeito, independemente de haver um Sintagma Nominal precedendo o verbo. Nessa fase de anota¸c˜ao, portanto, todas as senten¸cas s˜ao revisadas e

(14)

reanotadas para ser inserida a categoria NP-SBJ, al´em de outras. Depois da fase de corre¸c˜ao, o texto ser´a submetido novamente ao parser, para treinamento. E a partir da´ı um outro texto ´e etiquetado.

Depois da fase da corre¸c˜ao da anota¸c˜ao sint´atica, o texto est´a pronto para ser utilizado como fonte de pesquisas ling¨u´ısticas. Para obter os dados de um texto anotado sintatica-mente, deve-se obedecer `as rela¸c˜oes que s˜ao estabelecidas entre os constituintes da ´arvore. Atualmente, o sistema de buscas conta com uma ferramenta desenvolvida especificamente para a configura¸c˜ao ´arborea apresentada neste trabalho: o CorpusSearch (Randall 2000) est´a na sua segunda vers˜ao e foi desenvolvido para atender, primeiramente, `as necessidades de busca dos textos anotados de dois corpora: o Penn-Helsinki Parsed Corpus of Middle English (Kroch e Taylor 2000) e o Penn-Helsinki Parsed Corpus of Early Modern English (Kroch e Santorini in preparation), supervisionados por Kroch.

O CorpusSearch permite que se escrevam express˜oes regulares de busca espec´ıficas para a configura¸c˜ao arb´orea das senten¸cas. O arquivo de entrada pode ser o corpus inteiro, e n˜ao um arquivo de cada vez, ou ent˜ao os arquivos de sa´ıda de buscas anteriores. Um outro recurso dessa ferramenta o ´e que ela ainda pode codificar as senten¸cas por meio de uma seq¨uˆencia de c´odigos que poder´a ser utilizada como input para programas probabil´ısticos, como o VARBRUL (cf. Pintzuk 1988).

Isso nos leva a um segundo desafio que se mostra na atual fase de anota¸c˜ao sint´atica: as dificuldades computacionais ou operacionais. Esse processo de anota¸c˜ao sint´atica descrito aqui enfrenta algumas dificuldades operacionais principalmente no que tange ao alcance das

(15)

ferramentas computacionais: para corrigir um texto anotado sintaticamente, ´e necess´aria uma configura¸c˜ao espec´ıfica nas m´aquinas para que essas ferramentas possam funcionar. Al´em disso, essas ferramentas (tanto as ferramentas de corre¸c˜ao da anota¸c˜ao quanto de buscam) foram desenvolvidas exclusivamente para esse tipo de arquivo e de configura¸c˜ao sint´atica.

Atualmente, discute-se muito sobre o limite de alcance de determinadas t´ecnicas que s˜ao adotadas para processamento de textos. Com o trabalho de Paix˜ao de Sousa, vemos que se pode utilizar uma linguagem universal, que obedece a padr˜oes internacionais, acess´ıvel a um maior n´umero de m´aquinas de configura¸c˜oes computacionais: estou me referindo `a lingua-gem XML – EXtensible Markup Language, que tem um alcance maior e um sistema de buscas universal. Como o Corpus Tycho Brahe est´a sendo modificado e reconfigurado em XML, o objetivo ´e construirmos uma “gram´atica” baseada em XML para poder fazer as anota¸c˜oes sint´aticas. Dois estudos pilotos j´a foram desenvolvidos: Paix˜ao de Sousa, no primeiro se-mestre de 2006, desenvolveu uma anota¸c˜ao sint´atica em XML da HIst´oria da Prov´ıncia de Santa Cruz, de Pˆero Magalh˜aes de Gˆandavo (s´eculo XVI, 15??) e Cavalcante, no segundo semestre de 2006, desenvolveu uma anota¸c˜ao-piloto para um corpus de crˆonicas de Lu´ıs Fernando Ver´ıssimo (s´eculo XX), como atividades docentes. Nesses dois casos, os resultados foram satisfat´orios, uma vez que a codifica¸c˜ao em XML poderia ser feita utilizando-se qualquer m´aquina com qualquer configura¸c˜ao, sem necessidade de programas espec´ıficos, produzidos especialmente para aquela anota¸c˜ao sint´atica.

(16)

de Sousa, permite que se crie uma “gram´atica” do texto, definindo-se as categorias a serem utilizadas, pode-se criar a “gram´atica” com base em categorias gramaticais estritas, como Sintagma Nominal Sujeito, Verbo, Sintagma Nominal Objeto Direto, etc. Com base nas categorias gramaticais que temos do processo de etiquetagem morfol´ogica, podemos realizar uma anota¸c˜ao sint´atica utilizando-se uma codifica¸c˜ao em XML.

A t´ıtulo de exemplifica¸c˜ao, vejamos uma senten¸ca j´a apresentada, retirada das Mem´orias do Marquˆes da Fronteira e d’Alorna, anotada em XML.

(11) pro Darei princ´ıpio a estas minhas mem´orias pela minha genealogia. <IP-MAT> <comment>[a_003_s_1]</comment> <NP-SBJ> *pro* </NP-SBJ> <VB-R> Darei</VB-R> <NP> <N> princ´ıpio</N></NP> <PP> <P> a </P> <NP> <D-F-P> estas</N-F-P> <PRO$-F-P> minhas</PRO$-F-P> <N-P> mem´orias </N-P> </NP> </PP> <PP> <P> por</P>

<NP> <D-F> a</D-F> <PRO$-F>minha</PRO$-F> <N>genealogia</N> </NP>

</PP> </IP-MAT>

Observa-se que foram preservadas as categorias que apareciam no primeiro tipo de anota¸c˜ao sint´atica, como IP-MAT, NP-SBJ, PP, entre outras. A diferen¸ca entre uma anota¸c˜ao e outra est´a relacionada `a maneira de “fechar” os sintagmas (com parˆenteses na primeira, e com colchetes etiquetados na segunda), obtendo-se uma mesma hierarquia, e, principalmente, `as configura¸c˜oes necess´arias para realizar uma e outra. O pr´oximo passo na consolida¸c˜ao do

(17)

sis-tema de anota¸c˜ao do Corpus Tycho Brahe est´a relacionado na transposi¸c˜ao de uma anota¸c˜ao em XML para uma anota¸c˜ao em parˆenteses etiquetados, que ser´a submetida ao parser para treinamento. Finalmente, com rela¸c˜ao ao sistema de buscas, pode-se utilizar as ferramentas que j´a s˜ao dispon´ıveis no mercado para executar buscas em XML, como X-query.

(18)

Referˆ

encias

Bikel, Daniel M. 2004. On the Parameter Space of Generative Lexicalized Statistical Parsing Models. Tese de Doutorado, Computer and Information Science, University of Pennsylva-nia, Philadelphia, PA.

Britto, Helena de Souza. 2001. Syntactic Annotation System: Basis for an automated par-sed for written and spoken Portuguese data. Relat´orio t´ecnico, FAPESP/UNICAMP, Campinas, SP.

Duarte, Maria Eugˆenia Lamoglia. 1995. A Perda do Princ´ıpio ‘Evite Pronome’ no Portuguˆes Brasileiro. Tese de Doutorado, Universidade Estadual de Campinas, Campinas, SP. Duarte, Maria Eugˆenia Lamoglia. 2000. The loss of the ‘Avoid Pronoun’ Principle in

Brazi-lian Portuguese. Em BraziBrazi-lian Portuguese and the Null Subject Parameter , ed. Mary A. Kato e Esmeralda V. Negr˜ao, volume 4 de Ling¨u´ıstica, 17–36. Frankfurt: Vervuert-Iberoamericana.

Haegeman, Liliane. 1994. Introduction to Government and Binding Theory. Cambridge, Mass.: Blackwell, 2 edi¸c˜ao.

Kato, Mary. 1999. Strong and weak pronominals in the Null Subject Parameter. PROBUS 11:1–37.

Kroch, Anthony, e Beatrice Santorini. in preparation. Penn-Helsinki Parsed Corpus of Early Modern English. University of Pennsylvania.

Kroch, Anthony, e Ann Taylor. 2000. Penn-Helsinki Parsed Corpus of Middle English. University of Pennsylvania.

Mioto, Carlos, Maria Cristina Figueiredo Silva, e Ruth Elisabeth Vasconcellos Lopes. 1999. Manual de sintaxe. Florian´opolis, SC: Insular.

Paix˜ao de Sousa, Maria Clara. 2004a. L´ıngua Barroca: Sintaxe e Hist´oria do Portuguˆes nos 1600. Tese de Doutorado, Instituto de Estudos da Linguagem, UNICAMP, Campinas, SP. Paix˜ao de Sousa, Maria Clara. 2004b. Mem´orias do texto: aspectos tecnol´ogicos na cons-tru¸c˜ao de um corpus hist´orico do portuguˆes. Projeto de P´os-Doutorado, FAPESP, Processo no. 04/03462-4. Instituto de Estudos da Linguagem / UNICAMP.

Paix˜ao de Sousa, Maria Clara. 2005. Mem´orias do Texto: aspectos tecnol´ogicos na constru¸c˜ao de um corpus hist´orico do portuguˆes. Relat´orio T´ecnico 1, FAPESP, Instituto de Estudos da Linguagem / UNICAMP, Campinas, SP. Relat´orio de P´os-Doutorado (Processo no. 04/03462-4).

(19)

Randall, Beth. 2000. CorpusSearch User’s Manual . Departa-ment of Linguistics, University of Pennsylvania, Philadelphia, PA. http://www.ling.upenn.edu/˜dringe/CorpStuff/Manual/Contents.html (acesso em 25 de setembro de 2002).

Referências

Documentos relacionados

Eles estão buscando reduzir custos através da automação da autenticação, classificação e reciclagem de cédulas dentro de seus próprios back offices, usando o numerário que têm

No processo da produção da tinta, foi utilizado o pó de carbono (pó de grafite), que apresenta baixo custo e facilidade de se encontrar no mercado, e um verniz

Todas as decisões tomadas durente o decorrer deste trabalho levaram em consideração que o mesmo visa contruir um conjunto de componentes de software que forneçam as funcionalidades

Our contributions are: a set of guidelines that provide meaning to the different modelling elements of SysML used during the design of systems; the individual formal semantics for

Os testes de desequilíbrio de resistência DC dentro de um par e de desequilíbrio de resistência DC entre pares se tornarão uma preocupação ainda maior à medida que mais

A principal forma de avaliar os fios multifilamentos con- tínuos é mediante o ensaio de tração, que deve ser realizado em equipamento próprio para ensaio de fios têxteis, o qual

8 Pagamento: Uma vez finalizado o Leilão o Arrematante deverá (i) pagar o valor do lote arrematado (equivalente ao valor do Lance vencedor) ou, a importância equivalente ao

O desenvolvimento das interações entre os próprios alunos e entre estes e as professoras, juntamente com o reconhecimento da singularidade dos conhecimentos