Alternâncias sintáticas, estrutura de argumentos, synsets e a rede Wordnet.Br

Loading....

Loading....

Loading....

Loading....

Loading....

Texto

(1)

Alternâncias sintáticas, estrutura de argumentos, synsets e

a rede Wordnet.Br

Bento Carlos Dias da Silva1

, Maria Carolina Ávila2

1,2

Centro de Estudos Lingüísticos e Computacionais da Linguagem - Faculdade de Ciências e Letras - Universidade Estadual Paulista (UNESP)

Caixa Postal 174 – 14.800-901 – Araraquara – SP – Brasil bento@fclar.unesp.br, avilacarol@hotmail.com

Resumo. Os verbos exibem considerável variação na realização sintática dos seus argumentos semânticos, fenômeno lingüístico que tem motivado a investigação da interação entre estruturas gramaticais e representações conceituais. Nesse sentido, este artigo delineia uma estratégia de análise sintática e léxico-semântica para a classe de verbos calcada na hipótese de que os verbos pertencentes a uma determinada classe semântica compartilham um comportamento sintático semelhante. Como ilustração, aplica-se essa estratégia à construção de synsets (conjuntos de sinônimos) de verbos da base da Rede Wordnet do Português do Brasil, uma rede léxico-semântica de unidades lexicais em desenvolvimento no projeto Wordnet.Br.

Palavras-chave. verbos; estrutura de argumentos; alternâncias sintáticas; wordnets; semântica lexical computacional.

Abstract. Verbs exhibit considerable variation in the syntactic realization of their semantic arguments. This fact motivates the investigation of the interaction between grammatical structures and conceptual representations. Accordingly, this paper outlines a particular syntactic and lexical-semantic analysis for verbs which is couched in the hypothesis that the verbs of a semantic class share similar syntactic behavior, i.e. each semantic class is associated with the constructions in which the verbs of that group participate. As an illustration, such analysis is applied to the construction of verb synsets (sets of synonyms) of the Brazilian Portuguese Wordnet core database, a lexical-semantic network under construction within the Wordnet.Br project. Keywords. verbs; argument structure; diathesis alternations; wordnets; computational lexical semantics.

1. Introdução

Este artigo discute uma estratégia de análise léxico-gramatical dos verbos que parte da hipótese de que a realização sintática da estrutura de argumentos do verbo reflete sua estrutura conceitual. Essa discussão aponta para duas importantes aplicações da metodoloia: a descrição léxico-semântica e sintática dos verbos do Português e o refinamento e ampliação da base de verbos da Rede Wordnet do Português do Brasil, uma rede léxico-semântica de unidades lexicais em desenvolvimento no projeto Wordnet.Br.1

Estudos Lingüísticos XXXIV, p. 368-373, 2005. [ 368 / 373 ] Estudos Lingüísticos XXXIV, p. 368-373, 2005. [ 368 / 373 ]

(2)

Na seção 2, apresenta-se a metodologia, que se fundamenta nos estudos de Levin e Rappaport-Hovav (1991), Levin (1993) e Moraes (2004) que as noções lingüísticas de "estrutura de argumentos" e de "alternâncias sintáticas". Na seção 3, definem-se os objetos "synsets", "redes wordnets" e "Wordnet.Br". Na seção 4, conclui-se a discussão mostrando-conclui-se a relevância e operacionalidade da estratégia para a descrição lingüística e computacional dos verbos aplicando-a no refinamento de um synset extraído da base da rede Wordnet.Br.

2. O Método

L

evin e Rappaport-Hovav (1991) investigam a natureza do conhecimento lexical do falante (do inglês) no que diz respeito à sua competência para classificar as unidades lexicais da língua em classes nocionais como, por exemplo, a classe dos “verbos de remoção” (clear “retirar”, wipe “limpar com um pano”, remove “remover”). Observe-se que, em uma primeira avaliação, esse verbos parecem projetar uma única configuração sintática para sua estrutura de argumentos: o argumento A1, tematicamente AGENT, projeta-se como Sujeito (Suj), o argumento A2, tematicamente LOCATUM, como Objeto (Obj) e o argumento A3, tematicamente LOCATION, como Complemento OblíquoFROM (Obl). Em palavras: trata-se da classe dos verbos que

descrevem a remoção de um objeto físico (A1) de um local (A3) por um agente (A1). Os exemplos (1), (2) e (3) ilustram essa análise.

(1) Doug (A1=AGENT-Suj) cleared the dishes (A2=LOCATUM-Obj) from the

table (A3=LOCATION-OblFROM).

(2) Kay (A1=AGENT-Suj) wiped the fingerprints (A2=LOCATUM-Obj) from

the counter (A3=LOCATION-ObFROMl).

(3) Monica (A1=AGENT-Suj) removed the groceries (A2=LOCATUM-Obj)

from the bag (A3=LOCATION-OblFROM).

N

o entanto, uma investigação mais acurada revela que há modos alternativos de expressão dos argumentos desses predicadores, i.é, esse verbos podem participar de diferentes alternâncias sintáticas (ou "altermâncias de diátese"), cuja observação pode auxiliar o analista a discriminar variações sutis do significado lexical.

Nos exemplos (4) e (5), verifica-se que os verbos clear e wipe, mas não o verbo

remove no sentido relevante para a análise (cuja frase, (6), está marcada com o sinal de

agramaticalidade “*”), participam da seguinte alternância: o argumento A2 desses verbos não se realiza sintaticamente e o argumento A3 é alçado da função de Complemento Oblíquo para a função de Objeto. Esse tipo de alternância é denominado

location-as-object-variant, isto é, a alternância em que o papel temático LOCATION é

"promovido" a objeto do verbo.

(4) Doug (A1=AGENT-Suj) cleared the table (A3=LOCATION-Obj). (5) Kay (A1=AGENT-Suj) wiped the counter (A3=LOCATION-Obj). (6) *Monica (A1=AGENT-Suj) removed the bag (A3=LOCATION-Obj). Já os exemplos (7) e (8) demonstram que o verbo clear, mas não o verbo wipe, participa de um outro tipo de alternância, denominado of-variant: o argumento A3, de modo análogo ao da alternância anterior, é alçado da posição de Complemento Oblíquo

Estudos Lingüísticos XXXIV, p. 368-373, 2005. [ 369 / 373 ] Estudos Lingüísticos XXXIV, p. 368-373, 2005. [ 369 / 373 ] Estudos Lingüísticos XXXIV, p. 368-373, 2005. [ 369 / 373 ] Estudos Lingüísticos XXXIV, p. 368-373, 2005. [ 369 / 373]

(3)

para a posição de Objeto, mas o argumento A2 é agora rebaixado da posição de Objeto para a posição de Complemento Oblíquo introduzido pela preposição of.

(7) Doug (A1=AGENT-Suj) cleared the table (A3=LOCATION-Obj) of dishes (A2=LOCATUM-OblOF).

(8) *Kay (A1=AGENT-Suj) wiped the counter (A3=Location-Obj) of

fingerprints (A2=LOCATUM-OblOF).

E

ssa breve análise de alternâncias sugere que os três verbos devem, na verdade, encabeçar três classes semânticas distintas:

Classe 1: Classe dos verbos que especificam o processo de remoção de um

objeto (LOCATUM) de um determindo local (LOCATION). Trata-se da classe formada por verbos como remove, dislodge “desalojar”, draw “sacar, arrancar, tirar”, extract “extrair” e withdraw “retirar”.

Classe 2: Classe dos verbos que especificam o modo de remoção, isto é, verbos

como erase “limpar raspando ou esfregando”, shave “limpar cortando”, rub “limpar esfregando” e scrape “limpar raspando”; ou que especificam o instrumento empregado na remoção, como os verbos wipe, brush “limpar com uma escova”, mop “limpar com um esfregão”, rake “limpar com um ancinho”,

vacuum “limpar com um aspirador de pó” e buff “limpar com uma camurça”;

Classe 3: Classe dos verbos que especificam o estado resultante da remoção,

mas não como esse estado é alcançado. Trata-se da classe dos verbos como

clear, clean “limpar” e empty “esvaziar”.

Uma análise mais refinada das classes 2 e 3 apresenta ainda um resultado surpreendente: essas classes, contrariando a avaliação intuitiva inicial, não aglutinam "verbos de remoção", mas "verbos de atividade" e "verbos de mudança de estado", respectivamente. Aqueles participam da alternância conativa, ilustrada no exemplo (10); estes participam da alternância causativo/incoativo, ilustrada no exemplo (11).

(10) Kay rubbed the counter. / Kay rubbed at the counter. (11) The strong winds cleared the skies. / The skies cleared.

A seguir, aborda-se a aplicação desse procedimento analítico na montagem e refinamento dos synsets de verbos de uma rede wordnet.

3. As Wordnets e a Rede Wordnet.Br

Inicialmente projetadas na Universidade de Princeton, nos Estados Unidos, para o inglês americano e visando emular o léxico mental (MILLER e FELLBAUM, 1991), as wordnets (“redes de palavras”) são bases relacionais de dados, no sentido computacional do termo, formadas por unidades lexicais de uma língua natural (cf. WORDNET 2.0, 2004). Do ponto de vista formal, uma wordnet estrutura-se em termos de synsets (synonym sets), isto é, “conjuntos de sinônimos”, distribuídos em quatro classes: synsets de verbos, de nomes, de adjetivos e de advérbios. Por definição, cada synset que compõe a rede representa o conceito lexicalizado pelas unidades lexicais sinônimas que o compõem.

A

lém da relação léxico-semântica de sinonímia, constitutiva do synset, uma rede wordnet codifica mais quatro relações entre synsets: a antonímia, que é também uma relação de natureza léxico-semântica, e as relações de

Estudos Lingüísticos XXXIV, p. 368-373, 2005. [ 370 / 373 ] Estudos Lingüísticos XXXIV, p. 368-373, 2005. [ 370 / 373 ] Estudos Lingüísticos XXXIV, p. 368-373, 2005. [ 370 / 373 ] Estudos Lingüísticos XXXIV, p. 368-373, 2005. [ 370 / 373]

(4)

natureza lógico-conceptual de hiponímia, meronímia, troponímia, causa e acarretamento (CRUSE, 1986; FELLBAUM, 1998). Em termos gráficos, a relação de sinonímia (materializada em cada synset) é representada pelos nós na rede e as demais relações são representadas por arcos que interligam esses nós. Assim, o sentido de cada unidade lexical não é dado por definições, como em um dicionário convencional, mas ele emerge desse dois tipos de relações que a rede permite exprimir: relações intra e inter synsets.

O sucesso desse tipo de empreendimento pode ser aferido com suas extensões, em curso, para o português europeu, a WordNet.PT (MARRAFA, 2001), e para outras línguas da Unidade Européia no âmbito do projeto EuroWordNet (VOSSEN, 1998): alemão, espanhol, estoniano, francês, holandês, inglês, italiano e tcheco. Destaca-se, além do interesse científico, seu potencial tecnológico: as wordnets representam recursos lingüísticos robustos e úteis para aprimorar o desempenho de sistemas de tradução automática e de motores de busca como o Google.

A base da rede Wordnet.Br, em fase desenvolvimento para o português brasileiro, conforme ilustra a Tabela 1, reúne mais de 18 mil synsets, entre nomes, verbos, adjetivos e advérbios (DIAS-DA-SILVA, OLIVEIRA e MORAES, 2002; DIAS-DA-SILVA, 2003).

Tabela 1. Estatísticas da base da rede Wordnet.Br

Categoria N° de Unidades Lexicais N° de Synsets

Verbos 11.000 4.000 Nomes 17.000 8.000 Adjetivos 15.000 6.000 Advérbios 1.000 500 Total 44.000 18.500 4. A Aplicação do Método

No estágio de desenvolvimento atual, a base da rede Wordnet.Br está sendo ampliada com informação contextual, isto é, para cada unidade lexical constitutiva dos synsets, por meio de pesquisa em córpus, seleciona-se uma frase-exemplo para ilustrar o sentido específico e em uso evocado pelo synset de que a unidade é membro. O córpus de referência é composto por três fontes digitais de informação lexical, apresentadas na respectiva ordem de prioridade da pesquisa: (i) o Córpus do NILC (CORPUS NILC, 2004), composto por textos escritos em português do Brasil, nos registros jornalístico, didático e epistolar; (ii) textos do português do Brasil localizados na Internet por meio do motor de busca Google; (iii) as abonações registradas nos dicionários Michaelis (WEISZFLOG, 1998), Aurélio (FERREIRA, 1999) e Houaiss (HOUAISS, 2001).

Nesse processo de coleta e seleção de frases-exemplo, em que é crucial a delimitação do sentido “evocado” pelo synset, os analistas encontram-se diante de problemas diversos: desde a análise de synsets muito extensos, o que torna difícil a identificação do sentido codificado no synset, passando pela análise de synsets com unidades que não se conformam com o sentido “dominante” do synset, até a análise de synsets cujas unidades não apresentam o mesmo comportamento sintático.

Parte desses problemas decorre de deficiências diversas que comprometem a boa formação dos synsets: carência de técnicas precisas de análise léxical, análises lexicais imprecisas ou equivocadas, erros de impressão e digitação, entre outras. A análise

Estudos Lingüísticos XXXIV, p. 368-373, 2005. [ 371 / 373 ] Estudos Lingüísticos XXXIV, p. 368-373, 2005. [ 371 / 373 ] Estudos Lingüísticos XXXIV, p. 368-373, 2005. [ 371 / 373 ] Estudos Lingüísticos XXXIV, p. 368-373, 2005. [ 371 / 373]

(5)

exploratória do Synset_3742, em (12), extraído da base da rede Wordnet.Br, servirá de ilustração da aplicação do método na busca de diferenças sutis de sentido.

(12) Synset_3742={comer, despojar, escamotear, escorchar, furtar, rapinar, ratonear, roubar, safar, saquear, subtrair, tirar, tomar}

Para simplificar a análise, sem, entretanto, comprometer a apreciação das potencialidades do método na descrição léxico-gramatical dos verbos, restringiu-se a seleção de frases-exemplo que servem de contexto mínimo para as unidades lexicais à Weiszflog (1998) do córpus de referência. A análise das frases permitiu a identificação de quatro tipos diferentes de realização sintática dos argumentos dos verbos desse synset, revelando diferenças sutis de sentido e apontando, portanto, para uma partição do Synset_3742 em quatro novos synsets. O resultado preliminar dessa análise é ilustrado em (13), (14), (15) e (16).

(13) Synset_3742a = {comer, furtar, rapinar, ratonear, roubar} - Alternância = [A1=AGENT-Suj] - Frases: [nas negociatas, os políticos] ø (A1) Comeram a valer; ...aquele que ø (A1) furtava, não ø (A1) furte mais; ...que ali se (A1) roube, que ali se (A1) ratoneie, que ali se (A1) rapine.

(14) Synset_3742b = {despojar, escorchar, roubar} - Alternância = [A1=AGENT-Suj, A3=LOCATION-Obj] - Frases: Os piratas (A1) despojaram o navio (A3); ø (A1) Escorchavam o banco (A3); Alguém (A1) andava roubando o armazém (A3).

(15) Synset_3742c = {comer, escamotear, furtar, rapinar, roubar, saquear, subtrair, tirar, tomar} - Alternância = [A1=AGENT-Suj, A2=LOCATUM-Obj] - Frases: Os mesários (A1) comeram tudo (A2) o que puderam; ø (A1) Escamotear uma carteira (A2); ø (A1) Furtaste o osso (A2) e vou levar-te aos tribunais; ø (A1) Rapinava tudo (A2) o que podia; Venais administradores, que ø (A1) saqueiam os bens públicos (A2); ø (A1) Subtrair uma carteira (A2); ø (A1) Tiraram o meu dinheirinho (A2), seu doutor; ø (A1) Tomar o alheio (A2). (16) Synset_3742d = {roubar, safar, subtrair} - Alternância = [A1=AGENT-Suj, A2=LOCATUM-Obj, A3=LOCATION-Obl] - Frases: ø (A1) Roubaram-te (A3) a herança (A2); ø (A1) Safaram-lhe (A3) a carteira (A2); O moleque (A1) subtraiu uma maçã (A2) ao quitandeiro (A3).

Concluindo. Admitindo-se a hipótese de que a expressão sintática da estrutura de argumentos do verbo correlaciona-se com suas propriedades semânticas, a discriminção das alternâncias sintáticas de que os verbos acima exemplificados participam fornece um critério lingüisticamente motivado para isolar classes de verbos semanticamente coerentes. Assim, do ponto de vista teórico, este trabalho contribui com um método explícito de descrição léxico-semântica e sintática de verbos que opera na interface entre a sintaxe e a semântica e, do ponto de vista prático, instumentaliza o analista na montagem e refinamento dos synsets de verbos de redes semânticas do tipo wordnet.

Notas

1

Este trabalho contou com auxílios do CNPq e FAPESP.

Estudos Lingüísticos XXXIV, p. 368-373, 2005. [ 372 / 373 ] Estudos Lingüísticos XXXIV, p. 368-373, 2005. [ 372 / 373 ] Estudos Lingüísticos XXXIV, p. 368-373, 2005. [ 372 / 373 ] Estudos Lingüísticos XXXIV, p. 368-373, 2005. [ 372 / 373]

(6)

Referências

CORPUS NILC. Disponível em http://www.linguateca.pt/. Acesso em 13 ago. 2004. CRUSE, D.A. Lexical semantics. Cambridge, Mass: Cambridge University Press, 1986. DIAS-DA-SILVA, B.C.Human language technology research and the development of

the Brazilian Portuguese Wordnet. In:           

VCOVÁ, A., MÍROVSKÝ, J. (Ed.). Proceedings of the 17th International Congress of Linguists. Prague: Matfyzpress, MFF-UK, 2003. 12 p.

DIAS-DA-SILVA, B.C.; OLIVEIRA, M.F., MORAES, H.R. Groundwork for the development of the Brazilian Portuguese Wordnet. In: E.M. RANCHHOD; N.J. MAMEDE (eds.) Advances in natural language processing. Berlin: Springer-Verlag, 2002. p. 189-196.

FELLBAUM, C. (Ed.) WordNet: An electronic Lexical Database. 2. Ed. Cambridge (Mass.): MIT Press, 1998.

FERREIRA, A.B. de H. Dicionário Aurélio eletrônico século XXI. (Versão 3.0). São Paulo: LexiKon Informática Ltda., 1999.

HOUAISS, A. Dicionário eletrônico Houaiss da língua portuguesa. (Versão 1.0). Rio de Janeiro: FL Gama Design Ltda., 2001.

LEVIN, B. English verb classes and alternations: a preliminary investigation. Chicago: University of Chicago Press, 1993.

LEVIN, B.; RAPPAPORT-HOVAV, M. Wiping the slate clean: a lexical semantics exploration. Cognition, Amsterdam, v. 41, p. 123-151, 1991.

MARRAFA, P. WordNet do Português: u ma base de dados de conhecimento

lingüístico. Lisboa: Instituto Camões, 2001.

MILLER, G. A., FELLBAUM, C. Semantic networks of English. Cognition, Amsterdam, v. 41., n.1-3, p. 197-229, 1991.

MORAES, H. R. O jogo de interdependências entre a semântica do verbo e as

alternâncias de diátese. 2004. 119f. Dissertação (Mestrado em Lingüística e Língua

Portuguesa) – Universidade Estadual Paulista, Faculdade de Ciências e Letras, Araraquara, 2004

VOSSEN, P., Special issue on EuroWordNet. Computers and the Humanities, Dordrecht, v. 32., n. 2 e 3, 1998.

WEISZFLOG, W. (ed.) Michaelis português- moderno dicionário da língua

portuguesa. (Versão 1.0). São Paulo: DTS Software Brasil Ltda. 1998.

WORDNET 2.0. Disponível em http://www.cogsci.princeton.edu/cgi-bin/webwn. Acesso em: 13 ago. 2004.

Estudos Lingüísticos XXXIV, p. 368-373, 2005. [ 373 / 373 ] Estudos Lingüísticos XXXIV, p. 368-373, 2005. [ 373 / 373 ] Estudos Lingüísticos XXXIV, p. 368-373, 2005. [ 373 / 373 ] Estudos Lingüísticos XXXIV, p. 368-373, 2005. [ 373 / 373]

Imagem

Referências

temas relacionados :