• Nenhum resultado encontrado

O uso de dicionários e de autómatos finitos na representação lexical das línguas naturais

N/A
N/A
Protected

Academic year: 2021

Share "O uso de dicionários e de autómatos finitos na representação lexical das línguas naturais"

Copied!
30
0
0

Texto

(1)

Versão de autor do texto com o mesmo título incluído na obra Tratamento das Linguas por Computador. Uma introdução à Linguística Computacional e suas aplicações, Lisboa: Caminho, 2001, pp. 13-48.

O uso de dicionários e de autómatos finitos

na representação lexical das línguas naturais

Elisabete Marques Ranchhod

Faculdade de Letras da Universidade de Lisboa & CAUTL-IST

1. Introdução

Nos últimos anos tornou-se evidente que os recursos linguísticos e, em particular, os recursos lexicais são a pedra de toque de qualquer sistema de processamento de linguagem natural. Na verdade, a crescente necessidade de aplicações da linguística computacional fez ressaltar a carência de dados linguísticos de dimensões reais, e, em particular, de léxicos e gramáticas de grande cobertura.

Assim, para responder às actuais solicitações e exigências de qualidade, o tratamento automático das línguas naturais obriga a uma descrição sistemática e completa das línguas a tratar, de modo a evitar ou, pelo menos, reduzir as falhas de processamento devidas à insuficiência dos dados linguísticos. Se, em relação ao tratamento do léxico, os dicionários utilizados pelos sistemas de processamento não forem adequados, quer do ponto de vista da sua cobertura lexical, quer do ponto de vista da formalização e sistematização da informação linguística, isso afectará não só a análise lexical de um determinado texto, mas também todas as fases de processamento subsequentes. Se, por exemplo, uma palavra não for reconhecida ou não for correctamente identificada, a análise sintáctica da frase ou da estrutura em que ela se encontre não poderá ser feita. O léxico surge assim como uma componente de crucial importância em qualquer sistema de processamento automático de texto.

Um outro aspecto igualmente importante do ponto de vista da qualidade do processamento é o da capacidade dos sistemas informáticos aplicarem em tempo real estes léxicos e gramáticas de grandes dimensões a textos de vários milhões de palavras.

Neste capítulo, abordar-se-á a questão da forma, do conteúdo e da cobertura dos dicionários para utilização automática, uma vez que já existem sistemas informáticos com a robustez necessária para, em tempo real, lidarem com léxicos de dimensões igualmente reais e para os aplicarem eficazmente ao tratamento automático de corpora de grandes dimensões.

(2)

1.1. Dicionários electrónicos e dicionários de uso informatizados

Um dicionário electrónico é um léxico computacional concebido para ser usado, sem intervenção humana, por programas informáticos em diversas operações de processamento de linguagem natural: reconhecimento de unidades lexicais simples e complexas (de natureza terminológica ou não) num texto a ser automaticamente indexado, análise de um texto para extrair informação ou para o traduzir para outra língua, etc. Esta finalidade dos dicionários electrónicos faz com que eles tenham de ser fundamentalmente diferentes daqueles que são elaborados para utilizadores humanos, mesmo quando estes se encontram em suporte magnético ou óptico a fim de poderem ser consultados em ambiente informatizado. Contudo, o facto das versões digitais dos dicionários de uso serem frequentemente comercializadas com a designação de dicionários electrónicos pode levar a uma certa confusão entre os dois tipos de léxicos, que convém esclarecer. Em geral, as versões informatizadas dos dicionários de uso são completamente idênticas às tradicionais edições em papel desses mesmos dicionários: idêntico conteúdo, idêntica estruturação de entradas, idêntica cobertura lexical1. A sua diferente apresentação pode facilitar a sua consulta, mas não torna diferentes os seus objectivos: em papel ou em formato digital, destinam-se a serem consultados por humanos e não podem em caso algum ser directamente explorados por programas de análise automática de texto. Assim, apesar de alguns aspectos comuns, há entre os léxicos computacionais e aqueles que o não são diferenças apreciáveis.

1.1.1. Formalização e sistematicidade

O que aproxima e justifica a designação de dicionário para os dois tipos de objectos é que, em qualquer dos casos, se trata de repositórios lexicais mais ou menos completos, organizados em artigos. Cada artigo é constituído por uma entrada (em geral, uma palavra) e um conteúdo (a descrição linguística da entrada). A diferença mais evidente, e que tem que ver com os fins a que se destinam, reside no facto de, num dicionário de uso, a informação linguística não estar formalizada, enquanto que a codificação da informação é um requisito imprescindível de um dicionário electrónico. Elaborados com o objectivo específico de serem usados em análise automática de texto, estes dicionários têm de conter informações linguísticas codificadas e formatadas, pois só assim se tornam acessíveis aos programas de análise lexical e sintáctica. Não podem conter lacunas (nem lexicais, nem descritivas) e todas as informações linguísticas têm de estar coerentemente estruturadas. Os dicionários de uso, informatizados ou não, não estão sujeitos a estas imposições. Para não sobrecarregar o dicionário, muitas informações evidentes para o utilizador (humano) são

1 Vejam-se as edições em papel (8ª edição, 1998) e electrónica (CD-ROM, versão 1.0, 1996) de um dos dicionários do português mais completos e mais amplamente divulgados: o Dicionário da Língua Portuguesa, a que voltaremos a fazer referência.

(3)

omitidas, muitas outras são apenas implicitamente referidas. Pressupõe-se, em muitos casos acertadamente, que os falantes que os consultam têm conhecimentos linguísticos suficientes para estabelecer relações e reconstituir o que eventualmente falte. Mas, às máquinas, é preciso dizer-lhes tudo, e é preciso dizer-lhes tudo de forma completa, explícita e coerente. Vejamos um exemplo simples mas ilustrativo.

Em português, a formação de adjectivos participiais regulares, sobretudo a partir de verbos da primeira conjugação, é muito produtiva e não levanta, em princípio, dificuldades de maior. Perante palavras como abalançado ou abalroado, qualquer falante é capaz de as relacionar com os verbos correspondentes, abalançar e abalroar, desde que os conheça. Por isso, nos dicionários de uso, opta-se frequentemente por não introduzir essas formas como entradas de dicionário. Do ponto de vista do utilizador humano, os inconvenientes são aceitáveis. São, mesmo assim, mais difíceis de entender as razões por que algumas dessas formas são introduzidas e outras não. O Dicionário da Língua Portuguesa2 não regista nem abalançado nem abalroado, mas inclui, por exemplo, abafado e abalado. Ora, trata-se de quatro elementos do mesmo tipo e têm idênticas probabilidades de ocorrer num dado texto. Mas vejamos o tratamento gramatical que é dado a abafado e abalado, os elementos que constituem artigos do dicionário. São ambos classificados como adjectivos, indicando-se entre parêntesis a sua relação com os verbos correspondentes: (Part. pass. de abafar); (Part. pass. de abalar). A partir desta informação, o utilizador tem acesso directo às respectivas entradas verbais3. Uma vez visualizada a entrada desejada, pode solicitar a conjugação do verbo. Nem todos os verbos estão conjugados4, mas abafar e abalar estão. Esperar-se-ia, pois, encontrar as formas abafado e abalado dentro das conjugações desses verbos. Surpreendentemente, isso não acontece. Na verdade, verificámos que, nesta edição, o particípio não está incluído na lista das formas conjugadas de nenhum verbo. Apesar de existirem certas dificuldades em classificar como participiais ou não as várias formas (regulares e irregulares) que se prestam a ser consideradas como tal, a exclusão do particípio passado das formas conjugadas dos verbos não fica certamente a dever-se à aplicação de qualquer critério de natureza linguística. Ela só pode ser entendida como um lapso, que será certamente corrigido em próximas edições. Para os utilizadores, falantes do português na sua maioria, a ausência do particípio da conjugação dos verbos impedirá o esclarecimento de dúvidas frequentes acerca das formas participiais, como: o particípio do verbo acender é aceso, acendido ou ambos? Por outro lado, isso faz com que o dicionário não contenha qualquer informação sobre os particípios (usados com valor adjectival ou

2 Todas as referências a este dicionário dizem respeito à edição em CD-ROM (versão 1.0, 1996).

3 Nas edições em papel, o dicionário de verbos conjugados constitui um dicionário específico. A edição informatizada permite uma consulta mais cómoda, pois a partir do dicionário geral é possível chamar o dicionário de conjugações.

4 Nem sempre é fornecida a conjugação das entradas verbais do dicionário. Em muitos casos, os verbos são acompanhados por indicações gramaticais e pelos textos de definição, mas não estão conjugados. É o caso, por exemplo, das dez primeiras entradas verbais: ababalhar, ababosar-se, abaçanar, abacelar, abacinar, abadar, abadernar, abadessar, abadiar e abaetar. Trata-se, de facto, de verbos pouco usados.

(4)

não) que não constituam entradas (independentes) do dicionário. Mas, mais uma vez, o conhecimento implícito ou mesmo explícito dos humanos que consultam este tipo de obras ajudará a colmatar no todo ou em parte esta lacuna.

Contudo, do ponto de vista das máquinas, as lacunas e incoerências resultantes da não inclusão do particípio passado nas formas conjugadas dos verbos bastariam por si só para tornar impraticável a utilização do dicionário em processamento automático de texto. Nos dicionários que tenham estes objectivos, é necessário que todas as entradas verbais estejam associadas a códigos (que representam tabelas de dados formalizados), a partir dos quais são automaticamente geradas todas as formas conjugadas, incluindo, evidentemente, o particípio. Em português, além das formas registadas nos dicionários de verbos conjugados, é preciso prever também aquelas que, tendo o mesmo valor, são formalmente diferentes devido às eventuais adjunções de clíticos, que, por sua vez, em contacto com certas formas verbais, também sofrem alterações (por exemplo: acendemos uma vela > acendemo-la; acenderemos essa vela mais tarde > essa vela, acendê-la-emos mais tarde). Um verbo transitivo não defectivo dá origem a cerca de 60 formas diferentes (ver a conjugação de beber em 3.1.), nas quais estão incluídas várias formas homógrafas (por exemplo, acendemos ou bebemos, que tanto podem ser formas do presente como do pretérito perfeito).

A flexão das restantes categorias morfologicamente variáveis tem de ser tratada, como a dos verbos, de modo completo e explícito. A flexão dos nomes e adjectivos é feita por programas que lêem e utilizam a informação codificada que acompanha cada uma das entradas de dicionário (isto é, cada um dos lemas). Conforme o caso, serão geradas: as formas femininas e/ou plurais, os diminutivos e/ou superlativos, etc.

Para dar mais um exemplo, tomemos o caso do tratamento do plural dos nomes e adjectivos. Nos dicionários de uso, as informações sobre plurais só em raros casos são explicitamente fornecidas. Mas o Dicionário da Língua Portuguesa permite solicitar uma listagem das palavras plurais. Porém, a noção de «plural» utilizada não é exclusivamente formal, e recobre valores muito diversos. Uma rápida pesquisa das palavras plurais da letra A mostra que a notação plural «pl.» é usada, entre outras coisas, para:

- Indicar que o lema da palavra é plural: alvíssaras (s. f. pl.); andrajos (s. m. pl.), não

existindo formas singulares correspondentes.

- Estabelecer uma distinção entre as diferentes acepções associadas ao singular e ao plural:

- alga - s. f. «talófita com clorofila, por vezes microscópica, que vive nas águas ou

nos sítios húmidos»; pl. «grupo de talófitas que apresentam núcleos celulares, germes e leucitos»;

- azeite - s. m. «óleo extraído da azeitona»; pl. (fig.) «mau humor».

(5)

- agenda - s. f. «livro destinado à anotação […]» (Do lat. agenda, «coisas que devem

ser feitas», ger. neut. pl. de agere, «agir; fazer»);

- alcaraviz - s. m. «guarda-fogo do tubo que […]» (Do ár. al-qarabíç, pl. de

qarabúç, «arção»?).

Se no primeiro caso, plural (pl.) corresponde a uma noção formal: marcação de palavras que são exclusivamente plurais, isso não acontece nos restantes exemplos. A informação de que agenda ou alcaraviz provêm de palavras no plural é de natureza etimológica, o que tem certamente o seu interesse para muitos utilizadores do dicionário, mas essa particularidade não tem qualquer relação com o comportamento morfológico das mesmas, enquanto palavras do português. Incluí-las nas listas das palavras que só existem no plural (caso de alvíssaras e andrajos) é uma aproximação. Em todo o caso, isso significa que a notação pl. é ambígua, o que não pode acontecer com as notações concebidas para serem usadas por programas. No segundo tipo de exemplos, as noções de singular e plural estão relacionadas com diferentes acepções das entradas, que dependem em larga medida das interpretações e cultura pessoais dos lexicógrafos. A acepção de alga associada a pl. não parece ser claramente diferente da de alga s.f. e, assim sendo, não se justifica o desdobramento de entradas com base nesse critério. Quanto a azeites, o que se quer certamente indicar é que, se esta palavra estiver integrada em expressões como: Ele hoje está com os azeites, não tem forma singular possível (*Ele hoje está com o azeite), por razões que se prendem com a falta de composicionalidade (lexical, sintáctica e semântica) de toda a expressão.

Mas estas informações de natureza mais sintáctico-semântica também têm de ser tratadas nos dicionários electrónicos. Por isso, eles devem ser desde o início concebidos para poderem receber cumulativamente não só informações adicionais sobre as palavras, mas também sobre as combinações de palavras, isto é, sobre o comportamento (as propriedades sintácticas e semânticas) dessas combinações.

Sejam de que tipo forem as entidades linguísticas a descrever, todas as informações têm de ser clara e rigorosamente anotadas. Os códigos das entradas verbais, por exemplo, devem conter informações explícitas sobre o número e o tipo de posições sintácticas que podem ser preenchidas em relação a cada um dos verbos: formas que o sujeito e os eventuais complementos podem apresentar, sua realização lexical, eventuais preposições que introduzem os complementos, preenchimento dessas posições por pronomes e advérbios, possibilidades de apassivação e/ou nominalização da frase, etc.

Em síntese: o uso cada vez mais generalizado dos computadores pessoais levou à criação de uma enorme massa de dados digitais, o que permitiu e obrigou a uma total renovação das técnicas de impressão. Hoje em dia, os dicionários, tal como a grande maioria dos jornais, livros, revistas e outros documentos, são compostos em suporte informático. Isso torna possível uma nova e mais ampla divulgação da informação, mas não altera o conteúdo das obras assim editadas.

(6)

As breves observações que fizemos sobre as edições informatizadas dos dicionários de uso mostram também que esse formato os torna acessíveis a processos de consulta modernos, mas que as informações que contêm são idênticas às das edições tradicionais. Concebidos para serem usados por humanos, não possuem, por mais completos e bem elaborados que sejam, os requisitos necessários à sua utilização automática. As várias tentativas para reconverter os dicionários de uso em dicionários electrónicos, isto é, em léxicos que possam ser usados automaticamente em operações de processamento das línguas naturais, têm-se revelado uma tarefa difícil, uma vez que a explicitação da informação implícita nas definições obriga a reescrever completamente o conteúdo das entradas. Por isso, várias equipas de investigação têm optado por elaborar de raiz os dicionários electrónicos.

2. Léxicos computacionais especificamente elaborados

Parece ser hoje consensual que as aplicações industriais que têm como objectivo a exploração automática de textos escritos melhorarão significativamente se incorporarem melhores sistemas de tratamento linguístico: melhores dicionários, melhores gramáticas. O processamento linguístico de textos é feito a vários níveis: lexical, sintáctico, semântico, que, convém não esquecer, se intersectam em diversos momentos.

As unidades textuais de mais baixo nível são as palavras. Assim, a primeira fase de tratamento de um texto passa inevitavelmente pela sua análise lexical. Esta consiste grosseiramente em: (i) identificar as unidades lexicais do texto; (ii) descrever cada uma delas através de informações linguísticas formalizadas, à cabeça das quais se encontram as de natureza morfológica e categorial; (iii) resolver o maior número possível de ambiguidades lexicais provocadas pela homografia.

Quanto ao primeiro ponto, numa língua como o português, a identificação das palavras simples como, por exemplo, andar, modelo, par e passo não é complicada: elas estão tipograficamente separadas umas das outras. Porém, muitas unidades lexicais não são palavras simples. São palavras compostas, como o nome andar modelo e o advérbio a par e passo, formadas pela combinação de, pelo menos, duas palavras simples. Contrariamente à das palavras simples, a identificação dos compostos levanta várias questões não triviais. Eles não podem, contudo, ser ignorados, por um lado, devido a razões estritamente linguísticas e, por outro, devido ao seu elevado número em qualquer tipo de texto, e em particular nos de natureza técnica e científica.

A associação de informações linguísticas às unidades lexicais de um texto (isto é, a etiquetagem das palavras do texto) pode parecer independente da (adequada) identificação das unidades lexicais, mas, na verdade, depende crucialmente da noção de palavra simples e composta. Se o sistema de etiquetagem não utilizar a noção de composto a palavra par, por exemplo, receberá o mesmo tratamento quer em:

(7)

(1) Cada um dançou com o seu par,

em que par é um nome simples pluralizável, desempenhando uma função sintáctica própria desta categoria, quer em:

(2) Todas as decisões foram tomadas a par e passo,

em que o mesmo elemento lexical perde as propriedades (sintácticas e morfológicas) que tem em (1), nomeadamente a possibilidade de estar no plural e de desempenhar funções próprias de um nome. Ele só tem valor dentro da combinação a par e passo, que no seu todo se comporta como um advérbio, devendo, pois, ser analisada e etiquetada como tal. Se o sistema de etiquetagem não utilizar a noção de composto, cada um dos constituintes do advérbio é contado como uma unidade lexical, o que até certo ponto é verdade, mas pouco pertinente do ponto de vista da análise linguística da sequência, uma vez que se perde o mais importante: a noção fundamental de que a sequência de categorias Prep N Conj N (a par e passo) é uma unidade lexical e sintáctica de carácter adverbial5. É, por isso, desejável que, aquando do processamento de um texto que contenha compostos (como é o caso de (2)), os analisadores lexicais os identifiquem adequadamente e dêem o seguinte resultado:

a par e passo Advérbio e não: a Determinante a Preposição a Pronome par Nome e Conjunção

passo Verbo, presente do indicativo passo Nome

Este exemplo mostra também que a ambiguidade lexical provocada pela homografia das palavras simples, dramaticamente frequente nas línguas que, ao contrário do inglês, têm um sistema morfológico muito desenvolvido, é resolvida em boa parte mediante um tratamento adequado das palavras compostas. O problema da ambiguidade é tratado em pormenor por Laporte (Resolução de Ambiguidades, neste volume), mas damos aqui mais alguns exemplos ilustrativos. Como tantas outras, as palavras andar, modelo e passo são ambíguas: à partida, podem ser ou verbos (formas dos verbos andar, modelar e passar) ou nomes (um andar bem situado; um modelo de plástico; dar um passo). Porém, quando se combinam entre si para formar, por exemplo, andar modelo e passo a passo, cada uma delas só tem um valor categorial: nome, embora, como se disse antes, essa informação

5 Em geral, os etiquetadores (taggers) baseados exclusivamente em cálculos estatísticos não contemplam os compostos. Mas mesmo os sistemas que se baseiam na consulta de dicionários podem não utilizar dicionários de compostos. Esta é uma das razões, mas não a única, por que se torna difícil comparar resultados de etiquetagem (Ver também as duas notas a seguir).

(8)

categorial perca agora muita da sua pertinência. Se um sistema de análise lexical contemplar a existência de compostos e der prioridade à identificação destas unidades lexicais, andar modelo e passo a passo serão analisadas globalmente como, respectivamente, um nome e um advérbio compostos e receberão apenas essas etiquetas. Num sistema que não tenha em conta a existência de compostos, seja qual for a situação linguística em que se encontrem, serão analisadas individualmente como palavras simples e terão, pelo menos, dois valores (duas etiquetas) cada uma: nome e verbo6.

Os métodos de análise lexical actualmente em desenvolvimento7 utilizam como dados linguísticos (Laporte, 1997: 49):

- «um dicionário e gramáticas de resolução de ambiguidades (Koskenniemi, 1993; Silberztein, 1993; Oflazer, 1996),

- um corpus de textos etiquetado (Church, 1988; Dermatas & Kokkinakis, 1995), eventualmente acompanhado de informações linguísticas tais como esquemas de regras estabelecidos à mão (Brill, 1995),

- um corpus não etiquetado mas acompanhado de informações linguísticas, por exemplo um jogo de etiquetas lexicais e um conjunto de relações etiqueta-sufixo (Levinger et al., 1995),

- um corpus não etiquetado (MacMahon & Smith, 1996); neste caso, o jogo de etiquetas é construído automaticamente mediante cálculos estatísticos e o seu conteúdo é mais ou menos imprevisível».

No sistema concebido por Silberztein – o sistema INTEX8 –, que utiliza dados linguísticos especificamente elaborados por especialistas em processamento de linguagem natural, os textos, os dicionários e as gramáticas são representados (Silberztein, 1997) por transdutores de estados finitos (FST «Finite State Transducer»), que têm a forma de grafos. Esta característica do sistema permite o desenvolvimento, e a aplicação ao processamento de grandes corpora, de dicionários e de gramáticas de ampla cobertura. Em operações de análise automática de texto, os dicionários e gramáticas são aplicados em combinação, a fim de, entre outras coisas: (i) indexar o texto de vários modos possíveis; (ii) reconhecer unidades lexicais, simples e compostas; (iii) identificar estruturas sintácticas ou léxico-sintácticas; (iv) resolver ambiguidades; (v) etiquetar palavras ou expressões; (vi) solicitar concordâncias parametrizáveis de estruturas linguísticas variadas; (vii) obter dados

6 O conteúdo das etiquetas varia de sistema para sistema. Se a informação associada às palavras for apenas de natureza categorial, terão duas etiquetas cada uma; mas quanto mais completo for o seu conteúdo, maior é o número de etiquetas. A forma verbal andar, por exemplo, terá cinco etiquetas se, além da categoria, forem tidas em conta as informações relativas a tempo, modo, pessoa e número (neste caso: infinitivo impessoal, primeira e terceira pessoas do singular do infinitivo pessoal e do futuro do conjuntivo).

7 Para uma síntese sobre o desenvolvimento dos vários sistemas de análise lexical, sua avaliação e principais aplicações a que se destinam, ver Laporte, 1997 e neste volume.

8 No endereço: http://www.ladl.jussieu.fr/INTEX/index.html é feita uma apresentação geral do sistema, bem como uma demonstração de algumas das suas potencialidades.

(9)

estatísticos sobre o texto. O sistema permite ainda uma manutenção fácil (automática e semi-automática) dos dicionários e gramáticas.

Uma das vantagens do INTEX é o facto de ter sido concebido de modo a integrar de modo fácil dados linguísticos de qualquer língua. Os métodos de análise e de formalização adoptados – os definidos no âmbito da rede de laboratórios RELEX9 –, fazem com que eles sejam completamente reprodutíveis e que, portanto, possam ser usados, criados, aumentados e melhorados por qualquer equipa ou mesmo por qualquer investigador (e não apenas por talentosos investigadores individuais).

Os dicionários e gramáticas elaborados para o português pela equipa do LabEL10 (Eleutério et al., 1995; Ranchhod, 1999a; Ranchhod, Mota e Baptista, 1999b; Ranchhod e Mota, 1999c) foram, após uma simples conversão de formatos, implementados no INTEX (no qual estão igualmente integrados dados linguísticos de diversas línguas, nomeadamente: alemão, espanhol, francês, inglês e italiano). Tomaremos os dados do português como exemplo e, numa breve síntese, veremos quais as suas principais características.

3. Dicionários electrónicos do português

O conjunto dos recursos linguísticos do português está organizado do seguinte modo: - um dicionário geral de palavras simples, correspondendo estas a qualquer sequência de

caracteres alfabéticos delimitada por espaços ou qualquer outro separador, que é o elemento central do sistema de dicionários. Contém cerca de 110 000 lemas, cujos atributos gramaticais são sistematicamente descritos e codificados. As formas flexionadas desses lemas (aproximadamente 1 250 000) são automaticamente geradas a partir dos códigos associados a cada um deles;

- dicionários de palavras compostas, sendo estas formadas por sequências de palavras simples e de separadores. De momento, o léxico das palavras compostas é fundamentalmente constituído por cerca de 35 000 nomes e 3000 advérbios. Esta cobertura representa já um conjunto de dados importante, mas está longe de ser satisfatória.

- Uma biblioteca de gramáticas locais, representadas por transdutores de estados finitos (FST), que descrevem vários tipos de objectos linguísticos: expressões numéricas, expressões com fortes restrições e dependências lexicais, expressões em que há

9 Para obter informações pormenorizadas, ver: http://www.ladl.jussieu.fr/Relex/RELEX.html.

10 O Laboratório de Engenharia da Linguagem (LabEL) está integrado no Centro de Automática da Universidade Técnica de Lisboa (CAUTL-IST). No LabEL, têm vindo a ser elaborados dados linguísticos formais, que são utilizados pelos sistemas DIGRAMA e INTEX. O primeiro, implementado em UNIX, está a ser desenvolvido, no LabEL, por S. Martins Eleutério; o segundo, implementado em Windows NT - 95/98 e em OpenStep, tem sido desenvolvido por M. Silberztein no LADL (Laboratoire d’Automatique Documentaire et Linguistique). A versão Windows NT - 95/98 do INTEX encontra-se disponível em CD-ROM.

(10)

recursividade sintáctica, etc. Conforme o tipo de fenómeno que representam, são usadas em fases diferentes do processamento de texto: normalização do texto, reconhecimento de padrões linguísticos, resolução de ambiguidades, análise sintáctica, etc.

- Um conjunto de matrizes binárias, convertíveis em FST, onde está descrito um fragmento importante do léxico-gramática do português: cerca de 3000 construções verbais, mais de 4000 construções com nomes predicativos e aproximadamente 3000 advérbios.

Além destes dados, estão a ser elaborados léxicos mais específicos, nomeadamente dicionários terminológicos (Ranchhod e Mota, 1999c), dicionários de siglas (Moura, 2000), dicionários de cargos e funções, dicionários de topónimos, etc.

No âmbito deste capítulo, concentrar-nos-emos fundamentalmente nos dicionários gerais de palavras simples (3.1.), compostas (3.2.) e nos FST lexicais (3.3.). Em 4., falaremos do seu modo de utilização, apresentando resultados ilustrativos. De seguida, daremos, em 5., exemplos variados de operações características da análise lexical automática de texto.

3.1. Representação das palavras simples. Os dicionários DELAS e DELAF

Os dicionários de palavras simples correspondem à forma mais elementar de dicionário: uma lista de palavras e, associadas a cada uma delas, informações sobre a sua categoria gramatical e sobre o modelo de flexão que se lhes aplica. Conforme a sua categoria, as informações dirão respeito à variação em género, número, caso (só para os pronomes pessoais), tempo, modo e pessoa, às adjunções de sufixos diminutivos, aumentativos e superlativos e de pronomes clíticos. Trata-se, por agora, de dicionários fundamentalmente morfológicos, mas a que se vão progressivamente acrescentando informações de natureza sintáctica e semântica.

As entradas destes dicionários correspondem ao que em qualquer dicionário se entende por tal: uma forma canónica (lema), representante, no caso de a palavra ser flexionável, de todas as formas flexionadas que permitir. Os verbos são representados pelo infinitivo; os nomes e adjectivos pelo masculino singular (quando aplicável), pelo feminino singular quando só têm esse género, etc. As categorias invariáveis (a maioria dos advérbios, preposições, conjunções e certos determinantes) são, evidentemente, representadas pela sua única forma. Em alguns raros casos, as formas canónicas são formas plurais (alvíssaras, andrajos, calendas, pêsames, etc.), que não variam em género. Apesar de serem invariáveis, o plural tem de ser explicitamente marcado, a fim de permitir, a nível sintáctico, a sua concordância com os determinantes, os adjectivos e as formas plurais dos verbos de que possam ser sujeito. Assim, a estrutura das entradas simples é, exemplificando, a seguinte:

(11)

beber,V201t bem,ADV1 bota,N301D1 botão,N208D2

A vírgula separa o lema do seu código de flexão. A primeira informação sobre a palavra é a indicação da categoria gramatical a que pertence. Nos exemplos: adjectivo (A), verbo (V) advérbio (ADV) e nome (N). O código numérico indica o modelo de flexão da categoria em causa. Beber, por exemplo, é um verbo da segunda conjugação (2), que tem uma conjugação regular (regra 01). Os códigos S e D seguidos de um código numérico adicional permitem gerar, respectivamente, o(s) superlativo(s) e o(s) diminutivo(s) adequado(s). As entradas verbais são ainda marcadas quanto à possibilidade de se construirem ou não com clíticos (t). Como se sabe, alguns clíticos alteram certas formas verbais, podendo eles próprios sofrer alterações de forma. Portanto, se bem que a questão da transitividade ou intransitividade de um verbo só possa ser adequadamente tratada a nível sintáctico, dadas as alterações formais provocadas pela adjunção de clíticos à direita dos verbos (*bebemos-o > bebemo-lo) e da combinação dos clíticos entre si (*disseram-nos-o > disseram-no-lo), tornou-se necessário tratar o assunto logo ao nível morfológico.

Cada código representa uma regra de flexão, que é formalizada num transdutor de estados finitos. Os FST flexionais associam conjuntos de sufixos às informações de flexão das entradas lexicais do dicionário de lemas (DELAS) e geram as correspondentes formas flexionadas. Por exemplo, a flexão representada pelo código A111S1 (adjectivo banal, por exemplo) é descrita pelo transdutor A111S1 da Fig. 1.

Fig. 1: FST de flexão

Este FST contém dois sub-transdutores: A111, que descreve e gera a flexão em género e

número e S1, que gera as formas superlativas. Todos os adjectivos que no dicionário de

lemas estejam codificados como A111S1 são flexionados por aplicação deste transdutor. Adjectivos igualmente terminados em -al mas que não admitam o superlativo (decimal ou editorial) estão codificados como A111 e as sua flexão é gerada apenas pelo transdutor

(12)

As formas flexionadas de todas as entradas simples constituem o módulo DELAF, gerado automaticamente a partir do DELAS. A flexão das entradas dadas atrás como exemplo corresponde à seguinte listagem, ordenada alfabeticamente:

DELAF (amostragem) banais,banal.A:mfp banal,banal.A:mfs banalíssima,banal.A:Sfs banalíssimas,banal.A:Sfp banalíssimo,banal.A:Sms banalíssimos,banal.A:Smp beba,beber.V:S1s:S4s:S3s:Y4s bebais,beber.V:S2p:Y2p bebam,beber.V:S4p:S3p:Y4p bebamo,beber.V:Y1p bebamos,beber.V:S1p:Y1p bebas,beber.V:S2s:Y2s bebe,beber.V:P2s:P4s:P3s:Y2s bebei,beber.V:P2p:Y2p bebeis,beber.V:P2p bebem,beber.V:P4p:P3p bebemo,beber.V:P1p:J1p bebemos,beber.V:P1p:J1p bebendo,beber.V:G beber,beber.V:R:U1s:U4s:U3s:W:V1s:V4s:V3s bebera,beber.V:M1s:M2s:M4s:M3s beberam,beber.V:J4p:J3p:M4p:M3p beberas,beber.V:M2s beberá,beber.V:F4s:F3s beberás,beber.V:F2s beberão,beber.V:F4p:F3p beberde,beber.V:V2p beberdes,beber.V:U2p:V2p bebere,beber.V:V2s beberei,beber.V:F1s bebereis,beber.V:F2p beberem,beber.V:U4p:U3p:V4p:V3p beberemos,beber.V:F1p beberes,beber.V:U2s:V2s beberia,beber.V:C1s:C4s:C3s beberiam,beber.V:C4p:C3p beberias,beber.V:C2s beberíamos,beber.V:C1p beberíeis,beber.V:C2p bebermo,beber.V:V1p bebermos,beber.V:U1p:V1p bebes,beber.V:P2s bebesse,beber.V:T1s:T4s:T3s bebessem,beber.V:T4p:T3p bebesses,beber.V:T2s bebeste,beber.V:J2s:J2p bebestes,beber.V:J2p bebeu,beber.V:J4s:J3s bebê,beber.V:R:W:V1s:V2s:V4s:V3s bebêramo,beber.V:M1p bebêramos,beber.V:M1p bebêrei,beber.V:M2p bebêreis,beber.V:M2p bebêsseis,beber.V:T2p bebêssemos,beber.V:T1p bebi,beber.V:J1s bebia,beber.V:I1s:I2s:I4s:I3s bebiam,beber.V:I4p:I3p bebias,beber.V:I2s bebido,beber.V:K bebíamo,beber.V:I1p bebíamos,beber.V:I1p bebíei,beber.V:I2p bebíeis,beber.V:I2p bebo,beber.V:P1s bem,bem.ADV bota,bota.N:fs botas,bota.N:fp botão,botão.N:ms botãozinho,botão.N:Dms botãozito,botão.N:Dms botinha,bota.N:Dfs botinhas,bota.N:Dfp botita,bota.N:Dfs botitas,bota.N:Dfp botões,botão.N:mp botõezinhos,botão.N:Dmp botõezitos,botão.N:Dmp

(13)

As entradas do DELAF são, como se vê pela amostragem, formas flexionadas que aparecem associadas ao seu lema, por exemplo: banais,banal., especificando-se a seguir qual a sua categoria gramatical e a flexão que corresponde a essa forma (A:mfp, adjectivo uniforme para masculino e feminino, p para plural). De igual modo, é indicado que banalíssima corresponde ao superlativo de banal no feminino singular (Sfs). Em relação aos verbos, existem, sobretudo se forem regulares, várias formas homógrafas. Por exemplo, bebemos é potencialmente a primeira pessoa do plural do presente do indicativo (P1p) e do pretérito perfeito simples (J1p) de beber. As formas alteradas pela eventual adjunção de clíticos à direita dos verbos são igualmente geradas. É o caso de bebemo,beber.V:P1p:J1p, equivalente à anterior. A validação destas formas e dos clíticos possíveis é feita através de gramáticas (autómatos) especificamente elaboradas (para uma solução parcial, ver adiante 4.1.4.), que são aplicadas em combinação com os dicionários aquando da análise de texto.

Observação: De acordo com a definição de palavra simples adoptada, estritamente formal, são entradas do dicionário geral de palavras simples unidades lexicais que, de um ponto de vista linguístico, não podem ser assim classificadas. Trata-se naturalmente das contracções. Formas como daqui, dele, dum, lho são constituídas por duas palavras pertencentes ou não a duas categorias distintas, mas que se apresentam ortograficamente como se fossem palavras simples. Por essa razão, elas têm de receber tratamento específico. No DELAF, a estrutura deste tipo de entrada é, exemplificando, a seguinte:

daqui,daqui.PREPXADV

dele,dele.PREPXPRO+Pes:O3ms dum,dum.PREPXDET+Art+Ind:ms

lho,mo.PROXPRO+PesXPes:D34mfspXA34ms

Como é evidente, com as contracções, a noção de lema é uma aproximação grosseira. As categorias a que pertencem os constituintes das formas contraídas estão delimitados por «X»: daqui é constituída por uma preposição e por um advérbio (PREPXADV), ambos categorias invariáveis. Quando as palavras de base flexionam, a informação sobre a respectiva flexão vem imediatamente à direita de cada elemento, especificada por «:». Dele, por exemplo, corresponde à contracção da preposição de e da terceira pessoa, masculino singular, do pronome pessoal oblíquo ele (Pes:O3ms). Algumas contracções são ambíguas, como lho, uma vez que cada um dos pronomes, respectivamente dativo e acusativo, pode ter à partida mais do que um referente. A ambiguidade de lho só pode ser resolvida ao nível de uma análise sintáctica já muito fina, mas outros casos de ambiguidade são de mais fácil resolução (ver 4.1.3.).

Dada a interdependência dos vários módulos do sistema de dicionários, figuram ainda no dicionário geral palavras que não têm existência autónoma na língua, mas que entram na formação de palavras compostas. São fundamentalmente de dois tipos:

(14)

(i) Palavras do português: acerca, apesar, contragosto, riquismo, etc., que só podem constituir unidades lexicais e ser integradas numa categoria gramatical quando combinadas com outras: acerca de (preposição), apesar de (preposição e conjunção), a contragosto (advérbio), novo-riquismo (nome);

(ii) Palavras vindas de outras línguas que também só têm valor em português como elementos de compostos: aequo (ex aequo), check (check-up) quanti (tutti-quanti), etc.

3.2. Representação das palavras compostas. Os dicionários DELAC e DELACF

As palavras compostas constituem uma percentagem muito elevada do léxico de qualquer língua11. São frequentes em todos os textos, mas são particularmente abundantes nos de natureza técnica e científica. Em processamento de linguagem natural, torna-se cada vez mais evidente a necessidade de tratar estas unidades lexicais, por todo o tipo de razões (algumas já invocadas em 2.), a não menos importante das quais é o facto de grande parte do sentido de um texto estar ancorado nos nomes que contém, sobretudo, nos nomes compostos (cf. 5.1.).

Como se referiu, as entradas do dicionário de compostos (DELAC) são unidades lexicais formadas por uma sequência de palavras simples e de separadores (espaço, hífen e apóstrofo, no caso do português). Embora todas elas apresentem restrições (morfológicas, combinatórias, etc.) quanto às propriedades que era suposto possuirem, há que distinguir, em primeiro lugar, as que são completamente invariáveis das que o não são.

As preposições e conjunções compostas (junto de, para com, já que, à medida que, etc.) são invariáveis.

A maioria dos advérbios também o são: à flor da pele, a olhos vistos, de mão beijada, sem papas na língua, etc., são exemplos representativos de advérbios compostos, que apresentam um grau de fixidez extremo, não sendo possível flexionar, omitir ou comutar quaisquer dos seus elementos constituintes (Ranchhod, 1991). Há contudo alguns advérbios, como: por Possi conta e risco:

É um homem que toma decisões por sua conta e risco

em que um dos constituintes, neste caso, o possessivo (Possi), varia em função de um grupo nominal livre, em geral o sujeito da frase principal, de que é co-referente. A representação deste tipo de dados levanta algumas dificuldades. Uma vez que a parte variável do advérbio pertence a um paradigma fechado, a mais simples consiste na

11 Para ter uma ideia, basta verificar que os advérbios simples do português (incluindo os terminados em -mente) registados na generalidade dos dicionários são da ordem dos 1.000 elementos, e os advérbios compostos, até agora formalizados nos dicionários do LabEL, rondam já os 3.000, número que, por comparação com o que se passa em relação a outras línguas (7.000, para o francês, M. Gross, 1990), deverá aumentar significativamente.

(15)

reduplicação de entradas de dicionário. Esta solução é fiável, do ponto de vista do reconhecimento lexical das expressões, mas tem o inconveniente de não tornar possível, mais tarde, estabelecer as redes de co-referência existentes. Outra, que não reduplica as entradas, mas não permite resolver a questão da co-referência, é a da sua descrição através de gramáticas locais, representando o conjunto das formas possíveis. A solução adoptada e que, por agora, se afigura mais adequada é a formalização destes advérbios em tabelas de expressões semi-fixas, em que, entre outras informações, figura explicitamente a indicação de que existem redes de co-referência obrigatórias entre eles e um constituinte da oração principal. Essas tabelas são utilizadas por autómatos para análise sintáctica de texto.

Quanto aos nomes e adjectivos, eles são, em princípio, categorias que podem flexionar. E, se existem inúmeros casos de total invariabilidade morfológica, como acontece com os nomes compostos: ar livre, comum dos mortais, guerra fria etc., a maioria não apresenta

restrições tão rígidas. Por isso, para os identificar de forma fundamentada, é necessário utilizar critérios linguísticos (Ranchhod, 1990; Baptista, 1995), que vão desde a análise do seu comportamento morfológico, até à verificação da sua, total ou parcial, perda de composicionalidade, lexical, sintáctica e semântica. Esses critérios são igualmente necessários para distinguir os nomes compostos de grupos nominais livres, formalmente idênticos. De facto, se bem que a ambiguidade dos compostos seja menor do que a das palavras simples, há combinações de palavras que tanto podem constituir um composto como corresponder a uma construção livre. É o caso, entre outros, de: bola de neve, carta aberta, capacete azul, ponto alto, que, de acordo com as características da construção em que estejam inseridos, tanto podem ser nomes compostos como grupos nominais livres. Se, por exemplo, capacte azul estiver na posição sintáctica de sujeito de um verbo como recear:

(1) Os capacetes azuis receiam não conseguir controlar a situação,

posição que, em situação discursiva normal, só pode ser preenchida por um nome humano, a análise como grupo nominal livre é totalmente desadequada. Se, pelo contrário, esta mesma combinação de palavras for argumento de outro tipo de predicado:

(2) Todos os visitantes tiveram de usar capacetes azuis,

capacetes azuis, agora na posição de complemento directo de usar, já não é uma unidade lexical, mas um grupo nominal em que um dado nome é livremente modificado por um adjectivo.

Consequentemente, em (1), o adjectivo azul não pode ser omitido: *Os capacetes receiam não conseguir controlar a situação,

nem nenhum dos elementos do composto pode comutar com outro da mesma categoria: *Os bonés azuis receiam não conseguir controlar a situação,

(16)

Em (2), estas restrições não se observam:

Todos os visitantes tiveram de usar capacetes, Todos os visitantes tiveram de usar bonés azuis, Todos os visitantes tiveram de usar capacetes amarelos.

A adjunção de informações semânticas às entradas de dicionário (por exemplo, a marcação do nome composto capacete azul com o traço +Hum (humano) ajuda a distinguir o composto do grupo nominal livre homógrafo, mas a resolução satisfatória deste tipo de ambiguidade passa pela elaboração de gramáticas que têm de ter em conta informações de natureza sintáctica. Ao nível do léxico, os compostos ambíguos são formalizados e representados como os restantes compostos (se bem que, como veremos adiante, em 4., sejam utilizados de modo diferente aquando da análise de texto).

A estrutura das entradas dos dicionários de compostos é fundamentalmente idêntica à das palavras simples. Para ilustração sucinta, escolheu-se uma amostragem, constituída pelos exemplos até agora utilizados. As entradas do DELAC têm o seguinte formato12:

DELAC (categorias invariáveis) a olhos vistos,ADV+PCA à flor da pele,ADV+PCDC à medida que,CONJ de mão beijada,ADV+PCA já que,CONJ junto de,PREP para com,PREP

sem papas na língua,ADV+PCPC DELAC (nomes)

ar livre,N+NA:ms - -

bola (301) de neve,N+NDN:fs - +

capacete (200) azul (111),N+NA+Hum:mfs + + carta (301) aberta (001), N+NA:fs - +

comum dos mortais, N+NDN:ms - - guerra fria, N+NA:fs - -

ponto (200) alto (001),N+NA:ms - +

A formalização dos advérbios, preposições e conjunções é bastante simples. Uma vez que se trata de categorias invariáveis, não têm códigos de flexão associados. Para além da sua categoria gramatical (ADV, PREP, CONJ), podem contudo ter, sobretudo as conjunções e advérbios, informações relativas a sub-classe e, adicionalmente, outros códigos que remetam para tabelas com informação sintáctica. É o caso dos advérbios:

12 Por razões de clareza, apresentam-se em listas separadas os nomes (categoria que pode flexionar) e as categorias invariáveis.

(17)

como acima se referiu, os que estão dicionarizados foram também objecto de estudo sintáctico. Na respectiva amostragem, os códigos PCA, PCDC e PCPC remetem para as classes léxico-sintácticas em que estão integrados.

A formalização das entradas dos nomes compostos é um pouco mais complexa. Logo a seguir à informação categorial (N), é indicada a sua estrutura interna: NA (nome + adjectivo), NDN (nome + de + nome), etc., frequentemente relacionada com o comportamento morfológico do composto: por exemplo, os nomes compostos da classe NA (a mais numerosa) permitem, na maioria dos casos, a pluralização de ambos os elementos e, eventualmente, a sua flexão em género (caso de: prim(o,a,os,as) direit(o,a,os,as)); a maior parte dos NDN só permitem a pluralização do primeiro nome. Mas, para além da variação morfológica interna, há igualmente que explicitar a flexão global da entrada (género e número)13; ms, por exemplo, significa que, na sua forma de base, o nome composto se comporta, na globalidade, como um nome masculino singular (na amostragem: ar livre, comum dos mortais e ponto alto).

Ainda quanto à flexão interna dos nomes compostos, uma vez que as restrições são de vários tipos e de natureza eminentemente lexical, são indicados, a seguir aos constituintes que flexionam, os códigos flexionais que têm no dicionário de palavras simples. As restrições a essa flexão: possibilidade ou impossibilidade de o composto variar em género e número é indicada pelos sinais «+» e «-», respectivamente. Assim, ar livre é invariável (logo, os seus constituintes não têm código de flexão), mas carta aberta pode pluralizar. O plural de carta corresponde ao código 301 dos nomes femininos e o de aberta ao 001 dos adjectivos, com a restrição de o adjectivo não poder flexionar em género.

As formas flexionadas dos nomes compostos são automaticamente geradas a partir destas informações codificadas:

DELACF (nomes) ar livre,ar livre.N+NA:ms

bola de neve,bola de neve.N+NDN:fs bolas de neve,bola de neve.N+NDN:fp capacete azul,capacete azul.N+NA+Hum:mfs capacetes azuis,capacete azul.N+NA+Hum:mfp carta aberta,carta aberta.N+NA:fs

cartas abertas,carta aberta.N+NA:fp

comum dos mortais,comum dos mortais.N+NDN:ms guerra fria,guerra fria.N+NA:fs

ponto alto,ponto alto.N+NA:ms pontos altos,ponto alto.N+NA:mp

13 A ideia generalizada de que o género e o número de um nome composto são idênticos ao do primeiro elemento constituinte nem sempre se verifica. Pele-vermelha, por exemplo, é iniciado por um nome exclusivamente feminino, mas o composto tanto pode ser feminino como masculino: um pele-vermelha, uma pele-vermelha. Acontece o mesmo com capacete azul, que, como nome composto humano, é passível de ser precedido por determinantes masculinos e femininos.

(18)

Os nomes compostos flexionados constituem, juntamente com as categorias invariáveis, o DELACF.

3.3. FST lexicais

Até agora temos implicitamente considerado que o conjunto de palavras simples de uma língua é finito e que a função de um dicionário como o DELAS é a de alistar e descrever todos os seus elementos de forma adequada. Há, contudo, vários objectos linguísticos que, sendo formados por sequências de letras (i.e. correspondendo à noção formal de palavra simples), não seria fácil nem natural enumerar em extensão e tratar num dicionário de lemas. Estão, por exemplo, nesta situação os números romanos: II, III, IV, XII, XXI, MCM,... Para os descrever, são utilizados transdutores de estados finitos lexicais, como o que está representado na Fig. 2.

Fig. 2: FST NRom

O transdutor NRom14, em que os nós sombreados correspondem a FST encaixados, identifica todos os números romanos, inclui-os na sua classe gramatical (DET), com a indicação de que se trata de um romano (NR) correspondente a um dado algarismo:

II,II.DET+NR+VAL=2 III,III.DET+NR+VAL=3 IV,IV.DET+NR+VAL=4 MCM,MCM.DET+NR+VAL=1900 XII,XII.DET+NR+VAL=12 XXI,XXI.DET+NR+VAL=21

Os FST lexicais são ainda utilizados para descrever as variantes ortográficas de uma palavra (por exemplo, a alternância ou/oi em palavras como louça/loiça, touro/toiro) ou para agrupar as famílias lexicais resultantes de processos derivacionais (nação, nacional, nacionalidade, nacionalismo, nacionalista, nacionalizar, desnacionalizar, nacionalizável, renacionalizar, nacionalização, desnacionalização, renacionalização, nacionalizador, desnacionalizador,...).

O que se passa em relação às palavras simples também se verifica com as palavras compostas. Há dados linguísticos que, de um ponto de vista formal, correspondem a compostos, mas que não faria sentido alistar num dicionário. Um exemplo claro é o dos

14 Os transdutores para os números romanos e para os cardinais e ordinais compostos (ver a seguir) foram concebidos e construídos por Cristina Mota.

(19)

determinantes numerais (cardinais e ordinais) como: vinte e um, duzentos e trinta e sete, nove mil quatrocentos e cinquenta e oito; vigésimo primeiro, ducentésimo trigésimo sétimo,...

O transdutor DnumC, que contém vários transdutores encaixados, que, por sua vez,

contêm outros (ver Fig. 3), descreve e gera o dicionário das expressões numéricas entre vinte e um e novecentos e noventa e nove mil novecentos e noventa e nove, incluindo as formas femininas (vinte e dois livros, vinte e duas cadeiras, mil e duzentos livros, mil e duzentas cadeiras,...).

Fig. 3: FST DNumC

Tal como o anterior, integra as expressões numéricas na sua categoria gramatical (determinante numeral: DET+Num) e associa a cada uma delas o seu valor em algarismos, como se vê nos exemplos (utilizados acima):

duzentas e trinta e sete,duzentas e trinta e sete.DET+Num+VAL=237:Cfp duzentos e trinta e sete,duzentos e trinta e sete.DET+Num+VAL=237:Cmp mil e duzentas,mil e duzentas.DET+Num+VAL=1200:Cfp

mil e duzentos,mil e duzentos.DET+Num+VAL=1200:Cmp

nove mil quatrocentas e cinquenta e oito,nove mil quatrocentas e cinquenta e oito.DET+Num+VAL=9458:Cfp

nove mil quatrocentos e cinquenta e oito,nove mil quatrocentos e cinquenta e oito.DET+Num+VAL=9458:Cmp

novecentas e noventa e nove mil novecentas e noventa e nove,novecentas e noventa e nove mil novecentas e noventa e nove.DET+Num+VAL=999999:Cfp

novecentos e noventa e nove mil novecentos e noventa e nove,novecentos e noventa e nove mil novecentos e noventa e nove.DET+Num+VAL=999999:Cmp

vinte e dois,vinte e dois.DET+Num+VAL=22:Cfp vinte e duas,vinte e duas.DET+Num+VAL=22:Cfp vinte e um,vinte e um.DET+Num+VAL=21:Cmp vinte e uma,vinte e uma.DET+Num+VAL=21:Cmp

(20)

4. Aplicação dos dicionários e FST lexicais à análise lexical de texto

Os recursos linguísticos formalizados e representados nos dicionários e transdutores de estados finitos lexicais são utilizados pelo INTEX em várias operações de análise automática de texto. Como já o dissemos antes, neste capítulo, será apenas abordado o caso da análise lexical.

Uma vez que os textos são constituídos por formas flexionadas, os dicionários aplicados aos textos têm de estar no formato DELAF, para identificação das palavras simples flexionadas, ou DELACF, para reconhecimento das palavras compostas flexionadas. Mas, antes da aplicação destes recursos lexicais, o texto pode ser pré-processado ou normalizado. Vejamos sucintamente do que se trata.

4.1. Pré-processamento de texto

Um texto é um ficheiro em formato ASCII, que não contém qualquer informação linguística. Depois de aberto, é automaticamente feita uma primeira indexação, sendo também simultaneamente efectuada a determinação da frequência das palavras simples (sequências de caracteres contidos num alfabeto) e de todos os caracteres não contidos no alfabeto da língua em que o texto está escrito. A unidade textual corresponde ao parágrafo.

Estes textos podem ser pré-processados, isto é, podem ser preparados para as análises linguísticas que venham a ser realizadas posteriormente. Os resultados do pré-processamento ou de qualquer outra operação são sempre escritos em ficheiros auxiliares, mantendo-se o texto inicial intacto.

O pré-processamento (ou normalização) consiste fundamentalmente em: (i) segmentar os parágrafos em frases; (ii) identificar e etiquetar os compostos não ambíguos; (iii) decompor as contracções, reconstituindo e etiquetando os elementos por que são formadas; (iv) reconhecer e etiquetar pronomes clíticos em posição pós-verbal. Estas operações são opcionais e podem ser realizadas de forma independente.

4.1.1. Segmentação de frases

A delimitação das frases do texto é feita por aplicação de uma gramática específica, representada por um FST, que insere o símbolo {S} entre frases consecutivas. Por exemplo, os caminhos do grafo Sentence do português, representados na Fig. 4,

(21)

Fig. 4: FST Sentence (parcial)

inserem uma fronteira de frase após os sinais de pontuação incluídos no primeiro nó e imediatamente antes de uma palavra iniciada por uma maiúscula ou completamente grafada em maiúsculas, como em:

nessa tarefa pública. {S} NÃO se trata de ter em cada esquina um polícia!{S} Mas mais de ter em cada polícia... um amigo da segurança urbana.

Um aspecto importante deste FST é o facto de os delimitadores de frase serem inseridos se e só se, percorridos os restantes caminhos do grafo, essa maiúscula não corresponder a uma ou mais iniciais de um nome próprio ou não for uma sigla, como acontece em: O António A. R. Silva está na P.S.P. há, pelo menos, três anos.

A gramática para a divisão do texto em frases, de que o exemplo dado é uma simples ilustração, tem já um elevado grau de complexidade. Trata-se, contudo, de uma gramática que ainda não dá resultados completamente satisfatórios. Ela vai sendo progressivamente melhorada à medida que vão sendo resolvidas ambiguidades e feitas análises sintácticas cada vez mais finas15.

4.1.2. Identificação e etiquetagem dos compostos não ambíguos

É desejável que o processamento dos compostos não ambíguos seja feito tão cedo quanto possível, a fim de evitar que os seus constituintes sejam analisados como palavras simples. O passo seguinte do pré-processamento do texto pode, pois, consistir em identificar e etiquetar esses compostos. Para isso, o sistema consulta um dicionário específico (o único a que tem acesso nesta fase), Norm.dic, onde estão contidos e descritos

15 A título de exemplo, refiram-se alguns problemas que têm de ser resolvidos para que a fronteira de frase seja colocada onde a colocaria um linguista: distinção de que, pronome relativo e conjunção, dos restantes valores de que, em que não constitui fronteira de frase; determinação dos contextos em que elementos como se, uma vez que, etc. só podem ser conjunções («uma vez que ele disse isso, temos de ter mais cuidado» vs «ele disse uma vez que tínhamos de ter mais cuidado»), correcta identificação das construções com auxiliares, das completivas infinitivas, etc.

(22)

os compostos não ambíguos. O dicionário do português contém algumas centenas de elementos, entre os quais se encontram os advérbios a priori e tão-somente e os nomes mal-estar e mão-de-obra. Depois de identificados, estes compostos não ambíguos são simultaneamente etiquetados como uma unidade lexical:

{a priori,.ADV}, falta {tão-somente,.ADV} alguma {mão-de-obra,.N} qualificada.

Estas informações são tidas em conta em todas as subsequentes fases do processamento do texto, o que, ao evitar uma multiplicidade de análises não justificadas, reduz a ambiguidade e torna mais eficazes os analisadores sintácticos (cf. 4.2.).

4.1.3. Análise de contracções

A decomposição de algumas contracções nos seus elementos constituintes pode igualmente ser feita na fase de pré-processamento. Mais uma vez, só devem ser tratados os casos não ambíguos ou cujo tratamento não crie ambiguidades. O processamento das contracções é feito por FST de normalização de texto, como o da Fig. 5.

Fig. 5: FST de aqui

Este FST substitui a forma contraída daqui pela preposição de e pelo advérbio aqui, etiquetando simultaneamente cada um deles. A análise de contracções como dele, dela,... é feita por meio do FST representado na Fig. 6.

Fig. 6: FST de <ele>

O FST de <ele>, além de reconstituir os elementos básicos da contracção, permite ainda atribuir uma marca casual aos pronomes pessoais: O (forma oblíqua do pronome), distinguindo-os, assim, das formas nominativas homógrafas destas.

Há, porém, certas formas contraídas que são homógrafas de verbos, nomes, conjunções, etc. e que, devido a essa ambiguidade, não podem ser tratadas na fase de pré-processamento. Estão, por exemplo, nesta situação as contracções: deste, destes, homógrafas de formas do verbo dar (Deste dinheiro, quanto deste à Maria?) e mas, homógrafa da conjunção adversativa (Também mas mostraram, mas não gostei muito).

(23)

4.1.4. Reconhecimento e etiquetagem de clíticos

Os pronomes clíticos que não sejam homógrafos de outros pronomes clíticos (como o é, por exemplo, nos, que tanto pode ser o acusativo e o dativo da primeira pessoa do plural como corresponder a uma variante posicional de os) nem de outras formas que tenham o mesmo comportamento dos clíticos em relação aos verbos (como é o caso de se apassivante), e que se encontrem em posição pós-verbal, podem logo ser tratados durante a fase de normalização de texto. Este tratamento, além de identificar e etiquetar esses clíticos, contribui igualmente para resolver várias ambiguidades de todo indesejáveis. Por exemplo, as formas acusativas o, a, os, as são homógrafos dos artigos e dos demonstrativos, sendo a forma a igualmente homógrafa da preposição. O FST para identificação e etiquetagem de clíticos é feita pelo FST Cliticos (Fig. 7).

Fig. 7: FST Cliticos

O transdutor Cliticos faz apelo a dois outros transdutores que descrevem e representam os

clíticos que, sozinhos (CliticoAcus) ou combinados entre si (Clitico-clitico), têm

condições para ser analisados no pré-processamento. Depois de tratado pelo transdutor, o texto não etiquetado:

Esses livros entregaram-no-los ontem à tarde; leva-os para a biblioteca, por favor.

é transformado em:

Esses livros entregaram-{nos,.PRO+Pes:D1mfp}-{os,.PRO+Pes:A3mp} ontem à tarde; leva-{os,.PRO+Pes:A3mp} para a biblioteca, por favor.

Para concluir esta breve apresentação sobre as operações de pré-processamento, construímos um pequeno texto:

A priori ninguém suspeitava deles. Porém, à medida que prosseguiam as investigações, foi-se instalando um certo mal-estar. A sua conduta anterior protegia-os; foi-sempre tinham sido cidadãos exemplares.

Depois de normalizado, como antes se indicou (recorde-se que nesta fase o sistema não tem acesso aos dicionários, com excepção do de compostos não ambíguos), o texto é dividido em unidades textuais menores do que o parágrafo e contém já um número razoável de palavras analisadas e etiquetadas:

{S}{a priori,.ADV} ninguém suspeitava {de,.PREP} {eles,.PRO+Pes:O3mp}.{S} Porém, {à medida que,.CONJ} prosseguiam as investigações, foi-se instalando um certo {mal-estar,.N}. {S}A sua conduta anterior protegia-{os,.PRO+Pes:A3mp};{S} sempre tinham sido cidadãos exemplares.

(24)

Todas estas informações serão utilizadas em posteriores análises lexicais e sintácticas. Por exemplo, a análise da contracção deles, é indispensável para poder identificar adequadamente a rede actancial do verbo suspeitar.

4.2. Dicionários do texto

Quer tenha sido ou não objecto de pré-processamento, os primeiros recursos linguísticos a aplicar a um texto são os que estão formalizados nos dicionários de palavras flexionadas (cf. 3.1. e 3.2.) e nos FST lexicais (cf. 3.3.). Os resultados desta aplicação são apresentados em três ficheiros que constituem os dicionários do texto:

- Listagem de todas as palavras simples do texto, associadas ao seu lema e aos seus atributos gramaticais;

- Listagem de todos os compostos ambíguos, como o são, por exemplo, os nomes caixa negra e carta aberta ou os advérbios no fundo e por outro lado;

- Listagem das palavras simples desconhecidas, quer dizer, não registadas nos dicionários nem tratadas nos FST lexicais.

Em relação às palavras simples, nos casos em que há ambiguidades provocadas por homografia, as formas ambíguas aparecem em mais do que uma linha, como acontece com fumo e vão: fumo,fumar.V:P1s fumo,fumo.N:ms vão,ir.V:P4p:P3p:S4p:S3p:Y4p vão,vão.A:ms vão,vão.N:ms

Quanto aos compostos ambíguos, eles aparecem na lista de compostos, mas os seus constituintes fazem igualmente parte da lista de palavras simples do texto. Consequentemente, os FST do texto, elaborados automaticamente pelo sistema, apresentam as várias possibilidades de análise das sequências de palavras em questão. É o que se verifica no FST da Fig. 8, correspondente ao texto: «Escreveu, por outro lado, uma carta aberta duríssima».

(25)

Se bem que no presente contexto por outro lado e carta aberta só possam ser analisados como, respectivamente, um advérbio e um nome compostos, noutras situações (por exemplo: Viemos pelo Campo Grande, mas eles vieram por outro lado; Já me entregaram a carta aberta) eles formam combinações livres de palavras. O grafo utiliza as informações lexicais contidas nos dicionários e mostra de forma clara as várias possibilidades de análise que se apresentam à partida. As análises correctas serão estabelecidas quando forem aplicadas ao texto gramáticas que resolvam estas ambiguidades.

Recorde-se que, se os compostos não forem ambíguos e estiverem contidos no dicionário de normalização de texto (a priori, mão-de-obra, etc.) o sistema só tem em conta essa informação, eliminando as análises incorrectas. É o que se observa no FST da Fig. 9, correspondente ao texto: «A priori, há falta de mão-de-obra especializada», em que nem o advérbio a priori nem o nome mão-de-obra foram analisados nos seus constituintes.

Fig. 9: Representação de compostos não ambíguos

5. Utilização dos recursos lexicais

Uma vez aplicados a um texto, pré-processado ou não, os recursos lexicais acima referidos, podem ser já efectuadas várias operações de análise lexical automática. Mencionaremos algumas a título meramente ilustrativo. Adoptaremos o ponto de vista de um utilizador, em geral, um linguista, que pretende extrair de um corpus informações que o ajudem a prosseguir a sua investigação em morfologia, morfo-sintaxe, lexicologia, lexicografia, sintaxe, etc.

5.1. Reconhecimento e contextualização de palavras

A pesquisa mais simples que se pode solicitar ao sistema é a de extrair do texto16 todas as ocorrências de uma palavra, digamos do verbo ter. Os resultados podem ser, neste e em todos os casos, apresentados de dois modos: destacados no texto (através de cor ou sublinhado) e/ou incluídos numa concordância parametrizável (definição da extensão do contexto à esquerda e à direita, ordenação alfabética ou ordem de ocorrência no texto, etc.). Para obter as ocorrências de ter no texto, basta incluir o seu lema entre angulares: <ter>. Os resultados são os que figuram na seguinte concordância:

16 Embora em trabalhos de investigação de grande envergadura seja necessário utilizar um corpus com dezenas de milhões de palavras (e o INTEX foi exactamnete concebido para explorar textos com essas dimensões), para ilustrar os tipos de pesquisa que se podem solicitar ao sistema, utilizámos, em 5.1. e 5.2., um pequeno texto do semanário «Expresso» com cerca de 500 palavras.

(26)

orte-americanos anunciaram ter conseguido observar pela primeira vez a confi

ra a sida. As esperanças têm-se centrado bastante na prevenção da doença,a

s sucessos mais acentuados têm sido alcançados nos campos da prevenção e con

Se o contexto da concordância (aqui muito reduzido por questões de espaço) não for

suficiente para elucidar o que se pretendia, pode igualmente solicitar-se ao sistema a extracção das frases completas onde o elemento ocorre.

Apesar de extremamente simples, este tipo de pesquisa revela-se de grande utilidade. Permite, por exemplo, encontrar os contextos de ocorrência de verbos como ir, dar, fazer ou ter, cujo valor sintáctico lhes advém, fundamentalmente, do tipo de complementação que tiverem.

A localização dos compostos do texto tem geralmente grande interesse, porque, para além das utilizações em linguística, pode constituir uma boa base para sistemas de pesquisa de informação (information retrieval). O texto-amostragem que está a ser utilizado contém 35 compostos. Para ilustração, apresenta-se um dos parágrafo, com os compostos sublinhados (todos nomes, com excepção da conjunção de forma a):

{S}A terapia genética parece ser outro caminho possível na cura para a sida.{S} Os primeiros testes em seres humanos foram também apresentados durante a XII Conferência Internacional da Sida.{S} O estudo consistiu em manipular geneticamente células imunitárias humanas de

forma a estimular as defesas naturais do organismo contra o HIV.{S} Os cientistas constataram

que o tratamento era seguro e bem tolerado pelos participantes.{S} Também conseguiram determinar que a população de células que mais tempo conseguia subsistir no sangue dos receptores consistia numa mistura de dois tipos de linfócitos T.{S} Não só as células persistiam no sangue em elevados níveis durante pelo menos 100 dias, como conseguiam proliferar durante esse período.

Este exemplo comprova o que se tinha já mencionado: uma parte substancial da informação do texto está contida nos nomes compostos que contém.

5.2. Identificação de expressões linguísticas descritas por expressões regulares A expressão regular17:

<DET+Art+Def:fp> <N:fp> <A:fp>(<E>+(<PREP><DET>+<PREPXDET>)<N>) ou o autómato equivalente:

17 As estruturas linguísticas descritas por expressões regulares são em geral relativamente simples. Para localização de estruturas mais complexas é necessário construir gramáticas do tipo das que são apresentadas por M. Gross neste volume.

Referências

Documentos relacionados

Conforme demonstrado neste estudo os pontos de monitoramento são localizados próximo ao lançamento do esgoto, em distância máxima de 400 metros, entretanto a

Conclui-se, portanto, que o processo de implementação da nova organização curricular, que traz o Trabalho de Conclusão de Curso como requisito obrigatório para obtenção do

S em qualquer sombra de dúvida, quando nosso Senhor Jesus Cristo nos ensina na oração do Pai Nosso a dizer que o nome de Deus deve ser santificado na Terra, do mesmo

9- Nos primeiros tempos, as rochas eram utilizadas como abrigo, arma de defesa e para caçar... 10- Atualmente são usadas como material de construção, decoração,

15- Não despejar resíduos que contaminem as águas; não sujar o solo; não fazer lume onde haja perigo de incêndio; não arrancar ervas e arbustos que protegem o solo; proteger os

Reduzir desmatamento, implementar o novo Código Florestal, criar uma economia da restauração, dar escala às práticas de baixo carbono na agricultura, fomentar energias renováveis

Reducing illegal deforestation, implementing the Forest Code, creating a restoration economy and enhancing renewable energies, such as biofuels and biomass, as well as creating

auxiliar na criação de KPI’s. Fonte: Elaborado pela autora com base nos Quadros de 1 a 10 dessa dissertação.. O Quadro 13 apresenta os resultados trabalhados e que possuem