• Nenhum resultado encontrado

4 ConPor: um sistema de geração conceitual

4.3 Recursos e processos existentes

Esta seção descreve brevemente os dois recursos do NILC reutilizados no ConPor: o Léxico do Português (Nunes et al., 1996) e o Dicionário Português-UNL (Dias-da-Silva et al., 1998). Apresenta, também, as principais características do parser Curupira.

4.3.1 O léxico do português

O léxico do português é bastante abrangente, contendo atualmente cerca de 1.500.000 entradas. Cada entrada é constituída de uma palavra simples ou composta, nas suas formas canônica e analisada7, e da sua descrição com determinados traços morfossintáticos. Por exemplo, as entradas lexicais para “relacionamentos” e “ilumina” são ilustradas em (24).

(24) relacionamentos=<S.M.PL.N.[relacionamento]>

ilumina=<V.[IMPER-AFIRM.TU.PRES.ELE.].[iluminar]>

Na entrada do item “relacionamentos”, os traços morfossintáticos indicam que se trata de um substantivo (S), masculino (M), plural (PL), de grau nulo (N), cuja canônica é “relacionamento”. Já na entrada de “ilumina”, os traços indicam que se trata de um verbo (V), na 2º pessoa do singular do imperativo afirmativo (IMPER-AFIRM.TU) ou na 3º pessoa do singular presente (PRES.ELE), cuja canônica é “iluminar”. O campo que indica a canônica pode remeter à outra entrada lexical, com traços morfossintáticos adicionais, válidos para todas as suas formas analisadas, conforme o exemplo (25).

7 A forma canônica de uma palavra corresponde à sua forma não flexionada (por exemplo, “menino”, “andar”, “lâmpada”), enquanto cada forma analisada corresponde a uma das possíveis variações morfossintáticas de uma forma canônica.

(25) iluminar=<V.[PRONOM.TD.][FUT-SUBJ.ELE.FUT-SUBJ.EU.INF-PESS.ELE.INF-PESS.EU.].[iluminar]>

A predicação do verbo, em (25), como pronominal (PRONOM) ou transitivo direto (TD) é uma informação válida para qualquer flexão desse verbo. Os outros traços dizem respeito à flexão do verbo no futuro do subjuntivo (FUT-SUBJ) ou no infinitivo pessoal (INF-PESS), pois, em ambos os casos, as formas analisadas são idênticas à canônica.

No ambiente do ConPor, o léxico do português é utilizado para fornecer, em uma etapa de pré-processamento, alguns valores de traços morfossintáticos para a definição de outro recurso, o léxico enriquecido, conforme será descrito na Seção 4.4.2.

4.3.2 O dicionário português-UNL

O dicionário português-UNL é um recurso bilíngüe que faz a correspondência entre um conjunto de palavras da língua portuguesa e os conceitos da interlíngua UNL. Para tanto, cada palavra do português é descrita por uma ou mais entradas lexicais, cada qual dispondo de um ou mais dos seguintes traços, dependendo da categoria sintática da palavra: (a) a UW que representa seu conceito (por exemplo, sun(icl>solar system)); (b) a categoria gramatical (por exemplo, “s”, indicando “substantivo”); (c) informações morfológicas, como gênero e número (por exemplo, “masc” e “sing”); (d) a predicação verbal (por exemplo, “vtd”, sinalizando “verbo transitivo direto”; (e) o tipo do verbo (ação ou estado); e (f) informações adicionais para identificar o idioma, a freqüência e a prioridade do conceito (por exemplo, respectivamente, “P”, sinalizando “português”, “0”, indicando um conceito não freqüente, e “2”, indicando um conceito de prioridade secundária). Por exemplo, algumas entradas para os itens “sol”, “iluminar”, “em”, “menino” e “bonito” são ilustradas em (26).

(26) [Sol] {} "sun(icl>solar system)" (s,masc,sing) <P,0,2>; [sol] {} "sun" (s,masc,sing) <P,0,2>;

[ilumin] {} "stimulate" (v,5,stem,vtd,ação) <P,0,0>; [ilumin] {} "illuminate" (v,5,stem,vtd,ação) <P,0,0>; [em] {} "in" (prep) <P,0,2>;

[em] {} "on" (prep) <P,0,2>;

[menino] {} "boy" (s,masc,^num) <P,0,1>; [bonit] {} "beautiful" (adj,^gen,^num) <P,0,1>;

Nos exemplos, pode-se notar que:

1) Os itens lexicais são representados por formas básicas das palavras, que diferem das formas analisadas e canônicas do léxico do português, em alguns casos. A forma básica de um verbo, por exemplo, é representada por seu radical, de maneira que a mesma descrição seja válida para todas as formas variantes desse verbo. A essa forma básica é associado um marcador que identifica um dos paradigmas de conjugação. Por exemplo, o verbo “iluminar” é representado por “ilumin”, com o marcador de conjugação “5”, o qual sinaliza o sufixo “ar”. As formas básicas de palavras de outras categorias gramaticais, no entanto, nem sempre correspondem ao radical da palavra, como é o caso do substantivo “menino”. Essa forma básica leva em conta também algumas necessidades específicas da correspondência português-UNL. Neste caso, os itens lexicais “menino” e “menina”, apesar de terem o mesmo radical, remetem a conceitos UNL totalmente distintos (por exemplo, boy e girl, respectivamente) e, por isso, são representados por entradas distintas.

2) Cada acepção diferente de uma determinada palavra possui uma entrada distinta no dicionário, que remete a um conjunto de traços e/ou a um conceito UNL diferente. A primeira entrada para “sol”, por exemplo, remete à posição hierárquica de sun no sistema solar (solar

system). Já a segunda entrada, embora se refira à mesma entidade, “sol”, não faz alusão à

ontologia, remetendo diretamente ao conceito básico sun, mas mantendo o conjunto de traços da entrada anterior.

No ambiente do ConPor, o dicionário português-UNL é utilizado para fornecer, na etapa de pré-processamento, o conceito UNL para a definição do léxico enriquecido, conforme será descrito na Seção 4.4.2.

4.3.3 O parser Curupira

O parser Curupira é uma ferramenta do NILC, independente de aplicação, que assume como entrada uma sentença em português e retorna todas as suas possíveis estruturas sintáticas. Seguindo o formalismo de ATNs (Woods, 1970), seus componentes são anotados morfológica e sintaticamente, conforme ilustra a Figura 108, para a sentença (27).

8 A seguinte notação é utilizada pelo parser Curupira: SUJ = sujeito, SN = sintagma nominal, AADNE = adjunto adnominal à esquerda, SDET = sintagma determinante, CN = complemento nominal, SP = sintagma preposicional, PREDV = predicado verbal, SVTD = sintagma verbal transitivo direto e OD = objeto direto.

(27) O Sol em Sagitário ilumina seus relacionamentos.

(28)

Figura 10 – Estrutura sintática da sentença (27)

Esse parser ainda está em desenvolvimento e, apesar da sua abrangência, não utiliza informações semânticas para resolver ambigüidades sintáticas ou casos de estruturação inadequada, podendo gerar estruturas sintáticas múltiplas e mesmo incorretas para uma única sentença. Considerando somente estruturas sintáticas bem-formadas para manter o foco no

(FRASE #O Sol em Sagitário ilumina seus relacionamentos#

(PERIODO #O Sol em Sagitário ilumina seus relacionamentos#

(PERIODO_INDEPENDENTE #O Sol em Sagitário ilumina seus relacionamentos# (SUJ #O Sol em Sagitário#

(SUJ_SIMPLES #O Sol em Sagitário#

(SN #O Sol em Sagitário#

(AADNE #O#

(SDET #O#

(nucleo #o# artigo)

) )

(nucleo #sol# subst)

(CN #em Sagitário#

(SP #em Sagitário#

(nucleo #em# preposicao)

(SN #Sagitário#

(nucleo #sagitário# subst)

) ) ) ) ) )

(PREDICADO #ilumina seus relacionamentos#

(PREDV #ilumina seus relacionamentos#

(SVTD #ilumina#

(nucleo #ilumina# verbo)

)

(OD #seus relacionamentos#

(OD_SIMPLES #seus relacionamentos#

(SN #seus relacionamentos#

(AADNE #seus#

(nucleo #seus# adj) )

(nucleo #relacionamentos# subst)

) ) ) ) ) ) ) )

seu mapeamento, apenas essas estruturas são selecionadas, manualmente, dentre as fornecidas pelo Curupira, em uma fase de preparação prévia.

Os recursos e o processo descritos nesta seção respondem, basicamente, pelas características de natureza morfológica e sintática do ConPor, ainda consideradas como etapa de pré-processamento para o gerador conceitual, o principal processo do sistema. Esse processo, assim como os recursos criados especificamente para o ConPor, são descritos a seguir.