PE2LGP: tradutor de português europeu para língua gestual portuguesa em glosas

(1)

Proposta recebida em 14 de Agosto 2020 e aceite para publica¸c˜ao em 3 de Dezembro 2017.

PE2LGP: tradutor de portuguˆes europeu para l´ıngua gestual portuguesa em glosas

PE2LGP: translating European Portuguese into Portuguese Sign Language glosses

Matilde Gon¸calves, Lu´ısa Coheur and Hugo Nicolau

Instituto Superior T´ecnico, Universidade de Lisboa

INESC-ID Lisboa

matilde.do.carmo.lages.goncalves@tecnico.ulisboa.pt,nome.apelido@tecnico.ulisboa.pt

Ana Mineiro

Instituto de Ciências da Saúde, Universidade Católica Portuguesa

Centro de Investiga¸c˜ ao Interdisciplinar em Sa´ ude

amineiro@ics.lisboa.ucp.pt

Resumo

A l´ıngua gestual portuguesa, tal como a l´ıngua portuguesa, evoluiu de forma natural, adquirindo caracter´ısticas gramaticais distintas do português. As- sim, o desenvolvimento de um tradutor entre as duas não consiste somente no mapeamento de uma palavra num gesto (português gestuado), mas em garantir que os gestos resultantes satisfazem a gramática da l´ıngua gestual portuguesa e que as tradu¸cões estejam semanticamente corretas. Trabalhos desenvolvidos anteriormente utilizam exclusivamente regras de tradu¸cão manuais, sendo muito limitados na quantidade de fenómenos gramaticais abrangidos, produzindo pouco mais que português gestuado. Neste artigo, apresenta-se o primeiro sistema de tradu¸cão de português para a l´ıngua gestual portuguesa, o PE2LGP, que, para além de regras manuais, se baseia em regras de tradu¸cão constru´ıdas automaticamente a partir de um corpus de referência. Dada uma frase em português, o sistema devolve uma sequência de glosas com marcadores que identificam expressões faciais, palavras soletradas, entre outras. Uma avalia¸cão automática e uma avalia¸cão manual são apresentadas, indicando os resultados melhorias na qualidade da tradu¸cão de frases simples e pequenas em compara¸cão ao sistema baseline (português gestuado). É também o primeiro trabalho que lida com as expressões faciais gramaticais que marcam as frases interrogativas e negativas.

Palavras chave

português europeu, l´ıngua gestual portuguesa, tradu¸cão automática, corpus anotado, glosa, processamento da linguagem natural

Abstract

As the Portuguese language, the Portuguese sign language evolved naturally, acquiring grammatical characteristics different from Portuguese. Therefore, the development of a translator between the two lan- guages consists in more than a mapping of words into signs (signed Portuguese), as it should ensure that the resulting signs satisfy the grammar of the Portuguese sign language and that the translations are semanti- cally correct. Previous works use exclusively manual translation rules and are very limited in the amount of grammatical phenomena covered, producing me- rely signed Portuguese. This paper presents the first translator from Portuguese to the Portuguese sign language, based on manual rules, but also in translation rules automatically built from a reference corpus.

Given a sentence in Portuguese, the system returns a sequence of glosses with markers that identify facial expressions, spelled words, among others. The paper reports both a manual and automatic evaluation. Re- sults show improvements in the translation quality of simple and short sentences compared to the baseline system (“signed Portuguese”). Moreover, this is the first study that deals with grammatical facial expressions, which mark interrogative and negative sentences.

Keywords

European Portuguese, Portuguese sign language, automatic translation, annotated corpus, gloss, natural language processing

(2)

Figura 1: Arquitetura do sistema de tradu¸ c˜ ao PE2LGP 1 Introdu¸ c˜ ao

A l´ıngua gestual portuguesa (LGP) ´ e a prin- cipal forma de comunica¸ c˜ ao entre a comuni- dade surda portuguesa. Um tradutor de por- tuguˆ es para LGP pode ser usado para facilitar a comunica¸c˜ ao entre ouvintes e a comunidade surda, e tamb´ em para fins de aprendizagem da LGP. No entanto, a LGP apresenta v´ arias di- feren¸cas gramaticais em rela¸c˜ ao ` a l´ıngua portu- guesa. Assim, um tradutor que n˜ ao queira ape- nas gerar “portuguˆ es gestuado” (tradu¸ c˜ ao em que cada palavra em portuguˆ es ´ e directamente transformada num gesto em LGP, sem obede- cer ` as suas regras gramaticais) ter´ a de ter em conta as especificidades da LGP. Apesar de existirem alguns estudos lingu´ısticos sobre esta (Amaral et al., 1994; Bettencourt, 2015; Chou- pina, 2017; Choupina et al., 2017), bem como gestu´ arios/dicion´ arios (, coord; Mesquita & Silva, 2009; Baltazar, 2010), n˜ ao existe ainda uma gram´ atica oficial, nem sequer consenso sobre va- riados fen´ omenos lingu´ısticos. Por exemplo, al- guns autores consideram que a estrutura base das frases ´ e Sujeito–Verbo–Objeto (SVO), ou- tros Sujeito–Objeto–Verbo (SOV). Talvez por isso os poucos trabalhos computacionais ligados

`

a tradu¸c˜ ao para LGP (Almeida et al., 2015b;

Escudeiro et al., 2015; dos Santos, 2016; Fer- reira, 2016; Gaspar, 2015) focam pouco a com- ponente lingu´ıstica, baseando-se em pequenos conjuntos de regras manuais e excluindo ex- press˜ oes faciais, resultando em pouco mais que portuguˆ es gestuado. De modo a colmatar es- tas falhas e a impulsionar a cria¸ c˜ ao de recur- sos computacionais para o processamento au- tom´ atico da LGP, o projecto “Corpus & Avatar

da L´ıngua Gestual Portuguesa”

¹

, liderado pela Universidade Cat´ olica Portuguesa, est´ a a criar o primeiro corpus lingu´ıstico de referˆ encia da LGP. Neste, as unidades lexicais s˜ ao transcri- tas em glosas e anotadas com informa¸ c˜ oes gra- maticais. Neste trabalho, contribu´ımos com um tradutor para LGP, doravante PE2LGP, em que a(s) frase(s) traduzida(s) para LGP s˜ ao represen- tadas por sequˆ encias de glosas, com marcadores que identificam as express˜ oes faciais e palavras soletradas. O PE2LGP apoia-se em regras de tradu¸ c˜ ao e num dicion´ ario bilingue criados auto- maticamente a partir do corpus referido; adicio- nalmente um conjunto de regras manuais pode ser adicionado. A Figura 1 ilustra a arquitec- tura do PE2LGP, que segue a estrutura tradicio- nal dos sistemas de tradu¸ c˜ ao baseados na trans- ferˆ encia gramatical. O PE2LGP come¸ca por ex- trair informa¸c˜ ao do corpus e enriquecˆ e-la com in- forma¸ c˜ ao lingu´ıstica. Seguidamente, procede-se ao alinhamento entre as palavras e os gestos do corpus. Deste alinhamento s˜ ao extra´ıdas as re- gras de tradu¸ c˜ ao e um dicion´ ario bilingue de por- tuguˆ es e LGP. Quando ´ e dada ao sistema uma (ou mais) frase(s) em portuguˆ es, depois de um pr´ e-processamento lingu´ıstico, entra em ac¸ c˜ ao o m´ odulo de tradu¸ c˜ ao, que, com base nos recursos anteriormente criados, faz a sua tradu¸ c˜ ao para LGP. Para al´ em das regras de tradu¸c˜ ao extra´ıdas automaticamente do corpus e do dicion´ ario bi- lingue, na base da tradu¸c˜ ao encontra-se ainda um conjunto de regras manuais que capturam fen´ omenos lingu´ısticos relacionados com a morfo- logia das palavras, como a marca¸ c˜ ao do feminino, que as regras de tradu¸ c˜ ao n˜ ao cobrem, tais como as express˜ oes faciais.

Neste artigo, apresentamos ainda duas ava-

1PTDC/LLT-LIN/29887/2017

(3)

lia¸c˜ oes do PE2LGP, uma autom´ atica, com base num corpus de teste constru´ıdo por especialis- tas e outra manual, em que falantes de LGP avaliam a qualidade das tradu¸ c˜ oes. De notar que o PE2LGP permite ainda que se gerem fra- ses segundo a ordem SOV ou SVO. Estas duas hip´ oteses foram tamb´ em avaliadas.

A principal contribui¸c˜ ao deste trabalho ´ e um tradutor entre portuguˆ es europeu e LGP, que se alimenta de um corpus de referˆ encia para criar regras de tradu¸ c˜ ao e um dicion´ ario bilingue (po- dendo, portanto, crescer com o corpus). No en- tanto, contribu´ımos ainda com:

•

um m´ etodo de alinhamento, baseado em string matching e semelhan¸ ca semˆ antica, ti- rando partido da OpenWordNet-PT

²

e word embeddings ;

•

um conjunto de regras manuais;

•

um m´ odulo que recolhe informa¸ c˜ oes es- tat´ısticas das regras extra´ıdas do corpus.

De acordo com o nosso conhecimento, este ´ e o primeiro tradutor para LGP com uma forte componente lingu´ıstica e que, em particular, lida com express˜ oes faciais gramaticais essenciais para marcar frases interrogativas e negativas. De no- tar que, se uma frase dada n˜ ao for apanhada pelas regras do tradutor, o processo continua, resultando em “portuguˆ es gestuado”. Todos os recursos desenvolvidos neste trabalho s˜ ao open- source

³

.

Este documento est´ a organizado em mais cinco seçc˜ oes: na Seç c˜ ao 2 s˜ ao apontados al- guns aspetos da gram´ atica da l´ıngua gestual por- tuguesa. A revis˜ ao da literatura encontra-se na Seçc˜ ao 3. Nas Seç c˜ oes 4 e 5 descreve-se o PE2LGP. A metodologia de avalia¸c˜ ao e os resul- tados s˜ ao apresentados na Seç c˜ ao 6. Por fim, na Seçc˜ ao 7 resume-se as principais conclus˜ oes e o trabalho futuro.

2 Sobre a l´ıngua gestual portuguesa Os primeiros estudos sobre a LGP surgiram na d´ ecada de 90, n˜ ao existindo ainda uma gram´ atica oficial. Nesta sec¸c˜ ao descrevem-se alguns as- petos gramaticais da LGP. De notar que al- guns fen´ omenos lingu´ısticos frequentes n˜ ao foram ainda estudados em LGP. ´ E o caso de estruturas como a subordina¸ c˜ ao.

2https://github.com/own-pt/openWordnet-PT

3https://github.com/mattgoncalves/PE2LGP

2.1 Estrutura fr´ asica can´ onica

Como dito anteriormente, n˜ ao existe ainda con- senso sobre a ordem fr´ asica base da LGP. Al- guns autores defendem que a estrutura predomi- nante ´ e SOV (Rodrigues, 2018). No entanto, o estudo realizado por Bettencourt (2015), exac- tamente sobre a ordem can´ onica das frases em LGP, concluiu que para frases com verbos tran- sitivos n˜ ao locativos e para frases declarativas, a ordem fr´ asica base ´ e igual ` a da l´ıngua portuguesa, isto ´ e, SVO.

2.2 Tipos de frases

O tipo de frase, se ´ e interrogativa ou negativa, influencia a ordem dos seus constituintes. De acordo com Bettencourt (2015), as frases interro- gativas totais s˜ ao marcadas pelo uso de adv´ erbios e pronomes interrogativos, no final de uma frase em LGP, acompanhados pela express˜ ao facial in- terrogativa.

2.3 G´ enero feminino

Assumimos que a LGP ´ e uma l´ıngua cuja marca¸c˜ ao de g´ enero ´ e apenas usada para expli- citar o sexo de seres animados. Na verdade, investigadores como Choupina (2017) defendem que a LGP ´ e uma l´ıngua sem sistema de g´ enero lingu´ıstico e sem sistema de n´ umero formal, ao contr´ ario daquilo que ´ e preconizado em (Ama- ral et al., 1994). No contexto deste artigo n˜ ao nos propomos discutir esta quest˜ ao e assumire- mos uma posi¸ c˜ ao operativa na senda de Ama- ral et al. (1994). Neste sentido, na LGP, essa marca¸c˜ ao ´ e realizada pela composi¸ c˜ ao de gestos, ou seja, pela adi¸c˜ ao do gesto que marca o g´ enero, o gesto MULHER, ao gesto base. O gesto sem marca¸ c˜ ao de g´ enero est´ a, por omiss˜ ao, no g´ enero masculino (Bettencourt, 2015). Assim, o gesto LE ˜ AO, como ´ e um substantivo masculino, ´ e re- presentado apenas pelo gesto LE ˜ AO, enquanto que LEOA ´ e composto por MULHER + LE ˜ AO.

No entanto, existem situa¸ c˜ oes em que n˜ ao h´ a marca¸c˜ ao do g´ enero em nomes por existirem ges- tos para cada g´ enero associado ao nome. Por exemplo, os gestos para os nomes galo e gali- nha tˆ em gestos pr´ oprios (Nascimento & Correia, 2011).

2.4 Diminutivo e aumentativo

A semelhan¸ ` ca da marca¸ c˜ ao do g´ enero feminino,

a representa¸ c˜ ao do diminutivo e aumentativo ´ e

feita pela composi¸ c˜ ao de gestos, mais precisa-

mente com a adi¸ c˜ ao dos gestos PEQUENO e

(4)

GRANDE, respetivamente, ao gesto base. As- sim, LEOAZINHA ´ e composto pelos gestos MU- LHER + LE ˜ AO + PEQUENO (com express˜ ao facial).

2.5 Plural

Existem quatro formas para marcar o plural (Bettencourt, 2015):

1. repeti¸ c˜ ao do gesto usando a m˜ ao dominante.

Por exemplo, para a palavra ´ arvores ´ e repe- tido o gesto ARVORE ´ ;

2. o gesto ´ e produzido e repetido com as duas m˜ aos (redobro). Um exemplo comum, ´ e o caso do plural de pessoa, com as duas m˜ aos repete-se o gesto PESSOA simultaneamente.

3. adi¸ c˜ ao de um numeral que normalmente pro- cede o substantivo. Por exemplo, cinco livros corresponde ` a sequˆ encia dos gestos LIVRO + CINCO ;

4. adi¸ c˜ ao de um adv´ erbio de quantidade. Por exemplo, muitos livros corresponde a LI- VRO + MUITO.

Os casos em que o plural ´ e marcado com re- peti¸ c˜ ao ou redobro dos gestos n˜ ao foram imple- mentados neste tradutor.

2.6 Determinantes possessivos

Em LGP, determinantes possessivos (meu, teu, etc.) procedem o substantivo (Gaspar, 2015; Bet- tencourt, 2015). Por exemplo, o teu irm˜ ao origi- nar´ a a sequˆ encia de gestos: IRM ˜ AO + TEU.

2.7 Tempos verbais

A marca¸ c˜ ao dos tempos verbais passado e futuro realiza-se de trˆ es formas (Nascimento & Correia, 2011):

•

pela adi¸ c˜ ao de express˜ oes faciais ` a forma neutra do verbo (modo infinitivo do verbo);

•

pela adi¸c˜ ao de adv´ erbios de tempo (ontem, amanh˜ a, etc.) no in´ıcio da frase, caso estes existam na frase;

•

caso contr´ ario, adicionam-se no in´ıcio da frase os gestos PASSADO ou FUTURO.

2.8 Verbos de concordˆ ancia

Nas l´ınguas gestuais existem gestos cuja tra- jet´ oria, movimento e/ou orienta¸ c˜ ao s˜ ao alterados

consoante a posi¸ c˜ ao dos argumentos interno e ex- ternos, e esses argumentos s˜ ao omitidos lexical- mente e incorporados no movimento de trajet´ oria do verbo (Choupina et al., 2016). Por exemplo, a produ¸ c˜ ao em LGP da frase Eu dou-te. ´ e apenas um gesto com posi¸ c˜ ao inicial no EU (na pessoa que est´ a a gestuar) e posi¸ c˜ ao final no TU.

2.9 Nega¸ c˜ ao

De acordo com Carmo et al. (2017), existem dois tipos de nega¸ c˜ ao em LGP: a nega¸ c˜ ao regular e a nega¸ c˜ ao irregular. A primeira pode ser realizada pela adi¸ c˜ ao de marcadores de nega¸ c˜ ao manuais (por exemplo, a adi¸ c˜ ao do gesto manual N ˜ AO ou do gesto NADA depois do verbo), pela adi¸ c˜ ao de gestos n˜ ao manuais, como o marcador de nega¸ c˜ ao headshake (abanar a cabe¸ ca de um lado para o outro repetidamente) ou pela altera¸ c˜ ao da ex- press˜ ao facial. Na nega¸ c˜ ao irregular, a nega¸ c˜ ao est´ a incorporada no verbo, i.e., existem gestos di- ferentes para a nega¸ c˜ ao de um certo verbo (por exemplo, N ˜ AO-QUERER e QUERER).

2.10 Determinantes artigos, verbos copu- lativos e nomes pr´ oprios

Os determinantes artigos definidos e indefinidos e os verbos ser e estar n˜ ao s˜ ao representados em LGP. Os nomes pr´ oprios s˜ ao soletrados, caso n˜ ao tenha sido atribu´ıdo um nome gestual pr´ evio ` a entidade referida pelo nome.

2.11 Preposi¸ c˜ oes

As preposi¸ c˜ oes n˜ ao s˜ ao representadas em LGP isoladamente (Sousa, 2012); algumas s˜ ao incorpo- radas no movimento dos gestos para identificar, por exemplo, os locais inicial e final do objeto que est´ a em movimento (Bettencourt, 2015).

2.12 Conjun¸ c˜ oes coordenadas

De acordo com o estudo preliminar sobre co- nex˜ oes interfr´ asicas e fr´ asicas (Martins & Mata, 2017), as conjun¸ c˜ oes coordenadas adversativas (mas e por´ em) s˜ ao lexicais, ou seja s˜ ao produzi- das manualmente, enquanto que a conjun¸ c˜ ao co- ordenativa copulativa e ´ e uma conex˜ ao pros´ odica, expressa n˜ ao manualmente. A express˜ ao predo- minante associada a esta conjun¸ c˜ ao ´ e a express˜ ao facial neutra.

2.13 Classificadores

De acordo com Carmo et al. (2016), os classifi-

cadores s˜ ao unidades gestuais que possuem uma

(5)

estrutura semˆ antico–sint´ atica complexa. Exis- tem duas categorias de classificadores: os no- minais e os verbais. Os primeiros especificam caracter´ısticas de um referente (objeto ou pes- soa), como informa¸c˜ oes aspetuais e locativas. Por exemplo, existe um gesto classificador nominal para pessoa associado a uma determinada confi- gura¸c˜ ao da m˜ ao. Os segundos, incorporam a¸ c˜ oes nesses referentes. Por exemplo, os gestos para pintar com rolo e pintar com l´ apis, s˜ ao produzi- dos de forma diferente. Uma descri¸ c˜ ao mais deta- lhada sobre os classificadores pode ser encontrada em (Carmo et al., 2016).

Dos fen´ omenos aqui descritos, al´ em da marca¸ c˜ ao do plural por redobro ou por repeti¸ c˜ ao de um gesto, os classificadores, a nega¸ c˜ ao in- corporada, os verbos de concordˆ ancia e as pre- posi¸ c˜ oes foram deixados para trabalho futuro.

3 Trabalho relacionado

A tradu¸c˜ ao para uma l´ıngua gestual pode ser feita com base em corpora e/ou regras manu- ais (Mohamed Amine, 2012). Caso exista uma quantidade razo´ avel de textos alinhados entre a l´ıngua fonte e a l´ıngua gestual alvo, podem ser criados modelos computacionais com base nestes dados. Exemplos destes trabalhos s˜ ao os siste- mas de tradu¸c˜ ao para a l´ıngua gestual americana, apresentado em (Othman & Jemni, 2011) e para a alem˜ a, descrito em (Bungeroth & Ney, 2004).

Como previamente referido, encontra-se em desenvolvimento, pela Universidade Cat´ olica Portuguesa, o primeiro corpus lingu´ıstico de re- ferˆ encia da LGP, no qual as unidades lexicais s˜ ao transcritas usando glosas e s˜ ao anotadas informa¸c˜ oes gramaticais (classes gramaticais e an´ alise sint´ atica). Este corpus pode ser a fonte de informa¸c˜ ao de um modelo de tradu¸ c˜ ao au- tom´ atica estat´ıstico; neste trabalho tiramos par- tido deste corpus para extrair um conjunto de regras de tradu¸ c˜ ao, ` as quais acrescentamos um conjunto de regras manuais.

V´ arios sistemas de tradu¸ c˜ ao autom´ atica para l´ıngua gestual baseados em regras tˆ em sido pro- postos nos ´ ultimos anos. Seguem-se alguns exem- plos.

O projecto ATLASLang (Brour & Benab- bou, 2019), um sistema h´ıbrido de tradu¸ c˜ ao de texto ´ arabe (os autores n˜ ao explicitam a vari- ante do ´ arabe) em l´ıngua gestual ´ arabe, baseado em regras e em exemplos de frases (e das suas tradu¸ c˜ oes) definidas num corpus bilingue. Se a frase existir nesse corpus, ent˜ ao ´ e diretamente traduzida, caso contr´ ario, a frase ´ e processada e aplicam-se regras manuais. Em TEAM (Zhao

et al., 2000), um prot´ otipo de um sistema de tradu¸ c˜ ao de texto inglˆ es para l´ıngua gestual ame- ricana, as regras de tradu¸ c˜ ao s˜ ao definidas usando tree-adjoining grammars (Shieber & Schabes, 1990), resolvendo divergˆ encias lingu´ısticas como a ordem das palavras nas frases. Referimos ainda o VLibras (Ara´ ujo et al., 2014), um sis- tema de tradu¸ c˜ ao autom´ atica em tempo real de conte´ udos digitais em portuguˆ es do Brasil para L´ıngua Brasileira de Sinais (LIBRAS) atrav´ es do processamento das legendas dos conte´ udos mul- tim´ edia. A tradu¸ c˜ ao ´ e baseada num pequeno conjunto de regras e os gestos s˜ ao produzidos por um avatar 3D. Uma vers˜ ao melhorada da componente de tradu¸ c˜ ao deste sistema tendo em conta fen´ omenos sint´ aticos e semˆ anticos da LI- BRAS foi proposta por Lima et al. (2015). Ou- tros exemplos, s˜ ao os trabalhos de tradu¸ c˜ ao de espanhol para L´ıngua Gestual Espanhola (Len- gua de Signos Espa˜ nola – LSE) (San-Segundo et al., 2006; Porta et al., 2014), que faz re- ferˆ encia a um outro sistema de tradu¸ c˜ ao espa- nhola para LSE baseado na plataforma Aper- tium (Forcada et al., 2011); tradu¸ c˜ ao para l´ıngua gestual ucraniana em telem´ oveis (Davydov &

Lozynska, 2017), e tradu¸c˜ ao de texto ´ arabe para l´ıngua gestual ´ arabe (Luqman & Mahmoud, 2018). A maioria usa a abordagem baseada na transferˆ encia gramatical (transferˆ encia sint´ atica, lexical e semˆ antica) atrav´ es de regras de tradu¸c˜ ao criadas por linguistas.

Destaca-se o trabalho desenvolvido por Su &

Wu (2009). Os autores apresentam um sistema de tradu¸c˜ ao estat´ıstico de texto em mandarim para l´ıngua gestual de Taiwan (TSL), que lida com a escassez de dados num corpus paralelo.

A transferˆ encia gramatical baseia-se num forma-

lismo gramatical, mais precisamente, em regras

s´ıncronas de gram´ atica livre de contexto e numa

mem´ oria de tradu¸c˜ ao que descreve a ordem dos

pap´ eis tem´ aticos entre as frases de ambas as

l´ınguas. A estrutura sint´ atica das frases em TSL

e a mem´ oria de tradu¸ c˜ ao s˜ ao extra´ıdas do corpus

bilingue atrav´ es do alinhamento entre o l´ exico das

frases bilingues. As palavras e os gestos s˜ ao ali-

nhados usando uma medida de semelhan¸ ca, em

vez de m´ etodos probabil´ısticos. Para a avalia¸c˜ ao,

foram traduzidas 50 frases retiradas de livros es-

colares chineses pelo presente sistema e o sistema

baseline descrito em (Chiu et al., 2007). Os re-

sultados mostram que o procedimento proposto

pelos autores supera o sistema baseline, usando

o corpus referido, principalmente em frases ex-

tensas. A estrat´ egia implementada para o ali-

nhamento de palavras e gestos neste trabalho foi

uma fonte de inspira¸ c˜ ao para o nosso, dado que

a gram´ atica ´ e igualmente extra´ıda de um corpus

(6)

de pequenas dimens˜ oes, a partir do qual o treino de um modelo de alinhamento n˜ ao seria poss´ıvel.

Quanto ` a LGP, existem alguns prot´ otipos computacionais, desenvolvidos recentemente, com objectivos distintos. Por exemplo, o tra- balho de Bento (2013) foca-se em como levar um avatar a produzir gestos com base em ges- tos produzidos por humanos; em Gameiro et al.

(2014) ´ e proposto um sistema que visa o ensino de LGP. O “Virtual Sign Translator” (Escudeiro et al., 2013, 2015) contribui com um tradutor en- tre portuguˆ es e LGP, sendo tamb´ em usado num jogo de ensino de LGP (Escudeiro et al., 2014).

Em Almeida et al. (2015a,b), (Ferreira, 2016) e (Gaspar, 2015) s˜ ao descritos sistemas de tradu¸ c˜ ao de portuguˆ es para LGP, j´ a referindo os autores ferramentas ligadas ao processamento de l´ıngua natural na gera¸ c˜ ao de LGP. No entanto, estes trabalhos s˜ ao provas de conceito que apenas co- brem um conjunto m´ınimo de fen´ omenos. Assim, cremos que o trabalho aqui proposto ´ e o primeiro que, com o objetivo de desenvolver um tradutor para LGP (e n˜ ao para portuguˆ es gestuado) tira verdadeiro partido de um corpus de LGP.

Uma ´ ultima palavra para a representa¸c˜ ao dos gestos. N˜ ao existe uma nota¸ c˜ ao oficial para transcrever as componentes manuais e n˜ ao ma- nuais dos gestos. Existem diversos sistemas de escrita que variam entre simb´ olicos e textuais.

Exemplos desses sistemas s˜ ao o HamNoSys (sis- tema de nota¸ c˜ ao de Hamburgo) (Hanke, 2004), sistema de nota¸c˜ ao de Stokoe (Stokoe, 2005), o Signwriting (Costa & Dimuro, 2003), o Sis- tema de Escritura Alfab´ etica da l´ıngua gestual espanhola (SEA) (Herrero, 2003) e a glosa, que

´ e a representa¸c˜ ao textual mais comum, sendo os gestos anotados usando as palavras com o mesmo significado na l´ıngua falada mas em letras mai´ usculas (Mineiro & Cola¸ co, 2010). Por exem- plo, o gesto referente a coelho ser´ a representado pela glosa COELHO. Em 2015, foi estudada a aplica¸c˜ ao do sistema Signwriting na LGP (Pinto, 2015).

4 Constru¸ c˜ ao das regras de tradu¸ c˜ ao e dicion´ ario bilingue

Nas pr´ oximas subsec¸c˜ oes apresentam-se os dados usados na constru¸c˜ ao das regras de tradu¸ c˜ ao e descrevem-se as principais etapas que resultam na gram´ atica de tradu¸ c˜ ao usada pelo tradutor.

Come¸ camos por referir o corpus de referˆ encia (Seç c˜ ao 4.1); seguidamente descrevemos os pr´ e- processamentos efectuados (Seç c˜ ao 4.2) antes de avan¸ carmos para a tarefa de alinhamento (Seç c˜ ao 4.3). Finalmente, na Seç c˜ ao 4.4, descrevemos os

recursos lingu´ısticos obtidos, nomeadamente as regras de tradu¸c˜ ao e o dicion´ ario bilingue, e na Sec¸ c˜ ao 4.5 explicam-se as regras puramente ma- nuais criadas para este trabalho.

4.1 Corpus de referˆ encia

O corpus em desenvolvimento pela Universidade Cat´ olica Portuguesa ´ e constitu´ıdo por v´ıdeos de surdos portugueses de diferentes faixas et´ arias (dos 10 aos 60 anos) e de diferentes regi˜ oes, contendo discursos formais, n˜ ao formais, es- pontˆ aneos ou com assunto previamente estabele- cido. As anota¸ c˜ oes s˜ ao realizadas com o software ELAN

⁴

, uma ferramenta que permite a cria¸ c˜ ao de v´ arias camadas de anota¸ c˜ oes de v´ıdeo e ´ audio.

Neste corpus, est˜ ao a ser anotados (entre outros):

•

a tradu¸ c˜ ao da mensagem enunciada no v´ıdeo para portuguˆ es;

•

os gestos (transcritos em glosas) e as respe- tivas classes gramaticais;

•

os argumentos da frase: argumentos inter- nos (complementos do predicado) e externos (sujeito da frase);

•

o tipo de cada frase (interrogativa (INT), ne- gativa (NEG) e exclamativa (EXCL) e por omiss˜ ao, declarativa afirmativa).

Na anota¸ c˜ ao destas informa¸ c˜ oes foram segui- das conven¸ c˜ oes. Na Tabela 1 descrevem-se al- gumas das conven¸ c˜ oes usadas na anota¸ c˜ ao de informa¸ c˜ oes gramaticais e na Tabela 2 podem encontrar-se exemplos das conven¸ c˜ oes seguidas na anota¸ c˜ ao de alguns fen´ omenos lingu´ısticos.

Classe gramatical Conven¸ c˜ ao

Substantivo N

Verbo V

Adjetivo ADJ

Adv´ erbio ADV

Elemento sint´ atico Conven¸ c˜ ao Argumento externo ARG EXT Argumento interno ARG INT

Tabela 1: Conven¸ c˜ oes usadas na anota¸ c˜ ao de in- forma¸ c˜ oes gramaticais no corpus.

Atualmente, os dados utilizados na constru¸ c˜ ao da gram´ atica apresentada neste trabalho provˆ em de um v´ıdeo de 5 minutos de um gestuante na- tivo com discurso informal e espontˆ aneo. Das

4https://tla.mpi.nl/tools/tla-tools/elan

(7)

Fen´ omenos Conven¸ c˜ ao Gramaticais (exemplo)

Datilologia

DT(M-A-R-I-A)

Flex˜ ao em g´ enero

FG(MULHER+GATO)

Pron. Possessivos

PP(MEU)

Tabela 2: Exemplos de conven¸ c˜ oes usadas na anota¸c˜ ao de fen´ omenos lingu´ısticos no corpus de referˆ encia.

66 frases que constituem estes dados, 3 s˜ ao de- clarativas negativas, 5 interrogativas e as restan- tes declarativas afirmativas. A distribui¸ c˜ ao das principais classes gramaticais presentes nas fra- ses em LGP encontra-se na Tabela 3. Na Ta- bela 4 apresentam-se estat´ısticas do vocabul´ ario e das frases em portuguˆ es e em LGP do corpus.

O corpus ainda est´ a em desenvolvimento e novas regras podem ser geradas ` a medida que o corpus vai crescendo.

Classe gramatical Frequˆ encia

Nomes 39.0%

Adv´ erbios 7.3%

Verbos 22.0%

Adjetivos 8.5%

Numerais 5.6%

Pronomes 6.6%

Conjun¸ c˜ oes 4.4%

Tabela 3: Frequˆ encia das principais classes gra- maticais nas frases analisadas.

Portuguˆ es LGP

Voc. total 575 412

Voc. ´ unico 280 221

Comprimento m´ edio 8.7 6.2

Tabela 4: Estat´ısticas do vocabul´ ario e do com- primento das frases em portuguˆ es e em LGP do corpus.

4.2 Fase de an´ alise

Do corpus de referˆ encia apenas se conhecem as informa¸c˜ oes gramaticais das frases em LGP, pelo que as frases em portuguˆ es s˜ ao analisa- das sint´ atica e morfossintaticamente atrav´ es de ferramentas de processamento da l´ıngua natu- ral. Num estudo preliminar determinaram-se as ferramentas que melhor levaram a cabo es- tas tarefas. Para a an´ alise sint´ atica, tratou-se do SpaCy (Honnibal & Montani, 2017); para a an´ alise morfossint´ atica, o FreeLing (Padr´ o & Sta- nilovsky, 2012), sendo que este n˜ ao providencia

uma an´ alise de dependˆ encias, mas uma an´ alise morfossint´ atica de maior granularidade e qua- lidade. Assim, as classes e subclasses grama- ticais (determinantes possessivos, determinan- tes demonstrativos, etc.), bem como aspetos de flex˜ ao (em g´ enero, n´ umero, tempo verbal e modo verbal, etc.) e os lemas das palavras das frases em portuguˆ es (e dos gestos das frases em LGP) s˜ ao identificados atrav´ es do FreeLing. Este ´ ultimo passo ´ e realizado tanto nas palavras como nos gestos por ser a base do alinhamento de pala- vras e gestos descrito na Sec¸ c˜ ao 4.3. Na an´ alise sint´ atica, a frase em portuguˆ es ´ e dividida nos seus elementos fr´ asicos (sujeito, predicado e mo- dificador de frase), com base nas rela¸ c˜ oes de de- pendˆ encia identificadas pelo SpaCy.

No final desta fase, as etiquetas resultantes da an´ alise morfossint´ atica s˜ ao convertidas nas etiquetas do corpus de referˆ encia. Por exem- plo, a etiqueta NCMS000 da ferramenta Free- Ling refere-se a um nome comum no singular e no g´ enero masculino, e ´ e convertida para N, de acordo com as conven¸ c˜ oes do corpus expostas na Tabela 1. Por sua vez, as etiquetas da an´ alise sint´ atica da ferramenta SpaCy e as do corpus s˜ ao convertidas para uma nota¸ c˜ ao mais simples;

por exemplo, as etiquetas referentes a sujeitos s˜ ao convertidas para S e as que identificam objetos s˜ ao renomeadas para O.

Dado que a LGP n˜ ao possui determinantes ar- tigos definidos e indefinidos, estes foram removi- dos da frase, assim como a pontua¸c˜ ao. As pre- posi¸ c˜ oes foram igualmente eliminadas por n˜ ao se- rem representadas em LGP isoladamente (Sousa, 2012). O seu tratamento foi deixado como tra- balho futuro.

Por exemplo, dadas as frases em portuguˆ es,

“A Maria lˆ e um livro.” e em LGP, “MARIA LI- VRO LER”, no final desta fase conhecem-se as suas ordens fr´ asicas e classes gramaticais, apre- sentadas em seguida.

⁵

(1) A Maria lˆ e um livro.

(2) MARIA LIVRO LER

(3) Ordem fr´ asica da frase em portuguˆ es:

SVO

(4) Ordem fr´ asica da frase em LGP: SOV (5) Classes gramaticais da frase em por-

tuguˆ es: N V N

(6) Classes gramaticais da frase em LGP: N N V

5As informa¸c˜oes gramaticais apresentadas s˜ao exempli- ficativas.

(8)

A etiqueta V representa verbo, N corresponde a substantivo e ADJ ´ e adjetivo, seguindo as con- ven¸c˜ oes do corpus na Tabela 1.

Tendo as informa¸ c˜ oes gramaticais das fra- ses de ambas as l´ınguas, reunem-se assim as condi¸c˜ oes para construir as regras de tradu¸ c˜ ao.

4.3 Alinhamento

Antes de passar ` a constru¸ c˜ ao da gram´ atica, h´ a que alinhar o l´ exico das frases do corpus. Em sis- temas de tradu¸ c˜ ao estat´ısticos, o alinhamento do l´ exico ´ e usualmente calculado atrav´ es de m´ etodos probabil´ısticos (Tambouratzis et al., 2012; Chiu et al., 2007; S´ anchez-Cartagena et al., 2016), con- tudo no caso do par de l´ınguas portuguˆ es-LGP, n˜ ao existe um corpus suficientemente grande para treinar o alinhamento entre palavras e gestos.

Assim, propomos um m´ etodo baseado em medi- das de semelhan¸ ca (string matching e semelhan¸ ca semˆ antica), que se descreve de seguida.

E importante real¸ ´ car que as correspondˆ encias entre uma palavra e um gesto n˜ ao s˜ ao simples- mente um-para-um. A Figura 2 esquematiza ou- tros tipos de rela¸c˜ oes poss´ıveis no alinhamento.

A ´ ultima rela¸c˜ ao ´ e dif´ıcil de identificar, pelo que o seu tratamento foi exclu´ıdo do ˆ ambito deste trabalho.

Figura 2: Os diferentes tipos de alinhamentos en- tre palavras e glosas. A primeira representa uma correspondˆ encia um-para-um, a segunda muitos- para-um e a ´ ultima, um-para-muitos.

O alinhamento que propomos ´ e o seguinte: as palavras e gestos s˜ ao comparados letra-a-letra;

se forem iguais s˜ ao alinhados; caso contr´ ario s˜ ao comparados recorrendo ` a OpenWordNet-PT e, depois, a word embeddings. Esta ´ ultima etapa vem refor¸ car o alinhamento semˆ antico, pois se alguns pares palavra–gesto que n˜ ao s˜ ao alinha- dos pela WordNet, poder˜ ao sˆ e-lo atrav´ es de word

embeddings.

A OpenWordNet-PT, por estar integrada na biblioteca NLTK e por oferecer v´ arias medidas de semelhan¸ca entre dois conceitos,

⁶

foi a usada para calcular a semelhan¸ ca semˆ antica entre uma pala- vra e um gesto. Uma das medidas de semelhan¸ ca

´ e a semelhan¸ca de Wu-Palmer.

⁷

Considerou-se que uma palavra e um gesto s˜ ao semanticamente semelhantes se possu´ırem um par de sin´ onimos com valor de semelhan¸ ca de Wu-Palmer maior ou igual a 0.9. Contudo, esta medida de se- melhan¸ ca ´ e apenas v´ alida entre conceitos com a mesma classe gramatical, dado que n˜ ao existe um hiper´ onimo comum entre synsets de diferentes classes gramaticais (Farkiya et al., 2015). Assim, adicionou-se outra premissa: uma palavra e um gesto s˜ ao tamb´ em semanticamente semelhantes se possu´ırem sin´ onimos com radicais semelhan- tes, como as palavras art e e art´ıstico. Assim, para os pares de sin´ onimos com diferentes classes gramaticais e para aqueles com valor de seme- lhan¸ ca anterior menor do que 0.9, calculou-se a distˆ ancia de Jaro-Winkler.

⁸

Se para uma palavra e um gesto existir um par de sin´ onimos com valor dessa medida maior do que 0.8, ent˜ ao, essa pa- lavra e esse gesto s˜ ao alinhados. Caso contr´ ario, passa-se para a etapa seguinte.

Quanto aos word embeddings, em (Hartmann et al., 2017) avaliam-se 31 modelos

⁹

de word em- beddings

¹⁰

para portuguˆ es do Brasil e europeu. A avalia¸ c˜ ao revelou que para a analogia semˆ antica e para portuguˆ es europeu, o modelo com melhor desempenho ´ e o treinado com o algoritmo GloVe com 600 dimens˜ oes. Este modelo converte a pa- lavra e o gesto em vetores. A semelhan¸ ca entre as duas palavras relaciona-se com o ˆ angulo formado pelos seus vetores, calculada atrav´ es de a simila- ridade do cosseno:

¹¹

quanto menor for o ˆ angulo entre os vetores, maior ´ e a semelhan¸ca entre as palavras. Se a palavra e o gesto tiverem um va- lor de semelhan¸ ca maior do que 0.3, ent˜ ao s˜ ao alinhados.

6para alternativas, em (Oliveira et al., 2015) é feito um levantamento de bases de dados lexicais com rela¸cões semânticas entre palavras dispon´ıveis para português e das suas caracter´ısticas.

7Descrita emwww.nltk.org/howto/wordnet.html.

8A biblioteca pyjarowinkler para Python foi usuada para o c´alculo da distˆancia de Jaro-Winkler.

9Encontram-se dispon´ıveis em nilc.icmc.usp.br/

embeddings.

10Word embeddingss˜ao modelos estat´ısticos que permi- tem representar palavras ou frases em vetores de n´umeros de acordo com o contexto em que as palavras apare- cem (Hartmann et al.,2017).

11Detalhes sobre esta medida podem ser encontrados emwww.sciencedirect.com/topics/computer-science/

cosine-similarity.

(9)

De notar que o alinhamento ´ e realizado por elemento fr´ asico, ou seja, as palavras do predi- cado da frase em portuguˆ es s˜ ao alinhadas com os gestos do predicado da frase em LGP. A Figura 3 exemplifica o resultado do alinhamento dos predi- cados das frases (1) e (2). Os determinantes dos predicados foram removidos na fase de an´ alise.

Figura 3: Resultado do alinhamento dos predica- dos das frases “A Maria lˆ e um livro.” e “MARIA LIVRO LER”.

Os limites de semelhan¸ ca usados nos passos anteriores foram decididos com base nos resulta- dos das diferentes medidas de semelhan¸ ca apli- cadas a 36863 pares palavras–gestos de outros v´ıdeos do corpus, que contˆ em, apenas, trans- cri¸c˜ oes em glosas.

O pseudo-c´ odigo do alinhamento est´ a descrito no Algoritmo 1. Neste processo de alinhamento usamos os lemas dos gestos e das palavras, o que permite alargar o n´ umero de correspondˆ encias exatas apanhadas pela primeira etapa. Por exem- plo, as formas verbais v˜ ao e ir resultar˜ ao numa correspondˆ encia exata ao serem convertidos nos seus lemas (ir para ambos).

4.4 Regras de tradu¸ c˜ ao e dicion´ ario

Como se disse, do corpus resultam as regras de tradu¸ c˜ ao e um dicion´ ario bilingue.

Em sistemas de tradu¸ c˜ ao estat´ıstica existem diferentes algoritmos para se extrair regras de tradu¸ c˜ ao atrav´ es do alinhamento de um corpus, como o algoritmo phrase extraction

¹²

. Neste tra- dutor adotou-se uma abordagem mais simples para construir as regras de tradu¸c˜ ao, explicada em seguida.

As regras de tradu¸c˜ ao dividem-se em dois ti- pos: as que descrevem a estrutura sint´ atica (do- ravante regras morfossint´ aticas) e as que descre- vem a ordem fr´ asica (regras fr´ asicas). As primei- ras regras s˜ ao agrupadas por elemento fr´ asico, ou seja, constroem-se regras para os modificado- res de frase, regras para o sujeito e regras para o predicado. As ordens fr´ asica e dos constituintes morfossint´ aticos podem ser alteradas conforme

12O algoritmo phrase extraction ´e explicado em http://statmt.org/book/slides/05-phrase-based- models.pdf

o tipo de frase. Este fen´ omeno ´ e comum nou- tras l´ınguas, como no inglˆ es, em que o sujeito nas frases interrogativas aparece depois do verbo auxiliar, ao contr´ ario das frases declarativas, nas quais, normalmente, o sujeito aparece antes dos verbos. Por esta raz˜ ao, as regras de tradu¸ c˜ ao tamb´ em s˜ ao agrupadas de acordo com o tipo da frase (declarativa afirmativa, negativa, interroga- tiva e exclamativa) que originou a regra.

As regras de tradu¸ c˜ ao descrevem as trans- forma¸ c˜ oes gramaticais necess´ arias para que uma frase em portuguˆ es possa ser convertida na frase em LGP e, por isso, s˜ ao compostas por dois “la- dos”, nomeadamente pelo lado portuguˆ es e o lado da LGP. Os exemplos de regras dados daqui em diante seguem a estrutura descrita em (7):

(7) lado portuguˆ es

→

lado da LGP

As regras fr´ asicas constru´ıram-se a partir das ordens fr´ asicas de cada frase em portuguˆ es, da- das pela an´ alise sint´ atica, e da ordem fr´ asica da respetiva frase em LGP extra´ıda do corpus. Por exemplo, considere que a frase em portuguˆ es em (1), “A Maria lˆ e um livro.” e a sua tradu¸ c˜ ao em (2), “MARIA LIVRO LER” provˆ em do corpus.

Da fase de an´ alise (Sec¸c˜ ao 4.2) conhece-se a or- dem fr´ asica da frase em portuguˆ es (SVO) e do corpus sabe-se que a ordem fr´ asica da frase em LGP ´ e SOV. Com estas informa¸ c˜ oes constr´ oi-se diretamente a regra fr´ asica em (8), respeitante a uma frase declarativa afirmativa.

(8) SVO

→

SOV

A constru¸ c˜ ao das regras morfossint´ aticas baseia-se nas classes gramaticais dos elementos que comp˜ oem os pares palavra–gesto dados pelo alinhamento e na correspondˆ encia entre as clas- ses gramaticais do lado portuguˆ es e as do lado da LGP. Essa correspondˆ encia ´ e marcada por um n´ umero, chamado de n´ umero de correspondˆ encia, que permite identificar exatamente o que deve ser traduzido em quˆ e. Por exemplo, do alinha- mento na Figura 3, o par ler–LER contribui com um verbo para a regra morfossint´ atica, ao qual se atribui o n´ umero de correspondˆ encia 1 (V1).

Por sua vez, o par livro–LIVRO contribui com um nome (N2). Assim, forma-se a regra em (9).

O mesmo se realiza para os restantes elementos fr´ asicos. Os n´ umeros de correspondˆ encia permi- tem preservar a troca de ordem entre o nome e o verbo.

(9) V1 N2

→

N2 V1

Em (10) encontra-se mais um exemplo de uma

regra morfossint´ atica de um predicado, que de-

termina a troca do constituinte N2 para o fim

(10)

Algoritmo 1: Alinhamento de palavras e gestos.

begin

if

lema

==

gesto

then

alinhar(palavra, gesto);

else

if

wup palmer(sin´onimo lema, sin´onimo gesto) >= 0.90

then

else

if

Jaro Winkler(sin´onimo lema, sin´onimo gesto) >= 0.80

then

else

if

word embeddings(lema, gesto) > 0.3

then

else

n~ao alinhar(palavra,gesto)

da frase. De notar que sem os n´ umeros de cor- respondˆ encia n˜ ao seria poss´ıvel determinar a cor- respondˆ encia entre os N s.

(10) V1 N2 ADJ3 N6→V1 ADJ3 N6 N2

Ao todo foram constru´ıdas 66 regras morfos- sint´ aticas, sendo que 18 s˜ ao relativas a sujeitos, 46 de predicados e 2 de modificadores de frase, e 39 regras fr´ asicas, 5 associadas a frases interro- gativas, 3 de frases negativas e 31 de frases de- clarativas afirmativas.

Durante a constru¸c˜ ao das regras de tradu¸ c˜ ao, procedeu-se ` a contagem da ocorrˆ encia de cada re- gra, para cada tipo de frase. Como se ver´ a, estas estat´ısticas ser˜ ao usadas no m´ odulo de tradu¸ c˜ ao (Sec¸c˜ ao 5). Al´ em da sua importˆ ancia no tradu- tor, apresentam informa¸c˜ oes lingu´ısticas relevan- tes para o estudo de alguns fen´ omenos gramati- cais da LGP, como a ordem can´ onica ou base.

Quanto ao dicion´ ario bilingue de portuguˆ es e LGP, este foi constru´ıdo automaticamente, com base no alinhamento das palavras com os ges- tos do corpus. Este recurso permite auxiliar a transferˆ encia lexical no tradutor (Sec¸c˜ ao 5.2), i.e., o mapeamento entre o l´ exico portuguˆ es e o l´ exico da LGP. No total foram alinhados 163 pa- res palavra–gesto, a maioria corresponde a pares palavra–glosa (arte e ARTE ), existindo ainda pa- res semanticamente relacionados, como religi˜ ao e IGREJA. Este dicion´ ario foi posteriormente re- visto com base nas informa¸ c˜ oes transcritas do v´ıdeo. Ap´ os a revis˜ ao e elimina¸ c˜ ao de corres- pondˆ encias err´ oneas como s´ eculo e ARTE, o di- cion´ ario apresenta 102 entradas.

4.5 Regras manuais

Um conjunto de regras manuais complementa as regras de tradu¸ c˜ ao anteriormente descritas. De notar que, num cen´ ario em que as regras de tradu¸ c˜ ao autom´ atica provˆ em de um corpus muito maior, estas regras seriam, provavelmente, desne- cess´ arias.

Com base nas caracter´ısticas gramaticais da LGP listadas na Sec¸ c˜ ao 2, constru´ıram-se 16 re- gras manuais que garantem que a ordem de cons- tituintes com determinadas subclasses esteja de acordo com as caracter´ısticas da LGP. Integram tamb´ em particularidades da l´ıngua relacionadas com a morfologia das palavras como a marca¸c˜ ao do g´ enero feminino, dos tempos verbais e do grau do substantivo, assim como as express˜ oes faciais gramaticais relativas ` as frases negativas e inter- rogativas.

Apesar de alguns fen´ omenos gramaticais da LGP estarem bem delineados, outros n˜ ao o est˜ ao, como a marca¸c˜ ao da nega¸ c˜ ao. Existem v´ arias formas de marcar a nega¸ c˜ ao que variam tanto na express˜ ao facial como no gesto manual, depen- dendo do verbo. Na pesquisa realizada para este artigo, n˜ ao se encontraram estudos que indiquem em que contexto se recorre a cada uma das op¸ c˜ oes de marca¸c˜ ao da nega¸ c˜ ao. Deste modo, neste tra- dutor este fen´ omeno ´ e tratado pela adi¸ c˜ ao do marcador n˜ ao manual headshake em simultˆ aneo

`

a componente manual N ˜ AO, por ser o marcador manual mais frequente na LGP (Carmo et al., 2017), como est´ a exemplificado em (11).

(11) AMANH ˜ A DT(C-A-R-O-L-I-N-A) VES-

TIR

N AO^headshake

(Amanh˜ a, a Carolina

n˜ ao se vai vestir.)

(11)

Para marcar as express˜ oes faciais criou-se uma nota¸c˜ ao que identifica a express˜ ao facial em si e a sua dura¸ c˜ ao. A dura¸ c˜ ao ´ e identificada por chavetas: a chaveta aberta indicia o in´ıcio da express˜ ao facial e a chaveta fechada o fim da mesma. Por sua vez, a express˜ ao facial apa- rece entre parˆ enteses curvos ap´ os a identifica¸ c˜ ao do t´ ermino da express˜ ao facial. Por exem- plo, a frase (11) seria representada no tradutor como AMANH ˜ A DT(C-A-R-O-L-I-N-A) VES- TIR

{N ˜

AO}(headshake), o gesto n˜ ao manual he- adshake ´ e marcado por (headshake) e as chavetas indicam que este ´ e produzido simultaneamente ao gesto manual de nega¸ c˜ ao N ˜ AO.

5 Tradutor

Nas pr´ oximas seç c˜ oes descrevem-se as fases da componente de tradu¸ c˜ ao: primeiro, o pr´ e- processamento (Seç c˜ ao 5.1), seguido das eta- pas de transferˆ encia lexical (Seç c˜ ao 5.2) e trans- ferˆ encia sint´ atica (Seç c˜ ao 5.3) e por fim a fase de gera¸ c˜ ao morfol´ ogica (Seçc˜ ao 5.4). Os pro- cedimentos de cada etapa ser˜ ao exemplificados atrav´ es da frase em (12) e dos seus elementos fr´ asicos, sujeito em (13) e predicado em (14).

(12) A Diana perdeu o seu gatinho ontem.

(13) Sujeito: a Diana

(14) Predicado: perdeu o seu gatinho ontem.

5.1 Pr´ e-processamento

A frase em portuguˆ es dada ao PE2LGP sofre um pr´ e-processamento semelhante ao realizado no m´ odulo de constru¸c˜ ao de regras de tradu¸ c˜ ao (Sec¸c˜ ao 4): ´ e analisada sint´ atica e morfossin- taticamente, os determinantes artigos (defini- dos e indefinidos), preposi¸ c˜ oes e sinais de pon- tua¸c˜ ao s˜ ao removidos e as etiquetas resultan- tes das an´ alises anteriores s˜ ao convertidas para as do corpus, uniformizando-as com as das re- gras de tradu¸c˜ ao. Antes de a pontua¸ c˜ ao ser re- movida, o tipo de frase (declarativa afirmativa, negativa, exclamativa ou interrogativa) ´ e deter- minado e guardado por ser necess´ ario na trans- ferˆ encia sint´ atica (Sec¸c˜ ao 5.3).

5.2 Transferˆ encia lexical

O l´ exico portuguˆ es ´ e mapeado no l´ exico da LGP com base no dicion´ ario bilingue criado no m´ odulo anterior. Caso a palavra esteja no dicion´ ario, ent˜ ao ser´ a substitu´ıda pelo gesto correspondente;

caso contr´ ario, o seu lema ser´ a convertido em glosa na fase de gera¸ c˜ ao (Sec¸ c˜ ao 5.4). Admitindo

que nenhuma das palavras da frase exemplo em (12) existe no dicion´ ario bilingue, ent˜ ao esta n˜ ao sofre altera¸ c˜ oes nesta fase.

5.3 Transferˆ encia sint´ atica

A convers˜ ao da estrutura sint´ atica da frase em portuguˆ es na correspondente estrutura sint´ atica em LGP realiza-se pela aplica¸c˜ ao das regras de tradu¸ c˜ ao (Seç c˜ ao 4.4) e manuais (Seç c˜ ao 4.5). No caso das primeiras s˜ ao aplicadas as que melhor se ajustam ` a estrutura sint´ atica da frase em por- tuguˆ es conforme o tipo de frase. Para cada frase aplicam-se os dois tipos de regras de tradu¸ c˜ ao, re- gras morfossint´ aticas e regras fr´ asicas. ´ E impor- tante clarificar que as opera¸ c˜ oes desta fase n˜ ao se realizam sobre a frase em portuguˆ es mas sobre os seus elementos fr´ asicos, divididos na an´ alise sint´ atica realizada no pr´ e-processamento (Seç c˜ ao 5.1). Assim, o que ´ e recebido nesta fase s˜ ao as estruturas sint´ aticas de cada elemento fr´ asico, exemplificadas em (15) para o sujeito e em (16) para o predicado da frase exemplo (os artigos de- finidos foram removidos no pr´ e-processamento).

(15) Estrutura sint´ atica do sujeito: N

(16) Estrutura sint´ atica do predicado: V DET N ADV

A escolha da melhor regra morfossint´ atica baseia-se no algoritmo da distˆ ancia de edi¸ c˜ ao (Wagner & Fischer, 1974) entre a estrutura sint´ atica da frase de entrada e a estrutura sint´ atica do lado portuguˆ es das regras morfos- sint´ aticas. A distˆ ancia de edi¸ c˜ ao ´ e uma medida de semelhan¸ ca entre duas sequˆ encias,

¹³

que per- mite saber que opera¸ c˜ oes devem ser feitas para que as duas fiquem iguais. As opera¸ c˜ oes poss´ıveis s˜ ao inser¸ c˜ ao, remo¸ c˜ ao e substitui¸c˜ ao. Os cus- tos implementados para estas opera¸c˜ oes s˜ ao de 1, exceto no caso em que o tipo de frase ´ e subs- titu´ıdo, ou seja, quando os tipos de frase da frase de entrada e da regra morfossint´ atica s˜ ao dife- rentes. Neste caso, o custo atribu´ıdo ´ e 2, maior do que nas restantes opera¸ c˜ oes, dado que a ordem dos constituintes morfossint´ aticos pode alterar-se consoante o tipo de frase. Desta forma diminui- -se a probabilidade de a uma frase declarativa ser aplicada uma regra de uma frase interrogativa, por exemplo.

Antes de proceder-se ao c´ alculo das distˆ ancias, tanto a estrutura da frase como a das regras do lado da l´ıngua portuguesa s˜ ao convertidas para o formato em (17), em que CL s˜ ao classes gra- maticais e Tipo da frase corresponde a uma das

13Explica¸c˜ao detalhada do algoritmo: web.stanford.

edu/class/cs124/lec/med.pdf

(12)

seguintes hip´ oteses: exclamativa (EXCL), de- clarativa afirmativa (CAN), declarativa negativa (NEG) e interrogativa (INT).

(17) CL1 CL2 CL3 Tipo da frase

Desta forma, as estrutura do sujeito e do pre- dicado da frase exemplo s˜ ao convertidas para:

(18) Sujeito: N CAN

(19) Predicado: V DET N ADV CAN

Tendo ambas as estruturas uniformizadas, o passo seguinte consiste no c´ alculo da distˆ ancia de edi¸ c˜ ao entre todas as regras do lado portuguˆ es e a frase. A regra a aplicar ´ e a que apresenta menor distˆ ancia entre a estrutura sint´ atica da frase. Em caso de empate, seguem-se os seguintes crit´ erios por ordem:

1. Escolhe-se a regra mais frequente no cor- pus com base nas estat´ısticas recolhidas no m´ odulo anterior;

2. Escolhe-se a maior regra;

3. Escolhe-se a regra que vem primeiro alfabe- ticamente.

Estes crit´ erios de desempate s˜ ao arbitr´ arios, mas garantem que a escolha da regra ´ e consistente.

As regras de tradu¸ c˜ ao que melhor se ajustam

`

as estruturas sint´ aticas do sujeito e do predicado do exemplo est˜ ao indicadas respetivamente em (20) e (21). As distˆ ancias obtidas foram de 0 para o sujeito e de 1 para o predicado.

(20) N1 CAN→N1 CAN

(21) V1 N2 ADV3 CAN→V1 ADV3 N2 CAN

A distˆ ancia de edi¸c˜ ao, al´ em da distˆ ancia, in- dica as opera¸c˜ oes a realizar para tornar a estru- tura sint´ atica do lado portuguˆ es da regra igual

`

a estrutura sint´ atica da frase. As inser¸c˜ oes no lado da LGP seguem uma heur´ıstica simples: o elemento a adicionar no lado da LGP ´ e inse- rido a seguir ` a classe gramatical com o n´ umero de correspondˆ encia igual ` a classe gramatical an- terior ao valor inserido no lado portuguˆ es. As opera¸ c˜ oes de remo¸ c˜ ao e substitui¸ c˜ ao s˜ ao mais simples de realizar: o constituinte a remover ou a substituir no lado LGP da regra ´ e aquele com o mesmo n´ umero de correspondˆ encia do consti- tuinte que foi removido/substitu´ıdo no lado por- tuguˆ es. Por exemplo, para igualar as estrutu- ras sint´ aticas do predicado em (19) e da regra em (21) basta inserir um DET depois do V1 no lado portuguˆ es da regra e, seguindo a heur´ıstica

anterior, no lado LGP dever´ a ser inserido um DET depois do constituinte morfossint´ atico com o n´ umero de correspondˆ encia igual a 1, que

´ e igualmente o constituinte V1 e atribui-se ao novo constituinte o n´ umero de correspondˆ encia 4. Assim a transferˆ encia de estrutura sint´ atica ´ e determinada pela regra V1 DET4 N2 ADV3

→

V1 DET4 ADV3 N2, que corresponde a perdeu seu ontem gatinho. A regra dita uma troca do constituinte ADV3 (ontem) com o N2 (gatinho).

Este procedimento garante que a todas as frases de entrada seja atribu´ıda uma regra de tradu¸ c˜ ao morfossint´ atica.

De seguida, os elementos fr´ asicos, com uma nova estrutura sint´ atica, s˜ ao unidos para forma- rem a frase em LGP. Esta uni˜ ao ´ e baseada na ordem fr´ asica mais frequente no corpus de acordo com o tipo da frase. Para frases declarativas afir- mativas como a frase exemplo A Diana perdeu o seu gatinho ontem., a ordem fr´ asica mais fre- quente do corpus ´ e SVO. Assim, os elementos fr´ asicos s˜ ao ordenados dessa forma, primeiro su- jeito (Diana ), depois verbo (perdeu) e no fim o objeto (seu ontem gatinho).

Contudo, e seguindo a premissa de estudos an- teriores, em que se defende que a estrutura fr´ asica base mais frequente da LGP ´ e SOV, adicionou- -se uma op¸ c˜ ao de escolha entre a estrutura mais frequente do corpus ou a estrutura SOV no tra- dutor. Se fosse escolhida esta estrutura, ent˜ ao o resultado da transferˆ encia sint´ atica para a frase exemplo seria Diana seu ontem gatinho perdeu.

Por ´ ultimo, as regras manuais s˜ ao aplica- das, atrav´ es das quais os constituintes morfos- sint´ aticos s˜ ao reordenados seguindo a gram´ atica da l´ıngua. Dado que, em LGP, os adv´ erbios de tempo s˜ ao produzidos no in´ıcio e os determinan- tes possessivos procedem o substantivo, o resul- tado desta fase da frase em (12) ´ e Ontem Diana perdeu gatinho seu.

5.4 Fase de gera¸ c˜ ao

Aqui, o l´ exico ´ e convertido em glosas e s˜ ao aplica- das as regras manuais relacionadas com a morfo- logia na LGP, como a marca¸ c˜ ao do graus diminu- tivo e aumentativo em substantivos (Sec¸c˜ ao 4.5).

Desta fase sai uma sequˆ encia de glosas com mar- cadores adicionais que identificam express˜ oes fa- ciais e palavras soletradas seguindo as conven¸ c˜ oes de anota¸ c˜ ao do corpus de referˆ encia. Assim, o resultado da tradu¸ c˜ ao da frase A Diana perdeu o seu gatinho ontem. ´ e ONTEM DT(D-I-A-N- A) PERDER GATO PEQUENO SEU, em que a nota¸ c˜ ao DT() indica que o nome pr´ oprio Diana

´ e “soletrado”, de acordo com a Tabela 2.

(13)

6 Avalia¸ c˜ ao

Para avaliar a qualidade da tradu¸c˜ ao do sistema proposto conduziram-se duas avalia¸ c˜ oes, uma au- tom´ atica, comparando a tradu¸ c˜ ao do sistema com um corpus de teste, e outra manual com base na opini˜ ao de peritos.

6.1 Avalia¸ c˜ ao autom´ atica

As tradu¸ c˜ oes produzidas por diferentes confi- gura¸ c˜ oes do sistema PE2LGP foram avaliadas e comparadas com as do sistema baseline (Sec¸ c˜ ao 6.1.3) com base nos dados do corpus de teste (Sec¸ c˜ ao 6.1.1). Os objetivos desta avalia¸ c˜ ao s˜ ao:

averiguar se a abordagem seguida permite cap- tar fen´ omenos lingu´ısticos, produzindo LGP e n˜ ao apenas portuguˆ es gestuado e perceber o im- pacto das regras de tradu¸ c˜ ao na qualidade das tradu¸ c˜ oes.

6.1.1 Corpus de teste

O corpus de teste foi criado por uma int´ erprete de portuguˆ es e LGP. E composto por 58 fra- ´ ses simples em portuguˆ es (em m´ edia com 5 pa- lavras) e as correspondentes tradu¸ c˜ oes em LGP, diferentes das do corpus de referˆ encia. O cor- pus ser´ a de dom´ınio aberto. Para algumas frases em portuguˆ es foram anotadas mais do que uma tradu¸ c˜ ao poss´ıvel, mas n˜ ao se procurou obter to- das as tradu¸c˜ oes poss´ıveis. Das 58 frases, 57 cor- respondem ` as formas negativas, interrogativas e declarativas afirmativas de 19 frases. A frase res- tante ´ e a sauda¸c˜ ao “Bom dia”.

Na Tabela 5 apresentam-se informa¸ c˜ oes es- tat´ısticas sobre este corpus.

Portuguˆ es LGP

Voc. total 288 204

Voc. ´ unico 67 62

Comprimento m´ edio 5.0 3.5

Tabela 5: Estat´ısticas do vocabul´ ario e do com- primento das frases em portuguˆ es e em LGP do corpus.

6.1.2 Medidas de avalia¸ c˜ ao

As 58 frases em portuguˆ es do corpus de teste foram traduzidas pelo sistema e o seu resul- tado foi avaliado usando as medidas Bilingual Evaluation Understudy (BLEU) (Papineni et al., 2002) e Translation Error Rate (TER) (Snover et al., 2006). Os valores de BLEU apresenta- dos s˜ ao os valores cumulativos ao n´ıvel do cor-

pus para 1-grama e 2-grama. Os valores va- riam entre 0 e 1, em que 1 assinala uma cor- respondˆ encia exata entre a hip´ otese (tradu¸ c˜ ao do sistema) e a referˆ encia (tradu¸ c˜ ao presente no corpus de teste). A medida TER corresponde ` a propor¸ c˜ ao de opera¸ c˜ oes de edi¸ c˜ ao a realizar para igualar a hip´ otese ` a referˆ encia, 0 indica uma cor- respondˆ encia exata. Os valores de TER apresen- tados s˜ ao a m´ edia de TER de cada frase.

Para a medida TER foi ainda calculada a sua variˆ ancia nas configura¸ c˜ oes dos conjuntos 1 e 2.

Os valores de BLEU foram calculados sobre o corpus e n˜ ao sobre frases individuais, por isso n˜ ao apresentamos a sua variˆ ancia.

6.1.3 Configura¸ c˜ oes

O sistema baseline consiste na produ¸ c˜ ao de por- tuguˆ es gestuado. As frases traduzidas seguem a gram´ atica do portuguˆ es e n˜ ao possuem ex- press˜ oes faciais. Por exemplo, a tradu¸ c˜ ao para portuguˆ es gestuado da frase Quem comeu o bolo?

´ e QUEM COMER BOLO.

Distinguimos ainda o sistema aqui proposto de um sistema baseado puramente nas regras manuais. De notar que as frases em LGP que saem destes sistemas podem seguir duas estrutu- ras fr´ asicas distintas (tendo em conta os dados usados): a ordem SOV, que ´ e a tradicional, e a ordem mais frequente do corpus anotado (SVO).

Assim, no total conduziram-se 5 experiˆ encias, dispostas na Tabela 6. A configura¸ c˜ ao I ´ e do sis- tema baseline, as configura¸c˜ oes II e III pertencem ao sistema baseado apenas nas regras manuais e formam o conjunto 1, por fim, as configura¸ c˜ oes IV e V s˜ ao do sistema proposto e formam o con- junto 2.

6.1.4 Resultados

A Tabela 7 apresenta os resultados para as me- didas TER e BLEU das configura¸c˜ oes dos v´ arios sistemas. Os melhores resultados foram obtidos pelas tradu¸ c˜ oes com a estrutura SOV traduzidas pelo sistema proposto e pelo sistema baseado so- mente em regras manuais (configura¸c˜ oes II e IV).

A Tabela 8 mostra a variˆ ancia das diferentes con- figura¸ c˜ oes de cada conjunto.

6.1.5 Discuss˜ ao dos resultados Sistema baseline vs. restantes

Os resultados do sistema desenvolvido superaram

os do sistema baseline, atingindo 0.29 de TER

e 0.77 de BLEU para a estrutura SOV. Estes

valores mostram que a aplica¸ c˜ ao das regras de

(14)

Configura¸ c˜ ao Procedimento Baseline

I SVO

Conjunto 1 – apenas regras manuais II Estrutura SOV

III Estrutura segundo o corpus de referˆ encia Conjunto 2 – regras autom´ aticas e manuais

IV Estrutura SOV

V Estrutura segundo o corpus de referˆ encia Tabela 6: Configura¸ c˜ oes experimentais.

Configura¸ c˜ ao TER BLEU

1-grama 2-gramas Baseline

I 0.86 0.5 0.13

Conjunto 1 – apenas regras manuais

II 0.3 0.75 0.64

III 0.4 0.75 0.47

Conjunto 2 – regras autom´ aticas e manuais

IV 0.29 0.77 0.64

V 0.4 0.77 0.49

Tabela 7: Resultados das 5 configura¸ c˜ oes experimentais.

Conjuntos Variˆ ancia

1 II 0.10

III 0.10

2 IV 0.09

V 0.10

Tabela 8: Variˆ ancia da medida TER das configura¸c˜ oes dos conjuntos 1 e 2.

tradu¸ c˜ ao e de regras manuais na transferˆ encia gramatical melhoram consideravelmente a quali- dade das tradu¸c˜ oes, produzindo LGP e n˜ ao por- tuguˆ es gestuado.

Conjunto 1 vs. conjunto 2

Os resultados de TER e BLEU entre as confi- gura¸ c˜ oes que pertencem ao conjunto 1 e aque- las que pertencem ao conjunto 2 apresentam li- geiras diferen¸cas. O mesmo se verifica quanto ` a variˆ ancia entre os dois conjuntos. Esta proximi- dade entre os valores dos dois conjuntos deve-se ` a maioria das regras morfossint´ aticas aplicadas ` as frases declarativas afirmativas e negativas n˜ ao al- terarem a estrutura sint´ atica da frase e pelo facto de as frases no corpus de teste possu´ırem estrutu- ras sint´ aticas e morfossint´ aticas semelhantes, im- plicando a aplica¸c˜ ao de regras semelhantes. Con-

tudo, verificou-se que a aplica¸c˜ ao das regras au- tom´ aticas melhorou a qualidade de 2 tradu¸ c˜ oes, igualando-as ` a referˆ encia. Com estes resultados n˜ ao ´ e poss´ıvel tirar conclus˜ oes sobre o impacto das regras autom´ aticas no desempenho do sis- tema de tradu¸ c˜ ao. Uma avalia¸ c˜ ao futura com um corpus de teste com maior variabilidade de estruturas poder´ a responder a essa pergunta.

A compara¸ c˜ ao das tradu¸c˜ oes do sistema com as referˆ encias permitiu inferir que os erros nas tradu¸ c˜ oes devem-se a: a) falhas na an´ alise mor- fossint´ atica; por exemplo, o verbo quer na frase O seguran¸ ca quer respeito? foi classificado como uma conjun¸ c˜ ao coordenativa; b) limita¸ c˜ oes na identifica¸ c˜ ao dos elementos fr´ asicos e c) ` as re- gras morfossint´ aticas por descreverem apenas a ordem das classes gramaticais principais. Esta

´

ultima limita¸ c˜ ao implica que n˜ ao sejam capta-

(15)

dos fen´ omenos relativos ` a ordem de determi- nados constituintes como os adv´ erbios (ADV).

Considerem-se os seguintes casos:

(22) li muito (23) li ontem

Para os predicados em (22) e (23) a regra mor- fossint´ atica a aplicar ser´ a a mesma por terem a mesma estrutura sint´ atica (V ADV), admitindo que possuem o mesmo tipo de frase. Contudo, os dois adv´ erbios s˜ ao produzidos em ordens di- ferentes na LGP, ontem por ser um adv´ erbio de tempo dever´ a ser produzido em primeiro, o que n˜ ao acontece com o adv´ erbio de quantidade muito. Este ´ e um exemplo simples e ilustrativo, que seria poss´ıvel resolver com regras manuais, mas se as regras morfossint´ aticas fossem mais fi- nas conseguiriam tratar muitos destes casos s´ o por si (que s˜ ao numerosos e muitas vezes com- plexos para se resolver com regras manuais).

6.2 Avalia¸ c˜ ao manual

As m´ etricas BLEU e TER usadas na ava- lia¸c˜ ao autom´ atica podem n˜ ao refletir a quali- dade semˆ antica da tradu¸ c˜ ao produzida pelo sis- tema (Dorr et al., 2011; Snover et al., 2006) por serem medidas baseadas na correspondˆ encia exata entre o l´ exico das tradu¸ c˜ oes e o das re- ferˆ encias, sem considerar poss´ıveis rela¸c˜ oes de si- non´ımia entre eles.

O objetivo desta avalia¸c˜ ao ´ e saber se o significado da frase em portuguˆ es prevalece na tradu¸c˜ ao, mesmo havendo diferen¸ cas na gram´ atica e l´ exico em rela¸ c˜ ao ` a referˆ encia. Assim escolheram-se 11 frases da avalia¸ c˜ ao autom´ atica que possuem diferen¸ cas significativas de l´ exico e de ordem das glosas que poder˜ ao afetar a com- preens˜ ao da frase. A avalia¸ c˜ ao foi realizada com 4 peritos em lingu´ıstica e com conhecimentos de LGP e portuguˆ es, a quem foram apresentadas sequˆ encias de glosas e pedido que as traduzissem para portuguˆ es (para avaliar se o significado da frase foi preservado na tradu¸ c˜ ao do sistema) e que as classificassem quanto ` a qualidade da tradu¸ c˜ ao das frases atrav´ es de uma escala Mean Opinion Score (MOS) (Streijl et al., 2016), em pobre, justo e bom. Pobre quando o significado da tradu¸ c˜ ao est´ a incorreto, justo para os casos em que o sig- nificado da tradu¸ c˜ ao ´ e o correto mas a gram´ atica falha em alguns aspetos e bom quando o signifi- cado da tradu¸ c˜ ao e a gram´ atica est˜ ao corretos.

As sequˆ encias de glosas apresentadas aos par- ticipantes correspondem a tradu¸ c˜ oes produzidas pelo sistema PE2LGP segundo as regras manuais e as regras de tradu¸ c˜ ao do corpus de referˆ encia

(configura¸ c˜ ao V), por ser a configura¸ c˜ ao que usa todas as funcionalidades do sistema desenvolvido.

6.2.1 Resultados

A qualidade da tradu¸ c˜ ao do presente sistema para 25% das frases foi justa, enquanto que para as restantes (75%) foi classificada como boa.

6.2.2 Discuss˜ ao dos resultados

Os valores anteriores indicam que o significado da frase foi preservado em todas as tradu¸ c˜ oes do sistema PE2LGP e 75% das tradu¸ c˜ oes seguiram a gram´ atica da LGP.

Os resultados da tradu¸ c˜ oes de frases negati- vas destacam-se nesta avalia¸ c˜ ao por mostrarem problemas em todos os aspetos gramaticais (or- dem fr´ asica, ordem das glosas, express˜ oes fa- ciais e l´ exico). Em todas as frases negativas, os participantes indicaram que o verbo deveria ser colocado antes do gesto de nega¸c˜ ao ou si- multˆ aneo a ele, dependendo do verbo. Por exem- plo, o verbo TER na frase NAMORADO MEU TER OLHOS VERDES

{N ˜

AO}(headshake) de- veria ser colocado antes do gesto N ˜ AO, pois a nega¸ c˜ ao ´ e sobre o verbo. Para 50% dos partici- pantes o verbo TER foi considerado como um verbo copulativo, ou seja, dever´ a estar incor- porado no objeto (OLHOS VERDES), ficando assim: NAMORADO MEU OLHOS VERDES

{N ˜

AO}(headshake). Al´ em das ordens dos cons- tituintes este tipo de frases apresenta erros nos gestos manuais e nas express˜ oes faciais. Con- tudo, n˜ ao existe consenso sobre estes dois aspe- tos entre os participantes. Uns defendem que o gesto manual N ˜ AO n˜ ao ´ e o indicado (mas sim o gesto NADA), outros afirmam que a nega¸ c˜ ao ´ e si- multˆ anea ao verbo e faz-se somente por express˜ ao facial, e ainda que a express˜ ao facial headshake n˜ ao ´ e a mais adequada para o dado contexto.

Nas frases interrogativas, a marca¸c˜ ao das ex- press˜ oes faciais foi classificada como correta, con- tudo, os participantes indicaram que existem ou- tras possibilidades que para eles s˜ ao as mais cor- retas. Essas possibilidades variam entre os par- ticipantes, n˜ ao havendo, de novo, um consenso.

Por exemplo, para a frase ESTADO PODER TER? foram indicadas as seguintes varia¸ c˜ oes da posi¸ c˜ ao da express˜ ao facial interrogativa (levan- tar o queixo, inclinar a cabe¸ ca para tr´ as e franzir as sobrancelhas): ocorre na ´ ultima glosa (TER) ou a partir da glosa PODER at´ e ao final da frase.

Por fim, as observa¸ c˜ oes feitas durante a en-

trevista pelos participantes indicam que a com-

preens˜ ao das sequˆ encias de glosas foi afetada

(16)

pela ambiguidade lexical inerente ` as glosas e pela falta de contextualiza¸c˜ ao das frases. Por exemplo, 3 dos 4 participantes interpretou a glosa SEGURANC ¸ A em SEGURANC ¸ A QUE- RER TAMB ´ EM RESPEITO como o sentimento de seguran¸ ca e n˜ ao a profiss˜ ao de seguran¸ ca. Este

´ e um aspeto importante a ter em conta em ava- lia¸c˜ oes de sequˆ encias de glosas.

7 Conclus˜ oes e trabalho futuro

A constru¸ c˜ ao de um sistema de tradu¸ c˜ ao de por- tuguˆ es europeu para LGP ´ e condicionada pelos poucos recursos computacionais (e, no caso da LGP, lingu´ısticos) dispon´ıveis para estas l´ınguas.

A principal inova¸ c˜ ao deste tradutor face aos seus antecessores ´ e a explora¸ c˜ ao do novo corpus em desenvolvimento pela Universidade Cat´ olica Por- tuguesa. Por norma, os tradutores desenvolvidos anteriormente utilizam exclusivamente regras de tradu¸ c˜ ao manuais.

O novo corpus cont´ em, al´ em de anota¸c˜ oes ex- tensivas dos gestos utilizados e a sua tradu¸ c˜ ao em portuguˆ es, informa¸ c˜ oes gramaticais da LGP, como classes de palavras e express˜ oes faciais e corporais. Assim, o sistema de tradu¸ c˜ ao apre- sentado al´ em de regras manuais, faz uso deste corpus anotado para gerar regras de tradu¸ c˜ ao au- tom´ atica com o objetivo de obter tradu¸c˜ oes de portuguˆ es para LGP que reflitam a gram´ atica da l´ıngua.

Os resultados mostram que a abordagem de tradu¸ c˜ ao seguida ´ e capaz de captar fen´ omenos gramaticais e produzir frases em LGP ao inv´ es de portuguˆ es gestuado. O sistema mostrou bons resultados a n´ıvel da inteligibilidade, apesar das conhecidas limita¸ c˜ oes na marca¸c˜ ao da nega¸ c˜ ao, identifica¸c˜ ao dos elementos fr´ asicos e na trans- ferˆ encia sint´ atica, provocadas pela granularidade das regras morfossint´ aticas. De notar ainda que v´ arios fen´ omenos associados ` a LGP n˜ ao s˜ ao ainda consensuais.

O estudo apresentado leva a crer que esta abordagem pode ser o ponto de partida para a cria¸c˜ ao de uma gram´ atica computacional para a LGP, podendo o PE2LGP ser explorado em tra- balho de investiga¸c˜ ao futuro, representando uma estrat´ egia promissora no contexto atual dos re- cursos dispon´ıveis para estas duas l´ınguas. Uma avalia¸ c˜ ao com um corpus de teste com maior vari- abilidade de fen´ omenos gramaticais e com frases de diferentes complexidades dever´ a ser realizada para inferir o impacto das regras autom´ aticas na qualidade das tradu¸ c˜ oes. V´ arios fen´ omenos lingu´ısticos ficaram ainda por tratar. Por exem- plo, as preposi¸ c˜ oes que requerem um tratamento

apropriado.

Agradecimentos

Este trabalho foi parcialmente suportado pela Funda¸ c˜ ao para a Ciˆ encia e a Tecnologia atrav´ es dos projectos UIDB/50021/2020 e PTDC/LLT- LIN/29887/2017, financiando este ´ ultimo a bolsa de Matilde Gon¸ calves.

Agradecemos a toda a equipa do pro- jeto PTDC/LLT-LIN/29887/2017 da Universi- dade Cat´ olica Portuguesa, Helena Carmo, Mara Moita, Neide Gon¸ calves, Paulo Carvalho e Se- basti˜ ao Palha, pela passagem de conhecimento sobre a l´ıngua gestual portuguesa. Um agradeci- mento especial a Neide Gon¸ calves pelo desenvol- vimento do corpus de teste e da entrevista reali- zada na avalia¸ c˜ ao manual.

Referˆ encias

Almeida, Inˆ es, Lu´ısa Coheur & Sara Candeias.

2015a. Coupling natural language processing and animation synthesis in portuguese sign language translation. Em Vision and Language 2015 (VL15), EMNLP 2015 workshop, Lisbon, Portugal.

Almeida, Inˆ es, Lu´ısa Coheur & Sara Candeias.

2015b. From European Portuguese to Por- tuguese Sign Language. Em 6th Workshop on Speech and Language Processing for Assis- tive Technologies (demo paper), Dresden, Ger- many.

Amaral, M.A., A. Coutinho & M.R.D. Martins.

1994. Para uma gram´ atica da l´ıngua ges- tual portuguesa Colec¸ c˜ ao universit´ aria. Ca- minho.

http://books.google.pt/books?id=

yZ2PQAAACAAJ.

Ara´ ujo, T., Felipe Lacet S. Ferreira, D. A. N. S.

Silva, L. D. Oliveira, Eduardo De Lucena Falc˜ ao, L. Domingues, V. Martins, Igor A. C.

Portela, Y´ urika Sato N´ obrega, Hozana R. G.

Lima, Guido Lemos de Souza Filho, T. Tava- res & Alexandre Duarte. 2014. An approach to generate and embed sign language video tracks into multimedia contents. Inf. Sci. 281. 762–

780. Baltazar, Ana Bela. 2010. Dicion´ ario de l´ıngua gestual portuguesa. Porto Editora.

Bento, Jos´ e. 2013. Avatares em l´ıngua Gestual

Portuguesa. Lisbon, Portugal: Faculdade de

Ciˆ encias, Universidade de Lisboa. Tese de Mes-

trado.