Considera¸ c˜ oes sobre Modelos Fonol´ ogicos

Esta revisão dos principais modelos da fonologia das LS teve como objetivos buscar um entendimento claro de quais são os elementos que formam os sinais e da forma como eles estão estruturalmente organizados e podem ser combinados para a produ¸cão dos sinais.

Neste contexto, uma estrutura conceitual formal foi definida para o modelo computacional com base em uma ´arvore, que agregou as caracter´ısticas gestuais-visuais mais adequadas de cada modelo fonol´ogico revisado.

Al´em disso, o modelo computacional centrado na HCI-SL deve incluir uma completude de representa¸c˜ao (descrever quaisquer sinais), um alto n´ıvel de detalhamento (conseguir

diferenciar os sinais), regras computacionais formais para a representa¸c˜ao (para minimizar ambiguidade e permitir um processamento adequado), entre outros.

Neste sentido, como apresentado no in´ıcio deste cap´ıtulo, esta fundamenta¸cão teórica se baseia em quatro pilares principais: um entendimento sobre as LS, uma s´ıntese das principais caracter´ısticas dos modelos da fonologia que foram estudados e, posteriormente, as bases computacionais necessárias.

Percebeu-se neste estudo que cada modelo fonol´ogico apresenta caracter´ısticas es-pec´ıficas, mas de forma evidente incluem e adaptam os conceitos dos modelos previamente desenvolvidos.

Seguindo uma ordem cronológica, nota-se uma evolu¸cão e complementa¸cão dos mo-delos a partir da inser¸cão de novos parâmetros, do detalhamento de caracter´ısticas es-pec´ıficas (e.g. movimento) e de melhorias na organiza¸cão estrutural baseados em novas teorias (geometria, prosódia, dependência, etc).

Como resultado deste estudo te´orico, um modelo conceitual foi constru´ıdo para repre-sentar as principais caracter´ısticas analisadas em cada modelo visando a constru¸c˜ao do modelo computacional. O conjunto dos conceitos e dos seus relacionamentos foi formali-zado na forma de um mapa conceitual, apresentado na Figura 2.17.

Na revisão apresentada, ficou evidente que todos os modelos revisados têm como base principal ou como um segmento/camada os cinco parâmetros principais do MBP deri-vados dos estudos de [101], [10], [76] e [8]: CM (configura¸cões de mão), OP (orienta¸cão da palma), LOC (pontos de articula¸cão), ENM (expressões não-manuais) e MOV (movi-mento).

A percep¸cão pelos surdos desses cinco parâmetros principais da fonologia das LS du-rante o discurso, como critério para a distin¸cão entre os sinais, pode ser suficiente, mas como mostram os estudos de [6] e [4], mesmo percebendo esses parâmetros em um si-nal, uma pessoa também percebe inconsciente e naturalmente outros detalhes espec´ıficos durante a produ¸cão do sinal (e.g. pequenas varia¸cões na loca¸cão ou expressões faciais).

Nesta situa¸cão, com o objetivo de criar um modelo computacional que contenha a capacidade de identificar corretamente os sinais, mesmo quando são muito similares, é necessário incluir um alto n´ıvel de detalhes. Assim, as caracter´ısticas intr´ınsecas a cada modelo fonológico (Figura 2.17) (parâmetros, conceitos, organiza¸cão estrutural, entre ou-tros aspectos) foram compilados e adaptados em uma estrutura computacional formal e expressiva.

A organiza¸cão estrutural proposta no MP [13] e no MD [77] foram úteis para a cons-tru¸cão da base para o modelo computacional. O MP apresenta duas caracter´ısticas prin-cipais: Inerentes (IF) e Prosódicas (PF). As IF possuem dois grupos principais: os ar-ticuladores e os pontos de articula¸cão. Este nodo do MP tem uma similaridade com o articulador manual do MD, pois descreve todas as caracter´ısticas das CM (dominante e não-dominante).

Figura 2.17: Mapa Conceitual com as principais caracter´ısticas de cada modelo Fonte: O autor (2014)

Da mesma forma, a classe principal do MD (manner of movement) tem rela¸cão com as caracter´ısticas prosódicas do MP, no que tange às unidades responsáveis por detalhar o movimento (e.g. forma, tensão, etc.). Assim, foi poss´ıvel utilizar uma combina¸cão de ambas as estruturas para a constru¸cão da base estrutural do modelo computacional.

Cabe ainda ressaltar que o MD descreve os articuladores manuais em duas classes:

ativo (CM) e passivo (LOC e o espa¸co). A combina¸cão de CM, LOC e OP na mesma camada parece ser mais relevante e concisa para descrever o articulador principal. O conceito de articulador passivo do MD também foi útil para a defini¸cão de movimentos de trajetória entre a mão principal e a mão passiva.

Como foi visto, esta defini¸cão era necessária porque existem sinais onde não há al-tera¸cão na CM durante o movimento (LOC-MOV-LOC), porém, podem existir sinais que possuam a CM inicial diferente da CM final. Neste caso, para cada LOC (estado inicial

e final) deve ser descrita uma CM. Esta possibilidade indica que a LOC deve estar junto com a CM.

Em rela¸cão à forma como os sinais são articulados e constitu´ıdos, percebeu-se com-plexidade do ponto de vista computacional de alguns aspectos das CM, MOV, LOC e ENM. Primeiro, notou-se que devido aos detalhes e à grande quantidade de articuladores na forma¸cão de uma CM, poderiam ser criadas CM muito similares ou que contives-sem detalhes muito espec´ıficos necessários e diferenciadores dos sinais que as utilizam.

Este problema pode ser minimizado, posteriormente, de duas maneiras: a) padroniza¸cão por linguistas em cada LS; b) valida¸cão e análise das CM existentes para remover re-dundâncias; e c) conjuntos fechados de CM como apresentado em [46].

A árvore de CM é bem detalhada no MMS, especificando cada um dos dedos que compõem as CM e um atributo de relaxamento dos músculos para dar mais naturalidade

a configura¸c˜ao. O MP, o MHT e o MD tamb´em compartilham de um detalhamento por meio de um atributo para os dedos selecionados.

Na literatura, o MOV proporciona uma grande discussão e sua especifica¸cão varia em cada modelo. Nesta tese, as caracter´ısticas de MOV que consideramos mais adequadas foram combinadas e adaptadas para a formaliza¸cão computacional.

No MMS, a complexidade do MOV se mostra pelo número de sub-classes distintivas, tais como o tipo, a frequência, a maneira, o plano, entre outras. Esses detalhes são importantes para caracterizar o movimento, principalmente quanto às suas especificidades.

No MHT, o MOV é definido pela trajetória entre dois sub-espa¸cos, compartilhando as caracter´ısticas da LOC. Esta proposta de estrutura foi útil porque especifica os pontos de in´ıcio e fim de um sinal, fato que é importante computacionalmente.

Embora não haja uma padroniza¸cão para o MOV na literatura, o modelo computaci-onal adotou e adaptou os conceitos de modelos fonológicos distintos para a formaliza¸cão das regras. Por exemplo, pareceu viável utilizar os conceitos de estados (in´ıcio e fim) do MHT combinado com o detalhamento do MMS e do MP. Adicionalmente, o MOV também foi complementado com a categoriza¸cão do MD, que dividiu os movimentos em três tipos (trajetória, mudan¸ca de orienta¸cão e de abertura).

Além disso, foram evidenciadas pela literatura as condi¸cões de simetria e de do-minância propostas por Battison (1974) [10] em rela¸cão aos sinais realizados com ambas as mãos durante o movimento. Essas condi¸cões foram importantes também para o mo-delo computacional, pois minimizam o número de combina¸cões e impõem regras para os movimentos.

Entretanto, como apresentado em Antunes (2011) [4], existem sinais na Libras que não respeitam essas condi¸cões de simetria e dominância, por exemplo, no sinal JORNAL em que as duas mãos apresentam CM distintas e ambas realizam o movimento. Esse fato pode ter sido marcado por uma varia¸cão do intérprete que realizou o sinal ou pode ter sido por um erro ainda não revisado (esta hipótese determinaria um desafio ainda maior

computacionalmente, ao se considerar que essas bases de dados possam incluir v´ıdeos incorretos).

Vimos que as LOC também podem ter uma alta complexidade quando é necessária uma maior precisão do ponto de articula¸cão do sinal. O MMS, como revisado em Kooij (2002) [77], apresenta um alto n´ıvel de detalhamento para as LOC. O modelo sub-divide as LOC em cabe¸ca, corpo, mãos e no espa¸co - detalhando cada ponto e eventuais varia¸cões.

Esse detalhamento foi necess´ario e ´e relevante no modelo computacional.

O MHT define, também, uma boa estrutura para LOC, mas não abrange todas as possibilidades para o espa¸co de articula¸cão. O modelo trabalha com valores proximal (próximo ao corpo) e distal (mãos longe do corpo), mas não especifica uma distância média para a execu¸cão dos sinais.

O aspecto de ENM talvez seja o atributo de maior complexidade computacional, pois além de ser um tra¸co articulatório distintivo na fonologia, pode representar marcas prosódicas e verbo-visuais - o que gera um desafio, principalmente em sistemas de PLN, para distinguir entre os aspectos inerentes ao sinal e as caracter´ısticas do sinalizador.

Neste contexto, as ENM são elementos importantes na constitui¸cão dos sinais, podendo até mesmo serem o único tra¸co articulatório na representa¸cão de um sinal (i.e. sinais compostos somente de ENM). Uma análise aprofundada das ENM na Libras foi realizada por Felipe (2013) [42], mostrando que as marca¸cões não-manuais podem representar ao sinal diversos n´ıveis gramaticais.

Uma premissa importante compreendida nesta revisão de literatura, que foi funda-mental para esta tese, é a questão de que as LS e, em particular a Libras, possuem a mesma modalidade gestual-visual e utilizam as mesmas propriedades e tra¸cos fonéticos na produ¸cão dos sinais [44], [46], [48], [74], [30], [15], [51], [13]. Esta premissa foi funda-mental, para que o modelo computacional, que contempla os modelos fonológicos, também possa, por hipótese a ser provada posteriormente, representar sinais de quaisquer LS.

Os modelos apresentados e os estudos em rela¸cão a fonologia, além de inclu´ırem de alguma forma os parâmetros principais da fonologia (MBP) em sua estrutura, são deriva-dos das pesquisas na ASL. Como mostra Felipe (2007) [48], os estuderiva-dos lingu´ısticos sobre a Libras teve in´ıcio em 1980 baseado na ASL, com pesquisas também do ponto de vista estruturalista e gerativista.

Xavier (2006) [114] mostra que a estrutura proposta no MMS [80] é capaz de descrever os sinais da Libras. Segundo Brentari (2011) [14] outros pesquisadores tem mostrado que essas cinco unidades fonológicas principais e suas combina¸cões formam os sinais de outras LS, tais como a L´ıngua de Sinais Holandesa e a L´ıngua de Sinais de Israel, mostrando que as LS possuem propriedades similares e são de mesma modalidade.

Liddell (2011) [71] explana que em uma perspectiva fonológica os sinais são formados pelas CM, LOC, OP, MOV e ENM, e são tra¸cos contrastivos e distintivos nas LS, como exemplificado também na L´ıngua de Sinais de Israel.

Para Meir et al. (2007) [85] o recurso de design universal da linguagem humana torna poss´ıvel a cria¸cão de um vasto vocabulário de formas significativas a partir de um número limitado/finito de unidades fonológicas.

Na pesquisa de Karnopp (1999) [74] é mostrado que na aquisi¸cão da LS, bem como na fonologia, a crian¸ca adquire uma estrutura de representa¸cão fonológica básica, com-posta por elementos que formam o núcleo em uma abordagem baseada na Fonologia de Dependência. Neste sentido, esta base inicial de representa¸cão fonológica é formada pelos parâmetros de CM, LOC e OP, sendo que o MOV é considerado uma consequência da transi¸cão entre LOC ou CM.

Karnopp (1999) [74] explica que a LOC e CM“expressam propriedades nucleares deter-minadas pela Gramática Universal (GU)”, ou seja, na aquisi¸cão da fonologia pressupõe-se que a articula¸cão de qualquer sinal (mesmo simples) exija a utiliza¸cão de um núcleo tanto de CM quanto de LOC. Karnopp (1999) [74] diz que “a literatura tem sido unânime em apontar que a configura¸cão de mão, ponto de articula¸cão, movimento, orienta¸cão de mão e expressões não-manuais são os componentes formacionais dos sinais”.

Outro aspecto importante observado na literatura consiste nas restri¸cões para a forma¸cão dos sinais. Segundo Karnopp (1999) [74], devido às restri¸cões f´ısicas e lingu´ısticas somente algumas combina¸cões entre as unidades de CM, LOC, OP e MOV podem ser especifica-das para a forma¸cão dos sinais, ou seja, restri¸cões do próprio sistema perceptual (visual) e em rela¸cão ao sistema de articula¸cão (limitado pela anatomia das mãos e dos demais membros).

As propriedades do sistema de percep¸cão visual também restringem a produ¸cão de sinais, pois o receptor tende a fixar seu olhar na região da face do interlocutor, prin-cipalmente, devido às ENM [74]. Por isso, existe uma maior facilidade do receptor em reconhecer varia¸cões sutis na face do que nas CM, MOV e LOC (Siple, 1978 [74]).

Esse fato também é percebido na pesquisa de Battison (1978) [11] que mostra que sinais são articulados com maior frequência nesta região facial, onde há um número maior de diferentes loca¸cões. Além disso, o campo de percep¸cão dos sinais também depende da visão periférica, e desta forma, os sinais tendem a ser localizados mais em um ponto de vista central.

Essas regras e restri¸cões foram adaptadas ao modelo computacional, visando a mini-miza¸cão do número de combina¸cões das sub-unidades fonológicas, e contribuindo, também, para garantir uma estrutura robusta e não-amb´ıgua, que possu´ısse regras de forma¸cão e de representa¸cão dos sinais bem definidas.

A questão dos pares m´ınimos, mostrada inicialmente por Battison (1974) [10], é uma questão fundamental para o tratamento computacional. Primeiramente, Liddell (2011) [71] fala que o conceito de pares m´ınimos é frequentemente usado em pares de sinais que possuem uma mesma sequência (forma) de fonemas, exceto uma (ou seja, os sinais variam apenas em uma propriedade).

A hipótese de existirem sinais muito similares entre si nas LS determina um desafio significativo para o modelo computacional constru´ıdo nesta tese: um sistema de indexa¸cão e busca não poderia dispor de um recurso de pesquisa exata e, portanto, deve trabalhar no desenvolvimento de um sistema de busca por similaridade, o que implicou em pesqui-sar formas de construir fun¸cões de distância para calcular o grau de similaridade entre uma entrada e os demais sinais presentes em uma base. Adicionalmente, também foram estudados os ru´ıdos e varia¸cões de cada pessoa na entrada do sistema de reconhecimento, bem como os tra¸cos distintivos muito semelhantes visualmente (i.e. no caso de algumas CM, LOC e ENM).

Na literatura, percebeu-se que a maioria dos modelos desenvolvidos após a pesquisa de Liddell & Johnson (1989) [80] contempla os conceitos de sequencialidade e simultanei-dade. Ou seja, é de consenso e demonstrado pelas pesquisas lingu´ısticas que os sinais são formados pela organiza¸cão simultânea de algumas sub-unidades, mas nos casos de sinais que fa¸cam a altera¸cão de um dos seus cinco parâmetros básicos na articula¸cão de um sinal, a especifica¸cão da sequência correta é também necessária.

Ao analisar a estrutura dos modelos apresentados juntamente com os conceitos abor-dados em rela¸cão a movimentos e à sequencialidade, uma combina¸cão das estruturas do MMS, do MD e do MP pareceu mais adequada ao modelo computacional, por possuir um alto n´ıvel de detalhamento (dispondo de caracter´ısticas para descrever cada uma das cinco classes de parâmetros principais, ou seja, descrever em detalhes as CM, LOC e MOV), além de trabalhar no conceito de segmentos de suspensão (segmento estático) e de movimentos (segmento dinâmico). A transi¸cão entre duas LOC trouxeram o caráter de in´ıcio e fim, necessários computacionalmente.

Neste sentido, no modelo computacional precisaram ser modeladas regras nas quais sempre que houvesse movimento em um sinal fosse definido por in´ıcio-movimento-fim (i.e.

apresentando um estado estático, um dinâmico e um estático para representar o fim do sinal).

Esta caracter´ıstica fica mais evidente quando se analisam os demais modelos, como o MHT, que tratam o movimento como uma transi¸cão entre duas loca¸cões. Ao se consi-derar que o segmento de suspensão do MMS contempla o parâmetro de loca¸cão, então o movimento consiste de um segmento dinâmico entre duas suspensões (MMS). A questão fundamental consistiu, também, em aproveitar as estruturas dos modelos que fornecem um melhor detalhamento ao MOV, para proporcionar ao modelo computacional mais tra¸cos distintivos.

Além disso, considerar segmentos estáticos e dinâmicos mostrou-se interessante prin-cipalmente para sinais que sejam formados por uma sequência de CM (soletra¸cões), que apenas usem uma pequena varia¸cão de CM ou que variem a LOC sem que haja necessa-riamente uma trajetória (e.g. alterando a CM ou a OP).

O conjunto de caracter´ısticas (CM, LOC, MOV, OP e ENM) do MBP ainda ´e

pre-dominante como o conjunto principal de tra¸cos fonológicos utilizados para a forma¸cão e distin¸cão dos sinais durante o discurso, pois seria complexo ter que analisar um conjunto muito grande de tra¸cos articulatórios [30] [4].

Embora o MMS tenha um grande número de caracter´ısticas, cerca de 299 sub-unidades [13], e seu uso na prática das l´ınguas de sinais pare¸ca inviável, computacionalmente, o modelo traz um conjunto adequado de elementos capazes tanto de formar quanto de distinguir os sinais, pois detalha cada um dos parâmetros principais (MBP) em rela¸cão a maneira como são formados.

Por exemplo, como as CM pré-definidas apresentam diferen¸cas entre cada LS, era preciso ter uma estrutura capaz de descrever e formar quaisquer configura¸cões. Logo, foi necessário considerar todos os elementos articulatórios que compõem as CM. No mesmo sentido, no parâmetro de LOC a estrutura computacional deveria ser capaz de, além de representar as LOC nas mãos e no corpo, representar os pontos no espa¸co de sinaliza¸cão onde os sinais são articulados. Esses elementos são importantes para que um sistema de reconhecimento possa diferenciar um espa¸co neutro de um ponto espec´ıfico no espa¸co (constituinte do sinal), bem como para que um sistema de processamento gráfico possa sintetizar adequadamente um avatar.

Brentari (1998) [13] analisa o MMS e remove diversas redundâncias no modelo, cons-truindo o MP em uma base sólida e sem repeti¸cões. No parâmetro de MOV, também pareceu relevante considerar as caracter´ısticas para a representa¸cão de movimentos lo-cais, pois existem uma série de sinais que não apresentam trajetória no espa¸co, mas têm varia¸cões nas CM nos dedos ou pulsos.

No documento DIEGO ROBERTO ANTUNES PROPOSTA DE UM MODELO COMPUTACIONAL PARA REPRESENTAÇ ÃO DE SINAIS EM UMA ARQUITETURA DE SERVIÇ OS HCI-SL PARA LÍNGUAS DE SINAIS (páginas 60-67)