SignWriting Data Base: um sistema de dicion´arios para as
l´ınguas de sinais usadas pelos surdos
Juliano Baldez de Freitas1 , Antˆonio Carlos da Rocha Costa1 1Escola de Inform´atica – Universidade Cat´olica de Pelotas
Caixa Postal 402 – 96010-000 Pelotas, RS
jubafre@ucpel.tche.br, rocha@ucpel.tche.br
Abstract. This work consists about the development of a dictionaries system or lexicon for deaf sign language used by deaf people based in SignWriting. The dictionaries system consists in storing linguistic information about sign of a determined sign language. The informations will be stored as: sign visual information (video, images); representation of the sign in SignWriting and its respective SWML code; translation in verbal languages; linguistic information, among others aspects. To store these information is used a XML native data base. The manipulation of these data will be made through a graphical interface in Python.
Resumo. Este trabalho consiste no desenvolvimento de um sistema de di-cion´arios ou l´exico para as l´ınguas de sinais usadas pelos surdos, baseado no sistema SignWriting. O sistema de dicion´arios consiste em armazenar informac¸˜oes ling¨u´ısticas dos sinais de uma determinada l´ıngua de sinais. Ser˜ao armazenadas informac¸˜oes como: informac¸˜oes visuais do sinal (v´ıdeo, ima-gens); representac¸˜ao em SignWriting e seu respectivo c´odigo SWML; traduc¸˜ao em l´ınguas orais; informac¸˜oes ling¨u´ısticas, entre outros aspectos. Para ar-mazenar estas informac¸˜oes ´e usado um banco de dados XML nativo. A manipulac¸˜ao destes dados ser´a feita atrav´es de uma interface gr´afica em Python.
1. Introduc¸˜ao
Atualmente a educac¸˜ao de pessoas surdas, vem se tornando cada vez mais discutida por estudiosos de educac¸˜ao. As propostas educacionais existentes at´e agora n˜ao foram muito satisfat´orias, pois, uma pessoa surda submetida a um longo tempo de escolarizac¸˜ao n˜ao consegue ter a capacidade de ler e escrever satisfatoriamente.
Segundo [Lacerda, 2000], durante muitos anos a educac¸˜ao dos surdos foi baseada no oralismo, achava-se que o surdo de alguma maneira deveria aprender a falar. Esta proposta n˜ao apresentou resultados, pois a maioria dos surdos submetidos a esta proposta n˜ao apresentou uma fala intelig´ıvel. O maior problema desta proposta est´a na obrigato-riedade do surdo aprender uma linguagem oral, o que ´e um processo natural para pessoas ouvintes, sem a necessidade de procedimentos especiais para isto.
Os problemas na educac¸˜ao dos surdos levaram a um estudo mais aprofundado da l´ıngua de sinais utilizada por essas comunidades. Tais estudos concluiram que a l´ıngua de sinais preenche os requisitos ling¨u´ısticos que s˜ao impostos para as l´ınguas orais. A l´ıngua de sinais ´e assimilada com rapidez pelos surdos, permitindo a camunicac¸˜ao eficiente e completa assim como a desenvolvida por ouvintes, torna-se uma l´ıngua natural `a essas pessoas. Possuem estruturas gramaticais pr´oprias, tendo ent˜ao o status de l´ıngua, pois possuem os mesmos n´ıveis ling¨u´ısticos que as l´ınguas orais.
´
E necess´ario ent˜ao submeter o surdo `a l´ıngua de sinais o quanto antes poss´ıvel, pois esta l´ıngua n˜ao necessita de procedimentos especiais de aprendizado para os surdos, possibilitando um desenvolvimento integral. Ao desenvolver sua l´ıngua natural o surdo fica apto a aprender e desenvolver uma segunda l´ıngua (abordagem bil´ıngue) como, por exemplo, uma l´ıngua oral (portuguˆes).
O presente artigo pretende abordar aspectos importantes na realizac¸˜ao de um sis-tema de dicion´arios ou l´exico para as l´ınguas de sinais usadas pelos surdos. O sissis-tema de dicion´arios chamado de SWDB (SignWriting Data Base) ir´a armazenar informac¸˜oes ling¨u´ısticas referentes aos sinais usados em uma determinada l´ıngua de sinais. Este l´exico permitir´a um maior dom´ınio ling¨u´ıstico sobre as estrutras dos sinais utilizados na l´ıngua, al´em de proporcionar um maior conhecimento da l´ıngua aos surdos, e para pessoas inte-ressadas em aprender a l´ıngua de sinais.
O artigo est´a organizado da seguinte forma. Na Sec¸˜ao 2, apresenta-se o sistema de escrita de sinais, o SignWriting, e tamb´em sua forma de representac¸˜ao, o SWML. A Sec¸˜ao 3 abordar´a os n´ıveis de an´alise de uma linguagem natural. As Sec¸˜oes 4 e 5 falam das tecnologias usadas no sistema de dicion´arios, seu modelo e prot´otipo da interface web. A Sec¸˜ao 6 apresentar´a algumas considerac¸˜oes.
2. SignWriting
O SignWriting (SW) [Sutton, 1996] foi criado em 1974 por Valerie Sutton, do Center for
Sutton Moviment Writing, da Calif´ornia, USA. Consiste em uma representac¸˜ao gr´afica da
forma gestual da l´ıngua de sinais. ´E um sistema notacional de caracter´ısticas gr´aficas e esquem´aticas, constitu´ıdo de um rico repert´orio de elementos para a representac¸˜ao dos principais aspectos gestuais das l´ınguas de sinais tais como: configurac¸˜ao de m˜aos, pon-tos de articulac¸˜ao, movimenpon-tos, express˜oes faciais, etc. A Figura 1 mostra o sinal que representa a palavra “cachorro” na L´ıngua de Sinais Americana (ASL) e seu equivalente ao lado, escrito em SW.
Figura 1: Representac¸ ˜ao da palavra “cachorro”.
O sistema SW ´e organizado de forma equivalente `a escrita oral, enquanto a escrita oral possui letras e palavras, o SW ´e constitu´ıdo de s´ımbolos (Figura 2), os quais repre-sentam elementos de um gesto ou movimento. Um conjunto destes s´ımbolos formam um sinal, o equivalente `a uma palavra na l´ıngua oral.
Figura 2: Exemplos de s´ımbolos do SW.
Cada s´ımbolo em SW tem uma codificac¸˜ao ´unica, para a identificac¸˜ao do mesmo, conforme a Figura 3. S˜ao atributos que identificam cada s´ımbolo do sistema SW. O atri-buto “Category” espec´ıfica a categoria (m˜ao, face, movimento do corpo e cabec¸a, etc) a qual o s´ımbolo pertence. “Group” indica o grupo do s´ımbolo dentro de cada categoria. O
atributo “Symbol”, ´e um n´umero identificador de cada s´ımbolo dentro de seu grupo. Os atributos “Variation”, “Fill” e “Rotation”, especificam as variac¸˜oes e rotac¸˜oes e espelha-mentos que um s´ımbolo pode conter.
Figura 3: Exemplo de valores dos atributos de um s´ımbolo em SW.
O sistema SW de escrita de sinais ´e mais f´acil de aprender e mais r´apido e claro de usar que os outros desenhos usados normalmente em aulas de surdos. Muitas vezes os surdos costumam desenhar o sinal quando querem fixar algum conte´udo, isto pode tornar-se muito trabalhoso e demorado para o surdo, e nem sempre o desenho feito retrata com clareza o significado do sinal. Por isso o SW ´e uma opc¸˜ao que a comunidade surda tem de expressar seus sinais, sua l´ıngua, na forma escrita, com clareza e objetividade [Pereira, 2002].
2.1. SWML
A SWML (SignWriting Markup Language) ´e uma aplicac¸˜ao XML criada por [Costa, 2000], com o intuito de ser um formato a ser utilizado por sistemas baseados no SignWriting. A SWML ´e um formato para o processamento do SW. Com a SWML ´e poss´ıvel o intercˆambio de documentos entre diferentes programas e a an´alise de textos in-dependentemente de editores. Tamb´em pode servir como um formato de armazenamento de textos.
Figura 4: Trecho do c ´odigo SWML.
3. Processamento da Linguagem Natural
A Inteligˆencia Artificial (IA) ´e uma das ´areas da Ciˆencia da Computac¸˜ao na qual visa construir, validar sistemas ditos inteligentes, ou seja, que de alguma forma exibam carac-ter´ısticas que se assemelhem com a inteligˆencia humana. Dentre as diversas ´areas da IA est´a o Processamento da Linguagem Natural (PLN) que busca compreender os mecanis-mos da l´ıngua (fala e escrita) [Rich and Knight, 1994].
Segundo [Vieira and Lima, 2001] o estudo das l´ınguas naturais possibilitou o surgimento de novas abordagens a problemas descritivos e pr´aticos das l´ınguas que antes n˜ao podiam ser tratados adequadamente. Vamos nos deter apenas na parte escrita da l´ıngua, pois o SignWriting ´e uma notac¸˜ao que visa padronizar a escrita da l´ıngua de sinais usadas pelos surdos e ´e na l´ıngua de sinais que o presente trabalho pretende obter conhe-cimento.
Para a criac¸˜ao de uma aplicac¸˜ao que queira obter algum conhecimento da l´ıngua, como tradutores, corretores ortogr´aficos, geradores de resumo, etc, s˜ao necess´arias algu-mas etapas de an´alise feita na l´ınguagem natural, s˜ao elas:
• An´alise l´exico-morfol´ogica: a morfologia estuda a estrutura da palavra, ou seja,
as unidades que a constituem, chamadas de morfemas. A morfologia classifica as palavras em diferentes categorias conhecidas como POS (parts of speech), por exemplo: substantivos, verbos, adjetivos e etc. O l´exico ou dicion´ario re´une a estrutura de dados contendo os itens lexicais e as informac¸˜oes correspondentes a estes itens, ou seja, um item lexical seria uma palavra e associada a essa palavra seus mais variados significados al´em de algumas informac¸˜oes associadas a esta palavra como: categoria gramatical, gˆenero, n´umero e grau, tempo, regˆencia ver-bal entre outros.
• An´alise sint´atica: valida a estrutura das frases e reconhece os constituintes da
mesma. A organizac¸˜ao das palavras em uma determinada frase em uma determi-nada ordem pode ser caracterizado como uma gram´atica, formada por um con-junto de regras e princ´ıpios. Al´em da gram´atica outro fator a ser considerado na an´alise sint´atica, ´e a t´ecnica de parsing, ou seja, ´e um m´etodo de analisar uma sentenc¸a para determinac¸˜ao de sua estrutura de acordo com uma gram´atica.
• An´alise semˆantica: a an´alise semˆantica associa a uma sequˆencia de marcas
ling¨u´ısticas (obtidas na an´alise sint´atica) uma representac¸˜ao interna, que ´e a representac¸˜ao do significado desta sentenc¸a.
• An´alise pragm´atica: preocupa-se com o modo que as sentenc¸as s˜ao usadas em
diferentes situac¸˜oes e como isto afeta o interpretac¸˜ao da sentenc¸a. A pragm´atica relaciona a l´ıngua e seu uso, abrange mais do que simplesmente sentenc¸as iso-ladas, a unidade de estudo passa a ser o discurso.
Como a l´ıngua de sinais ´e uma l´ıngua natural estas etapas acima descritas, servem como base para a obtenc¸˜ao de conhecimento, como: estruturas morfol´ogicas, l´exicas, gramaticais do sinais gerados por esta linguagem.
No contexto da l´ıngua de sinais o item lexical seria um s´ımbolo escrito em SignWriting contendo associados a ele todas as suas caracter´ısticas ling¨u´ısticas. A criac¸˜ao de um dicion´ario deste tipo aplicado a l´ıngua de sinais ´e de extrema importˆancia para a melhor compreens˜ao da l´ıngua e para a construc¸˜ao de aplicac¸˜oes futuras como tradutores e revisores ortogr´aficos, interpretadores de frases, an´alise de frases, entre outros.
4. XML
A eXtensible Markup Language ou XML, ´e uma forma simples de formatar os da-dos atrav´es de marcac¸˜oes (tags) especiais, na qual pode ser visualizada em qualquer plataforma computacional. Foi criada pela World Wide Web Consortium (W3C) para superar as limitac¸˜oes da HTML que ´e a base para todas as p´aginas web. Como a HTML, a XML ´e baseada em SGML (Standard Generalized Markup Language) [Castro, 2001].
4.1. XML e Banco de Dados
Segundo [Graves, 2003] um banco de dados ´e um conjunto de dados armazenados de maneira que persistam e possam ser manipulados. Para a manipulac¸˜ao desses dados ´e necess´ario um Sistema Gerenciador de Banco de Dados (SGBD). Fornece ao usu´ario operac¸˜oes como: inclus˜ao, exclus˜ao, consultas e alguns mecanismos que protejam a inte-gridade destas operac¸˜oes e dos dados aos quais essas operac¸˜oes manipulam.
A XML possui caracter´ısticas comuns a um banco de dados, por exemplo, ambos armazenam dados, possuem esquemas, linguagens de consulta e interfaces de
programac¸˜ao. Uma base de dados XML ´e um conjunto de arquivos XML que persistem e podem ser manipulados. Os documentos XML tendem a ser orientados ao processamento de documentos (document-centric) ou de dados (data-centric) [Graves, 2003].
Para armazenar dados XML, temos v´arias opc¸˜oes como, por exemplo, usar um banco de dados n˜ao relacional, relacional, orientado a objetos, ou usar um banco de da-dos XML nativo. Quando usamos um banco de dada-dos usual (n˜ao relacional, relacional, orientado a objetos) para armazenar XML precisamos fazer uma s´erie de mapeamentos entre o esquema XML e o esquema do banco de dados escolhido, o que torna o trabalho muito custoso. O que parece ser mais proveitoso para o armazenamento do XML s˜ao os bancos de dados XML nativo, ao qual possui um modelo l´ogico que inclui elementos, atributos, PCDATA, e mant´em a ordem do documento XML. No banco de dados XML nativo a unidade de armazenamento ´e o documento XML, podendo possuir qualquer meio de armazenamento f´ısico.
4.2. Banco de Dados XML Nativo
Um banco de dados XML nativo, ´e uma base de dados projetada especialmente para o armazenamento de documentos XML. Assim como outros bancos de dados, os bancos de dados XML nativo suportam transac¸˜oes, seguranc¸a, acesso de multi-usu´arios, APIs, linguagens de consulta, e etc. A ´unica diferenc¸a para os outros bancos de dados ´e o seu modelo interno, que ´e baseado em XML.
Um banco de dados XML nativo ´e caracterizado por:
• define um modelo (l´ogico) para um documento XML, armazena e recupera um
documento de acordo com o modelo definido. No m´ınimo, o modelo deve incluir elementos, atributos, PCDATA, e ordem de documentos;
• tem como unidade fundamental de armazenamento um documento XML;
• n˜ao ´e requerido ter nenhum suporte f´ısico em particular para armazenar o modelo.
Por exemplo, pode ser constru´ıdo em banco de dados relacional, hier´arquico, ori-entado a objetos, ou usar um formato de armazenamento propriet´ario, como o de arquivos comprimidos.
A arquitetura do banco de dados XML nativo se divide em duas categorias: (i) baseado em texto (text-based) que armazena XML como texto; (ii) baseado em modelo (model-based) que constr´oi um modelo interno de objeto do documento e armazena este modelo criado [Bourret, 1997].
O uso de um banco de dados para a criac¸˜ao de um sistema de dicion´arios para a l´ıngua de sinais se torna necess´ario a partir do momento que cada sinal no sistema SignWriting ´e representado por uma arquivo SWML e possui uma variedade de campos que definem suas caracter´ısticas ling¨u´ısticas com base em uma l´ıngua oral-auditiva, como por exemplo o portuguˆes, por isso o mais adequado para armazenar esses dados seria um banco de dados XML nativo ao qual trata melhor as quest˜oes ligadas a arquivos no formato XML.
5. Modelo do Dicion´ario
5.1. Descric¸˜ao
O sistema de dicion´arios chamado de SWDB (SignWriting Data Base) ir´a armazenar informac¸˜oes ling¨u´ısticas referentes aos sinais usados em uma determinada l´ıngua de sinais. Consiste em um l´exico da l´ıngua, onde cada representac¸˜ao para uma determinada entrada ´e associada a m´ultiplas descric¸˜oes e sentidos para cada um dos itens lexicais.
O sistema de dicion´arios SWDB ir´a armazenar informac¸˜oes relevantes a um de-terminado sinal. As informac¸˜oes que ser˜ao armazenadas est˜ao descritas abaixo:
• informac¸˜ao visual do sinal (imagem, v´ıdeo, desenho); • representac¸˜ao do sinal em SignWriting (gif, bmp); • c´odigo SWML da representac¸˜ao em SignWriting;
• espac¸o para traduc¸˜ao em diversas l´ınguas (portuguˆes, inglˆes, etc.); • espac¸o para anotac¸˜oes ling¨u´ısticas, em diversos n´ıveis:
– fonol´ogico; – morfol´ogico; – sint´atico; – semˆantico.
• espac¸o para exemplos em frases de l´ınguas de sinais usando o sinal; • espac¸o para sinˆonimos do sinal em l´ıngua de sinais;
• espac¸o para indicac¸˜ao de sinais equivalentes em outras l´ınguas de sinais; • espac¸o para todos esses itens, repetidos, mas escritos em l´ıngua de sinais.
5.2. Arquitetura do Sistema
A arquitetura do sistema (Figura 5) consiste em um SGBD com base no sistema 4Suite [4Suite, 2000], o qual acessa a base de dados XML nativa. A arquitetura do sistema conta ainda com uma interface gr´afica em Python e uma interface web usando XML-RPC, ambas fazem a integrac¸˜ao do usu´ario com a base de dados.
Figura 5: Arquitetura do SWDB.
5.3. Modelo L´ogico
O modelo l´ogico de uma base de dados XML nativa consiste em um esquema XML que descreve os principais elementos que ser˜ao armazenados na base de dados. O elemento ra´ız do esquema l´ogico ´e a marcac¸˜ao <swdb> que indica o in´ıcio do dicion´ario. As marcac¸˜oes de mais alto n´ıvel s˜ao descritas a seguir:
<swdb> <entry id=“ ”> + <visualinfo> + <signwriting> + <translation> + <lexicon> + <examples> + <synonymous> + <equivalence> </entry> </swdb>
• <swdb>: elemento que inicia a marcac¸˜ao do dicion´ario.
• <entry id=“ ”>: identificac¸˜ao do sinal, pela qual os dados ling¨u´ısticos ser˜ao
asso-ciados e armazenados. Esta marcac¸˜ao pode ocorrer v´arias vezes.
• <visualinfo>: possui as informac¸˜oes visuais do sinal, como v´ıdeos, imagens e
desenhos.
• <signwriting>: possui a imagem com a representac¸˜ao SignWriting do sinal, e
tamb´em a representac¸˜ao SWML do sinal escrito em SW. Pode ser repetida, pois os sinais podem ser escritos de maneiras diferentes.
• <translation>: possui traduc¸˜oes em l´ınguas orais-auditivas como portuguˆes,
inglˆes, etc.
• <lexicon>: abrange as informac¸˜oes ling¨u´ısticas do sinal, tais como: fonol´ogica,
morfol´ogica, sint´atica e semˆantica.
• <examples>: esta marcac¸˜ao possui exemplos de frases usando o referente sinal e
sua traduc¸˜ao em uma l´ıngua oral.
• <synonymous>: ´e uma marcac¸˜ao que cont´em os poss´ıveis sinˆonimos do sinal
escritos na l´ıngua de sinais.
• <equivalence>: esta marcac¸˜ao possui os sinais esquivalentes em outras l´ınguas
de sinais.
5.4. Prot´otipo da Interface Web
O dicion´ario da l´ıngua de sinais SWDB ter´a duas interfaces para a manipulac¸˜ao de seus dados: (i) interface gr´afica em Python; (ii) interface web. A interface em Python usando a biblioteca wxPython encontra-se em fase de projeto, para ilustrar o presente artigo foi criado um prot´otipo da interface web (Figura 6) do dicion´ario. O SWDB est´a dispon´ıvel atrav´es do enderec¸o http://swdb.ucpel.tche.br/swdb/.
Figura 6: P ´agina inicial do SWDB.
Figura 7: P ´agina de consulta de sinais.
A Figura 7 indica as poss´ıveis consultas do dicion´ario da l´ıngua de sinais. ´E possivel procurar um determinado sinal atrav´es de seu c´odigo SWML, fazendo o upload do arquivo com o sinal procurado em SWML ou colando o texto do arquivo SWML em uma entrada de dados. O sistema de procura de sinais atrav´es da representac¸˜ao SWML, foi feito por [Costa et al., 2004] e permite a identificac¸˜ao de um sinal compara-ndo representac¸˜oes SWML dos sinais. A consulta pode ser realizada tamb´em atrav´es da palavra correspondente em uma l´ıngua oral.
O resultado de uma consulta (Figura 8) no dicion´ario SWDB faz a apresentac¸˜ao visual do sinal(imagem, v´ıdeo e desenho), representac¸˜ao SW do sinal e seu respectivo c´odigo SWML, traduc¸˜oes em l´ınguas orais, exemplo de frases, informac¸˜oes ling¨u´ısticas.
Figura 8: Resultado de uma consulta.
6. Considerac¸˜oes
A implementac¸˜ao de um sistema de dicion´arios (l´exico) tem uma vital importˆancia para a obtenc¸˜ao de conhecimento das l´ınguas de sinais usadas pelos surdos. Al´em disto pos-sibilita aos usu´arios da l´ıngua de sinais um maior conhecimento l´ıng¨u´ıstico, proporciona tamb´em, futuras aplicac¸˜oes visando o processamento da linguagem natural.
Referˆencias
4Suite (2000). 4suite.org. (dispon´ıvel via WWW em http://www.4suite.org/).
Bourret, R. (1997). Xml programming, writing, and research. (dispon´ıvel via WWW em http://www.rpbourret.com/).
Castro, E. (2001). Visual Quickstart Guide XML para a World Wide Web. Campus. Costa, A. C. R. (2000). Swml - signwriting markup language. (dispon´ıvel via WWW em
http://www.swml.ucpel.tche.br/).
Costa, A. C. R., Dimuro, G. P., and Freitas, J. B. (2004). A sign matching technique to support searches in sign language texts. In Workshop on the Representation and
Processing of Sign Languages, page 5, Lisboa. LREC - 2004.
Graves, M. (2003). Projeto de Banco de Dados com XML. Pearson Books.
Lacerda, C. B. F. (2000). A pr´atica pedag´ogica mediada (tamb´em) pela l´ıngua de sinais: trabalhando com sujeitos surdos. In Cad. CEDES, page 13. Cad. CEDES.
Pereira, M. C. P. (2002). Ils - int´erprete e a escrita. (dispon´ıvel via WWW em http://www.interpretels.hpg.ig.com.br/els.htm).
Rich, E. and Knight, K. (1994). Inteligˆencia Artificial. Makron Books.
Sutton, V. (1996). Signwriting: Read, write type sign languages. (dispon´ıvel via WWW em http://www.signwriting.org/).
Vieira, R. and Lima, V. L. S. (2001). Ling¨u´ıstica computacional: princ´ıpios e aplicac¸˜oes. In ERI - Escola Regional de Inform´atica, page 42, Passo Fundo. ERI.