• Nenhum resultado encontrado

Computer Aided Translation Achilles Colombo Prudêncio *

N/A
N/A
Protected

Academic year: 2021

Share "Computer Aided Translation Achilles Colombo Prudêncio *"

Copied!
9
0
0

Texto

(1)

Computer Aided Translation

Achilles Colombo Prudêncio* Resumo: Lucas Augusto Deters

O advento do computador possibilitou a criação e utilização de ferramentas de auxílio à tradução. Estas ferramentas foram divididas em dois grupos (JUNIOR, 2004):

– tradução por máquina: tradução automática, sem auxílio ou intervenção humana direta; – tradução assistida por computador: visa auxiliar o tradutor nos processos da tradução.

As memórias de tradução fazem parte deste segundo grupo, e têm como fundamento uma premissa básica: sentenças semelhantes possuem traduções semelhantes. As memórias de tradução tentam reutilizar as traduções realizadas pelo tradutor sempre que uma frase ou trecho semelhante já tenha sido traduzida. Cabe ao tradutor aceitar uma das traduções sugeridas, ou mesmo simplesmente corrigir a tradução sugerida.

A utilização da internet possibilita que tradutores compartilhem suas bases de tradução, através do intercâmbio de memórias de tradução. O compartilhamento é, a princípio, feito manualmente, através do envio de arquivos em um formato padronizado, sem qualquer controle automatizado de versões, justificando a necessidade de se criar ferramentas automatizadas que facilitem o compartilhamento destas bases de tradução, e por conseqüência, aumentando a produtividade geral dos tradutores.

ESTUDO DA TEORIA DA LOCALIZAÇÃO E INTERNACIONALIZAÇÃO Relação entre tradução e computadores

Há algum tempo, a tradução era ainda um processo artesanal. Traduziam-se os documentos à mão, num processo lento, custoso, e propenso a erros de interpretação.

Com a invenção do computador, percebeu-se o potencial que a máquina tinha para automatizar este processo. A princípio, os estudos baseavam-se na tradução de palavras isoladas e posterior interpretação e finalização manual da tradução, em um processo significativamente lento. Então, o foco passou a ser as regras sintáticas e gramaticais e logo em seguida, o contexto das palavra, tentando *PRUDÊNCIO, A.; Computer Aided Translation. Universidade Federal de Santa Catarina. Florianópolis, Agosto de 2006.

(2)

resolver os problemas de natureza semântica (ALFARO, 1998). Neste primeiro momento, as expectativas sobre a tradução por máquina eram muito altas, porém logo se percebeu que os bancos de dados de lógica aplicados eram insuficientes para armazenar tamanha quantidade de informação referente ao sentido das frases e ocorreu um certo descrédito na área de lingüística computacional.

Internacionalização

Quando da criação do computador, a grande maioria dos softwares eram desenvolvidos em língua inglesa, e em âmbito de pesquisa. Como o software era geralmente fruto de pesquisa, era distribuído junto com seu código fonte, e isso possibilitava a tradução das mensagens de erro e da interface diretamente no próprio código fonte.

Com a exportação de hardware, veio a exportação de software e as empresas de software e hardware precisaram se adaptar às necessidades dos novos locais de utilização (ALBUQUERQUE, 2005).

Quando do início da exportação, a tradução era realizada diretamente no próprio código fonte dos programas, o que exigia a manutenção de diversas versões do mesmo software, e exigia que os tradutores tivessem um conhecimento de programação. Esta abordagem era lenta, e dificultava a administração do controle de versões dos softwares. Além disso, a localização podia introduzir erros no código-fonte.

Sentiu-se então a necessidade de paralelizar o desenvolvimento do software com a tradução do mesmo. Para resolver o problema da tradução, surgiu a estratégia de isolar os textos traduzíveis de um programa de seu código-fonte, armazenando-o em arquivos de recursos. Os textos a serem traduzidos ficariam em arquivos separados do código-fonte, facilitando os processos de tradução, e seriam vinculados ao código fonte através de códigos.

A internacionalização consiste basicamente na abstração da funcionalidade de um produto sem associá-la a um idioma, de forma que posteriormente seja possível incluir com facilidade o suporte a outro idioma, sem a preocupação de que recursos especificamente lingüísticos constituam um problema quando o produto for localizado”. (LOMMEL; FRY, 2005)

(3)

A localização é o processo inverso ao da internacionalização, e é realizado quando um software precisa ser adaptado a uma nova língua/cultura. A localização de um software não limita-se à simples tradução de suas mensagens, mas também abrange toda a adaptação da interface aos padrões e culturas locais. Localização, em termos de software, envolve o gerenciamento de projeto, engenharia de software, engenharia de testes e muitos outros aspectos (ESSELINK, 2000).

Com a popularização do processo de internacionalização, as novas linguagens de programação preocuparam-se em inserir bibliotecas de internacionalização em suas interfaces de programação.

Foi neste contexto que as ferramentas de tradução assistida por computador começaram a ganhar destaque. Junto com as ferramentas, diversas técnicas surgiram visando aumentar a produtividade dos tradutores e a melhoria da tradução.

Linguagens controladas

A linguagem controlada utiliza-se de um vocabulário mais restrito, um subconjunto do vocabulário da língua destino. O vocabulário restrito assegura que as frases não sejam ambíguas, pois para cada contexto, uma variedade mínima de termos (idealmente um único) pode ser usada.

Localidades específicas

Devido às variações em uma língua conforme o país em que esta é falada, e à possibilidade de um mesmo país falar mais que uma língua, convencionou-se designar localidades específicas através do par língua-região. Desse modo, temos o português Brasileiro (simbolizado por pt-br ) e o Português de Portugal (pt-pt), o Francês da França (fr-fr) e o Francês Canadense (fr-ca), e muitos outros.

Esta convenção abrange além da língua, os aspectos culturais (relevantes ao contexto usado) do país onde esta língua é falada, tais como o sistema numérico, o sistema de medidas, o calendário utilizado, e a forma como se conta as horas, dentre outros.

Outsourcing

(4)

melhorar a qualidade, coerência, e correção da terminologia usada nos textos escritos, das imagens e outros tipos de mídia usados no programa.

MODELO DE DESENVOLVIMENTO COLABORATIVO Software Livre

Conforme a Free Software Foundation, software livre corresponde a “qualquer programa de computador que pode ser usado, copiado, estudado, modificado e redistribuído sem restrições” (WIKIPEDIA, 2006). Para tal, o código fonte deve estar disponível para que qualquer um possa exercer estes direitos.

Isso se opõe diretamente ao modelo de software proprietário, que proíbe (ou restringe) o acesso do cliente ao código-fonte. As empresas de software proprietário utilizam este tipo de licenciamento para se estabelecer na condição de único fornecedor de soluções para seus clientes, dificultando a mudança de fornecedor. (WIKIPEDIA)

Licenciamento de Software Livre

A legislação que rege o Software Livre tenta basicamente estabelecer as liberdades descritas na definição citada anteriormente:

– o direito de uso – o direito de cópia

– o direito de estudar e modificar o software – o direito de redistribuir o software

Além disso, ela assegura que um software licenciado como livre será sempre licenciado como livre. Apesar das liberdades acima, nada impede que se cobre por um software livre.

O Movimento SL

(5)

pelas limitações impostas pelos fornecedores de software, que o limitavam ao uso do software, sem poder corrigir problemas dos softwares. (STALLMANN, 1998)

Stallmann criou o projeto GNU, cuja intenção era criar um sistema operacional completo e disponível livremente para que a comunidade colaborasse em seu desenvolvimento.

Graças à internet, milhares de pessoas contribuíram para o desenvolvimento deste sistema operacional. Com a integração do kernel desenvolvido por Linux Torwalds, este sistema operacional ficou conhecido como GNU/Linux.

ESTUDO DA TECNOLOGIA DE I18N E L10N Memórias de Tradução

As memórias de tradução trabalham guardando todas as traduções feitas pelo autor, e quando eventualmente este chega a uma frase semelhante, a tradução é automaticamente sugerida.

Interfaces de tradução

Os padrões de interface de tradução são basicamente três:

– interface de tabela: duas ou mais colunas com frases alinhadas, sendo que as linhas da primeira

coluna contém frases do texto original, e as colunas seguintes devem ser preenchidas com as respectivas traduções.

– interface que trabalha dentro de um documento de texto: a interface de programação trabalha na

forma de um plugin, dentro de um editor de textos

– interface que trabalha diretamente com texto dentro de programas binários: útil para a tradução de

interfaces gráficas de aplicativos, este tipo de programa apresenta a tela com os textos a serem traduzidos, e permite a edição do texto diretamente na interface do software.

Formatação Interna de Frases

(6)

auxílio para tradutores não familiarizados com estas marcações.

Banco de Dados de Termos

São glossários que visam a manutenção da consistência na tradução de certos termos num determinado contexto de tradução. É freqüente o uso de bancos de dados de termos em associação com memórias de tradução.

ESTUDO DA TECNOLOGIA WEB

Internet é o meio onde vários serviços funcionam. Web, e-mail, compartilhamento de arquivos, são serviços que rodam sobre a internet.

História breve

A internet surgiu a partir de pesquisas iniciadas na década de 50 pelo governo dos Estados Unidos. As tecnologias de rede evoluiram, e no início dos anos 90 já estavam espalhadas pelo mundo inteiro.

Da internet, surgiram várias tecnologias, com destaque ao http, que possibilitou o funcionamento da web.

Novas tecnologias

A disseminação do uso da web trouxe novas necessidades, e novos conceitos, como o Rich Internet Application surgiram para melhorar a interação de usuários com as aplicações web. A disseminação das Rich Internet Applications foi o ponto de partida para o que se convencionou chamar de Web 2.0.

A web 2.0 prega:

– web como plataforma

– informação como força motivadora

(7)

– inovação pela criação de novos sistemas e sites compostos de fragmentos de sistemas de

desenvolvedores diferentes

– modelos de syndications para serviços e conteúdos

– fim do ciclo de adoção de software: atualizações de software são feitas no servidor, de forma

transparente ao usuário

– o software além do nível de um único dispositivo

Web Services APIs

A criação de APIs especiais para interagir com aplicações web é uma funcionalidade permite que funções dos aplicativos web sejam chamadas diretamente e de modo seguro por parte do cliente, numa técnica conhecida como chamada remota de procedimento .

Estas APIs permitem a colaboração entre serviços e aplicativos de diferentes fornecedores, sendo uma das bases para a Web 2.0

SISTEMAS WEB PARA TRADUÇÃO Rosetta

É o sistema de tradução usado pela Canonical Ltda para a tradução de seus projetos baseados em código livre, incluindo o Ubuntu.

A interface deste aplicativo se baseia no formato de tabela, e utiliza memórias de tradução para reaproveitar traduções de outros softwares do repositório da Canonical. Um dos requisitos para que um desenvolvedor possa adicionar um software ao repositório da Canonical, é que as mensagens e traduções do software possam ser utilizados em outros softwares.

Pootle

É uma aplicação web escrita em Python que trabalha diretamente sobre arquivos no formato PO. Apresenta apenas uma tradução por vez para a tradução, e atualmente não trabalha com memórias de

(8)

tradução.

PROPOSTA E IMPLEMENTAÇÃO DO TRABALHO

A proposta deste trabalho é melhorar a interface de tradução do Pootle, mantendo seu aspecto simples, através da adição de recursos RIA e de uma memória de tradução e banco de dados de termos simples. A interface web será modificada para permitir a troca de dados de forma assíncrona e possibilitar uma diminuição da carga de informações do servidor.

Translation Memory eXchange

O TMX é um padrão aberto, proposto pela Localisation Industry Standards Association (principal referência da área de indústria de localização), para o intercâmbio de dados entre aplicativos de tradução assistida por computador.

O formato baseado em XML define uma estrutura de documento multilíngüe que guarda em seu corpo sentenças e suas traduções, que podem ser utilizados por uma ferramenta CAT para povoar uma memória de tradução durante sua execução e também para fazer persistência destes mesmos dados. O corpo abriga vários elementos <tu>, as unidades de tradução ou translation units, que por sua vez abrigam os elementos <tuv> (variantes de unidade de tradução ou translation unit variants), que contém a informação sobre o idioma da frase e a frase em si. O idioma da frase é representado segundo o padrão ISO 639, definindo dois caracteres para representar o idioma em si e mais dois caracteres para representar a região onde tal idioma é utilizado (”pt-br”, por exemplo).

TermBase eXchange

O TBX é um formato de arquivo criado para o intercâmbio de banco de dados de termos. Assim como o TMX, foi proposto pela LISA para se tornar o padrão da indústria de localização.

(9)

PROPOSTA E IMPLEMENTAÇÃO

Este projeto de conclusão de curso tem os seguintes objetivos;

– adaptação de um sistema web de tradução já existente, adicionando funcionalidades básicas de um

programa de memórias de tradução, e utilizando as novas tecnologias de desenvolvimento web para proporcionar uma aplicação dinâmica.

– Utilização de ferramentas baseadas em software livre de código aberto;

– Utilização neste aplicativo a ser desenvolvido de formatos de arquivos de memória de tradução

também abertos e padronizados, facilitando o intercâmbio de bancos de dados com outros aplicativos diferentes deste.

– Documentação de todo o processo;

– Apresentação do aplicativo modificado, após sua conclusão, à comunidade científica, em especial à

comunidade de software livre, para compartilhar esse novo conhecimento e criar oportunidades de expansão para o mesmo.

A interface da página de tradução do Pootle foi modificada de modo a conter vários formulários, um para cada frase sendo traduzida. Os aprimoramentos da interface web do software foi baseada no conceito de Rich Internet Applications.

Através da adição de alguns recursos, como uma memória de tradução, um banco de dados de termos, e a possibilidade de visualizar mais informações do arquivo de recursos gettext (tais como comentários indicando o contexto da sentença), e a troca de informações assíncrona através de JavaScript conseguiu-se uma melhoria de usabilidade da interface do programa.

A presença da memória de tradução mostrou-se eficaz como esperado, agilizando a tradução realizada, e consequentemente atingindo o propósito deste projeto.

Aliando os conceitos de memórias de tradução e de novas tecnologias web conseguiu- se renovar a interface de uma aplicação já existente, proporcionando uma experiência de tradução muito mais rica e produtiva por parte dos tradutores, e colaborando para o propósito do software livre.

Referências

Documentos relacionados

As principais indicações para a realização foram a suspeita de tuberculose (458 pacientes) e uso de imunobiológicos (380 pacientes).. A maior prevalência de resultado positivo

Este presente artigo é o resultado de um estudo de caso que buscou apresentar o surgimento da atividade turística dentro da favela de Paraisópolis, uma

A presente investigação teve como objetivo geral o estudo dos fatores de risco e de proteção internos e externos utilizados perante a violência social, nomeadamente o bullying

A interação treinamento de natação aeróbico e dieta rica em carboidratos simples mostraram que só treinamento não é totalmente eficiente para manter abundância de

Estes resultados apontam para melhor capacidade de estabelecimento inicial do siratro, apresentando maior velocidade de emergência e percentual de cobertura do solo até os 60

Entendendo, então, como posto acima, propõe-se, com este trabalho, primeiramente estudar a Lei de Busca e Apreensão para dá-la a conhecer da melhor forma, fazendo o mesmo com o

A variação do pH da fase móvel, utilizando uma coluna C8 e o fluxo de 1,2 mL/min, permitiu o ajuste do tempo de retenção do lupeol em aproximadamente 6,2 minutos contribuindo para

Contudo, não é possível imaginar que essas formas de pensar e agir, tanto a orientada à Sustentabilidade quanto a tradicional cartesiana, se fomentariam nos indivíduos