• Nenhum resultado encontrado

Um tradutor automático de expressões nominais com idéia de posse

N/A
N/A
Protected

Academic year: 2021

Share "Um tradutor automático de expressões nominais com idéia de posse"

Copied!
9
0
0

Texto

(1)Tradução & Comunicação Revista Brasileira de Tradutores Nº. 24, Ano 2012. UM TRADUTOR AUTOMÁTICO DE EXPRESSÕES NOMINAIS COM IDEIA DE POSSE Machine translation of nominal expressions with possessive idea. Tiago Martins da Cunha Universidade Estadual do Ceará - UECE tiagotmc@gmail.com. RESUMO A tradução automática perdeu muita credibilidade junto ao meio acadêmico devido a uma longa sequência de maus resultados que não permitiam alcançar plenamente o objetivo inicial de seu desenvolvimento, a produção de traduções de qualidade em grande quantidade. Grande parte dos maus resultados é gerada por problemas de análise, reconhecimento e adequação da tradução oferecida pelos sistemas de Tradução Automática. A aplicação de uma seleção lexical nesses sistemas deve ser revista para possibilitar uma melhor eficiência nos resultados. Um bom exemplo da falta de adequação para lidar com expressões nominais é o caso dos elementos com ideia de posse. Quando tentamos traduzir uma expressão nominal que contenha mais de um elemento de posse, o tradutor automático não gera um bom resultado devido à falta de um parâmetro de análise interno na expressão nominal envolvida. Este trabalho, apresentado no IV Encontro Internacional de Tradutores, visa apresentar a pesquisa de doutorado, ainda em andamento, sobre a criação de um sistema de tradução automática que analise expressões nominais, em especial aquelas que contêm um ou mais casos genitivos. Cremos que a adequação de teorias semânticas e sintáticas na implementação de sistemas de Tradução Automática baseados em regras gramaticais possa vir a solucionar os problemas na análise e geração de expressões nominais. Palavras-Chave: linguística; tradução; tradução automática; computação.. ABSTRACT. Anhanguera Educacional Ltda. Correspondência/Contato Alameda Maria Tereza, 4266 Valinhos, São Paulo CEP 13.278-181 rc.ipade@aesapar.com Coordenação Instituto de Pesquisas Aplicadas e Desenvolvimento Educacional - IPADE Artigo Original Recebido em: 13/03/2012 Avaliado em: 04/09/2012 Publicação: 30 de setembro de 2012. Machine translation has lost a lot of its credibility towards the scientific community in order to a long series of bad results that did not allow it to fully achieve its initial goal, the production of quality translation in great quantity. A major part of the bad result is generated by problems of analysis, recognition and adaption of the translation offered by Machine Translation systems. The application of a lexical selection in these systems must be revised to improve the efficiency of results. A good example of the lack of adequacy to deal with nominal expressions is the case of possessive elements. When we try to translate a nominal expression that has more than on possessive element, the machine translator does not generate a good result because of the lack of a parameter of analysis inside the expression involved. This work, presented in the IV International Translators Meeting, aims to present the doctoral research, which still in progress, about the creation of a system of machine translation that analyses nominal expressions, mainly those which have more than one possessive case. We believe that the adaptation of semantic and syntactic theories in the implementation of Machine Translation based in grammatical rules may solve problems in the analysis of nominal expressions. Keywords: computational linguistics; translation; machine translation.. 135.

(2) 136. Um tradutor automático de expressões nominais com ideia de posse. 1.. INTRODUÇÃO Os estudos da Tradução têm se dedicado ao aprimoramento dos processos tradutórios para poder proporcionar resultados cada vez melhores no menor tempo possível. Uma das ferramentas que visa auxiliar o tradutor e tornar a sua atividade mais eficiente é a Tradução Automática (TA). Os tradutores automáticos desde sua concepção passaram por diversas reformulações e também por muita expectativa de seus criadores, financiadores e usuários. Muitos investimentos foram feitos para o desenvolvimento da TA. No entanto, a TA perdeu muito de sua credibilidade junto ao meio acadêmico devido uma longa sequência de maus resultados. Grande parte dos maus resultados é gerada por problemas de análise, reconhecimento e adequação da tradução. Com os avanços tecnológicos e teóricos na aplicação computacional de línguas naturais, a linguística computacional, que trata dos estudos envolvendo recursos computacionais no processamento de linguagem natural, merece nossa atenção. A linguística computacional, ainda em seu estagio inicial, visa a criação e adaptação de teorias linguísticas com aplicação de um processamento computacional. Ante a um longo período de retardo em relação a países como Estados Unidos e Alemanha, pesquisadores tem buscado recuperar o tempo perdido com a implementação de ferramentas computacionais em estudos de diversas áreas, como a linguística de corpus, morfologia, sintaxe e para o nosso enfoque a tradução. Uma forma de utilização das diversas áreas do conhecimento citadas acima é a aplicação delas a um sistema de TA. Muito se tem discutido sobre a eficiência no uso de tradutores automáticos e muito já foi dito sobre a limitação dos resultados fornecidos. No entanto, pouco se tem discutido no universo acadêmico no Brasil sobre os processos de criação desses sistemas e quais as concepções teóricas que formulam a base estruturação dos mesmos. Temos visto que a união entre as disciplinas envolvidas (linguística e computação) não atingiu um estágio ideal. A própria concepção dos sistemas não está ainda em seu estágio ideal. Ainda existe a mentalidade, equivocada, dentro da academia de que a criação de programas ou sistemas aplicados deve ficar a cargo do mercado enquanto a academia fica preocupada com o desenvolvimento das teorias. Esta visão tem deixado o Brasil muito aquém do desenvolvimento mundial na linguística computacional. A falta de especificidade no conhecimento em ambas as áreas pode ser um grade fator que tenha tornado os programas de TA hoje tão limitados. Temos percebido que grande parte dos programas tenta reconhecer, analisar, traduzir e reproduzir o texto de uma forma global. Isso quer dizer, que a sentença ou parágrafo, quando fornecidos ao. Tradução & Comunicação: Revista Brasileira de Tradutores • Nº. 24, Ano 2012 • p. 135-143.

(3) Tiago Martins da Cunha. 137. programa como input, são analisados como um todo, dificultando associações de significado do programa. Na falta da possibilidade de uma análise global, os programas fazem uma análise fragmentada no léxico, individualmente, que passa a ser selecionado pela relação com as palavras chaves fornecidas no input. Tal análise realizada pelos programas tem gerado vários equívocos no produto final. Esses equívocos compõem um índice de erros que quanto maior ele for, menos eficaz é o programa. Cremos que a análise realizada pelos sistemas deva ocorrer de uma forma fragmentada independente do tamanho do input. Devemos levar em consideração os agrupamentos funcionais dentro das sentenças. Cremos que a análise deva ocorrer dentro dos sintagmas para então ser realizado um parsing entre os sintagmas já analisados. As análises dentro dos sintagmas devem ser impecáveis em nível semântico e sintático, tendo uma verificação em diferentes corpora antes do fornecimento do produto final. Essa verificação em corpora visa diminuir o índice de erros fornecidos pelo programa. Os maiores índices de erro se encontram na análise de sintagmas nominais. Este é um dos sintagmas mais complexos e um desafio para a tradução. Dentre as expressões nominais, um dos problemas que ocorrem na tradução é a ordenação dos elementos de posse dentro de expressões nominais.. 2.. PROBLEMA A ideia de posse contida em uma expressão nominal quando isolada, não gera muita dificuldade para a análise computacional, no entanto quando ela vem acompanhada de mais elementos relacionados ao objeto de posse ou junto ao nome, como um longo grupo nominal, o programa pode gerar resultados indesejados ou não conseguir prover resultado algum. Esse é um dos problemas que os sistemas de TA de hoje ainda não conseguem solucionar integralmente. O caso genitivo agrega uma ideia de posse no sintagma em que está contido. Uma das características desse caso é marcar a ideia de posse imediata de um elemento sobre outro. Muitas vezes essa ideia de posse é ambígua e confusa na própria língua de origem. Um bom tradutor sabe como eliminar essas ambiguidades ou quando cultivá-las. Um sistema computacional que venha a processar uma frase com essa ideia de posse irá fazê-lo mantendo a informação de posse da frase original. Mas quando essa frase, ou parte de frase, se confunde com uma sentença completa? Por exemplo, Abney (1987) identificou um problema estrutural em frases em língua inglesa que fazem uso do genitivo. Em sua análise, ele estudou a seguinte expressão:. Tradução & Comunicação: Revista Brasileira de Tradutores • Nº. 24, Ano 2012 • p. 135-143.

(4) 138. Um tradutor automático de expressões nominais com ideia de posse. (1) John’s building a spaceship. No exemplo (1), em uma análise inicial, podemos dizer que esta estrutura é uma sentença completa no presente contínuo, pois é composto do sujeito seguido pelo verbo auxiliar To be, mais o verbo principal no particípio presente. Nesse exemplo temos a possível tradução “John está construindo uma nave espacial”. No entanto, esta estrutura pode ser um sintagma nominal composto por um substantivo fazendo uso do apóstrofo para marcar o genitivo sobre outro substantivo que faz uso da forma gerundiva. Nesse caso, podemos ter uma tradução como esta – “a nave espacial que está sendo construída por John”. A ambiguidade encontrada por Abney (1987) ilustra o problema no caso da ideia de posse. Isto pode vir a gerar problemas de tradução se não houver uma consulta ao contexto de uso dessas frases. Mas o problema da tradução também pode vir, ignorado o contexto, da ausência de uma análise aprofundada da informação que o léxico pode vir a fornecer dentro do exemplo (1) que faz uso de elementos de posse. Vejamos um fragmento no exemplo (2) que seja fornecido ao programa como input. (2) John’s picture of Chomsky. Ao analisarmos a expressão (2), podemos perceber que essa expressão nominal nos fornece informações conflitantes sobre a noção de posse. Nessa expressão temos dois elementos nos fornecendo a ideia de posse: o genitivo em John’s e a preposição of. O aparecimento desse dois elementos juntos na expressão pode vir a confundir nossa tradução que quando testada em tradutores automáticos utilizados hoje no mercado forneceram tanto “A foto do John do Chomsky” ou “A foto do Chomsky do Tiago”. Essas duas traduções são fornecidas seguindo as informações superficiais cedidas pela expressão original. Mas olhando as traduções podemos perceber que estas informações não são suficientes para uma boa tradução. Houve o caso em que a tradução dessa frase foi fornecida como “a foto que John tirou de Chomsky”, onde nessa frase vamos encontrar informações que não foram fornecidas pela frase original, além de transformar um sintagma em uma sentença completa. Nesse caso, há um erro de tradução, pois se está representando algo que não necessariamente é verdade. Não podemos dizer que na frase foi o John quem tirou a foto. A única informação que temos é que ele tem posse sobre a foto e que o conteúdo dessa foto é o Chomsky. Na ânsia por um resultado, a tradução pode não ser tão criteriosa. E muitas vezes os aspetos sintáticos e globais das frases não são suficientes para alcançarmos bons resultados. Com sistemas de TA não é diferente. O sistema tem um critério de funcionamento e este será usado em todo instante estando esse critério correto para Tradução & Comunicação: Revista Brasileira de Tradutores • Nº. 24, Ano 2012 • p. 135-143.

(5) Tiago Martins da Cunha. 139. aquela aplicação particular ou não. Em muitos sistemas de TA, o padrão sintático é prioritário sobre as demais seleções que o programa deve efetuar. O programa parte de princípios universais para a estrutura das frases e as informações gramaticais devem ser mantidas. Essas informações são percebidas quando feita uma análise particular das expressões. Vamos perceber, na seção seguinte, que há outros elementos fornecedores de informação e que muitas vezes, estas são de vital importância para a reformulação da frase na tradução.. 3.. POSSÍVEIS SOLUÇÕES Este trabalho tem como base a adaptação dos elementos envolvidos na situação de posse através da adequação de princípios semânticos e sintáticos para a melhor aplicação aos sistemas de TA. Nessa seção serão apresentadas possíveis soluções para os primeiros problemas de tradução encontrados supracitados. Os problemas que ocorrem com a tradução são muitas vezes causados pela falta de uma análise semântica particular das frases. Os princípios sintáticos são utilizados pelos sistemas de TA de uma forma universal, aplicando seus parâmetros de análise para todas as frases. No entanto, as informações que algumas palavras-chave de certas expressões proporcionam devem ser prioritárias sobre a informação gramatical fornecida pela estrutura da frase. Nos exemplos citados na secção anterior, temos expressões que fazem uso do caso genitivo e a aplicação delas aos sistemas de TA vai fazer com que o resultado cultive essa informação gramatical. No entanto, vamos em breve concluir que em alguns casos o genitivo deve perder seu caráter de posse e dar lugar a outra representação que é fornecida pelos elementos lexicais envolvidos no caso genitivo. Para melhor ilustrar o que estamos tentando falar, retornemos à expressão (1). Nesse exemplo, depois de desfeita a ambiguidade estrutural entre sentença e expressão nominal, vamos trabalhar a expressão nominal. Essa expressão nominal apresenta outro problema na tradução – a representação das ideias de posse. A expressão (1) apresenta mais de um elemento de posse. Podemos encontrar nitidamente a ideia compreendida pelo caso genitivo, mas também está presente na ideia de posse entre os termos building e a spaceship. A aplicação da expressão (1) a um sistema de TA pode gerar os seguintes resultados “a construção do John da nave” ou “a construção da nave do John”. No entanto essas informações obtidas na tradução não condizem com as informações cedidas pelo sintagma original, pois não podemos dizer que a nave é referência de identificação. Tradução & Comunicação: Revista Brasileira de Tradutores • Nº. 24, Ano 2012 • p. 135-143.

(6) 140. Um tradutor automático de expressões nominais com ideia de posse. do John ou que ela é de propriedade dele, e sim, que a nave está em construção e que é o John que a está construindo. Para solucionar o problema devemos reconhecer primeiramente o elemento principal de posse. No caso da expressão (1) é a palavra building. Por esta palavra estar em inglês no gerúndio, temos que analisar as repercussões disso nos elementos que a envolvem. O gerúndio em inglês é caracterizado por dar o caráter de evento aos verbos. Por exemplo, o verbo to build, ”construir”, quando no gerúndio dá origem ao substantivo building, ”construção”. Se este substantivo tem como origem um verbo, estas informações de sua geração (traços) ainda estão agregadas a ele. Tendo o substantivo building ainda a representação de verbo, precisamos reconhecer na expressão os elementos que funcionem na frase como um agente da ação e um paciente. Nessa expressão teremos o elemento John efetuando a ação de construir e a nave como o elemento a ser construído, ou seja, John como agente e a nave como paciente. Para sintetizarmos a representação semântica da expressão temos: ∃e. BUILDe. Λ Ag(e) = John Λ Pat(e)= a spaceship. Nessa representação semântica podemos perceber que o substantivo building está sendo representado pelo verbo build. Fazendo uso dessa representação semântica percebemos que o caráter de posse efetuado pelo agente deve ser modificado dando uma ideia de meio. Sendo assim, podemos obter o resultado ideal para a tradução da expressão (1), que é “a construção da nave pelo John”. No exemplo da expressão (2) podemos sugerir a mesma solução, apesar de nesse caso o substantivo ser primitivo e não derivado de alguma forma verbal. Nesse caso precisamos de uma maior análise para poderemos encontrar a representação semântica mais adequada para esse caso. No caso da expressão (2), a palavra-chave envolvida no caso genitivo é a palavra Picture, “foto”. Para melhor representar a ordem dos elementos envolvidos, precisamos ordenar o agente e paciente nessa expressão. No entanto, os termos encontrados nessa expressão são todos substantivos. Para analisarmos a expressão precisamos encontrar a melhor representação de ação para a palavra-chave da expressão. Mas essa ação não pode ser qualquer verbo relacionado ao substantivo e sim, o verbo que venha a gerar o substantivo, ou seja, qual ação que tenha como produto o substantivo desejado. No caso de picture, encontramos o verbo take, que pode ser traduzido por “tirar” ou qualquer sinônimo. Para melhor ilustrar o critério usado, com o substantivo livro, teríamos o verbo escrever, e não ler, com o substantivo bebida, teríamos o verbo preparar, e não beber,e etc. Retornando ao exemplo (2) teremos a representação semântica na expressão ∃e. TAKEe. Λ Ag(e) = JohnΛ Pat(e)= Chomsky. Agora, para o exemplo (2) podemos obter o resultado da tradução igual à – A foto do John tirada do Chomsky. Como podemos ver, nessa tradução não fica claro se o proprietário da foto é o fotografo, Tradução & Comunicação: Revista Brasileira de Tradutores • Nº. 24, Ano 2012 • p. 135-143.

(7) Tiago Martins da Cunha. 141. no entanto, essa mesma omissão é feita na expressão original (2). Com esse tipo de equivalência dinâmica da tradução podemos conservar até mesmo a ambiguidade contida na estrutura da expressão original. O uso da representação semântica pode vir a solucionar um grupo de problemas relacionados às expressões nominais no que se trata do caso genitivo. No entanto, a semântica é apenas mais um recurso de conferência que o sistema de TA pode apresentar. Não podemos esquecer a importância das informações sintáticas fornecidas nas expressões. Porém ao adotar-se uma estrutura para análise das expressões esperamos que ela seja capaz de organizar todas as possibilidades de formação. Estudos têm comprovado que a utilização de uma estrutura de sintagma nominal encabeçada por um nome não tem compreendido boa parte de formações com expressões nominais (DAVID, 2007). Por esta razão, cremos que as estruturas de expressões nominais devem ser encabeçadas por elementos determinantes, compondo a hipótese do DP. Supomos que o uso dessa estrutura venha a possibilitar a análise de uma gama maior de expressões nominais.. 4.. APLICAÇÃO Um dos grandes desafios dessa pesquisa é a aplicação das teorias supracitadas para podermos construir um sistema de TA. Um dos primeiros passos nessa construção é a seleção de linguagens de programação que possibilitem de processamento de linguagem natural em diferentes níveis. Para isso, é necessário um programa arquitetado para a distribuição de funções em sistema de interfaces. As interfaces constituem de uma espécie de comunicação entre programas ou linguagens diferentes. Fazendo uso dessas interfaces, é possível que organizemos o sistema para trabalhar em conjunto com outros programas. As linguagens de programação são recursos completos no processamento de linguagem natural, no entanto, algumas linguagens se mostram mais eficientes em aspetos específicos da linguagem. Temos programas que efetuam eficientes análises morfológicas com uma economia de processamento, mas quando se trata de análise sintática deixam a desejar. Buscando programas que sejam eficazes em cada nível de processamento da linguagem podemos vir a ter um sistema de TA com um maior nível de eficácia seja na baixa quantidade de erros ou no tempo de processamento. Para o sistema de TA, estamos fazendo uso da linguagem de programação Python. Essa é uma poderosa linguagem de programação com um alto nível de aplicações. Tradução & Comunicação: Revista Brasileira de Tradutores • Nº. 24, Ano 2012 • p. 135-143.

(8) 142. Um tradutor automático de expressões nominais com ideia de posse. e de fácil aprendizagem. Por ser uma linguagem de alto nível, ela se mostra a linguagem ideal para o gerenciamento dos processos de análise que o sistema de TA exigirá. Apesar de o gerenciamento de interfaces ser um ponto forte dessa linguagem, o uso das interfaces em si, já é um processo custoso ao rendimento do programa. Para que essa solução não venha a se tornar um problema quanto ao tempo gasto para o processamento de cada informação em cada nível de linguagem em cada programa específico, devemos obter a máxima eficácia em cada nível da análise.. 5.. CONSIDERAÇÕES FINAIS Este trabalho, ainda em andamento, tem por objetivo colaborar na melhoria da qualidade dos resultados dos tradutores automáticos utilizados atualmente, além de contribuir para os estudos teóricos e aplicações de conceitos linguísticos na prática. Com a mudança do enfoque prioritário das aplicações de nível sintático para o semântico, acreditamos que podemos baixar o índice de erros na geração dos resultados e tornar os sistemas de análise de tradução uma ferramenta ainda mais eficaz. Como este trabalho analisa um dos maiores problemas das expressões nominais – aquela que são marcadas pela ideia de posse -, cremos que boa parte das demais estruturas nominais será compreendida de forma mais exitosa por esse sistema. O estudo de aplicações computacionais de teorias linguísticas se faz necessário para o desenvolvimento da Linguística Computacional no Brasil. Como dissemos anteriormente, o Brasil está ainda muito atrasado nesses estudos, se o compararmos com outros países desenvolvidos, e uma das grandes razões desse atraso é a falta de comunicação entre as ciências da computação e a linguística. Essa falta de comunicação muitas vezes se alimenta de uma visão equivocada, segundo a qual não há teoria nas aplicações computacionais de conceitos linguísticos e programas de computador não podem ser desenvolvidos dentro da ambiente da linguística. O fruto dessa pesquisa visa uma utilização acadêmica livre e está sendo desenvolvido pelo autor desse trabalho junto aos participantes do grupo de pesquisa CompLin1 da Universidade Federal do Ceará. Esse grupo visa investigar aspetos computacionais das gramáticas das línguas naturais e suas aplicações práticas, entre elas, a Tradução Automática.. 1 CompLin é um Grupo de Pesquisa em Computação e Linguagem Natural coordenado pelo prof. Dr. Phil. Leonel F. de Alencar na Universidade Federal do Ceará – UFC.. Tradução & Comunicação: Revista Brasileira de Tradutores • Nº. 24, Ano 2012 • p. 135-143.

(9) Tiago Martins da Cunha. 143. REFERÊNCIAS ARROJO, R. The ethics of translation in contemporary approaches to translator training. In: TENNENT, M. Training for the new millennium: pedagogies for translation and interpreting. Amsterdam: John Benjamins, 2005. BIAU GIL, J.R.; PYM, A. Technology and translation (a pedagogical overview). In: PYM, A.; PEREKRESTENKO, A.; STARINK, B. Translation technology and its teaching. Tarragona, Espanha, 2006. Disponível em: <http://isg.urv.es/publicity/isg/publications/technology_2006/index.htm>. Acesso em: 22 jun. 2012. CRONIN, M. Translation and globalization. London: Routledge, 2003. ESSELINK, B. A practical guide to localization. Amsterdam: John Benjamins, 2000. ESSELINK, B. Leningrad Meets Amsterdam Meets Aquarius. Language International, v. 14, n. 1, p. 10-11, 2001. FOLARON, D. A discipline coming of age in the digital age. In: DUNNE, K.J. (Ed.). Perspectives on Localization. American Translators Association Scholarly Monograph Series XIII. Amsterdam: John Benjamins, 2006. p.195-219. PYM, A. The moving text: localization, translation and distribution. Amsterdam: John Benjamins, 2004. SOMERS, Harold. The translator's workstation. In: ______ (Ed.). Computers and translation: a translator’s guide. Amsterdam: John Benjamins, 2003. p. 13-63. TYMOCZKO, M. Enlarging translation, empowering translators. Manchester: St. Jerome, 2007. Tiago Martins da Cunha Mestre em Linguística Aplicada pela Universidade Estadual do Ceará – UECE, com dissertação sobre legendagem. Doutorando na Universidade Federal do Ceará – UFC; integrante do grupo de pesquisa Computação e Linguagem Natural – CompLin; participante do projeto MPRO em Saarbrücken, Alemanha. Com experiência em Tradução, Legendagem e Terminologia.. Tradução & Comunicação: Revista Brasileira de Tradutores • Nº. 24, Ano 2012 • p. 135-143.

(10)

Referências

Documentos relacionados

Contudo, sendo um campo de pesquisa e de atuação muito específico e novo no Brasil, ainda existe uma série de dificuldades para a eleição de parâmetros de conservação

Dessa maneira, os resultados desta tese são uma síntese que propõe o uso de índices não convencionais de conforto térmico, utilizando o Índice de Temperatura de Globo Negro e

Atualmente os currículos em ensino de ciências sinalizam que os conteúdos difundidos em sala de aula devem proporcionar ao educando o desenvolvimento de competências e habilidades

Apesar da longa distância dos grandes centros urbanos do país, Bonito destaca- se, regionalmente, como uma área promissora dentro do Estado de Mato Grosso do Sul. Bonito,

O TBC surge como uma das muitas alternativas pensadas para as populações locais, se constituindo como uma atividade econômica solidária que concatena a comunidade com os

Discussion The present results show that, like other conditions that change brain excitability, early environmental heat exposure also enhanced CSD propagation in adult rats.. The

Local de realização da avaliação: Centro de Aperfeiçoamento dos Profissionais da Educação - EAPE , endereço : SGAS 907 - Brasília/DF. Estamos à disposição

O primeiro passo para introduzir o MTT como procedimento para mudança do comportamento alimentar consiste no profissional psicoeducar o paciente a todo o processo,