• Nenhum resultado encontrado

Unbabel for Video: Melhoria e desenvolvimento do processo de legendagem interlingual

N/A
N/A
Protected

Academic year: 2021

Share "Unbabel for Video: Melhoria e desenvolvimento do processo de legendagem interlingual"

Copied!
44
0
0

Texto

(1)

Unbabel for Video:

Melhoria e desenvolvimento do processo de legendagem

inter-lingual

André Laia Ribeiro Lameira Teixeira

Março de 2019

Relatório de Estágio de

Mestrado em Tradução

Especialização em Inglês

(2)

AGRADECIMENTOS

Em primeiro lugar gostaria de agradecer à Professora Doutora Isabel Oliveira Martins por ter aceite orientar o meu relatório de estágio e pela ajuda que me foi pres-tando ao longo do período em que decorreu o estágio. Agradeço igualmente à Unbabel e à Professora Doutora Helena Moniz pelo constante apoio e aconselhamento, bem como ao Dr. Alexandre Solleiro pela supervisão, conselhos e atenção diária. Uma palavra também para os restantes elementos da equipa de vídeo que, de uma forma ou de outra, tiveram um papel fulcral para que tudo corresse bem neste período. Thank you guys.

Agradecer também à ASBIHP (Associação de Spina Bifida e Hidrocefalia de Portugal) e à Dra. Liliana Sintra, pois sem ela este estágio na Unbabel não seria possí-vel.

Um agradecimento especial à minha família, os meus pilares de várias formas e sem os quais não teria chegado até aqui no meu caminho académico.

Por fim, queria agradecer à Jéssica, a minha revisora pessoal e companhia para os momentos de descompressão e divertimento que muito ajudaram ao longo deste pro-cesso na manutenção do meu ânimo, interesse e equilíbrio.

(3)

UNBABEL FOR VIDEO: MELHORIA E

DESENVOLVIMEN-TO DO PROCESSO DE LEGENDAGEM INTERLINGUAL

ANDRÉ LAIA RIBEIRO LAMEIRA TEIXEIRA

Resumo

O presente relatório resulta da experiência ao longo de um estágio de 400 horas na Unbabel. O foco de investigação foi colocado na melhoria do processo de produção de legendagem interlingual e da experiência do editor/tradutor nas interfaces que tornam possível esse mesmo processo, com vista a uma diminuição dos prazos de entrega aos clientes, bem como de uma melhoria na qualidade das traduções.

De forma a atingir este objetivo foram levadas a cabo várias experiências com diversos percursos de produção do referido tipo de legendagem, usando as interfaces da empresa. Partindo das referidas experiências e da análise das mesmas, destacamos os pontos fortes e fracos de cada uma e apresentamos a nossa conclusão dessa análise. Para o percurso que consideramos ser o mais vantajoso apresentamos ainda algumas possí-veis melhorias.

PALAVRAS-CHAVE: LEGENDAGEM, PROCESSOS DE TRADUÇÃO, CONTRO-LO DE QUALIDADE, TRADUÇÃO AUDIOVISUAL

UNBABEL FOR VIDEO: IMPROVEMENT AND

DEVELOP-MENT OF THE INTERLINGUAL SUBTITLING PROCESS

Abstract

This report is the result of a 400-hour internship at Unbabel, a company that de-velops translation solutions. The focus of the research is the improvement of both the interlingual subtitling process and the experience of the editor/translator on the

(4)

interfac-es that are part of the procinterfac-ess. The main goals are to reduce the turnaround time and to improve the quality of translations.

In order to achieve this goal, several experiments were carried out following dif-ferent paths of production of interlingual subtitling, using the company interfaces. Based on these experiments and its analysis, we highlight the strengths and weaknesses of each experiment and present our conclusion regarding the analysis. For the path we consider to be the most valuable, we present some potential improvements.

KEYWORDS: SUBTITLING, TRANSLATION PROCESSES, QUALITY ASSUR-ANCE, AUDIOVISUAL TRANSLATION

(5)
(6)

ÍNDICE

INTRODUÇÃO ... 1

CAPÍTULO 1 - APRESENTAÇÃO DO LOCAL DO ESTÁGIO — UNBABEL ... 3

1.1.FUNDAÇÃO E CRESCIMENTO ... 3

1.2.SERVIÇOS E PROCESSO DE TRADUÇÃO ... 4

1.3. CLIENTES... 7

1.4. CONTROLO DE QUALIDADE ... 8

1.5. PRODUTOS MAIS RECENTES ... 9

CAPÍTULO 2 - UNBABEL FOR VIDEO: PROCESSOS E INTERFACES ... 9

2.1. CONSIDERAÇÕES TEÓRICAS ... 9

2.2. EQUIPA DE VÍDEO ... 14

2.3. INTEGRAÇÃO E AVALIAÇÃO DE NOVOS EDITORES ... 15

2.4. CRIAÇÃO DE LEGENDAS INTRALINGUAIS ... 15

2.4.1. Unbabel Transcription Tool - Interface de transcrição ... 18

2.4.2. Unbabel Captioning Tool - Interface de legendagem ... 20

2.5. CRIAÇÃO DE LEGENDAS INTERLINGUAIS ... 24

2.5.1. Unbabel Translation Tool — interface de TAV ... 26

2.6. PROCESSO DE ANOTAÇÃO ... 28

CAPÍTULO 3 – EXPERIÊNCIAS E ANÁLISE DOS RESULTADOS ... 29

3.1. DESCRIÇÃO DAS EXPERIÊNCIAS ... 29

3.2.ANÁLISE DOS RESULTADOS ... 31

CONCLUSÃO ... 33

(7)

LISTA DE ABREVIATURAS

IA — Inteligência Artificial TA — Tradução Automática

STA — Sistema de Tradução Automática LP — Língua de Partida

TC — Texto de Chegada LC — Língua de Chegada TAV — Tradução Audiovisual

(8)

LISTA DE FIGURAS

Figura 1 -- Configuração da página de edição da plataforma principal de tradução da

Unbabel. ... 5

Figura 2 -- Organização dos módulos do processo de tradução de conteúdo geral da Unbabel. ... 6

Figura 3 -- Configuração da página da interface de transcrição desenvolvida pela Unbabel. ... 19

Figura 4 -- Configuração da interface de segmentação e sincronização desenvolvida pela Unbabel. ... 21

Figura 5 -- Selecionar o tempo atual. ... 21

Figura 6 -- Eliminar caixa de texto. ... 22

Figura 7 -- Criar caixa de texto... 22

Figura 8 -- Eliminar texto da caixa. ... 22

Figura 9 -- Fundir duas caixas de texto. ... 23

Figura 10 -- Organização desatualizada dos módulos do processo de produção de legendagem interlingual. ... 25

Figura 11 -- Configuração da interface de produção de legendagem interlingual desenvolvida pela Unbabel. ... 27

Figura 12 -- Experiência nº 1 — tradução na Unbabel Translation Core... 29

Figura 13 -- Experiência nº 2 — tradução na Unbabel Transcription Tool. ... 30

Figura 14 -- Experiência nº 3 — tradução na Unbabel Translation Tool. ... 30

Figura 15 -- Nova organização dos módulos de criação de legendas interlinguais... 32

LISTA DE TABELAS

Tabela 1 -- Exemplos de transcrição verbatim e non verbatim. ... 12

Tabela 2 -- Funcionalidades e especificidades das interfaces usadas para realizar tradução interlingual nas experiências. ... 31

(9)

1

Introdução

1

A componente letiva do Mestrado em Tradução foi importante na obtenção de conhecimentos teóricos e evolutivos dos Estudos de Tradução, bem como na prática da tradução, especialmente tendo em conta que o estagiário não possuía quaisquer antece-dentes nesta área a nível académico. Assim, o forte caráter prático da mesma e a vonta-de vonta-de adquirir experiência profissional levaram a que fosse tomada a vonta-decisão vonta-de realizar um estágio curricular, tendo a entidade escolhida sido a Unbabel.

Devido à especificidade dos trabalhos realizados pela Unbabel, foram sugeridos pela orientadora do estágio na empresa, a Doutora Helena Moniz, alguns tópicos de pesquisa e, tendo os mesmos como ponto de partida, foi decidido que o tema a explorar seria o aperfeiçoamento da produção de legendas interlinguais. A orientação foi parti-lhada com o Dr. Alexandre Solleiro, responsável do produto vídeo. A cossupervisão resultou num esforço combinado de associar a componente teórica a experiências de teste das interfaces de vídeo. Desta forma, a integração na equipa de vídeo dá-se num momento em que esta se encontra a desenvolver os processos que compõem a produção de legendas (intra e interlinguais). A forma como a tradução audiovisual (TAV) era levada a cabo na empresa levantava problemas e o trabalho do estagiário passou funda-mentalmente por utilizar a experiência de tradução e de utilizador das interfaces, com o objetivo de encontrar uma via que permitisse otimizar o processo e, assim, aumentar a qualidade e a rapidez de entrega dos vídeos aos clientes.

O estágio revelou-se desafiante, principalmente devido à tipologia de texto tra-balhada e especificidades da fala, sobre as quais a parte letiva do Mestrado não se havia

1 Apesar de estarmos conscientes da área de estudo em que este relatório se insere, por força do pendor

multinacional da empresa em que o estágio se realizou (41% de empregados não portugueses e uma maio-ria larga de clientes também não nacionais) torna-se imprescindível o uso de alguns termos em língua inglesa, para os quais fazemos, sempre que possível (quando os termos em questão não fazem parte do uso generalizado na nossa cultura), uma tradução explicativa.

(10)

2 debruçado, o que obrigou a alguma pesquisa e envolvimento na área da TAV e da le-gendagem em particular.

Ao longo do estágio não realizámos apenas tarefas de tradução interlingual. Passámos por todas as etapas levadas a cabo pelos editores até à entrega do produto final ao cliente (exclui-se, como se verá mais à frente, a anotação, pois esta é realizada após o envio para o cliente, com o objetivo de monitorizar o trabalho dos editores). Sig-nifica isto que, ao longo do estágio, realizámos legendagem intra e interlingual, tendo desempenhado tarefas de todas as etapas que dão origens às mesmas, sequencialmente, e como veremos mais adiante: transcrição em inglês, legendagem e tradução para portu-guês.

O presente relatório centra-se na produção de legendas interlinguais e pretende descrever as experiências levadas a cabo com o intuito de identificar os pontos fortes e as fragilidades dos diferentes caminhos possíveis para concretizar este tipo de legenda-gem na empresa. Finalmente, apresenta os resultados destas experiências, o que obser-vámos e algumas sugestões do que foi ou pode ainda vir a ser acrescentado à interface que foi desenvolvida com vista à otimização do processo.

No primeiro capítulo, procede-se à apresentação da entidade onde tem lugar o estágio, o processo de tradução utilizado para o conteúdo mais geral (não audiovisual), a evolução da empresa até aos dias de hoje, o estado atual, os serviços prestados e alguns dos clientes são algumas das informações constantes nesta parte.

Segue-se o segundo capítulo, que se inicia com uma breve introdução teórica ao tema central tratado no relatório, a TAV e a produção de legendas intra e interlinguais. Neste capítulo, é apresentada a equipa na qual o estagiário se inseriu. É descrita a sua composição, as suas funções e, numa segunda fase, são descritos os produtos e proces-sos que culminam nas legendas. Para cada uma destas interfaces, e tendo em conta a nossa experiência com as mesmas, apresentamos comentários sobre o que consideramos ser positivo e negativo e sugerimos alterações e adições aos processos e funcionalida-des.

No terceiro capítulo, são descritas as experiências levadas a cabo com o objetivo de determinar as alterações necessárias para a otimização do processo de legendagem interlingual e são apresentados os resultados dessas experiências.

(11)

3

Capítulo 1 - Apresentação do local do estágio — Unbabel

1.1. Fundação e crescimento

Fundada em 2013 por cinco empresários portugueses, Vasco Pedro, Sofia Pessa-nha, João Graça, Bruno Silva e Hugo Silva, a Unbabel é uma empresa que se dedica à criação de soluções de tradução com base na inteligência artificial (IA), aliando-a à tra-dução automática (TA). A empresa iniciou a sua atividade em 2014 e conta atualmente com um campus composto por seis polos, estando quatro localizados em Portugal (Lis-boa) e dois nos Estados Unidos (São Francisco e Nova Iorque).

Destaca-se no mercado pela criação de um método de resposta que consiste na, já referida, utilização da IA aliada à TA, seguida de um processo de pós-edição levado a cabo por um editor/tradutor. A empresa, sediada em Lisboa, venceu, já por duas vezes (2015 e 2017), o prémio TAUS (Translation Automation User Society – a rede de dados de línguas para as indústrias da tradução e línguas globais) para a startup mais inovado-ra neste setor ("Sobre Nós — Unbabel"2). Emprega atualmente mais de 150 pessoas e tem como pedra basilar “desenvolver uma compreensão multilingue entre empresas e

clientes” (Ibidem).

Segundo dados do sítio Crunchbase ("Unbabel"3), desde a sua criação, a empresa tem aumentado rapidamente o volume de negócios e de colaboradores e tem recebido investimento interno e externo de diversas fontes. A Unbabel conta, entre os seus inves-tidores, com o Google Ventures, Notion Capital e Caixa Capital. Recebeu na sua génese a alavanca do Y Combinator, um fundo de uma aceleradora de startups que permitiu o crescimento da empresa com um financiamento inicial de 1,5 milhões de dólares

(Ibi-dem). No início de 2018, obteve um novo investimento de 23 milhões de dólares que

contribuirá para a "expansão internacional e desenvolvimento de produto" (Redacção4).

2 https://unbabel.com/pt/sobre-nos/. Acedido a 24 setembro 2018.

3 https://www.crunchbase.com/organization/unbabel. Acedido a 26 setembro 2018.

(12)

4 A empresa alcançou até à data um investimento total de 31,2 milhões de dólares (“Un-babel").

1.2. Serviços e processo de tradução

A Unbabel oferece um serviço inovador cujo objetivo é tornar o trabalho de tra-dução mais eficiente, oferecendo simultaneamente preços mais competitivos. O modelo de tradução da empresa usa redes neurais artificiais5, dados do cliente e algoritmos que têm por base a aprendizagem automática, enriquecendo assim o sistema de tradução automática (STA). Os documentos são entregues aos editores/tradutores, segmentados em trechos mais curtos, entretanto já previamente traduzidos pelo STA, sendo posteri-ormente revistos, reeditados e novamente aglomerados por editores mais experientes na plataforma da Unbabel. Este processo permite garantir, em cada projeto, uma qualidade elevada num período de tempo muito curto. Na figura 1, abaixo, podemos observar a página de edição da plataforma de tradução de conteúdo geral da Unbabel.

5 O conceito de redes neurais é definido por Ismail, Ibrahim e Adnan como: “An Artificial Neural

Net-work (ANN) is an information processing paradigm that is inspired by the way biological nervous sys-tems, such as the brain, process information. The key element of this paradigm is the novel structure of the information processing system. It is composed of a large number of highly interconnected processing elements (neurones) working in unison to solve specific problems. ANNs, like people, learn by example. (…) Learning in biological systems involves adjustments to the synaptic connections that exist between the neurones. This is true of ANNs as well.” (Ismail, Ibrahim e Adnan 202).

(13)

5 Figura 1 -- Configuração da página de edição da plataforma principal de tradução da Unbabel.

A empresa trabalha essencialmente com conteúdos digitais como FAQs, e-mails, chats, transcrições de vídeos, legendas, entre outros. Além das tarefas pagas, a Unbabel dispo-nibiliza ainda tarefas de voluntariado. Estas podem ser traduzidas pelos seus edito-res/tradutores, gratuitamente, facilitando desta forma a ação e a comunicação de ONGs com os seus voluntários.

Como podemos observar na Figura 2 apresentada abaixo, o processo de tradução é constituído pelas seguintes etapas: o documento a traduzir é inserido pelo cliente na plataforma da empresa, na língua de partida (LP) — passo 1 na figura abaixo. Este do-cumento é coligido com as instruções providenciadas, igualmente, pelo cliente, nas quais estão contidos alguns esclarecimentos acerca do tipo e/ou finalidade do texto, bem como indicações sobre o registo pretendido, glossários, etc. — passo 2. Segue-se a TA — passo 3 — sendo esta segmentada e repartida por vários editores, que — passo 4 — a aperfeiçoam de forma a atingir a qualidade da tradução humana (estes aperfeiçoamen-tos contribuem para a melhoria do desempenho do STA, pois a utilização da IA permite que o sistema aprenda com o trabalho dos tradutores/editores humanos).

(14)

6 Figura 2 -- Organização dos módulos do processo de tradução de conteúdo geral da Unbabel. 6

Nesta etapa é usada uma ferramenta interna desenvolvida pela empresa, o Smartcheck, a qual permite a deteção de erros gramaticais, de morfologia, ortografia e de estilo. De acordo com o artigo intitulado "Smartcheck, Glossaries and Translation Memories”7 a ferramenta exibe dois tipos de notificação no texto de chegada (TC): as notificações a vermelho, que se referem a erros graves que necessitam de correção por parte do editor antes de este submeter a tarefa e as notificações a verde, relativas às unidades textuais a que se referem e que contribuem para uma melhoria na fluência e no estilo (Unbabel Community Support).

Segue-se o passo 5, que consiste na junção dos trechos e revisão do texto nova-mente ligado, realizada por um editor/tradutor mais experiente (sénior). Este editor deve realizar as correções necessárias de forma a garantir a qualidade e excelência da tradu-ção. O resultado final — passo 6 — deste processo é então, e depois de enviado para o cliente, alvo de anotação para benefício do editor — a quem é prestada informação

6 Adaptada de Carrozo “Saiba como a plataforma linguística da Unbabel consegue traduzir tudo com qualidade humana” — https://unbabel.com/blog/pt/saiba-como-plataforma-linguistica-da-unbabel-consegue-traduzir-tudo-com-qualidade-humana/. Acedido a 26 de setembro de 2018.

7

(15)

7 bre o seu desempenho —, e da Unbabel — que assim efetua um controlo de qualidade sobre as suas traduções. O trabalho de anotação é feito por uma comunidade de anota-dores inscritos na plataforma de anotação.

Os editores/tradutores que trabalham para a Unbabel nesta plataforma de tradu-ção são mais de 50.000 em todo o mundo, atuam online nas tarefas que são disponibili-zadas pela empresa na plataforma. São aceites editores/tradutores com diversos graus de proficiência. Estes passam por um processo de seleção composto por 10 tarefas de teste não remuneradas, antes de lhes serem atribuídas tarefas pagas. Finalizadas as referidas tarefas, estas são avaliadas e é atribuída ao candidato uma classificação de 0 a 5. O pro-cesso de avaliação é contínuo e a classificação altera-se consoante o desempenho. O candidato avaliado terá de ultrapassar o limiar de sucesso para cada par de línguas, ge-ralmente acima dos 3.5 pontos. Se a sua classificação descer abaixo dos 3.5 pontos, o editor/tradutor terá de voltar a submeter-se às tarefas de teste para adquirir de novo o estatuto de editor pago.

A plataforma está disponível para computador, tablet ou telemóvel, o que permi-te aos editores/tradutores trabalhar em qualquer lugar. Atualmenpermi-te a plataforma oferece 27 pares de línguas, sendo que a LP mais comum é o inglês e as línguas de chegada (LC) são árabe, búlgaro, chinês (simplificado e tradicional), dinamarquês, holandês, finlandês, francês, alemão, grego, hindi, indonésio, italiano, japonês, coreano, norue-guês, polaco, português (europeu e brasileiro), romeno, russo, espanhol (peninsular e da América Latina), sueco, tailandês, turco e vietnamita.

1.3. Clientes

O sítio Booking.com, a TomTom, a Microsoft e a Easyjet ("Unbabel | Seamless Multilingual Support"8) são exemplos de empresas que confiam na Unbabel para “com-preender e ser compreendid[a]s” ("Sobre Nós — Unbabel"9) pelos seus clientes. Ao usarem os serviços da Unbabel integrados nas suas próprias interfaces, obtêm uma

8 www.unbabel.com. Acedido a 8 de fevereiro de 2019.

(16)

8 municação rápida, fácil e eficiente. A Unbabel, atuando como mediadora, permite aos seus clientes conquistar mercados que, de outra forma, estariam ao seu alcance apenas através de meios muito mais dispendiosos e complexos.

1.4. Controlo de qualidade

De forma a garantir a qualidade das suas traduções, a Unbabel desenvolveu uma ferramenta de anotação, tendo por base a hierarquia e tipologia de erros definida pela Multidimensional Quality Metrics (MQM), uma tipologia criada no âmbito do projeto Quality Translation 2110 , com o objetivo de avaliar e aumentar a qualidade dos textos no geral e dos textos traduzidos em particular. A MQM define uma hierarquia e tipolo-gia de erros que a Unbabel adaptou às suas necessidades. Esta tipolotipolo-gia de erros é for-mada por 3 níveis principais:

Accuracy. Accuracy addresses the relationship of the target text to the source text and can be assessed only by considering this relationship. Examples of ac-curacy errors include changes in intended meaning, addition and omission of content or any type of mistranslation. In sum, the target text does not accurately reflect the source text.

Fluency. Fluency addresses the linguistic well-formedness of the text that can be assessed without regard to whether the text is a translation or not. Examples of fluency errors include grammar or spelling issues. In sum, these errors affect the reading and the comprehension of the text.

10 QT21 — um projeto de tradução automática que pretende eliminar barreiras de linguagem e,

(17)

9 Style. Style usually relates to the use of register (formal vs. informal vocabulary) and compliance with the clients’ instructions and glossary. (“Quality at Un-babel”11)

Como já referimos, a Unbabel realiza também um controlo de qualidade ao nível da introdução de novos editores/tradutores na plataforma. (Ibidem)

1.5. Produtos mais recentes

A empresa desenvolveu também uma plataforma que permite a tradução de con-teúdo de apoio ao cliente em tempo real e, posteriormente, uma outra que permite pro-duzir transcrição e legendagem de conteúdos audiovisuais. É nesta plataforma que nos vamos centrar no próximo capítulo, bem como na constituição da equipa que suporta a estrutura do Unbabel for Video - plataforma de TAV.

Capítulo 2 - Unbabel for Video: processos e interfaces

Ao longo do estágio, encontrámo-nos inseridos na equipa de vídeo da Unbabel, responsável pela produção de transcrição e legendagem. Neste capítulo iremos mostrar como são (e, em alguns casos, eram) levados a cabo os referidos processos, bem como mencionar a nossa contribuição para a melhoria dos mesmos.

De forma a clarificar alguns dos termos referidos ao longo do presente relatório passaremos em seguida a defini-los.

2.1. Considerações teóricas

Desde o surgimento do cinema, o campo da TAV tem vindo a evoluir, tendo tido uma explosão de interesse a partir dos anos 90 do século passado. Em The Encyclopedia

of Applied Linguistics, Delia Chiaro define TAV, da seguinte forma:

11 http://test.support.techsmith.com/Mike/Quality%20at%20Unbabel%20(1)%20(1).pdf. Acedido a 22

(18)

10 Audiovisual translation (AVT) is the term used to refer to the transfer from one language to another of the verbal components contained in audiovisual works and products. Feature films, television programs, theatrical plays, musicals, opera, Web pages, and video games are just some examples of the vast array of audiovisual products available and that require translation. As the word suggests, audiovisuals are made to be both heard (audio) and seen (visual) simultaneously but they are primarily meant to be seen. (1)

Assim, esta área inclui, entre outras, a legendagem e a dobragem.

Na Unbabel é comum a utilização das denominações captions (forma do inglês americano para designar legendas intralinguais) e legendas (designação alternativa de legendas interlinguais). Os teóricos Jorge Díaz-Cintas e Aline Remael, em Audiovisual

Translation: Subtitling, apresentam diferentes designações para estes termos e agrupam

tipos de legendas tendo em conta cinco diferentes critérios, nomeadamente: linguísticos, tempo de produção, técnicos, métodos de projeção e formatos de distribuição.

Os autores, dentro do critério linguístico, distinguem entre legendas intralinguais — “Intralingual subtitling involves a shift from oral to written but stays always within the same language…“(14) — e interlinguais12,

The other major type of subtitling falls under the category of interlingual, and implies the translation from a source to a target language. Gottlieb (…) calls it ‘diagonal subtitling’ since it involves a shift from one language to another along with a change of mode, from oral to written. (17)

12 Estas designações partem da tripartição apresentada por Roman Jakobson, em tradução intralingual,

(19)

11 Acrescentam ainda um terceiro grupo, as legendas bilingues, sobre as quais não nos iremos debruçar pois estas não são produzidas pela empresa (Ibidem). São as designa-ções sugeridas por Díaz-Cintas e Remael de que nos iremos servir ao longo do presente relatório.

A produção de legendas intralinguais (no fundo, uma transcrição temporizada com o objetivo de ser usada acompanhada de um áudio ou vídeo com o qual a transcri-ção deve estar sincronizada) segundo os autores, tem os seguintes propósitos: legenda-gem direcionada a indivíduos com deficiências auditivas, ao ensino de uma língua, a

karaoke, a dialetos periféricos de uma mesma língua estandardizada13, a informação e avisos (Díaz-Cintas e Remael 14). Na Unbabel a produção deste tipo de legendas (refe-rida internamente como captions) serve fundamentalmente propósitos como o de facili-tar o visionamento de conteúdo multimédia em contextos nos quais não é possível re-correr ao áudio ou, por exemplo, facilitar o entendimento da mensagem por indivíduos que, tendo conhecimento da língua original, não a têm como sua primeira língua. Al-gumas das vantagens deste tipo de legendagem são a sua contribuição para que os ví-deos surjam nos primeiros resultados de pesquisas em motores de busca e o facto de promoverem um maior envolvimento do visualizador com os conteúdos.Normalmente, estas legendas representam o diálogo entre os intervenientes no vídeo na língua em que estes se expressam. Os intervenientes devem ser identificados

Como podemos observar na Tabela 1 abaixo, existem duas metodologias para a realização de legendas intralinguais, nomeadamente, as metodologias verbatim e non

verbatim. A legendagem verbatim inclui tudo o que é pronunciado pelos intervenientes

do vídeo/áudio (disfluências, eventos paralinguísticos, como risos, tosse, entre outros), bem como eventos de som (música ambiente, por exemplo). Por sua vez, a legendagem

non verbatim consiste numa versão mais “limpa” do áudio, ou seja, são eliminadas

repe-tições desnecessárias ou eventos que afetem a compreensão geral do texto.

13 Uma língua estandardizada surge quando um dos dialetos de um mesmo país assume um papel

privile-giado na administração, educação, etc. Esta só se estabelece caso esse mesmo dialeto assuma uma forma escrita.

(20)

12

Verbatim Non-verbatim

O Marco é… um excelente empro… em-pregado. Hm, ele - ele é, tipo, um, hmm, [suspiro] é, tipo, muito compenetrado e respeita, tipo, os superiores.

O Marco é… um excelente empregado. Ele é muito compenetrado e respeita os superiores.

Tabela 1 -- Exemplos de transcrição verbatim e non verbatim.

As legendas intralinguais na empresa são realizadas seguindo a última metodologia des-crita (non-verbatim) segundo indicações do guia de estilo providenciado aos editores:

(…) you should type everything the speaker says, except for unnecessary words that don’t compromise the overall comprehension of the speech. These could be some discourse markers (uh, ah, hum, etc), disfluencies (repetitions of the same words, etc,), and other events. Nevertheless, words should never be added, mod-ified from what the speaker is saying or replaced by other words.14

Por sua vez, apesar de poderem destinar-se também a indivíduos portadores de deficiên-cia auditiva (ainda que a tradição de execução das mesmas não sirva por completo as necessidades destes consumidores), as legendas interlinguais, que Díaz-Cintas define, no Handbook of Translation Studies, como: “(…) [subtitles] where the spoken/written message of the original programme is translated into a TL” (347), são direcionadas com mais frequência a públicos sem, ou com conhecimento insuficiente, da língua em que o conteúdo foi produzido e utilizadas nos mais diversos meios (Díaz-Cintas e Remael 14-18). Mais uma vez, conferem uma vantagem adicional aos vídeos: a utilização de

14 Texto extraído das orientações providenciadas aos editores da Unbabel. Por motivos de

(21)

13 das permite que o vídeo seja encontrado por motores de busca através do conteúdo das legendas incluídas no mesmo.

Contrastando com as legendas intralinguais, onde se pretende que o conteúdo do áudio seja reproduzido fielmente, na criação de legendas interlinguais estão envolvidos processos de tradução intersemiótica e restrições a nível linguístico e a nível técnico que condicionam largamente o trabalho do tradutor. Por exemplo, a Unbabel impõe aos seus editores uma limitação de 40 carateres por linha e, consequentemente, 80 por legenda, uma vez que, regra geral, uma legenda não deve conter mais de duas linhas. Isto signifi-ca que tem de existir um trabalho de adaptação por parte do tradutor que consiste em manipular a sua tradução para que consiga veicular a mensagem e cumprir com as res-trições.

Também a sincronização é muito importante e o guia de estilo, providenciado pela Unbabel aos seus editores, aponta o seguinte:

Each caption needs to be timed with the speaker, but also there needs to be sufficient time to read it.

Sometimes, a caption needs to be shortened a bit, so it doesn’t appear in an unrelated shot. If a shot changes, the caption should not continue onto that shot, if it’s non-related to what was said. Try to merge captions, so this won’t happen.

Other times, a caption needs to be up a bit longer, especially under these circumstances:

When there are unfamiliar words, numbers or uncommon names in a sentence allow extra time on screen.

If there are labels in a sentence, allow an extra second for that

When there’s a lot happening in the picture, like graphics, you’ll need a bit extra time to make sure all visuals are being read.

(22)

14 If you’re writing a long sentence in several different captions, make sure the final part of the sentence is up for a little longer than the others, to al-low the viewer to read it again.

Avoid having long sentences up on screen when a video shot changes. This can be distracting to the viewer. But, if you have no option, and you need to lag the caption onto another shot, leave it up time enough so that the viewer can adjust to the shot change, at the same time that is reading it.15

Conclui-se assim que este processo é delimitado linguística e tecnicamente.

2.2. Equipa de vídeo

A equipa de vídeo é responsável por desenvolver e manter um produto que per-mite produzir transcrição e legendagem nos moldes em que a empresa assenta, ou seja, partindo da utilização de IA combinada com o trabalho realizado pelos editores nas suas plataformas. No caso específico da equipa de vídeo, são utilizadas ferramentas de reco-nhecimento automático de fala (RAF), TA e de deteção de erros (como é o caso do Smartcheck, ao qual já nos referimos anteriormente). Assim, a empresa desenvolveu o Unbabel for Video, um produto que conta exclusivamente com editores para produzir transcrições e legendas de qualidade, auxiliados pelas ferramentas já mencionadas. À semelhança do que acontece na principal plataforma de tradução, um dos objetivos des-te produto é o de permitir que amadores desempenhem as tarefas que compõem os pro-cessos de produção de legendas e transcrições.

A empresa realiza atualmente transcrições em 11 línguas e legendagem interlin-gual para 25 línguas, sendo que o número se altera em função da LP.

Como também já referido, o processo de criação de legendas está em evolução e participámos nos testes e melhorias a este processo e às interfaces que o tornam

(23)

15 vel, cooperando com os designers de interfaces de forma a torná-las mais intuitivas e mais adaptadas às necessidades dos editores.

Em seguida iremos descrever a integração de novos editores e a evolução dos processos de criação de legendas intra e interlinguais, apontando os pontos fortes e fra-cos de cada experiência, sendo estes analisados no capítulo seguinte.

2.3. Integração e avaliação de novos editores

Os editores são selecionados, após candidatura, com base nos resultados de um teste de gramática inglesa e de segmentação a que são submetidos. Os candidatos com resultados mais elevados prosseguem para a fase seguinte que consiste num primeiro teste de transcrição de um vídeo curto, em inglês americano, seguido de um outro, este mais longo, com vocabulário mais desafiante, qualidade de som inferior e no qual é usada a variante de inglês britânico, sendo que esta evolução pressupõe que o sotaque britânico é mais difícil de percecionar. Estes testes são anotados e são enviados aos can-didatos comentários acerca do resultado da sua avaliação. Para quem garanta sucesso na avaliação, é enviado um novo vídeo para que realizem uma transcrição, tendo em conta os comentários recebidos. Os resultados mais satisfatórios garantem a posição de editor na plataforma Unbabel for Video.

2.4. Criação de legendas intralinguais

Ao longo do tempo em que decorreu o estágio, o processo de legendagem na Unbabel foi significativamente alterado. Passamos assim de seguida a descrever a evo-lução sofrida pelos procedimentos de legendagem intra e interlingual.

À data da entrada do estagiário na empresa, a produção de legendas intralinguais era realizada, por um único editor por vídeo numa única interface. O primeiro módulo de todo o processo correspondia (e corresponde) à receção do vídeo, existindo para este efeito duas vias: a Video Costumer Dashboard, uma plataforma na qual o cliente pode inserir uma hiperligação em que o vídeo esteja disponível, e uma interface de progra-mação de aplicações (IPA) que, por sua vez, permite um carregamento ainda mais ágil.

O módulo seguinte é a extração do ficheiro áudio e a passagem do mesmo pela ferramenta de RAF. Desta forma, o áudio é convertido numa transcrição temporizada,

(24)

16 ou seja, alinhada com o sinal de fala. Este módulo irá, no futuro, incluir a pontuação e o uso de maiúsculas automatizados da transcrição.16

Segue-se a edição do vídeo pelos editores humanos, um dos passos que realmen-te sofreu alrealmen-terações, sendo que na anrealmen-terior organização de tarefas (agora abandonada) a edição era feita numa só interface, por apenas um editor, numa única tarefa composta por dois passos:

1. Pós edição da transcrição → que consiste em corrigir os erros resultantes do RAF, entre eles grafar as maiúsculas (ou corrigir, quando o RAF deteta um nome de entidade), acrescentar pontuação, eventos de áudio como sons am-biente e paralinguísticos (tosse, riso, etc). Nesta fase, o editor deveria ideal-mente efetuar a identificação do(s) interveniente(s) no vídeo, no entanto, este passo não é, por norma, atualmente pedido aos editores. Encontra-se neste momento em fase de desenvolvimento a automatização deste processo — a diarização17 — (realizado a par com um programa de identificação de

fa-la/não fala18). Pretende-se desta forma, não só isolar automaticamente as

in-tervenções de cada falante, mas também fazer a identificação automática desses falantes.

2. Legendagem → segmentação adequada e sincronização das legendas resul-tantes com os eventos de áudio correspondentes no vídeo.

16 Estas melhorias estão, neste momento, a ser desenvolvidas no âmbito do projeto Unbabel Scribe:

AI-Powered Video Transcription and Subtitle, PT2020, candidatura nº 038510.

17 O termo diarização não parece estar firmado na literatura portuguesa, de forma que optámos por uma

tradução muito literal do termo “diarization”. O processo consiste na identificação e separação automati-zada de eventos de fala proferidos por diferentes intervenientes — "Speaker segmentation followed by speaker clustering is called diarization” (Kotti, Moschou e Kotropoulos, 2). Esta funcionalidade aliada a programas de identificação de falantes, resulta na segmentação de um diálogo entre vários intervenientes identificados.

18 Trabalho desenvolvido no projeto Unbabel Scribe: AI-Powered Video Transcription and Subtitle,

(25)

17 Após a conclusão desta tarefa o vídeo é enviado ao cliente com o ficheiro .srt19 correspondente. Este segue também para a plataforma de anotação da Unbabel.

Como já referido, o processo de edição sofreu algumas alterações, passando os processos de transcrição e legendagem (anteriormente levados a cabo numa só interface, por um editor único) a ser realizados em duas interfaces. O estagiário participou nos testes que ajudaram a aferir se esta separação seria uma solução vantajosa, oferecendo as suas observações e sugestões que contribuíram para a evolução do processo. Esta mudança traduz-se numa passagem de um, dois ou três (no caso da produção da legen-dagem interlingual) editores diferentes, um a quem cabe a transcrição, outro a quem cabe a legendagem e outro ainda que, no caso da legendagem interlingual, realiza a tra-dução. Estas alterações permitiram alcançar um tempo médio de edição quatro vezes mais rápido em sincronização e segmentação, quando comparado com o tempo médio de edição conseguido antes da divisão das tarefas. É ainda objetivo de futuro alcançar uma velocidade média de edição seis vezes e meia melhor, novamente comparando com a já ultrapassada20.

Quanto às tarefas de transcrição, foi também alcançada uma melhoria no tempo médio de edição, encontrando-se atualmente em números quatro vezes inferiores, com-parando com o tempo médio de edição atual alcançado para legendagem.

As referidas alterações materializaram-se na divisão da interface anteriormente em uso, em duas interfaces individuais — Unbabel Transcription Tool e Unbabel Capti-oning Tool. A primeira oferece a possibilidade de corrigir e fazer as adições necessárias ao RAF, acrescentando pontuação, maiúsculas, etc. Esta tarefa é entregue a editores mais inexperientes, ao passo que a segunda, realizada na Unbabel Captioning Tool, permite realizar a segmentação e sincronização do conteúdo resultante do módulo

19 Ficheiro de legendas que inclui o número correspondente à ordem na qual a legenda deve aparecer no

ecrã, o tempo de entrada e saída do ecrã, a legenda em si e uma linha em branco, indicando a introdução de uma nova legenda.

20 Deve ter-se em consideração que, sendo este um valor médio, a velocidade de edição difere mediante o

(26)

18 rior e realizar correções e aperfeiçoamentos ao mesmo, e é por isso destinada a editores experientes.

Com a nova organização de tarefas foi possível reter um número suficiente de editores e aumentar o compromisso e a atividade regular dos mesmos na transcrição dos vídeos, existindo ainda a perspetiva de evolução para a tarefa considerada de maior difi-culdade, isto é, a sincronização da transcrição com o vídeo.

2.4.1. Unbabel Transcription Tool - Interface de transcrição

A Unbabel Transcription Tool, cuja página de edição podemos observar na Figu-ra 3 abaixo, permite realizar a tFigu-ranscrição do vídeo. Esta interface é constituída por uma janela que contém o vídeo e por um quadro com um conjunto de linhas contendo o pro-duto do RAF. A função do editor é aperfeiçoar este texto gerado pela máquina, confe-rindo-lhe assim um índice de qualidade elevado, pois a ferramenta não garante um de-sempenho perfeito quer a nível linguístico (reconhecimento das palavras, pontuação, etc.), quer a nível da segmentação (processo levado a cabo na interface descrita mais adiante). Assim, torna-se necessária a intervenção humana, de forma a alcançar um tra-balho de excelência e um tempo de entrega reduzido. O editor deve ainda, se constar do pedido, realizar a diarização do vídeo.

(27)

19 Figura 3 -- Configuração da página da interface de transcrição desenvolvida pela Unbabel.

Para navegar entre linhas, o editor pode servir-se do rato ou das teclas das setas no te-clado do computador. Ao clicar sobre uma linha, será selecionado o tempo que foi au-tomaticamente atribuído a esse mesmo segmento de texto. É dada a possibilidade ao editor de interromper o processo a qualquer momento, devendo para isso clicar em “Sa-ve” para guardar o seu progresso e, de seguida, em “Back” para retroceder para o menu principal (ou pode simplesmente fechar o separador). Ao clicar em “Skip”, também é possível não realizar a tarefa, sendo para isso pedido ao editor que apresente a razão da não seleção da mesma, para que seja possível resolver os eventuais problemas que pos-sam ter motivado a ação.

Após a conclusão da transcrição, o editor deve submeter o seu trabalho clicando em “Submit”, ficando a tarefa, a partir desse momento, disponível para que um outro editor proceda à segunda fase do processo: a segmentação e sincronização. As tarefas de transcrição são entregues a editores menos experientes, sendo que o ideal será que estes evoluam e, eventualmente, passem a realizar a mencionada segunda parte do processo, que corresponderá à segmentação, sincronização das legendas e à correção de possíveis erros que tenham resultado da transcrição. Tudo isto terá lugar na Unbabel Captioning Tool, que podemos observar na secção seguinte.

(28)

20 As tarefas principais do processo de transcrição na interface, realizadas pelo es-tagiário, foram a pós-edição do RAF e a revisão final da mesma. A funcionalidade de RAF, apesar de tornar o processo de transcrição bastante mais rápido e eficiente, não garante uma transcrição perfeita. Assim, o trabalho de um editor é ainda fundamental na pontuação da transcrição e na correção de nomes próprios e/ou entidades, duas das la-cunas mais notórias na interface supramencionada.

De forma a eliminar os erros relativos a nomes próprios e entidades que não são percecionados de forma perfeita por esta interface, sugerimos a requisição de glossários criados pelo cliente.

Além disto sugerimos ainda, não só para esta interface, mas para todas as que compõem a produção de legendas, a criação de uma janela pop-up com as diretrizes de cada tarefa para os editores, algo que consideramos acrescentar valor, pois de momento o editor tem de abrir um novo separador com as diretrizes. Ao invés de introduzir a ver-são completa, sugerimos adaptar uma verver-são mais curta (com um campo de pesquisa e separada por temas), contendo a informação mais relevante de forma a ajudar o editor a encontrar a informação que necessita mais rápida e facilmente e, assim, garantir um maior índice de qualidade. De momento, existe uma hiperligação, facultada no início de cada tarefa, que dá acesso a um segundo separador no navegador de internet.

2.4.2. Unbabel Captioning Tool - Interface de legendagem

Na Unbabel Captioning Tool a configuração da página, como podemos observar na Figura 4, é constituída pela janela que contém o vídeo, por baixo da qual figuram segmentos de texto que representam as legendas, com os tempos de entrada e saída la-deando estas caixas. Já do lado esquerdo do ecrã, existe uma aba com os atalhos mais usados.

(29)

21 Figura 4 -- Configuração da interface de segmentação e sincronização desenvolvida pela Unbabel.

A tarefa do editor consiste na correção da segmentação, em garantir a sincronização rigorosa do áudio com as legendas e em corrigir eventuais erros resultantes do processo de transcrição, sendo para isso necessário navegar pelos segmentos, ação que pode ser efetuada com os botões das setas do teclado, com o rato ou com a ajuda do deslocamen-to audeslocamen-tomático implementado na interface. Em ambas as interfaces que compõem o pro-cesso foi inserido o Smartcheck, ferramenta de deteção de erros criada e usada pela em-presa, à qual já nos referimos.

A interface permite selecionar o tempo exato em que o vídeo se encontra, clicando so-bre o simbolo na Figura 5:

(30)

22 Também é possível eliminar cada caixa de texto clicando no símbolo apresentado abai-xo na Figura 6:

Figura 6 -- Eliminar caixa de texto.

ou criar uma nova caixa clicando no símbolo da Figura 7:

Figura 7 -- Criar caixa de texto.

Já para apagar todo o texto de uma caixa, basta clicar no símbolo da Figura 8:

Figura 8 -- Eliminar texto da caixa.

E é também possível fundir duas legendas clicando no símbolo que apresentamos abai-xo na Figura 9; após esta ação o texto da caixa abaiabai-xo será transferido para a caixa cor-respondente ao botão que foi pressionado:

(31)

23 Figura 9 -- Fundir duas caixas de texto.

Está também disponível uma linha de tempo incorporada na interface que permite edi-ção, isto é, o editor pode, tendo como referência uma marcação que corresponde ao momento do vídeo em que se encontra (pausado ou não), definir o tempo de entrada e saída das legendas, bem como o intervalo aconselhável entre elas. A linha de tempo contém blocos que representam cada legenda e estes blocos podem ser facilmente ajus-tados e arrasajus-tados. É ainda possível, à semelhança do que acontece na interface de transcrição, passar a tarefa clicando em "Skip", ou retroceder interrompendo o processo ao clicar em “Back".

O trabalho nesta interface compreende assim duas etapas principais: uma primei-ra que consiste na segmentação lógica e facilmente legível das legendas, comportando ainda a correção de pequenos erros e/ou imperfeições resultantes do processo de tradu-ção ou transcritradu-ção, e uma segunda fase que consiste na sincronizatradu-ção das legendas seg-mentadas com os respetivos eventos de áudio. Das funcionalidades presentes nesta in-terface destacamos a opção "Set current time", especialmente útil para definir o final de cada legenda. Para definir o tempo de entrada, as opções mais frequentemente usadas foram a linha de tempo editável e os botões presentes de cada lado da caixa de texto, que permitem avançar e recuar o tempo de entrada e saída da legenda.

Da nossa experiência de trabalho nesta interface resultaram duas sugestões: pri-meiro, a introdução de uma pausa curta automatizada entre cada legenda, para que o espetador consiga identificar claramente a o fim de uma legenda e a entrada de outra e, assim, evitar confusão, e em segundo lugar a implementação de uma função que permita mover a legenda do seu lugar expectável (ao centro, na parte inferior do ecrã), no caso de, neste espaço do ecrã, ocorrer algo relevante que a legenda não deva cobrir. No en-tanto estamos cientes de que isso pode provocar a confusão visual do consumidor do vídeo e assim conduzir à perda de interesse do mesmo no vídeo.

(32)

24

2.5. Criação de legendas interlinguais

Concluído o primeiro módulo do processo com a produção das legendas intra-linguais, inicia-se o módulo responsável pela criação de legendas interintra-linguais, estando esta capacidade atualmente em fase de desenvolvimento.

Como podemos observar na Figura 10 abaixo, referente ao processo de produção de legendas interlinguais, agora descontinuado, as legendas intralinguais, quando com-pletas, eram introduzidas na plataforma de tradução central da empresa (Unbabel Trans-lation Core), passando pelas etapas descritas no primeiro capítulo para a tradução em geral, ou seja, eram pré traduzidas pelo STA, fragmentadas e os fragmentos resultantes enviados a vários tradutores/editores no mundo inteiro, inscritos na plataforma, sendo depois novamente reunidas num só documento e revistas por um tradutor/editor sénior, dando origem às legendas interlinguais. Todo este processo desenrolava-se sem recurso ao vídeo e numa interface que, não estando otimizada para a prática da TAV, ignora as restrições de carateres. Quando terminado este processo e revistas as legendas, estas eram entregues ao cliente em formato .srt e alvo de anotação. O principal objetivo da investigação que deu origem a este relatório é o aperfeiçoamento deste processo, redu-zindo a possibilidade de erros de tradução, sendo que estes resultam fundamentalmente da segmentação das legendas em trechos traduzidos por vários editores numa interface que não foi pensada para a TAV e também por esta razão não reproduz o vídeo durante o processo de tradução. Mais adiante iremos mostrar as mudanças que foram feitas à sequência de tarefas.

(33)

25 Figura 10 -- Organização desatualizada dos módulos do processo de produção de legendagem inter-lingual.

Foi ainda testada a possibilidade de traduzir as legendas na Unbabel Transcription Tool, tendo como TP o RAF, sendo que nesta experiência não recorremos à TA. Sempre que possível, traduzimos tendo como TP o resultado do RAF, ou seja, exatamente como este é apresentando inicialmente, o que consideramos quase sempre suficiente (em conjunto com o áudio do vídeo) para realizar uma boa tradução. No entanto, nos casos em que a compreensão do áudio é mais difícil, consequentemente, o RAF também o será, por isso nestes casos procedemos à pós-edição do mesmo, de forma a possuir um melhor TP.

Testámos duas estratégias na tentativa de perceber qual permitiria um processo mais rápido e menos confuso. Na primeira, deixámos o RAF e a tradução em simultâ-neo no campo de edição, na segunda, apenas substituímos o RAF com a tradução. Ne-nhuma das estratégias foi suficientemente satisfatória, especialmente na fase da revisão final: a primeira, pela confusão visual gerada pelo RAF precedido da tradução no mes-mo campo, a segunda por sentirmes-mos falta de um TP.

Devemos ainda acrescentar que, caso tivesse sido possível ter acesso à TA nesta interface, esta teria provavelmente acrescentado valor no alcance de uma maior rapidez do processo bem como na qualidade da tradução, pois permitiria evitar alguma pesquisa (que também aqui, apesar da presença do vídeo, é sempre indispensável). Ao longo das

(34)

26 experiências que realizámos, verificámos que a TA é sempre útil, ainda que possa não apresentar resultados de grande qualidade.

Um ponto positivo deste processo em relação ao descrito anteriormente é a pre-sença do vídeo, que elimina algumas ambiguidades criadas por palavras polissémicas na LP (exemplo: crackers → bolachas, barras, etc.), em contrapartida, a presença do TP estável, na página num campo separado do campo do TC é muito útil tanto no processo de tradução como no de revisão.

2.5.1. Unbabel Translation Tool — interface de TAV

Dadas as experiências realizadas pela equipa, nas quais trabalhámos ativamente e de forma a colmatar todas as lacunas identificadas, a equipa de vídeo da Unbabel de-senvolveu uma interface que permite limitar a produção de legendagem a esta mesma equipa, deixando assim de lado a plataforma principal de tradução da empresa para TAV. A interface recebeu a designação de Unbabel Translation Tool e consiste numa página que inclui campos de TP e TC, sendo que no campo de TC é apresentada a TA, tal como na plataforma principal de tradução, sendo daí que o editor deve partir, editan-do a mesma, conferineditan-do-lhe qualidade humana. Possui ainda a vantagem editan-do acesso ao vídeo durante o processo de tradução, assim como a limitação de carateres.

Nesta, como nas interfaces anteriormente descritas, colaborámos com os

desig-ners de interfaces por forma a melhorar a usabilidade destas e das restantes interfaces,

(35)

27 Figura 11 -- Configuração da interface de produção de legendagem interlingual desenvolvida pela Unbabel.

Conforme podemos observar na Figura 11, a nova interface tem como base a Unbabel Transcription Tool, sendo constituída por uma coluna na qual é inserida a transcrição humana que serve de TP e outra coluna que contém a TA. À semelhança do que aconte-ce na interfaaconte-ce mencionada acima, é igualmente possível pausar, avançar, retroaconte-ceder e reiniciar o vídeo, usando os botões na janela que o contém. Esta também permite ao editor não realizar ou selecionar uma tarefa (“Skip"), sendo questionado acerca da razão que o levou a proceder desta forma. É possível ainda guardar o trabalho já feito (“Sa-ve") e sair da janela (“Back”), voltando mais tarde para o terminar. No canto superior direito, temos acesso a uma janela de pop-up com os atalhos a usar na interface.

Um ponto menos positivo neste processo, de momento, é a dimensão dos seg-mentos originados que, necessários para um bom desempenho da TA, levam o editor a criar legendas muito longas, que não cumprem os requisitos de número de carateres por linha e por legenda.

Para suprir as questões relativas à pesquisa de terminologia, uma questão que consome tempo ao editor, foi sugerido que se incluísse na interface um campo de pes-quisa com ligação à base de dados terminológica IATE ou ao Linguee, e ainda um

(36)

cam-28 po de pesquisa de concordância, que seria útil não em vídeos de extensão semelhante aos que usámos como exemplos para as experiências do presente relatório, mas sim em vídeos mais extensos. Foi ainda sugerida a criação de memórias de tradução para um cliente específico, em cujos vídeos o estagiário identificou repetição.

2.6. Processo de anotação

O papel do anotador é o de garantir que a transcrição ou legendagem se encontra de acordo com o determinado pelo guia de estilo facultado aos editores, assim como garantir a sua qualidade. O seu trabalho passa pela identificação de erros, classificação e aferição da gravidade dos mesmos e consequente anotação do texto.

Na identificação e classificação de erros utiliza a tipologia de erros pré-estabelecida. Esta tipologia de erros divide-se em dois domínios, legendagem e transcri-ção, e quatro dimensões de erros, nomeadamente: exatidão, formatatranscri-ção, fluidez e locali-zação/convenção.

Cada dimensão comporta vários tipos possíveis de erro, sendo que a dimensão afeta ao rigor/exatidão afere se a transcrição corresponde ao que consta do áudio (os tipos de erros podem dizer respeito a palavras ou eventos de áudio em falta ou que não correspondem ao áudio, por exemplo); à formatação concerne a questão da organização da transcrição em termos visuais (neste caso, os tipos de erros podem estar relacionados com a segmentação, temporização ou, por exemplo, com erros que dificultem a leitura das legendas); a fluidez diz respeito à organização lógica do discurso e da transcrição (erros gramaticais ou de ortografia, ou ainda inconsistências no texto, entre outros, po-dem dar origem a cortes na fluidez da leitura). Por fim, a localização/convenção preten-de garantir que toda a informação contida está preten-de acordo com os parâmetros preten-definidos pela língua de chegada ou de partida, dependendo do caso (erros desta natureza ocorrem quando uma medida, moeda, número de telefone, ou outros, não tiver sido introduzido de acordo com as regras específicas de determinada língua).

Cada erro possui pesos diferentes, existindo diversos graus de severidade. Em primeiro lugar, temos a tipologia de erros “minor”. Estes são erros que não impedem o entendimento do vídeo, mas dificultam a leitura da legenda e influenciam ainda a perce-ção da qualidade da mesma. Já na tipologia “major”, os erros afetam a capacidade de o visualizador percecionar a legenda, não impedindo, no entanto, a sua compreensão

(37)

ge-29 ral. Os erros incluídos na tipologia classificada como “severe” impossibilitam a perce-ção e entendimento da legenda, por exemplo, quando é transmitida uma mensagem trastante com aquela que é passada no áudio, ou quando a legenda não transmite o con-teúdo essencial presente no vídeo.

Capítulo 3 – Experiências e análise dos resultados

3.1. Descrição das experiências

A nossa metodologia, utilizada com o intuito de aferir que caminho dar à produ-ção de legendas interlinguais na Unbabel, passou pela realizaprodu-ção de várias experiências com percursos diferentes, de forma a verificar qual seria o mais vantajoso. Os vídeos selecionados para a realização das experiências encontram-se no intervalo entre 1:10 (um minuto e dez segundos) e 2:20 (dois minutos e vinte segundos), sendo a LP o inglês e a LC o português. Estes são de dois clientes da Unbabel, sendo que o primeiro produz vídeos de cariz informativo e estilo documentário, cuja qualidade de som é profissional, e o segundo produz conteúdo gerado por utilizadores. Estas duas categorias de vídeos são enviadas para a Unbabel para serem transcritos e/ou legendados.

Na primeira experiência, cujo percurso podemos observar na Figura 12, a tradu-ção foi levada a cabo na plataforma principal de tradutradu-ção da Unbabel e antecedida pelos passos de transcrição e legendagem, realizados nas respetivas interfaces. Este é o pro-cesso usado, no momento do início do estágio, pela empresa para produzir legendas interlinguais. Nesta experiência, como já foi referido, o editor/tradutor não tem acesso ao vídeo quando está a traduzir e também não tem acesso a uma contagem de carateres conforme o guia de estilo de legendagem da empresa.

(38)

30 Como é possível observar na Figura 13, na segunda experiência, a tradução foi levada a cabo diretamente na interface de transcrição, usando como TP escrito o texto resultante do RAF e seguindo-se a legendagem, feita na Unbabel Captioning Tool. Ao contrário do que veremos na experiência seguinte, na que agora se apresenta não foi utilizada TA.

Figura 13 -- Experiência nº 2 — tradução na Unbabel Transcription Tool.

A terceira e última experiência, refletida na Figura 14, dividiu-se em dois ramos, isto é, a tradução foi levada a cabo na interface que tem vindo a ser desenvolvida pela empre-sa, a Unbabel Translation Tool, e foram usados dois rumos diferentes: no primeiro, o TP corresponde ao resultado do RAF. Já no segundo, foi previamente feita a transcrição por um humano e o TP consiste nesta mesma transcrição com qualidade humana. Foram testadas estas duas alternativas com o objetivo de comparar o desempenho da TA tendo como base o RAF e uma transcrição humana. Terminada a tradução, esta é introduzida na Unbabel Captioning Tool, onde se realiza a legendagem.

(39)

31

3.2. Análise dos resultados

As experiências realizadas salientaram os pontos fortes e fracos das interfaces no processo de tradução. A Tabela 2 reflete essas diferenças e os pontos a desenvolver no futuro. Tradução na plataforma principal de tradução Tradução na interface de transcrição Tradução na inter-face de TAV Acesso ao vídeo X X TP fixo X X Contagem de carateres Segmentação forte X Pesquisa

Tabela 2 -- Funcionalidades e especificidades das interfaces usadas para realizar tradução interlingual nas experiências.

A experiência número 1 — relativa à tradução na plataforma principal — revelou as dificuldades de realizar TAV sem recurso ao vídeo e os problemas de segmentação que resultam do facto de esta não possuir uma contagem de carateres alinhada com as dire-trizes para este efeito.

Por sua vez, a experiência número 2, na qual o vídeo já fez parte do processo de tradução, evidenciou a necessidade de um TP estático e presente na interface, princi-palmente na etapa relativa à revisão da tradução, bem como, novamente, a inexistência da contagem de carateres, que pode dar origem a legendas demasiado grandes.

Assim, concluímos que o processo mais vantajoso a seguir seria o processo le-vado a cabo na experiência número 3.

(40)

32 Ao realizar a tradução das legendas na nova interface temos acesso ao vídeo, fo-ram inseridas regras de segmentação forte de forma a obter resultados mais satisfatórios da TA e esta possui ainda um TP fixo, colocado lado a lado e alinhado com o campo do TC, por sua vez preenchido com a TA. Esta mudança garante uma maior qualidade e irá, num futuro próximo, garantir também um tempo de edição mais reduzido.

Abaixo, na Figura 15, podemos observar a nova organização dos módulos que compõem o processo de produção de legendas interlinguais:

Figura 15 -- Nova organização dos módulos de criação de legendas interlinguais.

Este processo de produção de legendagem interlingual atravessa 3 frases, nomeadamen-te, a realização da transcrição do vídeo por um editor humano apoiado pela ferramenta de RAF, a tradução realizada com base na transcrição humana, com recurso à TA base-ada na mesma e, por fim, a sincronização e segmentação das legendas interlinguais re-sultantes do módulo anterior com o vídeo.

(41)

33

Conclusão

O enfoque do presente relatório foi colocado na melhoria do processo de produ-ção de legendagem interlingual, o qual passava pela transcriprodu-ção do vídeo, segmentaprodu-ção da transcrição e sincronização das legendas geradas com o vídeo e, por fim, culminava com a tradução a ser realizada na plataforma de tradução geral da Unbabel (Unbabel Translation Core). Esta plataforma apresentava fragilidades no que respeita às especifi-cidades da TAV, nomeadamente a impossibilidade de aceder ao vídeo durante o proces-so de tradução. Esta fragilidade, como se veio a verificar, dá origem a erros de tradução. Neste contexto, a equipa de vídeo optou por alterar este processo e daí partiram as experiências realizadas e já descritas no último capítulo do relatório. O resultado das mesmas revelou que o processo mais vantajoso seria o que inclui a tradução das legen-das na interface entretanto criada para esse efeito, otimizada para a TAV. Assim, o pro-cesso de criação de legendas interlinguais assume agora o seguinte percurso:

1. Transcrição humana levada a cabo na Unbabel Transcription Tool, apoiada pela ferramenta de RAF.

2.Tradução humana na Unbabel Translation Tool com base na TA gerada seguindo regras de segmentação forte (de forma a providenciar resultados mais satisfatórios).

3. Segmentação da tradução em legendas alinhadas com as regras estabelecidas internamente e sincronização das legendas geradas com o vídeo — tarefa a ser desempenhada na Unbabel Captioning Tool.

Esta mudança permitiu aumentar a qualidade das traduções e a satisfação dos editores/tradutores. É expectável que, com o tempo e habituação à interface, a satisfação se traduza numa redução da velocidade média de edição.

No entanto, e apesar dos resultados positivos alcançados, consideramos que as interfaces podem ainda beneficiar de alguns ajustes e trabalhámos em conjunto com os

designers de interfaces para que estas melhorias possam ser implementadas no futuro.

Para a interface de transcrição, sugerimos a requisição de glossários aos clientes, de forma a fazer face à ocorrência de erros em nomes próprios e entidades que o RAF não deteta ou deteta incorretamente.

(42)

34 Com vista a tornar a Unbabel Captioning Tool mais intuitiva e para que esta permita ao editor realizar um trabalho de maior qualidade, sugerimos a introdução de uma pausa curta automatizada (de meio segundo) no final de cada legenda. Esta funcio-nalidade evitaria confusão causada na perceção de mudança de legendas pelo visualiza-dor. Estamos, ainda assim, cientes de que existem vídeos em que o ritmo de fala dos intervenientes não permite que sejam, por vezes, feitas estas pausas, então sugerimos que nestas ocasiões seja possível eliminar essas pausas. Além disto, sugerimos ainda que fosse adicionada uma função que permita ao editor mover a legenda do seu lugar convencional, em casos em que as legendas representem música, em que existam legen-das embutilegen-das no vídeo que não devam ser obstruílegen-das, ou outra informação visual im-portante que não deva ser obstruída pelas legendas. Para esta sugestão, no entanto, fa-zemos a ressalva de que esta é uma funcionalidade que deve ser usada apenas quando estritamente necessário, sob pena de criar confusão no visualizador, o qual espera que as legendas apareçam num determinado lugar.

Para a interface de TAV, sugerimos a inclusão de um campo de pesquisa de ter-minologia com ligação à base de dados terminológica IATE ou ao Linguee, de forma a agilizar a pesquisa. Sugerimos ainda a criação de um campo para verificar concordân-cia, bem como a criação de memórias de tradução para um cliente específico, em cujos vídeos notámos repetições.

Para todas as interfaces, salientámos a importância de criar uma janela pop-up com uma versão resumida das diretrizes para a tarefa correspondente, podendo estar organizada tematicamente.

Em suma, o estágio contribuiu para o desenvolvimento das capacidades de traba-lho e organização do estagiário, assim como para a obtenção de experiência laboral e de tradução de um tipo de texto em que nunca havíamos trabalhado. O estágio culmina com um convite da parte da empresa para um novo período de estágio, havendo perspe-tiva de assinar um contrato de trabalho.

(43)

35

Obras Citadas

Carrozo, Matthew. “Saiba como a plataforma linguística da Unbabel consegue traduzir tudo com qualidade humana”. Unbabel, 15 fevereiro 2017, https://unbabel.com/blog/pt/saiba-como-plataforma-linguistica-da-unbabel-consegue-traduzir-tudo-com-qualidade-humana/. Acedido a 26 setembro de 2018.

Chapelle, Carol, editora. The Encyclopedia of Applied Linguistics, Volume 1. Blackwell Publishing Ltd, 2013.

Chiaro, Delia. “Audiovisual Translation”. The Encyclopedia of Applied Linguistics,

Volume 1, editado por Carol Chapelle. Blackwell Publishing Ltd. , 2013, pp.1-5.

Díaz-Cintas, Jorge e Aline Remael. Audiovisual Translation: Subtitling. Routledge, 2014.

Díaz-Cintas, Jorge. "Subtitling". Handbook of Translation Studies, Volume 1, eds. Yves Gambier e Luc Van Doorslaer. John Benjamins Publishing Company, 2010, pp. 344-349.

Gambier, Yves e Luc Van Doorslaer, editores. Handbook of Translation Studies,

Vol-ume 1. John Benjamins Publishing Company, 2010.

Hassan, Rohanna et al, editores. InCIEC 2013: Proceedings of the International Civil

and Infrastructure Engineering Conference 2013. Springer, 2014.

Ismail, Rozaina, et. al. "Effect of Input Variable for Neural Network Architecture in Predicting Building Damage Subjected to Earthquake". InCIEC 2013:

Proceed-ings of the International Civil and Infrastructure Engineering Conference 2013,

ed. Rohana Hassan et al, Springer, 2014. pp. 201-202.

“QT21 – Quality Translation 21. ”Multidimensional Quality Metrics Definition”, www.qt21.eu/?target=Introduction. Acedido a 4 outubro de 2018.

“Quality at Unbabel”. Test.Support.Techsmith.Com, 2019, http://test.support.techsmith.com/Mike/Quality%20at%20Unbabel%20(1)%20(1 ).pdf. Acedido a 22 fevereiro de 2019.

(44)

36 Redacção “Start-up Portuguesa Unbabel Recebe Investimento De 23 Milhões De

Dóla-res.” Shifter, 14 janeiro 2018, shifter.sapo.pt/2018/01/unbabel-investimento-start-up-portugal/. Acedido a 24 setembro de 2018.

"Sobre Nós - Unbabel". Unbabel, 2018, https://unbabel.com/pt/sobre-nos/. Acedido a 24 setembro de 2018.

"Unbabel". Crunchbase, 2018, https://www.crunchbase.com/organization/unbabel. Acedido a 26 setembro de 2018.

Unbabel Community Support. "Smartcheck, Glossaries and Translation Memories".

Unbabel Support,

https://help.unbabel.com/hc/en-us/articles/360003342214-Smartcheck-Glossaries-and-Translation-Memories. Acedido a 3 de março de 2018.

"Unbabel | Seamless Multilingual Support". Unbabel, 2019, https://unbabel.com/. Ace-dido a 8 de fevereiro de 2019.

Imagem

Figura 1 -- Configuração da página de edição da plataforma principal de tradução da Unbabel
Figura 2 -- Organização dos módulos do processo de tradução de conteúdo geral da Unbabel
Tabela 1 -- Exemplos de transcrição verbatim e non verbatim.
Figura 3 -- Configuração da página da interface de transcrição desenvolvida pela Unbabel
+7

Referências

Documentos relacionados

A placa EXPRECIUM-II possui duas entradas de linhas telefônicas, uma entrada para uma bateria externa de 12 Volt DC e uma saída paralela para uma impressora escrava da placa, para

Este trabalho buscou, através de pesquisa de campo, estudar o efeito de diferentes alternativas de adubações de cobertura, quanto ao tipo de adubo e época de

O modelo conceitual procura mostrar quais são os elementos de informação tratados pelo sistema, para que mais adiante se possa mostrar ainda como essa informação é transformada pelo

O objetivo do curso foi oportunizar aos participantes, um contato direto com as plantas nativas do Cerrado para identificação de espécies com potencial

Para além deste componente mais prático, a formação académica do 6º ano do MIM incluiu ainda disciplinas de cariz teórico, nomeadamente, a Unidade Curricular de

A versão reduzida do Questionário de Conhecimentos da Diabetes (Sousa, McIntyre, Martins & Silva. 2015), foi desenvolvido com o objectivo de avaliar o

Desta forma, conforme Winnicott (2000), o bebê é sensível a estas projeções inicias através da linguagem não verbal expressa nas condutas de suas mães: a forma de a

Colhi e elaborei autonomamente a história clínica de uma das doentes internadas no serviço, o que constituiu uma atividade de importância ímpar na minha formação, uma vez