• Nenhum resultado encontrado

O alinhamento sentencial de dois textos paralelos ´e o processo no qual s˜ao estabelecidas as correspondˆencias entre as senten¸cas do texto fonte e as senten¸cas do texto alvo. O alinha- mento sentencial dos textos paralelos que comp˜oem o CorpusFAPESP foi realizado por meio do alinhador autom´atico TCAalign implementado durante o projeto PESA (Portuguese-English

Sentence Alignment) com base no Translation corpus Aligner (Hofland, 1996).5 Esse ali-

nhador emprega v´arios crit´erios de alinhamento para encontrar as correspondˆencias entre as senten¸cas fonte e alvo, como listas de palavras ˆancora (opcional), palavras com iniciais

mai´usculas (candidatas a nomes pr´oprios), caracteres especiais (por exemplo, ! e ?), palavras

5Informa¸c˜oes a respeito da ferramenta de alinhamento sentencial de textos paralelos utilizada no projeto

cognatas (calculadas por meio de coeficiente de Dice6 ou LCSR7) e tamanho das senten¸cas (em palavras).

No TCAalign, uma estrutura de programa¸c˜ao dinˆamica ´e usada para determinar o melhor alinhamento entre as senten¸cas fonte e alvo com base nos crit´erios mencionados ante- riormente. Os textos alinhados s˜ao mantidos em arquivos separados nos quais s˜ao inseridas etiquetas e atributos com indica¸c˜oes de alinhamento.

O alinhamento sentencial das senten¸cas que comp˜oem os corpora paralelos pt–es e pt–en foi realizado separadamente para cada corpus, uma vez que o alinhamento de uma senten¸ca em pt e sua tradu¸c˜ao para es pode n˜ao ser o mesmo alinhamento da senten¸ca em

pt com sua tradu¸c˜ao para en. A Tabela 10 apresenta um exemplo de trˆes senten¸cas, uma

em cada um dos idiomas estudados no ReTraTos, ap´os o processo de alinhamento sentencial, no qual a correspondˆencia entre elas est´a indicada pelo mesmo valor do atributo snum nas etiquetas de in´ıcio de senten¸cas <s>. Neste caso, o mesmo alinhamento sentencial para a senten¸ca em pt e sua tradu¸c˜ao para es foi encontrado para esta senten¸ca em pt e sua tradu¸c˜ao para en.

Tabela 10: Exemplo de uma senten¸ca em pt e suas correspondentes em es e en ap´os alinha- mento sentencial

pt <s snum=87>Embora o piqui´a n˜ao esteja sob risco de ser extinto , a explora¸c˜ao descontrolada

pode levar ao desaparecimento dessa ´arvore em algumas regi˜oes . </s>

es <s snum=87>Pese a que el piqui´a no se encuentra bajo riesgo de extinci´on , la explotaci´on

desmesurada puede ocasionar su desaparici´on en algunas regiones . </s>

en <s snum=87>Although pekea is not under any risk of becoming extinct , its uncontrolled

exploitation may lead to the disappearance of this tree in some regions . </s>

´

E importante citar que, ap´os o alinhamento sentencial, as senten¸cas foram tokenizadas por meio da inser¸c˜ao de espa¸cos antes e depois de caracteres de pontua¸c˜ao (.,;!? etc.), com tratamento especial para alguns caracteres como “.” e “,” em representa¸c˜oes num´ericas.

Os 645 textos paralelos do CorpusFAPESP pt–es foram alinhados automaticamente por TCAalign sem a utiliza¸c˜ao de uma lista de palavras ˆancoras, j´a os 646 textos paralelos do CorpusFAPESP pt–en foram alinhados automaticamente por TCAalign utilizando a lista

6O coeficiente de Dice de duas palavras ´e computado, nesse caso, dividindo-se a quantidade de bigramas

em comum nas duas palavras multiplicado por 2, pela soma das quantidades de bigramas nas duas palavras. Por exemplo, o coeficiente de Dice da palavra em pt alinhamento e da palavra em es alineamiento ´e

2×7

(10+11) ≃ 0, 67 uma vez que os bigramas s˜ao al-li-in-nh-ha-am-me-en-nt-to e al-li-in-ne-ea-am-mi-ie-en-nt-

to, respectivamente (os bigramas em comum nas duas palavras aparecem sublinhados).

7A LCSR (Longest Common Subsequence Ratio) de duas palavras ´e computada dividindo-se o tamanho

da maior subseq¨uˆencia em comum pelo tamanho da maior palavra. Por exemplo, a LCSR da palavra em

pt alinhamento e da palavra em es alineamiento ´e 1012 ≃ 0, 83 uma vez que a maior subseq¨uˆencia comum ´e

de palavras ˆancoras pt–en gerada no projeto PESA. Ambos os corpora paralelos foram alinhados usando LCSR como medida de cognato com o limite m´ınimo padr˜ao definido na

ferramenta, 0,65.8 Detalhes sobre o processo de alinhamento sentencial desempenhado por

TCAalign podem ser obtidos em (Caseli, 2003).

Ap´os o alinhamento sentencial autom´atico, uma verifica¸c˜ao manual foi realizada com o intuito de corrigir poss´ıveis erros do alinhador e, para tanto, apenas os alinhamentos diferentes de 1 : 1 foram verificados. Como resultado desse processo de corre¸c˜ao manual, foram obtidos dois corpora: um com 18.314 alinhamentos sentenciais pt–es e outro com 18.275 alinhamentos sentenciais pt–en. A Tabela 11 apresenta as quantidades (#) e as porcentagens (%) de cada tipo de alinhamento sentencial nos corpora pt–es e pt–en. Tabela 11: Tipos de alinhamento sentencial no CorpusFAPESP pt–es e pt–en ap´os a veri- fica¸c˜ao manual dos alinhamentos gerados automaticamente

pt–es pt–en Tipo # % # % 1 : 1 18.006 98,32 17.174 93,97 0 : 1 45 0,24 73 0,40 1 : 0 33 0,18 805 4,40 1 : 2 190 1,04 111 0,61 1 : 3 3 0,02 1 0,01 2 : 1 34 0,18 111 0,61 2 : 2 3 0,02 – – TOTAL 18.314 100 18.275 100

Como se pode perceber pelos dados da Tabela 11, a maioria dos alinhamentos sen- tencias ´e do tipo 1 : 1: 98,32% em pt–es e 93,97% em pt–en. As omiss˜oes (0 : 1 ou 1 : 0)

representam 0,42% dos alinhamentos em pt–es e 4,80% em pt–en9 enquanto os alinhamen-

tos restantes – 1,26% em pt–es e 1,23% em pt–en – s˜ao aqueles que envolvem mais de uma senten¸ca em um ou ambos os lados do alinhamento (1 : 2, 1 : 3, 2 : 1 ou 2 : 2).

Os corpora com os alinhamentos sentenciais corrigidos manualmente foram, ent˜ao, utilizados como referˆencia na avalia¸c˜ao do alinhamento sentencial autom´atico produzido por TCAalign por meio do c´alculo de trˆes medidas: precis˜ao, cobertura e medida-F. Essas trˆes medidas s˜ao calculadas com base nas equa¸c˜oes (2.14), (2.15) e (2.16), respectivamente, apresentadas na subse¸c˜ao 2.4.4 do Cap´ıtulo 2, nas quais candidatos s˜ao os alinhamentos

8O limite m´ınimo para a medida de cognato LCSR foi determinado empiricamente com base na an´alise

de exemplos positivos e negativos de palavras cognatas nos pares de idiomas pt–es e pt–en.

9O alto n´umero de omiss˜oes no alinhamento sentencial do par pt–en se deve ao fato de que, em muitos

textos desse corpus, as senten¸cas no final dos arquivos em portuguˆes n˜ao foram traduzidas para o inglˆes

resultando, assim, em v´arios alinhamentos de omiss˜ao do tipo 1 : 0 (uma senten¸ca em portuguˆes sem

sentenciais retornados por TCAalign e referˆencia, os alinhamentos do corpus de referˆencia. Os resultados dessa avalia¸c˜ao s˜ao apresentados na Tabela 12.

Tabela 12: Avalia¸c˜ao do alinhamento sentencial autom´atico de TCAalign para os corpora pt–es e pt–en

Medida precis˜ao cobertura medida-F

pt–es 93,01% 95,85% 94,41%

pt–en 97,10% 98,23% 97,66%

De acordo com os valores da Tabela 12, TCAalign apresentou melhor desempenho para o par pt–en do que para o par pt–es, o que pode ser explicado pelos fatos descritos a seguir. Embora TCAalign seja independente de l´ıngua, durante seu desenvolvimento no projeto PESA, seus parˆametros foram definidos empiricamente para o par pt–en e usados, no projeto ReTraTos, sem muitas altera¸c˜oes para o par pt–es. Al´em disso, no alinhamento

das senten¸cas do par pt–en, TCAalign dispunha de mais informa¸c˜ao ling¨u´ıstica do que no

alinhamento do par pt–es, essa informa¸c˜ao ling¨u´ıstica est´a presente na lista de palavras

ˆancoras gerada como co-produto do projeto PESA.

Por fim, dos 18.314 alinhamentos sentenciais presentes no CorpusFAPESP pt–es, eliminaram-se os 78 casos de omiss˜ao – uma vez que n˜ao representam exemplos de tradu¸c˜ao – resultando em um conjunto final composto por 18.236 exemplos de tradu¸c˜ao com 1.049.462

tokens (503.596 em pt e 545.866 em es).10 De maneira semelhante, dos 18.275 alinhamentos

sentenciais presentes no CorpusFAPESP pt–en, eliminaram-se os 878 casos de omiss˜ao resul- tando em um conjunto final de 17.397 exemplos de tradu¸c˜ao com 1.026.512 tokens (494.391

em pt e 532.121 em en). As Tabelas 13 e 14 apresentam os n´umeros de tokens, types e

senten¸cas nos corpora pt–es e pt–en, respectivamente.

Tabela 13: Quantidade de tokens, types e senten¸cas no CorpusFAPESP pt–es alinhado sen- tencialmente

Idioma tokens types senten¸cas

pt 503.596 31.318 18.236

es 545.866 32.539 18.236

Total 1.049.462 63.857 36.472

Esses dois conjuntos de 18.236 exemplos de tradu¸c˜ao pt–es e de 17.397 exemplos de tradu¸c˜ao pt–en foram etiquetados morfossintaticamente como apresentado na pr´oxima se¸c˜ao.

10Os alinhamentos sentenciais que envolviam mais de uma senten¸ca em um ou ambos os lados foram

Tabela 14: Quantidade de tokens, types e senten¸cas no CorpusFAPESP pt–en alinhado sen- tencialmente

Idioma tokens types senten¸cas

pt 494.391 30.974 17.397

en 532.121 23.466 17.397

Total 1.026.512 54.440 34.794