Experimentos usando pós-edição direta - ATICA DE TEXTOS TRADUZIDOS AUTOMATICAMENTE DE INGL ˆ

Nos experimentos com pós-edição direta (sem a etapa prévia de identificação de erros), notou-se que os valores de BLEU e NIST permaneceram praticamente inalterados em relação aos valores obtidos para a tradução sem pós-edição (sa´ıda da TA), tanto no corpus de treinamento como no de teste. O resultado pode ser visto na Tabela 5.3.

Tabela 5.3: Valores de BLEU e NIST dos conjuntos de treinamento e de teste para a sa´ıda da TA (sem pós-edição) e com pós-edição direta.

Corpus Avaliação Sa´ıda da TA Pós-edição direta

Teste-a (treinamento) BLEU 60,02 60,10

NIST 10,96 10,97

Teste-b (teste) BLEU 49,59 49,54

NIST 9,81 9,81

Analisando-se a precisão e a cobertura das regras aplicadas na pós-edição direta têm-se os valores apresentados na Tabela 5.4 considerando-se a aplicação de cada conjunto de regras separadamente e de todas as regras na ordem nume, gener, verboc e wd. Como esperado, a precisão no conjunto de treinamento ficou maior que a do conjunto de teste. Um valor baixo de cobertura também era esperado, pois o cálculo é realizado sobre todos os erros anotados para cada tipo de regra (301 para nume, 271 para gener, 209 para verboc e 988 para wd).

Tabela 5.4: Valores de precisão (%) e cobertura (%) na aplicação de regras para a sa´ıda da TA com pós-edição direta considerando-se a aplicação de cada conjunto de regras separadamente e de todas.

Corpus Avaliac¸˜ao nume gener verboc wd todas

Teste-a (treinamento) Precis˜ao 90,41 88,89 94,73 90,91 88,23 Cobertura 21,93 29,52 8,61 1,01 8,25 Teste-b (teste) Precis˜ao 53,37 83,33 41,18 20,00 65,79

Fazendo uma análise tipo a tipo, vê-se que as regras do tipo gener, quando aplicadas iso- ladamente, foram as que obtiveram a maior cobertura (29,5%), além disso elas tiveram um

76 5 Correção automática de erros

desempenho no conjunto de teste (83%) similar ao desempenho no conjunto de treinamento (89%), indicando que foi realizado um bom aprendizado e que essas regras são as mais ge- neralizáveis. O oposto ocorre com as regras do tipo wd, que quando aplicadas em separado, demonstram-se muito eficientes no conjunto de treinamento (91% de precisão) e apresentam uma baixa precisão (20%) no conjunto de teste, indicando um overfitting.

As Tabelas 5.5 e 5.6 listam as 10 regras mais aplicadas nos experimentos com pós-edição direta considerando-se os corpora teste-a e teste-b, respectivamente. Cada regra é acompanhada do número de vezes em que foi aplicada (Aplicações) e a precisão individual da regra calculada de acordo com a equação 5.3.

Tabela 5.5: As 10 regras mais aplicadas, em ordem decrescente por n úmero de aplicações, para a pós-edição direta no corpus teste-a , acompanhadas do n úmero de aplicações e precisão (%).

Regra Aplicações Precisão

gener:m>f <- gener:0@[1] 49 83,67

gener:f>m <- gener:m@[-1] & gener:m@[1] 14 85,71

nume:pl>sg <- pofs:n@[-2] & pofs:adv@[-1] & nume:sg@[-1,-2,-3] o 12 75,00 nume:sg>pl <- nume:sg@[0] & verboc:’ind.sg.p1.futpret’@[0] & nume:pl@[-1,-2,-

9 88,89

verboc:ind.sg.p1.futpret>ind.pl.p3.futpret <- nume:pl@[-1,-2,-3] 9 88,89 gener:m>f <- pofs:num@[1] & pofs:n@[2] & gener:f@[1,2,3] 6 83,33 gener:f>m <- pofs:preadv@[-1] & gener:NApp@[1,2,3] 5 60,00 gener:mf>m <- pofs:0@[1] & pofs:0@[2] & gener:NApp@[1,2,3] 4 100,00 nume:sg>pl <- nume:sg@[0] & nume:pl@[1,2,3,4] & wd:circuitos@[1,2,3] 4 100,00

Tabela 5.6: As 10 regras mais aplicadas, em ordem decrescente por n úmero de aplicações, para a pós-edição direta no corpus teste-b, acompanhas do n úmero de aplicações e precisão (%).

Regra Aplicações Precisão

gener:f>m <- gener:m@[-1] & gener:m@[1] 12 83,33

gener:NApp>m <- gener:NApp@[0] & gener:m@[-2,-3,-4] & pofs:pr+det@[-1] & pofs:n@[1]

10 100,00

nume:pl>sg <- pofs:n@[-2] & pofs:adv@[-1] & nume:sg@[-1,-2,-3] 9 66,67 nume:sg>pl <- nume:sg@[0] & verboc:ind.sg.p1.futpret@[0] & nume:pl@[-1,-2,-3] 9 33,33 verboc:ind.sg.p1.futpret>ind.pl.p3.futpret <- nume:pl@[-1,-2,-3] 9 33,33 gener:m>f <- pofs:num@[1] & pofs:n@[2] & gener:f@[1,2,3] 5 80,00 verboc:pp.pl.NApp.NApp>pp.sg.NApp.NApp <- pofs:pr@[1] & pofs:NC@[2] &

verboc:NApp@[1,2,3]

4 100,00

wd:para>0 <- wd:entender@[1] 3 33,33

nume:NApp>pl <- pofs:n@[-2] & pofs:cnjsub@[-1] & nume:NApp@[-1,-2,-3] 2 100,00 nume:pl>sg <- pofs:v@[-2] & pofs:preadv@[-1] & nume:NApp@[1,2,3] 2 50,00

Além da avaliação de todo o arquivo pós-editado, também verificou-se os valores de BLEU e NIST sentença a sentença para os conjuntos de treinamento e teste. A essa análise dos valores das métricas para cada sentença somou-se uma checagem manual a n´ıvel sentencial.15 Os

5.6 Experimentos para correção automática de erros 77

valores dessa verificação para pós-edição direta quando todas as regras foram aplicadas conjuntamente são mostrados na Tabela 5.7.

Tabela 5.7: Quantidade de sentenças que melhoraram ou pioraram de acordo com os valores de BLEU e NIST, e verificação manual para a pós-edição direta quando todas as regras foram aplicadas conjuntamente.

Corpus Avaliac¸˜ao Melhora Piora

Teste-a (treinamento) BLEU 37 18

NIST 38 19

Manual 76 29

Teste-b (teste) BLEU 5 18

NIST 5 18

Manual 20 31

Como é poss´ıvel notar pelos valores desta tabela, o avaliador humano detectou um número maior de alterações (tanto melhora quanto piora) do que o que foi detectado com base nas medidas automáticas BLEU e NIST, isso porque o avaliador analisou especificamente as alterações realizadas pelas regras o que as medidas automáticas não são capazes de fazer. Com base na análise manual também vale notar que, das alterações realizadas pelas regras, 72% foram para melhor no corpus de treinamento e apenas 39%, no de teste.

A fim de demonstrar o resultado da aplicação das regras, foram separados alguns exemplos. As Figuras 5.8, 5.9 e 5.10 trazem trechos de sentenças do corpus de teste (teste-b) pós- editados pelo EdiTA aplicando pós-edição direta. A palavra pós-editada aparece em destaque para “Ape”, assim como suas correspondentes em Src, Ref e Sys. Nos dois primeiros exemplos a alteração foi executada de forma correta. No exemplo representado pela Figura 5.8 houve um aumento de BLEU, já no exemplo da Figura 5.9, apesar da pós-edição ter sido aplicada correta- mente, o BLEU permaneceu inalterado devido ao uso de um verbo diferente pelo TAEIP quando comparado com o utilizado na referência. No terceiro exemplo (Figura 5.10) a pós-edição ge- rou uma diminuição no BLEU: o etiquetador do Apertium induziu o corretor ao erro, já que a palavra “bateria” foi etiquetada como sendo um verbo (lemma=“bater” pos=“v” form=“ind” number=“sg” person=“p1” time=“futpret”), quando na verdade trata-se de um substantivo.

No documento ATICA DE TEXTOS TRADUZIDOS AUTOMATICAMENTE DE INGL ˆ ES PARA PORTUGU ˆ ES DO BRASIL (páginas 100-102)