• Nenhum resultado encontrado

Nos experimentos com p´os-edic¸˜ao direta (sem a etapa pr´evia de identificac¸˜ao de erros), notou-se que os valores de BLEU e NIST permaneceram praticamente inalterados em relac¸˜ao aos valores obtidos para a traduc¸˜ao sem p´os-edic¸˜ao (sa´ıda da TA), tanto no corpus de treina- mento como no de teste. O resultado pode ser visto na Tabela 5.3.

Tabela 5.3: Valores de BLEU e NIST dos conjuntos de treinamento e de teste para a sa´ıda da TA (sem p´os-edic¸˜ao) e com p´os-edic¸˜ao direta.

Corpus Avaliac¸˜ao Sa´ıda da TA P´os-edic¸˜ao direta

Teste-a (treinamento) BLEU 60,02 60,10

NIST 10,96 10,97

Teste-b (teste) BLEU 49,59 49,54

NIST 9,81 9,81

Analisando-se a precis˜ao e a cobertura das regras aplicadas na p´os-edic¸˜ao direta tˆem-se os valores apresentados na Tabela 5.4 considerando-se a aplicac¸˜ao de cada conjunto de regras separadamente e de todas as regras na ordem nume, gener, verboc e wd. Como esperado, a precis˜ao no conjunto de treinamento ficou maior que a do conjunto de teste. Um valor baixo de cobertura tamb´em era esperado, pois o c´alculo ´e realizado sobre todos os erros anotados para cada tipo de regra (301 para nume, 271 para gener, 209 para verboc e 988 para wd).

Tabela 5.4: Valores de precis˜ao (%) e cobertura (%) na aplicac¸˜ao de regras para a sa´ıda da TA com p´os-edic¸˜ao direta considerando-se a aplicac¸˜ao de cada conjunto de regras separadamente e de todas.

Corpus Avaliac¸˜ao nume gener verboc wd todas

Teste-a (treinamento) Precis˜ao 90,41 88,89 94,73 90,91 88,23 Cobertura 21,93 29,52 8,61 1,01 8,25 Teste-b (teste) Precis˜ao 53,37 83,33 41,18 20,00 65,79

Fazendo uma an´alise tipo a tipo, vˆe-se que as regras do tipo gener, quando aplicadas iso- ladamente, foram as que obtiveram a maior cobertura (29,5%), al´em disso elas tiveram um

76 5 Correc¸˜ao autom´atica de erros

desempenho no conjunto de teste (83%) similar ao desempenho no conjunto de treinamento (89%), indicando que foi realizado um bom aprendizado e que essas regras s˜ao as mais ge- neraliz´aveis. O oposto ocorre com as regras do tipo wd, que quando aplicadas em separado, demonstram-se muito eficientes no conjunto de treinamento (91% de precis˜ao) e apresentam uma baixa precis˜ao (20%) no conjunto de teste, indicando um overfitting.

As Tabelas 5.5 e 5.6 listam as 10 regras mais aplicadas nos experimentos com p´os-edic¸˜ao direta considerando-se os corpora teste-a e teste-b, respectivamente. Cada regra ´e acompanhada do n´umero de vezes em que foi aplicada (Aplicac¸˜oes) e a precis˜ao individual da regra calculada de acordo com a equac¸˜ao 5.3.

Tabela 5.5: As 10 regras mais aplicadas, em ordem decrescente por n ´umero de aplicac¸˜oes, para a p´os-edic¸˜ao direta no corpus teste-a , acompanhadas do n ´umero de aplicac¸˜oes e precis˜ao (%).

Regra Aplicac¸˜oes Precis˜ao

gener:m>f <- gener:0@[1] 49 83,67

gener:f>m <- gener:m@[-1] & gener:m@[1] 14 85,71

nume:pl>sg <- pofs:n@[-2] & pofs:adv@[-1] & nume:sg@[-1,-2,-3] o 12 75,00 nume:sg>pl <- nume:sg@[0] & verboc:’ind.sg.p1.futpret’@[0] & nume:pl@[-1,-2,-

3]

9 88,89

verboc:ind.sg.p1.futpret>ind.pl.p3.futpret <- nume:pl@[-1,-2,-3] 9 88,89 gener:m>f <- pofs:num@[1] & pofs:n@[2] & gener:f@[1,2,3] 6 83,33 gener:f>m <- pofs:preadv@[-1] & gener:NApp@[1,2,3] 5 60,00 gener:mf>m <- pofs:0@[1] & pofs:0@[2] & gener:NApp@[1,2,3] 4 100,00 nume:sg>pl <- nume:sg@[0] & nume:pl@[1,2,3,4] & wd:circuitos@[1,2,3] 4 100,00

Tabela 5.6: As 10 regras mais aplicadas, em ordem decrescente por n ´umero de aplicac¸˜oes, para a p´os-edic¸˜ao direta no corpus teste-b, acompanhas do n ´umero de aplicac¸˜oes e precis˜ao (%).

Regra Aplicac¸˜oes Precis˜ao

gener:f>m <- gener:m@[-1] & gener:m@[1] 12 83,33

gener:NApp>m <- gener:NApp@[0] & gener:m@[-2,-3,-4] & pofs:pr+det@[-1] & pofs:n@[1]

10 100,00

nume:pl>sg <- pofs:n@[-2] & pofs:adv@[-1] & nume:sg@[-1,-2,-3] 9 66,67 nume:sg>pl <- nume:sg@[0] & verboc:ind.sg.p1.futpret@[0] & nume:pl@[-1,-2,-3] 9 33,33 verboc:ind.sg.p1.futpret>ind.pl.p3.futpret <- nume:pl@[-1,-2,-3] 9 33,33 gener:m>f <- pofs:num@[1] & pofs:n@[2] & gener:f@[1,2,3] 5 80,00 verboc:pp.pl.NApp.NApp>pp.sg.NApp.NApp <- pofs:pr@[1] & pofs:NC@[2] &

verboc:NApp@[1,2,3]

4 100,00

wd:para>0 <- wd:entender@[1] 3 33,33

nume:NApp>pl <- pofs:n@[-2] & pofs:cnjsub@[-1] & nume:NApp@[-1,-2,-3] 2 100,00 nume:pl>sg <- pofs:v@[-2] & pofs:preadv@[-1] & nume:NApp@[1,2,3] 2 50,00

Al´em da avaliac¸˜ao de todo o arquivo p´os-editado, tamb´em verificou-se os valores de BLEU e NIST sentenc¸a a sentenc¸a para os conjuntos de treinamento e teste. A essa an´alise dos valo- res das m´etricas para cada sentenc¸a somou-se uma checagem manual a n´ıvel sentencial.15 Os

5.6 Experimentos para correc¸˜ao autom´atica de erros 77

valores dessa verificac¸˜ao para p´os-edic¸˜ao direta quando todas as regras foram aplicadas conjun- tamente s˜ao mostrados na Tabela 5.7.

Tabela 5.7: Quantidade de sentenc¸as que melhoraram ou pioraram de acordo com os valores de BLEU e NIST, e verificac¸˜ao manual para a p´os-edic¸˜ao direta quando todas as regras foram aplicadas conjuntamente.

Corpus Avaliac¸˜ao Melhora Piora

Teste-a (treinamento) BLEU 37 18

NIST 38 19

Manual 76 29

Teste-b (teste) BLEU 5 18

NIST 5 18

Manual 20 31

Como ´e poss´ıvel notar pelos valores desta tabela, o avaliador humano detectou um n´umero maior de alterac¸˜oes (tanto melhora quanto piora) do que o que foi detectado com base nas medi- das autom´aticas BLEU e NIST, isso porque o avaliador analisou especificamente as alterac¸˜oes realizadas pelas regras o que as medidas autom´aticas n˜ao s˜ao capazes de fazer. Com base na an´alise manual tamb´em vale notar que, das alterac¸˜oes realizadas pelas regras, 72% foram para melhor no corpus de treinamento e apenas 39%, no de teste.

A fim de demonstrar o resultado da aplicac¸˜ao das regras, foram separados alguns exem- plos. As Figuras 5.8, 5.9 e 5.10 trazem trechos de sentenc¸as do corpus de teste (teste-b) p´os- editados pelo EdiTA aplicando p´os-edic¸˜ao direta. A palavra p´os-editada aparece em destaque para “Ape”, assim como suas correspondentes em Src, Ref e Sys. Nos dois primeiros exemplos a alterac¸˜ao foi executada de forma correta. No exemplo representado pela Figura 5.8 houve um aumento de BLEU, j´a no exemplo da Figura 5.9, apesar da p´os-edic¸˜ao ter sido aplicada correta- mente, o BLEU permaneceu inalterado devido ao uso de um verbo diferente pelo TAEIP quando comparado com o utilizado na referˆencia. No terceiro exemplo (Figura 5.10) a p´os-edic¸˜ao ge- rou uma diminuic¸˜ao no BLEU: o etiquetador do Apertium induziu o corretor ao erro, j´a que a palavra “bateria” foi etiquetada como sendo um verbo (lemma=“bater” pos=“v” form=“ind” number=“sg” person=“p1” time=“futpret”), quando na verdade trata-se de um substantivo.