5.1 O Alinhamento
5.1.3 Avaliação
A qualidade dos alinhamentos produzidos automaticamente foi avaliada com base em um corpus de referência composto por 20 pares de sentenças, extraídos aleatoriamente dos 670 pares gerados a partir dos 393 grupos de sentenças que compõem o corpus de trabalho (conforme descrito na subseção 5.1.1). É relevante dizer que os conjuntos de sentenças desse subcorpus diferem daqueles usados na formulação das regras de parafraseamento. Como o algoritmo de alinhamento trabalha sempre com
suj obj o Airbus A320, voo JJ 3054 o aeronave de o TAM Airbus A320, voo JJ 3054 Porto Alegre Porto Alegre partir partir chegar São Paulo a o 17h16 de o terça-feira a o 17h16 ver obj ver a o 18h45 ÁRVORE 1 suj obj o aeronave de o TAM Airbus A320, voo JJ 3054 o Airbus A320, voo JJ 3054 Porto Alegre Porto Alegre partir partir destino a Congonhas a o 17h16 a o 17h16 de o terça-feira ver ÁRVORE 2
pares de sentenças, acredita-se que o seu desempenho ao alinhar duas sentenças de entrada seria equivalente ao alinhar um conjunto de sentenças.
Para a construção do corpus de referência, os 20 pares de sentenças foram manualmente alinhados por dois linguistas computacionais. Posteriormente, a concordância entre eles foi calculada com base no total de alinhamentos em comum dividido pelo total de alinhamentos produzidos pelos dois anotadores. Uma taxa de concordância de 87% foi obtida, indicando que os alinhamentos de referência são bastante confiáveis.
O desempenho do alinhador foi avaliado usando as medidas de Precisão, Cobertura e Medida-F. Seja R o conjunto de alinhamentos de referência, A o conjunto de alinhamentos produzidos automaticamente e |A ∩ R| o conjunto de alinhamentos automáticos corretamente produzidos. A Precisão representa a fração dos alinhamentos automáticos identificados corretamente, em relação a todos os alinhamentos automáticos produzidos (Fórmula 29). A Cobertura representa a fração dos alinhamentos automáticos identificados corretamente, em relação a todos os alinhamentos previstos no conjunto de referência (Fórmula 30). A Medida-F, por sua vez, representa a média harmônica entre a Precisão e a Cobertura (Fórmula 31) .
(29) Precisão = |A ∩ R| |A| (30) Cobertura = |A ∩ R| |R| (31)
Medida-F = 2 * Precisão * Cobertura Precisão + Cobertura
Para fins de comparação, foram usados dois algoritmos baseline. O primeiro
baseline (daqui em diante Baseline-1) é baseado somente no casamento de segmentos
idênticos, nos sinônimos e nos cognatos, sem fazer uso das regras de parafraseamento e das relações sintáticas de dependências. O segundo baseline (Baseline-2) é uma extensão do Baseline-1 que inclui também os traços de dependências sintáticas. O
das dependências sintáticas no alinhamento de informações comuns, enquanto que o
Baseline-2 visa apenas verificar a contribuição das regras de parafraseamento.
Os resultados médios obtidos pelo alinhador proposto e por cada baseline para Precisão, Cobertura e Medida-F são apresentados na Tabela 10.
Tabela 10: Resultados médios obtidos para Precisão, Cobertura e Medida-F no alinhamento de informações comuns
Sistema Precisão Cobertura Medida-F Alinhador Proposto 0,87 0,83 0,85
Baseline-1 0,81 0,76 0,78
Baseline-2 0,81 0,75 0,78
Conforme mostrado na tabela, o alinhador proposto obteve um ganho de Precisão de 7,4% em relação aos dois algoritmos baseline e um ganho de aproximadamente 9% de Cobertura e de Medida-F. O bom desempenho dos sistemas
baseline já era esperado devido às características do próprio corpus. Aproximadamente
72% dos alinhamentos identificados (149 alinhamentos no total) ocorreram entre segmentos literalmente idênticos.
É interessante observar que, ao incluir as relações de dependências sintáticas no
Baseline-2, não houve ganho de desempenho, comparado ao Baseline-1. A diferença de
desempenho só foi verificada ao adicionar as regras de parafraseamento no algoritmo proposto (vide Tabela 10).
Com o propósito de verificar a contribuição do método proposto no alinhamento de sinônimos, cognatos e paráfrases apenas (excluindo-se os casamentos idênticos), a Precisão, a Cobertura e a Medida-f foram novamente calculadas considerando-se somente esses casos. Os resultados médios obtidos são apresentados na Tabela 11.
Tabela 11: Resultados médios obtidos para Precisão, Cobertura e Medida-F no alinhamento de sinônimos, cognatos e paráfrases
Sistema Precisão Cobertura Medida-F Alinhador Proposto 0,69 0,60 0,64
Baseline-1 0,55 0,14 0,23
Ao desconsiderar os alinhamentos de segmentos literalmente idênticos, o alinhador proposto apresentou uma melhora substancial de desempenho em relação aos dois baselines, tanto no que se refere à Precisão, como no que se refere à Cobertura e à Medida-F. Em relação à Precisão houve uma melhora de até 30,2%, enquanto que para Cobertura o ganho foi de 328,5% comparado ao Baseline-1 e de 150% comparado ao
Baseline-2. Já no que diz respeito ao desempenho global (Medida-F), o modelo
proposto apresentou um aumento de 178,2% na comparação com o Baseline-1 e um aumento de 94% na comparação com o Baseline-2.
Como se pode observar na Tabela 11, o uso das relações de dependências sintáticas no Baseline-2 contribuiu para uma pequena melhora de 3,8% em termos de Precisão, em relação ao Baseline-1. Porém, em termos de Cobertura e de Medida-F houve uma melhora de 71,4% e de 43%, respectivamente, sobre o Baseline-1. Esses resultados comprovam que o uso do thesaurus, da medida de cognatos LCSR e das relações sintáticas de dependência auxiliam no alinhamento de segmentos semanticamente similares, porém não são suficientes para identificar os casos mais complexos de segmentos com variações lexicais e sintáticas, como é o caso das paráfrases parcialmente tratadas pelas regras de parafraseamento.
O Quadro 20 mostra alguns exemplos de alinhamentos produzidos pelo algoritmo, no corpus em questão.
Quadro 20: Exemplos de alinhamento automático a. a aviação israelense ; a aviação de Israel
b. Lula ; o presidente Luiz Inácio Lula da Silva c. o chefe de polícia do campus ; o chefe de
polícia da universidade
d. a máfia dos sanguessugas ; a máfia das
ambulâncias
e. o presidente do TJ ; o presidente do Tribunal
de Justiça do Estado
f. a Secretaria de Estado da Fazenda ; a Secretaria
da Fazenda
g. os processos de perda de mandato contra os 69
deputados ; o processo contra os deputados envolvidos
h. uma quadrilha de altos funcionários públicos ;
a quadrilha
i. voltou ; recomeçou j. enchentes ; inundações l. bateu ; chocou