Avaliação - Eloize Rossi Marques Seno

5.1 O Alinhamento

5.1.3 Avaliação

A qualidade dos alinhamentos produzidos automaticamente foi avaliada com base em um corpus de referência composto por 20 pares de sentenças, extraídos aleatoriamente dos 670 pares gerados a partir dos 393 grupos de sentenças que compõem o corpus de trabalho (conforme descrito na subseção 5.1.1). É relevante dizer que os conjuntos de sentenças desse subcorpus diferem daqueles usados na formulação das regras de parafraseamento. Como o algoritmo de alinhamento trabalha sempre com

suj obj o Airbus A320, voo JJ 3054 o aeronave de o TAM Airbus A320, voo JJ 3054 Porto Alegre Porto Alegre partir partir chegar São Paulo a o 17h16 de o terça-feira a o 17h16 ver obj ver a o 18h45 ÁRVORE 1 suj obj o aeronave de o TAM Airbus A320, voo JJ 3054 o Airbus A320, voo JJ 3054 Porto Alegre Porto Alegre partir partir destino a Congonhas a o 17h16 a o 17h16 de o terça-feira ver ÁRVORE 2

pares de sentenças, acredita-se que o seu desempenho ao alinhar duas sentenças de entrada seria equivalente ao alinhar um conjunto de sentenças.

Para a construção do corpus de referência, os 20 pares de sentenças foram manualmente alinhados por dois linguistas computacionais. Posteriormente, a concordância entre eles foi calculada com base no total de alinhamentos em comum dividido pelo total de alinhamentos produzidos pelos dois anotadores. Uma taxa de concordância de 87% foi obtida, indicando que os alinhamentos de referência são bastante confiáveis.

O desempenho do alinhador foi avaliado usando as medidas de Precisão, Cobertura e Medida-F. Seja R o conjunto de alinhamentos de referência, A o conjunto de alinhamentos produzidos automaticamente e |A ∩ R| o conjunto de alinhamentos automáticos corretamente produzidos. A Precisão representa a fração dos alinhamentos automáticos identificados corretamente, em relação a todos os alinhamentos automáticos produzidos (Fórmula 29). A Cobertura representa a fração dos alinhamentos automáticos identificados corretamente, em relação a todos os alinhamentos previstos no conjunto de referência (Fórmula 30). A Medida-F, por sua vez, representa a média harmônica entre a Precisão e a Cobertura (Fórmula 31) .

(29) Precisão = |A ∩ R| |A| (30) Cobertura = |A ∩ R| |R| (31)

Medida-F = 2 * Precisão * Cobertura Precisão + Cobertura

Para fins de comparação, foram usados dois algoritmos baseline. O primeiro

baseline (daqui em diante Baseline-1) é baseado somente no casamento de segmentos

idênticos, nos sinônimos e nos cognatos, sem fazer uso das regras de parafraseamento e das relações sintáticas de dependências. O segundo baseline (Baseline-2) é uma extensão do Baseline-1 que inclui também os traços de dependências sintáticas. O

das dependências sintáticas no alinhamento de informações comuns, enquanto que o

Baseline-2 visa apenas verificar a contribuição das regras de parafraseamento.

Os resultados médios obtidos pelo alinhador proposto e por cada baseline para Precisão, Cobertura e Medida-F são apresentados na Tabela 10.

Tabela 10: Resultados médios obtidos para Precisão, Cobertura e Medida-F no alinhamento de informações comuns

Sistema Precisão Cobertura Medida-F Alinhador Proposto 0,87 0,83 0,85

Baseline-1 0,81 0,76 0,78

Baseline-2 0,81 0,75 0,78

Conforme mostrado na tabela, o alinhador proposto obteve um ganho de Precisão de 7,4% em relação aos dois algoritmos baseline e um ganho de aproximadamente 9% de Cobertura e de Medida-F. O bom desempenho dos sistemas

baseline já era esperado devido às características do próprio corpus. Aproximadamente

72% dos alinhamentos identificados (149 alinhamentos no total) ocorreram entre segmentos literalmente idênticos.

É interessante observar que, ao incluir as relações de dependências sintáticas no

Baseline-2, não houve ganho de desempenho, comparado ao Baseline-1. A diferença de

desempenho só foi verificada ao adicionar as regras de parafraseamento no algoritmo proposto (vide Tabela 10).

Com o propósito de verificar a contribuição do método proposto no alinhamento de sinônimos, cognatos e paráfrases apenas (excluindo-se os casamentos idênticos), a Precisão, a Cobertura e a Medida-f foram novamente calculadas considerando-se somente esses casos. Os resultados médios obtidos são apresentados na Tabela 11.

Tabela 11: Resultados médios obtidos para Precisão, Cobertura e Medida-F no alinhamento de sinônimos, cognatos e paráfrases

Sistema Precisão Cobertura Medida-F Alinhador Proposto 0,69 0,60 0,64

Baseline-1 0,55 0,14 0,23

Ao desconsiderar os alinhamentos de segmentos literalmente idênticos, o alinhador proposto apresentou uma melhora substancial de desempenho em relação aos dois baselines, tanto no que se refere à Precisão, como no que se refere à Cobertura e à Medida-F. Em relação à Precisão houve uma melhora de até 30,2%, enquanto que para Cobertura o ganho foi de 328,5% comparado ao Baseline-1 e de 150% comparado ao

Baseline-2. Já no que diz respeito ao desempenho global (Medida-F), o modelo

proposto apresentou um aumento de 178,2% na comparação com o Baseline-1 e um aumento de 94% na comparação com o Baseline-2.

Como se pode observar na Tabela 11, o uso das relações de dependências sintáticas no Baseline-2 contribuiu para uma pequena melhora de 3,8% em termos de Precisão, em relação ao Baseline-1. Porém, em termos de Cobertura e de Medida-F houve uma melhora de 71,4% e de 43%, respectivamente, sobre o Baseline-1. Esses resultados comprovam que o uso do thesaurus, da medida de cognatos LCSR e das relações sintáticas de dependência auxiliam no alinhamento de segmentos semanticamente similares, porém não são suficientes para identificar os casos mais complexos de segmentos com variações lexicais e sintáticas, como é o caso das paráfrases parcialmente tratadas pelas regras de parafraseamento.

O Quadro 20 mostra alguns exemplos de alinhamentos produzidos pelo algoritmo, no corpus em questão.

Quadro 20: Exemplos de alinhamento automático a. a aviação israelense ; a aviação de Israel

b. Lula ; o presidente Luiz Inácio Lula da Silva c. o chefe de polícia do campus ; o chefe de

polícia da universidade

d. a máfia dos sanguessugas ; a máfia das

ambulâncias

e. o presidente do TJ ; o presidente do Tribunal

de Justiça do Estado

f. a Secretaria de Estado da Fazenda ; a Secretaria

da Fazenda

g. os processos de perda de mandato contra os 69

deputados ; o processo contra os deputados envolvidos

h. uma quadrilha de altos funcionários públicos ;

a quadrilha

i. voltou ; recomeçou j. enchentes ; inundações l. bateu ; chocou

No documento Eloize Rossi Marques Seno (páginas 95-99)