Avaliações Conjuntas
:
Visão Geral
Alexsandro Santos Soares
Projecto Processamento Computacional do Português
SINTEF Telecom and Informatics
O que é avaliação conjunta?
• Compara os resultados de vários sistemas participantes usando:
– Tarefas de controle iguais ou similares; – Mesma coleção de dados;
– Mesmas métricas.
• Todos os itens acima são baseados em concordância prévia entre
os participantes.
Objetivos
• Encorajar a pesquisa baseada em dados reais;
• Aumentar a comunicação entre a indústria, a academia e o
governo através da criação de um fórum aberto de discussões;
• Acelerar a transferência de tecnologia entre os laboratórios de
pesquisa e os produtos comerciais pela comprovação de
melhorias substanciais em metodologias aplicadas a problemas
reais;
• Disponibilização de técnicas e recursos de avaliação comuns
para uso industrial ou acadêmico, incluindo o desenvolvimento
de novas técnicas mais adequadas aos sistemas atuais.
Elementos da avaliação conjunta
• Tarefa de controle é a função que os sistemas participantes
realizam durante a avaliação juntamente com as condições sob
as quais ela deve ser realizada.
• Requisitos genéricos para a tarefa de controle:
– Pode ser facilmente realizada por um operador humano;
– Não precisa ser identificada com a funcionalidade específica de um componente numa arquitetura de PLN;
• Requisitos genéricos para as métricas:
Fases da Avaliação Conjunta
Participantes: pesquisa, indústria e governo
Organização: governo, pesquisa e indústria
Tarefas de controle Métricas Coleção de teste Treinamento Ensaio Avaliação Resultados Artigos Conferência
Evolução
Avaliação Conjunta Tarefas Métricas Coleção Discussão sobre metodologia Tarefas Métricas Nova Avaliação Conjunta Coleção - Treinamento - Teste - Respostas certasTipos de avaliação em geral
• Avaliação de pesquisa básica
– Validar um nova idéia e medir a quantidade de melhoria que ela traz em relação a outros métodos.
• Avaliação de tecnologia
– Medir a performance e a adequação de uma tecnologia na resolução de um problema bem definido, simplificado e abstraido.
• Avaliação de uso
– Medir a usabilidade de uma tecnologia na resolução de um problema real. • Avaliação de impacto
– Avaliação de consequências sócio-econômicas de uma tecnologia. • Avaliação de programa
– Determinar quanto de benefício um programa de financiamento trouxe para uma dada tecnologia.
Avaliações conjuntas realizadas
• ATIS • MUC • TREC • SUMMAC • DUC • CLEF • ARC • GRACE • Morpholympics • Senseval/Romanseval • Parseval • NTCIR http://cgi.portugues.mct.pt/aval_conjunta/outras_aval_conj.htmlATIS - Air Travel Information System
• Duração: de 1989 a 1995.
• Tarefa: Responder a perguntas faladas pelo usuário sobre
determinado domínio (Informação sobre linhas aéreas).
• Com a intenção de criar uma medida repetível em um sistema de
trocas de mensagens faladas e, assim, interativo, foi criado um
paradigma de avaliação baseado em dados pré-gravados.
• A portabilidade dos sistemas de compreensão de línguas não
avaliada.
– Não estava claro como desenvolver ferramentas robustas que
permitiriam a rápida construção destes tipos de sistemas em novos domínios
MUC - Message Understanding Conference
• Duração: 1987 a 1998.
• Tarefa: Simulação de um analista do serviço de inteligência procurando informações a respeito de um tópico particular.
– Ex: Atividades terroristas nas Américas.
• Inicialmente utilizou um corpus contendo mensagens da Marinha dos EUA e depois evoluiu para textos jornalísticos e em vários domínios, incluindo em outras línguas.
• Avaliação baseada em preenchimento de gabaritos (templates)
– Identificação de entidades citadas: pessoa, organização, localização, tempo, data, percentuais e expressões monetárias.
TREC - Text REtrieval Conference
• Início: 1992• Tarefas principais:
– Routing: Mesmas questões perguntadas a uma base de dados dinâmica. – Ad hoc: Novas questões são perguntadas a uma base de dados estática.
• Os dados usados atualmente nesta avaliação consiste de 2 Gb de textos:
– Contendo entre 500.000 e 1.000.000 de documentos completos – Formado principalmente de textos jornalísticos e de agências de
notícias.
– Também possui documentos oficiais e resumos de artigos sobre computação.
Julgamentos de Relevância nas TRECs
• Método de pooling:
– Os participantes enviam para cada tópico uma lista contendo os 100 primeiros documentos encontrados, ordenados por relevância. – Reúne-se por tópico todas as respostas enviadas e remove-se as
duplicações.
– Cada lista resultante por tópico é levada para um analista humano para que este decida sobre a relevância de tais documentos para o tópico em questão.
• A lista final do método de pooling será considerada a resposta
correta.
SUMMAC - TIPSTER Text Summarization Evaluation
• Início: 1997
• Tarefas principais:
– Ad hoc
• Criação de sumários indicativos e focados no usuário para um tópico particular.
• Determinar se estes sumários são efetivos na determinação da relevância de texto fonte completo para um dado tópico.
– Categorização
• Criação de sumários genéricos
• Determinar se estes sumários são efetivos na captura de qualquer
informação no documento fonte que permita corretamente categorizar este documento.
DUC - Document Understanding Conference
• Início: 2001
• Tarefas principais:
– Sumário individual: Produzir um resumo de 100 palavras para cada documento;
– Sumário de um conjunto de documentos: Produzir quatro sumários com taxas de compressão diferentes (400, 200, 100 e 50 palavras) para conjuntos de 10 documentos (em média) discutindo o mesmo “conceito”.
Criação de Sumários por Humanos
400 200 100 50 Documentos Sumários individuais Sumários coletivos A B C D E F A: Ler os documentos em papel.B: Criar um sumário de 100 palavras para cada documento
usando a perspectiva do autor do documento.
C: Criar um sumário de 400 palavras a partir de um conjunto de 10 documentos escritos na forma de um relatório para um leitor adulto de jornais.
D,E,F: Recortar, colar e reformular para reduzir o tamanho do sumário pela metade.
CLEF - Cross-Language Evaluation Forum
• Iniciada como uma das tarefas secundárias na TREC-6, tornou-se uma iniciativa independente em 2000.
• Objetivos:
– Auxiliar a avaliação de sistemas em recuperação translinguística de informação (cross-language retrieval)
– Encorajar o desenvolvimento de estratégias e ferramentas para a recuperação monolíngue de informação (não baseada no Inglês).
– Atrair mais participantes europeus para este tipo de tarefa de avaliação
• A coleção de teste consiste em conjuntos de documentos em diferentes línguas européias mas com características similares (mesmo gênero e período de tempo, conteúdos comparáveis)
ARC - Actions de Recherche Concertées
• Início: 1994• Possui 7 tarefas de controle organizadas como segue:
– Linguística, Informática e Corpora escritos (ILEC) • Recuperação de Informação
• Alinhamento de corpus bi e multilíngues
• Construção automática de terminologia e de relações semânticas a partir de corpora • Compreensão de textos
– Linguística, Informática e Corpora orais (ILOR) • Ditado vocal
• Diálogo oral • Síntese de fala
• Cada tarefa de controle possui a mesma estrutura organizacional
– Um avaliador encarregado do gerenciamento, um comitê científico cujos membros são os participantes, um ou mais fornecedores de corpus e os participantes.
GRACE - Grammaires & Ressources pour les Analyseurs
de Corpus & leur Évaluation
• Início: 1995
• Objetivos iniciais:
– Etiquetadores morfossintáticos para o francês; – Analisadores sintáticos para francês (abandonado)
• Corpus de treinamento
– Tamanho em torno de 10 milhões de palavras;
Senseval/Romanseval
• Início: 1998
• A meta do Senseval é avaliar sistemas de desambiguação de sentidos com respeito a diferentes palavras, diferentes variantes de uma língua e a diferentes línguas. • A meta do Romanseval é similar a do Senseval mas voltada para línguas
românicas (francês e italiano).
• Os sistemas foram avaliados nas tarefas abaixo envolvendo holandês, tcheco, basco, estoniano, italiano, coreano, espanhol, sueco, japonês e inglês.
– Todas palavras: avaliação sobre quase todas as palavras de conteúdo em uma amostra de textos.
– Amostra lexical: primeiro amostra-se o léxico, em seguida encontram-se instâncias no contexto das palavras amostradas e a avaliação procede somente sobre estas instâncias. – Tradução: Sentidos correspondentes em distintas traduções de uma palavra em uma
Parseval
• A disponibilidade de um corpora anotado (Penn Treebank) levou à sua criação.
• A idéia chave consistiu em fornecer uma representação sintática simples baseada em constituintes porém com neutralidade teórica. • A avaliação separada em uma avaliação de "bracketings" para
cada sentença e também na etiquetagem consistente de constituintes.
• A disponibilidade de dados cria um padrão de facto e assim os
pesquisadores podem comparar resultados em diversas abordagens e, dentro de certos limites, cruzando diferentes teorias linguísticas.
NTCIR - NII-NACSIS Test Collection for IR Systems
• Início: 1998
• Projetado para fomentar a pesquisa em recuperação de
informação e outras tecnologias de processamento de texto
(sumarização e extração) para o japonês e outras línguas
asiáticas.
• Fortemente baseada no modelo das TRECs
• Tarefas:
– Recuperação de informação em textos em chinês.
– Recuperação de informação em textos em japonês e inglês.
– Sumarização de textos: sumarização de artigos japoneses de vários tipos