Avaliações Conjuntas: Visão Geral

(1)

Avaliações Conjuntas

:

Visão Geral

Alexsandro Santos Soares

Projecto Processamento Computacional do Português

SINTEF Telecom and Informatics

(2)

O que é avaliação conjunta?

• Compara os resultados de vários sistemas participantes usando:

– Tarefas de controle iguais ou similares; – Mesma coleção de dados;

– Mesmas métricas.

• Todos os itens acima são baseados em concordância prévia entre

os participantes.

(3)

Objetivos

• Encorajar a pesquisa baseada em dados reais;

• Aumentar a comunicação entre a indústria, a academia e o

governo através da criação de um fórum aberto de discussões;

• Acelerar a transferência de tecnologia entre os laboratórios de

pesquisa e os produtos comerciais pela comprovação de

melhorias substanciais em metodologias aplicadas a problemas

reais;

• Disponibilização de técnicas e recursos de avaliação comuns

para uso industrial ou acadêmico, incluindo o desenvolvimento

de novas técnicas mais adequadas aos sistemas atuais.

(4)

Elementos da avaliação conjunta

• Tarefa de controle é a função que os sistemas participantes

realizam durante a avaliação juntamente com as condições sob

as quais ela deve ser realizada.

• Requisitos genéricos para a tarefa de controle:

– Pode ser facilmente realizada por um operador humano;

– Não precisa ser identificada com a funcionalidade específica de um componente numa arquitetura de PLN;

• Requisitos genéricos para as métricas:

(5)

Fases da Avaliação Conjunta

Participantes: pesquisa, indústria e governo

Organização: governo, pesquisa e indústria

Tarefas de controle Métricas Coleção de teste Treinamento Ensaio Avaliação Resultados Artigos Conferência

(6)

Evolução

Avaliação Conjunta Tarefas Métricas Coleção Discussão sobre metodologia Tarefas Métricas Nova Avaliação Conjunta Coleção - Treinamento - Teste - Respostas certas

(7)

Tipos de avaliação em geral

• Avaliação de pesquisa básica

– Validar um nova idéia e medir a quantidade de melhoria que ela traz em relação a outros métodos.

• Avaliação de tecnologia

– Medir a performance e a adequação de uma tecnologia na resolução de um problema bem definido, simplificado e abstraido.

• Avaliação de uso

– Medir a usabilidade de uma tecnologia na resolução de um problema real. • Avaliação de impacto

– Avaliação de consequências sócio-econômicas de uma tecnologia. • Avaliação de programa

– Determinar quanto de benefício um programa de financiamento trouxe para uma dada tecnologia.

(8)

Avaliações conjuntas realizadas

• ATIS • MUC • TREC • SUMMAC • DUC • CLEF • ARC • GRACE • Morpholympics • Senseval/Romanseval • Parseval • NTCIR http://cgi.portugues.mct.pt/aval_conjunta/outras_aval_conj.html

(9)

ATIS - Air Travel Information System

• Duração: de 1989 a 1995.

• Tarefa: Responder a perguntas faladas pelo usuário sobre

determinado domínio (Informação sobre linhas aéreas).

• Com a intenção de criar uma medida repetível em um sistema de

trocas de mensagens faladas e, assim, interativo, foi criado um

paradigma de avaliação baseado em dados pré-gravados.

• A portabilidade dos sistemas de compreensão de línguas não

avaliada.

– Não estava claro como desenvolver ferramentas robustas que

permitiriam a rápida construção destes tipos de sistemas em novos domínios

(10)

MUC - Message Understanding Conference

• Duração: 1987 a 1998.

• Tarefa: Simulação de um analista do serviço de inteligência procurando informações a respeito de um tópico particular.

– Ex: Atividades terroristas nas Américas.

• Inicialmente utilizou um corpus contendo mensagens da Marinha dos EUA e depois evoluiu para textos jornalísticos e em vários domínios, incluindo em outras línguas.

• Avaliação baseada em preenchimento de gabaritos (templates)

– Identificação de entidades citadas: pessoa, organização, localização, tempo, data, percentuais e expressões monetárias.

(11)

TREC - Text REtrieval Conference

• Início: 1992

• Tarefas principais:

– Routing: Mesmas questões perguntadas a uma base de dados dinâmica. – Ad hoc: Novas questões são perguntadas a uma base de dados estática.

• Os dados usados atualmente nesta avaliação consiste de 2 Gb de textos:

– Contendo entre 500.000 e 1.000.000 de documentos completos – Formado principalmente de textos jornalísticos e de agências de

notícias.

– Também possui documentos oficiais e resumos de artigos sobre computação.

(12)

Julgamentos de Relevância nas TRECs

• Método de pooling:

– Os participantes enviam para cada tópico uma lista contendo os 100 primeiros documentos encontrados, ordenados por relevância. – Reúne-se por tópico todas as respostas enviadas e remove-se as

duplicações.

– Cada lista resultante por tópico é levada para um analista humano para que este decida sobre a relevância de tais documentos para o tópico em questão.

• A lista final do método de pooling será considerada a resposta

correta.

(13)

SUMMAC - TIPSTER Text Summarization Evaluation

• Início: 1997

• Tarefas principais:

– Ad hoc

• Criação de sumários indicativos e focados no usuário para um tópico particular.

• Determinar se estes sumários são efetivos na determinação da relevância de texto fonte completo para um dado tópico.

– Categorização

• Criação de sumários genéricos

• Determinar se estes sumários são efetivos na captura de qualquer

informação no documento fonte que permita corretamente categorizar este documento.

(14)

DUC - Document Understanding Conference

• Início: 2001

• Tarefas principais:

– Sumário individual: Produzir um resumo de 100 palavras para cada documento;

– Sumário de um conjunto de documentos: Produzir quatro sumários com taxas de compressão diferentes (400, 200, 100 e 50 palavras) para conjuntos de 10 documentos (em média) discutindo o mesmo “conceito”.

(15)

Criação de Sumários por Humanos

400 200 100 50 Documentos Sumários individuais Sumários coletivos A _B C D E F A: Ler os documentos em papel.

B: Criar um sumário de 100 palavras para cada documento

usando a perspectiva do autor do documento.

C: Criar um sumário de 400 palavras a partir de um conjunto de 10 documentos escritos na forma de um relatório para um leitor adulto de jornais.

D,E,F: Recortar, colar e reformular para reduzir o tamanho do sumário pela metade.

(16)

CLEF - Cross-Language Evaluation Forum

• Iniciada como uma das tarefas secundárias na TREC-6, tornou-se uma iniciativa independente em 2000.

• Objetivos:

– Auxiliar a avaliação de sistemas em recuperação translinguística de informação (cross-language retrieval)

– Encorajar o desenvolvimento de estratégias e ferramentas para a recuperação monolíngue de informação (não baseada no Inglês).

– Atrair mais participantes europeus para este tipo de tarefa de avaliação

• A coleção de teste consiste em conjuntos de documentos em diferentes línguas européias mas com características similares (mesmo gênero e período de tempo, conteúdos comparáveis)

(17)

ARC - Actions de Recherche Concertées

• Início: 1994

• Possui 7 tarefas de controle organizadas como segue:

– Linguística, Informática e Corpora escritos (ILEC) • Recuperação de Informação

• Alinhamento de corpus bi e multilíngues

• Construção automática de terminologia e de relações semânticas a partir de corpora • Compreensão de textos

– Linguística, Informática e Corpora orais (ILOR) • Ditado vocal

• Diálogo oral • Síntese de fala

• Cada tarefa de controle possui a mesma estrutura organizacional

– Um avaliador encarregado do gerenciamento, um comitê científico cujos membros são os participantes, um ou mais fornecedores de corpus e os participantes.

(18)

GRACE - Grammaires & Ressources pour les Analyseurs

de Corpus & leur Évaluation

• Início: 1995

• Objetivos iniciais:

– Etiquetadores morfossintáticos para o francês; – Analisadores sintáticos para francês (abandonado)

• Corpus de treinamento

– Tamanho em torno de 10 milhões de palavras;

(19)

Senseval/Romanseval

• Início: 1998

• A meta do Senseval é avaliar sistemas de desambiguação de sentidos com respeito a diferentes palavras, diferentes variantes de uma língua e a diferentes línguas. • A meta do Romanseval é similar a do Senseval mas voltada para línguas

românicas (francês e italiano).

• Os sistemas foram avaliados nas tarefas abaixo envolvendo holandês, tcheco, basco, estoniano, italiano, coreano, espanhol, sueco, japonês e inglês.

– Todas palavras: avaliação sobre quase todas as palavras de conteúdo em uma amostra de textos.

– Amostra lexical: primeiro amostra-se o léxico, em seguida encontram-se instâncias no contexto das palavras amostradas e a avaliação procede somente sobre estas instâncias. – Tradução: Sentidos correspondentes em distintas traduções de uma palavra em uma

(20)

Parseval

• A disponibilidade de um corpora anotado (Penn Treebank) levou à sua criação.

• A idéia chave consistiu em fornecer uma representação sintática simples baseada em constituintes porém com neutralidade teórica. • A avaliação separada em uma avaliação de "bracketings" para

cada sentença e também na etiquetagem consistente de constituintes.

• A disponibilidade de dados cria um padrão de facto e assim os

pesquisadores podem comparar resultados em diversas abordagens e, dentro de certos limites, cruzando diferentes teorias linguísticas.

(21)

NTCIR - NII-NACSIS Test Collection for IR Systems

• Início: 1998

• Projetado para fomentar a pesquisa em recuperação de

informação e outras tecnologias de processamento de texto

(sumarização e extração) para o japonês e outras línguas

asiáticas.

• Fortemente baseada no modelo das TRECs

• Tarefas:

– Recuperação de informação em textos em chinês.

– Recuperação de informação em textos em japonês e inglês.

– Sumarização de textos: sumarização de artigos japoneses de vários tipos