• Nenhum resultado encontrado

Avaliações Conjuntas: Visão Geral

N/A
N/A
Protected

Academic year: 2021

Share "Avaliações Conjuntas: Visão Geral"

Copied!
21
0
0

Texto

(1)

Avaliações Conjuntas

:

Visão Geral

Alexsandro Santos Soares

Projecto Processamento Computacional do Português

SINTEF Telecom and Informatics

(2)

O que é avaliação conjunta?

• Compara os resultados de vários sistemas participantes usando:

– Tarefas de controle iguais ou similares; – Mesma coleção de dados;

– Mesmas métricas.

• Todos os itens acima são baseados em concordância prévia entre

os participantes.

(3)

Objetivos

• Encorajar a pesquisa baseada em dados reais;

• Aumentar a comunicação entre a indústria, a academia e o

governo através da criação de um fórum aberto de discussões;

• Acelerar a transferência de tecnologia entre os laboratórios de

pesquisa e os produtos comerciais pela comprovação de

melhorias substanciais em metodologias aplicadas a problemas

reais;

• Disponibilização de técnicas e recursos de avaliação comuns

para uso industrial ou acadêmico, incluindo o desenvolvimento

de novas técnicas mais adequadas aos sistemas atuais.

(4)

Elementos da avaliação conjunta

• Tarefa de controle é a função que os sistemas participantes

realizam durante a avaliação juntamente com as condições sob

as quais ela deve ser realizada.

• Requisitos genéricos para a tarefa de controle:

– Pode ser facilmente realizada por um operador humano;

– Não precisa ser identificada com a funcionalidade específica de um componente numa arquitetura de PLN;

• Requisitos genéricos para as métricas:

(5)

Fases da Avaliação Conjunta

Participantes: pesquisa, indústria e governo

Organização: governo, pesquisa e indústria

Tarefas de controle Métricas Coleção de teste Treinamento Ensaio Avaliação Resultados Artigos Conferência

(6)

Evolução

Avaliação Conjunta Tarefas Métricas Coleção Discussão sobre metodologia Tarefas Métricas Nova Avaliação Conjunta Coleção - Treinamento - Teste - Respostas certas

(7)

Tipos de avaliação em geral

• Avaliação de pesquisa básica

– Validar um nova idéia e medir a quantidade de melhoria que ela traz em relação a outros métodos.

• Avaliação de tecnologia

– Medir a performance e a adequação de uma tecnologia na resolução de um problema bem definido, simplificado e abstraido.

• Avaliação de uso

– Medir a usabilidade de uma tecnologia na resolução de um problema real. • Avaliação de impacto

– Avaliação de consequências sócio-econômicas de uma tecnologia. • Avaliação de programa

– Determinar quanto de benefício um programa de financiamento trouxe para uma dada tecnologia.

(8)

Avaliações conjuntas realizadas

• ATIS • MUC • TREC • SUMMAC • DUC • CLEF • ARC • GRACE • Morpholympics • Senseval/Romanseval • Parseval • NTCIR http://cgi.portugues.mct.pt/aval_conjunta/outras_aval_conj.html

(9)

ATIS - Air Travel Information System

• Duração: de 1989 a 1995.

• Tarefa: Responder a perguntas faladas pelo usuário sobre

determinado domínio (Informação sobre linhas aéreas).

• Com a intenção de criar uma medida repetível em um sistema de

trocas de mensagens faladas e, assim, interativo, foi criado um

paradigma de avaliação baseado em dados pré-gravados.

• A portabilidade dos sistemas de compreensão de línguas não

avaliada.

– Não estava claro como desenvolver ferramentas robustas que

permitiriam a rápida construção destes tipos de sistemas em novos domínios

(10)

MUC - Message Understanding Conference

• Duração: 1987 a 1998.

• Tarefa: Simulação de um analista do serviço de inteligência procurando informações a respeito de um tópico particular.

– Ex: Atividades terroristas nas Américas.

• Inicialmente utilizou um corpus contendo mensagens da Marinha dos EUA e depois evoluiu para textos jornalísticos e em vários domínios, incluindo em outras línguas.

• Avaliação baseada em preenchimento de gabaritos (templates)

– Identificação de entidades citadas: pessoa, organização, localização, tempo, data, percentuais e expressões monetárias.

(11)

TREC - Text REtrieval Conference

• Início: 1992

• Tarefas principais:

– Routing: Mesmas questões perguntadas a uma base de dados dinâmica. – Ad hoc: Novas questões são perguntadas a uma base de dados estática.

• Os dados usados atualmente nesta avaliação consiste de 2 Gb de textos:

– Contendo entre 500.000 e 1.000.000 de documentos completos – Formado principalmente de textos jornalísticos e de agências de

notícias.

– Também possui documentos oficiais e resumos de artigos sobre computação.

(12)

Julgamentos de Relevância nas TRECs

• Método de pooling:

– Os participantes enviam para cada tópico uma lista contendo os 100 primeiros documentos encontrados, ordenados por relevância. – Reúne-se por tópico todas as respostas enviadas e remove-se as

duplicações.

– Cada lista resultante por tópico é levada para um analista humano para que este decida sobre a relevância de tais documentos para o tópico em questão.

• A lista final do método de pooling será considerada a resposta

correta.

(13)

SUMMAC - TIPSTER Text Summarization Evaluation

• Início: 1997

• Tarefas principais:

– Ad hoc

• Criação de sumários indicativos e focados no usuário para um tópico particular.

• Determinar se estes sumários são efetivos na determinação da relevância de texto fonte completo para um dado tópico.

– Categorização

• Criação de sumários genéricos

• Determinar se estes sumários são efetivos na captura de qualquer

informação no documento fonte que permita corretamente categorizar este documento.

(14)

DUC - Document Understanding Conference

• Início: 2001

• Tarefas principais:

– Sumário individual: Produzir um resumo de 100 palavras para cada documento;

– Sumário de um conjunto de documentos: Produzir quatro sumários com taxas de compressão diferentes (400, 200, 100 e 50 palavras) para conjuntos de 10 documentos (em média) discutindo o mesmo “conceito”.

(15)

Criação de Sumários por Humanos

400 200 100 50 Documentos Sumários individuais Sumários coletivos A B C D E F A: Ler os documentos em papel.

B: Criar um sumário de 100 palavras para cada documento

usando a perspectiva do autor do documento.

C: Criar um sumário de 400 palavras a partir de um conjunto de 10 documentos escritos na forma de um relatório para um leitor adulto de jornais.

D,E,F: Recortar, colar e reformular para reduzir o tamanho do sumário pela metade.

(16)

CLEF - Cross-Language Evaluation Forum

• Iniciada como uma das tarefas secundárias na TREC-6, tornou-se uma iniciativa independente em 2000.

• Objetivos:

– Auxiliar a avaliação de sistemas em recuperação translinguística de informação (cross-language retrieval)

– Encorajar o desenvolvimento de estratégias e ferramentas para a recuperação monolíngue de informação (não baseada no Inglês).

– Atrair mais participantes europeus para este tipo de tarefa de avaliação

• A coleção de teste consiste em conjuntos de documentos em diferentes línguas européias mas com características similares (mesmo gênero e período de tempo, conteúdos comparáveis)

(17)

ARC - Actions de Recherche Concertées

• Início: 1994

• Possui 7 tarefas de controle organizadas como segue:

– Linguística, Informática e Corpora escritos (ILEC) • Recuperação de Informação

• Alinhamento de corpus bi e multilíngues

• Construção automática de terminologia e de relações semânticas a partir de corpora • Compreensão de textos

– Linguística, Informática e Corpora orais (ILOR) • Ditado vocal

• Diálogo oral • Síntese de fala

• Cada tarefa de controle possui a mesma estrutura organizacional

– Um avaliador encarregado do gerenciamento, um comitê científico cujos membros são os participantes, um ou mais fornecedores de corpus e os participantes.

(18)

GRACE - Grammaires & Ressources pour les Analyseurs

de Corpus & leur Évaluation

• Início: 1995

• Objetivos iniciais:

– Etiquetadores morfossintáticos para o francês; – Analisadores sintáticos para francês (abandonado)

• Corpus de treinamento

– Tamanho em torno de 10 milhões de palavras;

(19)

Senseval/Romanseval

• Início: 1998

• A meta do Senseval é avaliar sistemas de desambiguação de sentidos com respeito a diferentes palavras, diferentes variantes de uma língua e a diferentes línguas. • A meta do Romanseval é similar a do Senseval mas voltada para línguas

românicas (francês e italiano).

• Os sistemas foram avaliados nas tarefas abaixo envolvendo holandês, tcheco, basco, estoniano, italiano, coreano, espanhol, sueco, japonês e inglês.

– Todas palavras: avaliação sobre quase todas as palavras de conteúdo em uma amostra de textos.

– Amostra lexical: primeiro amostra-se o léxico, em seguida encontram-se instâncias no contexto das palavras amostradas e a avaliação procede somente sobre estas instâncias. – Tradução: Sentidos correspondentes em distintas traduções de uma palavra em uma

(20)

Parseval

• A disponibilidade de um corpora anotado (Penn Treebank) levou à sua criação.

• A idéia chave consistiu em fornecer uma representação sintática simples baseada em constituintes porém com neutralidade teórica. • A avaliação separada em uma avaliação de "bracketings" para

cada sentença e também na etiquetagem consistente de constituintes.

• A disponibilidade de dados cria um padrão de facto e assim os

pesquisadores podem comparar resultados em diversas abordagens e, dentro de certos limites, cruzando diferentes teorias linguísticas.

(21)

NTCIR - NII-NACSIS Test Collection for IR Systems

• Início: 1998

• Projetado para fomentar a pesquisa em recuperação de

informação e outras tecnologias de processamento de texto

(sumarização e extração) para o japonês e outras línguas

asiáticas.

• Fortemente baseada no modelo das TRECs

• Tarefas:

– Recuperação de informação em textos em chinês.

– Recuperação de informação em textos em japonês e inglês.

– Sumarização de textos: sumarização de artigos japoneses de vários tipos

Referências

Documentos relacionados

O CES é constituído por 54 itens, destinados a avaliar: (a) cinco tipos de crenças, a saber: (a1) Estatuto de Emprego - avalia até que ponto são favoráveis, as

Os resultados deste estudo mostram que entre os grupos pesquisados de diferentes faixas etárias não há diferenças nos envoltórios lineares normalizados das três porções do

Podem treinar tropas (fornecidas pelo cliente) ou levá-las para combate. Geralmente, organizam-se de forma ad-hoc, que respondem a solicitações de Estados; 2)

Deste modo, o adequado zoneamento e sua observância são fundamentais para a conciliação da preservação ou conservação de espécies, hábitats e paisagens dentre outras e

esta espécie foi encontrada em borda de mata ciliar, savana graminosa, savana parque e área de transição mata ciliar e savana.. Observações: Esta espécie ocorre

Dessa forma, os níveis de pressão sonora equivalente dos gabinetes dos professores, para o período diurno, para a condição de medição – portas e janelas abertas e equipamentos

O valor da reputação dos pseudônimos é igual a 0,8 devido aos fal- sos positivos do mecanismo auxiliar, que acabam por fazer com que a reputação mesmo dos usuários que enviam

A partir disso, este artigo tem como objetivo verificar, a partir da discussão teórica de McQuail (2012) e Rossetti (2013; 2019), de que forma a proposta inédita de uma pesquisa