• Nenhum resultado encontrado

SantosChaves seminario PLN jan2006 20min

N/A
N/A
Protected

Academic year: 2018

Share "SantosChaves seminario PLN jan2006 20min"

Copied!
4
0
0

Texto

(1)

1 Information and Communication Technologies

Linguateca: presente e futuro

Diana Santos & Marcirio Chaves

www.linguateca.pt

2 Information and Communication Technologies

Estrutura da apresentação

9

Linguateca – Panorâmica

9Origem, Objetivos, Resultados

9Equipe, Investigação, Estrutura

9

HAREM

3 Information and Communication Technologies

9Centro de recursos distribuído para o processamento computacional da língua portuguesa

9Projecto financiado pela FCT através do POSI (2000-2006)

9Primeiro pólo no SINTEF ICT, Oslo, começou em 2000 (actividade no SINTEF começou em 1998 com o projeto Processamento

Computacional do Português)

Modelo IRA 9Informação 9Recursos 9Avaliação

Linguateca, um projeto para o português

Oslo

Lisboa

XLDB

Braga

Porto

Lisboa

LabEL

Odense

Coimbra

Lisboa

COMPARA

4 Information and Communication Technologies

Linguateca num relance

9> 1000 links Mais de 1.500.000 visitas ao site

9Recursos públicos

9Incentivar a investigação e colaboração

9Medida e comparação formal

9Uma língua, muitas culturas

9Cooperação usando a Web

9Não à adaptação direta das aplicações para o inglês

5 Information and Communication Technologies

A origem da Linguateca

9Resultado da participação no Livro Branco, que identificou

9Problemas: falta de ...

9recursos públicos

9cooperação entre os grupos, Brasil e Portugal 9avaliação

9esforço na manutenção e disponibilização de recursos

9Soluções: Projeto piloto dedicado à

9Criação de recursos públicos (desenvolvimento, questões legais, etc.) 9Organização de avaliações conjuntas

9Criação de um portal dedicado à área

9Em rede (juntando mão-de-obra a grupos de investigação de acordo com os pressupostos da Linguateca)

6 Information and Communication Technologies

Alguns objetivos da Linguateca

9Fazer com que o PLN do português seja tão qualificado como o das outras línguas

9Impedir que as pessoas continuassem a trabalhar em PLN do inglês com a desculpa de que não havia recursos para o português

9Evitar que os grupos jogassem fora (ou guardassem secretamente) os seus recursos em vez de os disponibilizar, ajudando-os e contribuindo para essa tarefa

9Conseguir colaboração entre os vários países de língua portuguesa para tratarem todas as variantes e não só a “sua”

(2)

7 Information and Communication Technologies

Alguns resultados: Informação

9

Portal constantemente actualizado, www.linguateca.pt

9

Catálogo de recursos, atores e publicações

9

Resposta a todos os usuários

9

Manutenção de um repositório

9

Documentação sobre os recursos criados pela Linguateca

9

Informação sobre as avaliações conjuntas

9

Publicações no âmbito da Linguateca

8 Information and Communication Technologies

Alguns resultados: Recursos

9Serviços na Web para dar

acesso a corpora e ferramentas

9AC/DC (Acesso a

corpora/Disponibilização de corpora) 9COMPARA

9Esfinge 9SIEMÊS

9Criação de corpora, colecções, ou dados para distribuição

9CETEMPúblico, CETENFolha, WPT03 9GKB (Geographic Knowledge Base) e

Geo-Net-PT01

9REPENTINO (REPositório para reconhecimento de ENTidades com NOme) 9Colecção douradas: CHAVE,

Morfolimpíadas e HAREM

9

Várias ferramentas

9Atomizadores e separadores de frases 9Sistemas de REM

9Alinhadores à palavra

9 Information and Communication Technologies

Alguns resultados: Avaliações conjuntas

9Selecionar uma área

9Criar recursos para a avaliar, em consenso com os participantes

9Criar programas de avaliação

9Organizar um evento

9Publicar os resultados

9Morfolimpíadas (análise morfológica sem contexto)

9CLEF (RI cruzada e Resposta Automática a Perguntas - RAP)

9HAREM (Reconhecimento de Entidades Mencionadas - REM)

10 Information and Communication Technologies

Estrutura da Linguateca

9Pólo XLDB de Lisboa: Web portuguesa, RI e RI geográfica

9Pólo do Porto: terminologia, corpora especializados, avaliação de tradução automática

9Pólo de Braga: ferramentas, tradução automática, gestão e validação de recursos

9Pólo de Oslo: organização, portal, avaliações conjuntas, RAP

9Pólo COMPARA: corpora paralelos

9Pólo Odense: floresta sintática

9Pólo Coimbra: ontologias lexicais

11 Information and Communication Technologies

Quem é o público/usuários da Linguateca?

9

Pessoas envolvidas no desenvolvimento de aplicações de

PLN

9

Consumidores de dados (linguistas)

9

Utilizadores de programas que envolvem PLN

12 Information and Communication Technologies

Quem é a equipe?

9Sêniores: Diana Santos, José João Dias de Almeida, Elisabete

Ranchhod, Eckhard Bick, Belinda Maia, Ana Frankenberg Garcia, Mário J. Silva, Paulo Gomes

9Contratados para as tarefas “básicas” da Linguateca (um por pólo):

Luís Costa, Nuno Cardoso, Rui Vilela, Luís Miguel Cabral, António Silva

9Contratados à tarefa: Paulo Rocha, Susana Afonso, Raquel Marchi,

Rosário Silva

9Doutorandos: Marcirio Chaves, Alberto Simões, Nuno Seco, Luís

Sarmento

9Bolsistas para tarefas mais curtas: Susana Inácio, Ana Sofia Pinto

(3)

13 Information and Communication Technologies

Investigação (para tese de doutorado)

9Rachel Aires: É possível categorizar os textos da Web segundo as necessidades de informação dos usuários? (concluída Agosto 2005)

9Marcirio Chaves: É possível gerar ontologias geográficas úteis a partir da análise de textos em português?

9Alberto Simões: É possível aumentar significativamente os exemplos usados na Tradução Automática baseada em exemplos (TABE) com o processamento inteligente de corpora comparáveis?

9Nuno Seco: Métodos de criação e de avaliação de uma ontologia lexical para o português

9Luís Sarmento: Análise semântica robusta

14 Information and Communication Technologies

Investigação (para tese de mestrado)

9Alberto Simões: Alinhador à palavra (concluída Setembro 2004)

9Luís Miguel Cabral: Extrator de informação na rede para o catálogo de publicações

9Rui Vilela: Extração de informação

15 Information and Communication Technologies

Outras investigações feitas na Linguateca

9Métodos de criação de uma floresta sintática (treebank)

9Métodos de RAP

9Anotação sintática do português

9Usabilidade com base nos diários (logs) de serviços na Web

9Métodos de avaliação

9Detecção de entidades mencionadas (EM)

9Criação de serviços na rede

9Avaliação de recursos

16 Information and Communication Technologies

HAREM é Avaliação de Reconhecimento de

Entidades Mencionadas

9Problema: Identificar e classificar nomes próprios em contexto em texto em português, dada uma tabela inicial e quanto à morfologia

9A forma mais básica de semântica

9Três tarefas:

9Identificar uma EM 9Classificá-la morfologicamente

9Classificá-la pelo tipo de entidade a que se refere

9Organização de uma avaliação conjunta

9Criar uma colecção dourada anotada com as soluções

9Fornecer aos sistemas participantes grandes quantidades de texto (coleção HAREM)

9Avaliar (através da comparação automática com as soluções)

17 Information and Communication Technologies

O HAREM

9Calendário:

9Iniciado em setembro 2004

9Registo dos participantes finalizado em outubro 2004 9Coleção HAREM distribuída: 14 fev. 2005

9Prazo final para a recepção dos resultados dos sistemas: 16 fev. 2005 9Resultados finais: outubro de 2005

9Encontro em 2006

9Participantes:

910 sistemas (2 Brasil, 1 Dinamarca, 1 Espanha, 1 México, 5 Portugal)

9Organizadores: Diana Santos, Nuno Cardoso, mais

9Coleção dourada: Paulo Rocha, Susana Afonso, Anabela Barreiro 9Avaliação: Nuno Seco, Rui Vilela

18 Information and Communication Technologies

Originalidade do HAREM: organização

9Separação da tarefa em três

9identificação

9classificação semântica (categoria e tipo) 9classificação morfológica (género e número)

9Uso de vários gêneros textuais

9jornalístico,Web, entrevistas, texto técnico, literário, email, ...

9Distribuição de uma colecção com meta-dados

(4)

19 Information and Communication Technologies

Originalidade do HAREM: colecção dourada

9 Classificação das EMs em contexto

O Brasil venceu a Copa (PESSOAGRUPO), O Brasil assinou o tratado (ORGANIZACAO ADMINISTRACAO ), O Brasil tem muitos rios (LOCAL ADMINISTRATIVO ), Por amor ao Brasil

(ABSTRACCAO IDEIA ), ...

9 Novas categorias motivadas para o português

9PESSOA, ORGANIZAÇÃO, LOCAL, VALOR

9ABSTRACÇÃO, COISA, OBRA, ACONTECIMENTO

9 Tratamento de vagueza

9categorias |

9uso do marcador <ALT> para delimitar diferentes alternativas de identificação

9 Diretivas precisas

9quanto à interpretação

9quanto à delimitação

20 Information and Communication Technologies

Originalidade do HAREM: Método de avaliação

9Cenário global e selectivo

9possível escolher um subconjunto de categorias e/ou tipos

9Avaliação absoluta ou relativa (na classif. semântica e morfológica)

9contando com as correctamente identificadas, ou com todas as EMs na CD

9Considerar parcialmente identificadas

9Várias medidas originais

9Resultados

9por categoria 9por género 9por variante

21 Information and Communication Technologies

Resultados do HAREM

9Colecção dourada pública

9Arquitectura pública (programas em Perl e Java)

9Dez sistemas prontos a atacar o problema de REM em português (quantos haveria sem o HAREM?)

9Uma primeira medida do estado da técnica em português

9Objectivos científicos

9Medir a dificuldade do problema para o português 9Pôr em relevo as especificidades do português

9Verificar se as EMs podiam ser discriminadoras de gênero textual

22 Information and Communication Technologies

Considerações Finais

9

Panorâmica Linguateca

9

Modelo IRA

9

HAREM

9

Escola de Verão (Junho)

Referências

Documentos relacionados

Apesar da fenilcetonúria ser uma doença autossómica recessiva cujas causas e possíveis tratamentos já são bem conhecidos, o mecanismo que contribui para o atraso mental não

Avertissement : Cette liste n'est pas exhaustive et n'engage pas la responsabilité de la section consulaire de l'Ambassade de France à Lisbonne tant pour la qualité des prestations

c) Código Penal, de 1940, enquadrava a greve como crime, no caso de paralisação de trabalho, seguida de violência ou perturbação da ordem ou interesse público (arts. 5.452, de 1º

Na primeira fase do projeto, estudamos, analisamos e elaboramos as propostas pedagógicas de ensino de artes visuais a serem desenvolvidas nas oficinas de

Este trabalho tem a finalidade de demonstrar a sistematização da EUPS – Equação Universal de Perdas de Solo, em SIG (Sistema de Informação Geográfica) para quantificar as perdas

Os termos utilizados no estudo da aptidão física em povos indígenas são crescimento físico (Gugelmin, Santos e Leite, 2001; Coimbra Jr. Os estudos mencionados

Este estudo transversal abrangeu crianças com idade de 12 a 60 meses assistidas pelo serviço público de saúde do município de Viçosa, objetivando avaliar a prevalência de anemia

Assim, a teoria da superveniência, que parecia ser uma resposta para a questão da causação mental, dado o fechamento causal do mundo físico coloca-se co- mo um problema: