1 Information and Communication Technologies
Linguateca: presente e futuro
Diana Santos & Marcirio Chaves
www.linguateca.pt
2 Information and Communication Technologies
Estrutura da apresentação
9
Linguateca – Panorâmica
9Origem, Objetivos, Resultados
9Equipe, Investigação, Estrutura
9
HAREM
3 Information and Communication Technologies
9Centro de recursos distribuído para o processamento computacional da língua portuguesa
9Projecto financiado pela FCT através do POSI (2000-2006)
9Primeiro pólo no SINTEF ICT, Oslo, começou em 2000 (actividade no SINTEF começou em 1998 com o projeto Processamento
Computacional do Português)
Modelo IRA 9Informação 9Recursos 9Avaliação
Linguateca, um projeto para o português
Oslo
Lisboa
XLDB
Braga
Porto
Lisboa
LabEL
Odense
Coimbra
Lisboa
COMPARA
4 Information and Communication Technologies
Linguateca num relance
9> 1000 links Mais de 1.500.000 visitas ao site
9Recursos públicos
9Incentivar a investigação e colaboração
9Medida e comparação formal
9Uma língua, muitas culturas
9Cooperação usando a Web
9Não à adaptação direta das aplicações para o inglês
5 Information and Communication Technologies
A origem da Linguateca
9Resultado da participação no Livro Branco, que identificou
9Problemas: falta de ...
9recursos públicos
9cooperação entre os grupos, Brasil e Portugal 9avaliação
9esforço na manutenção e disponibilização de recursos
9Soluções: Projeto piloto dedicado à
9Criação de recursos públicos (desenvolvimento, questões legais, etc.) 9Organização de avaliações conjuntas
9Criação de um portal dedicado à área
9Em rede (juntando mão-de-obra a grupos de investigação de acordo com os pressupostos da Linguateca)
6 Information and Communication Technologies
Alguns objetivos da Linguateca
9Fazer com que o PLN do português seja tão qualificado como o das outras línguas
9Impedir que as pessoas continuassem a trabalhar em PLN do inglês com a desculpa de que não havia recursos para o português
9Evitar que os grupos jogassem fora (ou guardassem secretamente) os seus recursos em vez de os disponibilizar, ajudando-os e contribuindo para essa tarefa
9Conseguir colaboração entre os vários países de língua portuguesa para tratarem todas as variantes e não só a “sua”
7 Information and Communication Technologies
Alguns resultados: Informação
9
Portal constantemente actualizado, www.linguateca.pt
9
Catálogo de recursos, atores e publicações
9
Resposta a todos os usuários
9
Manutenção de um repositório
9
Documentação sobre os recursos criados pela Linguateca
9
Informação sobre as avaliações conjuntas
9
Publicações no âmbito da Linguateca
8 Information and Communication Technologies
Alguns resultados: Recursos
9Serviços na Web para daracesso a corpora e ferramentas
9AC/DC (Acesso a
corpora/Disponibilização de corpora) 9COMPARA
9Esfinge 9SIEMÊS
9Criação de corpora, colecções, ou dados para distribuição
9CETEMPúblico, CETENFolha, WPT03 9GKB (Geographic Knowledge Base) e
Geo-Net-PT01
9REPENTINO (REPositório para reconhecimento de ENTidades com NOme) 9Colecção douradas: CHAVE,
Morfolimpíadas e HAREM
9
Várias ferramentas
9Atomizadores e separadores de frases 9Sistemas de REM
9Alinhadores à palavra
9 Information and Communication Technologies
Alguns resultados: Avaliações conjuntas
9Selecionar uma área
9Criar recursos para a avaliar, em consenso com os participantes
9Criar programas de avaliação
9Organizar um evento
9Publicar os resultados
9Morfolimpíadas (análise morfológica sem contexto)
9CLEF (RI cruzada e Resposta Automática a Perguntas - RAP)
9HAREM (Reconhecimento de Entidades Mencionadas - REM)
10 Information and Communication Technologies
Estrutura da Linguateca
9Pólo XLDB de Lisboa: Web portuguesa, RI e RI geográfica
9Pólo do Porto: terminologia, corpora especializados, avaliação de tradução automática
9Pólo de Braga: ferramentas, tradução automática, gestão e validação de recursos
9Pólo de Oslo: organização, portal, avaliações conjuntas, RAP
9Pólo COMPARA: corpora paralelos
9Pólo Odense: floresta sintática
9Pólo Coimbra: ontologias lexicais
11 Information and Communication Technologies
Quem é o público/usuários da Linguateca?
9
Pessoas envolvidas no desenvolvimento de aplicações de
PLN
9
Consumidores de dados (linguistas)
9
Utilizadores de programas que envolvem PLN
12 Information and Communication Technologies
Quem é a equipe?
9Sêniores: Diana Santos, José João Dias de Almeida, Elisabete
Ranchhod, Eckhard Bick, Belinda Maia, Ana Frankenberg Garcia, Mário J. Silva, Paulo Gomes
9Contratados para as tarefas “básicas” da Linguateca (um por pólo):
Luís Costa, Nuno Cardoso, Rui Vilela, Luís Miguel Cabral, António Silva
9Contratados à tarefa: Paulo Rocha, Susana Afonso, Raquel Marchi,
Rosário Silva
9Doutorandos: Marcirio Chaves, Alberto Simões, Nuno Seco, Luís
Sarmento
9Bolsistas para tarefas mais curtas: Susana Inácio, Ana Sofia Pinto
13 Information and Communication Technologies
Investigação (para tese de doutorado)
9Rachel Aires: É possível categorizar os textos da Web segundo as necessidades de informação dos usuários? (concluída Agosto 2005)
9Marcirio Chaves: É possível gerar ontologias geográficas úteis a partir da análise de textos em português?
9Alberto Simões: É possível aumentar significativamente os exemplos usados na Tradução Automática baseada em exemplos (TABE) com o processamento inteligente de corpora comparáveis?
9Nuno Seco: Métodos de criação e de avaliação de uma ontologia lexical para o português
9Luís Sarmento: Análise semântica robusta
14 Information and Communication Technologies
Investigação (para tese de mestrado)
9Alberto Simões: Alinhador à palavra (concluída Setembro 2004)
9Luís Miguel Cabral: Extrator de informação na rede para o catálogo de publicações
9Rui Vilela: Extração de informação
15 Information and Communication Technologies
Outras investigações feitas na Linguateca
9Métodos de criação de uma floresta sintática (treebank)
9Métodos de RAP
9Anotação sintática do português
9Usabilidade com base nos diários (logs) de serviços na Web
9Métodos de avaliação
9Detecção de entidades mencionadas (EM)
9Criação de serviços na rede
9Avaliação de recursos
16 Information and Communication Technologies
HAREM é Avaliação de Reconhecimento de
Entidades Mencionadas
9Problema: Identificar e classificar nomes próprios em contexto em texto em português, dada uma tabela inicial e quanto à morfologia
9A forma mais básica de semântica
9Três tarefas:
9Identificar uma EM 9Classificá-la morfologicamente
9Classificá-la pelo tipo de entidade a que se refere
9Organização de uma avaliação conjunta
9Criar uma colecção dourada anotada com as soluções
9Fornecer aos sistemas participantes grandes quantidades de texto (coleção HAREM)
9Avaliar (através da comparação automática com as soluções)
17 Information and Communication Technologies
O HAREM
9Calendário:
9Iniciado em setembro 2004
9Registo dos participantes finalizado em outubro 2004 9Coleção HAREM distribuída: 14 fev. 2005
9Prazo final para a recepção dos resultados dos sistemas: 16 fev. 2005 9Resultados finais: outubro de 2005
9Encontro em 2006
9Participantes:
910 sistemas (2 Brasil, 1 Dinamarca, 1 Espanha, 1 México, 5 Portugal)
9Organizadores: Diana Santos, Nuno Cardoso, mais
9Coleção dourada: Paulo Rocha, Susana Afonso, Anabela Barreiro 9Avaliação: Nuno Seco, Rui Vilela
18 Information and Communication Technologies
Originalidade do HAREM: organização
9Separação da tarefa em três
9identificação
9classificação semântica (categoria e tipo) 9classificação morfológica (género e número)
9Uso de vários gêneros textuais
9jornalístico,Web, entrevistas, texto técnico, literário, email, ...
9Distribuição de uma colecção com meta-dados
19 Information and Communication Technologies
Originalidade do HAREM: colecção dourada
9 Classificação das EMs em contexto
O Brasil venceu a Copa (PESSOAGRUPO), O Brasil assinou o tratado (ORGANIZACAO ADMINISTRACAO ), O Brasil tem muitos rios (LOCAL ADMINISTRATIVO ), Por amor ao Brasil
(ABSTRACCAO IDEIA ), ...
9 Novas categorias motivadas para o português
9PESSOA, ORGANIZAÇÃO, LOCAL, VALOR
9ABSTRACÇÃO, COISA, OBRA, ACONTECIMENTO
9 Tratamento de vagueza
9categorias |
9uso do marcador <ALT> para delimitar diferentes alternativas de identificação
9 Diretivas precisas
9quanto à interpretação
9quanto à delimitação
20 Information and Communication Technologies
Originalidade do HAREM: Método de avaliação
9Cenário global e selectivo
9possível escolher um subconjunto de categorias e/ou tipos
9Avaliação absoluta ou relativa (na classif. semântica e morfológica)
9contando com as correctamente identificadas, ou com todas as EMs na CD
9Considerar parcialmente identificadas
9Várias medidas originais
9Resultados
9por categoria 9por género 9por variante
21 Information and Communication Technologies
Resultados do HAREM
9Colecção dourada pública
9Arquitectura pública (programas em Perl e Java)
9Dez sistemas prontos a atacar o problema de REM em português (quantos haveria sem o HAREM?)
9Uma primeira medida do estado da técnica em português
9Objectivos científicos
9Medir a dificuldade do problema para o português 9Pôr em relevo as especificidades do português
9Verificar se as EMs podiam ser discriminadoras de gênero textual
22 Information and Communication Technologies