• Nenhum resultado encontrado

Novos rumos para a recuperação de informação geográfica em português

N/A
N/A
Protected

Academic year: 2021

Share "Novos rumos para a recuperação de informação geográfica em português"

Copied!
14
0
0

Texto

(1)

Novos rumos para a

recuperação de informação

geográfica em português

Nuno Cardoso

Universidade de Lisboa, Faculdade de Ciências, Laboratório LaSIGE ncardoso@xldb.di.fc.ul.pt

(2)

Motivação

Estamos a entrar numa

terceira geração

de

motores de busca.

[Broder, 2007]

“Dá-me o que eu quero”

, em vez “

dá-me o

que eu disse

”.

[Singhal, 2008]

Maior foco às necessidades

de cada um

.

[Belkin, 2008]

Mistura de textos com imagens, mapas, vídeos, ...

Histórico de consultas, perfil do utilizador.

Respostas mais inteligentes (sumarização

(3)

Motivação

Compreender

as intenções

do utilizador

Encontrar os

termos da

consulta

(4)

Objectivos da minha tese

Desenvolver novas formas semânticas de

reformulação automática de consultas

dos

utilizadores, e aplicar na

recuperação de

informação geográfica

em

português

.

Motor de recuperação

e ordenação de documentos

Reformulação automática

de consultas

Interface

Consulta:

“Carros

de Itália”

carro

,

automóvel

,

Itália, italiano, Ferrari

, viatura, FIAT,

(5)

Motor de recuperação

e ordenação de documentos

Compreendendo as consultas...

Interface

“Obras de

Castelo Branco”

obras, livros, romances, poemas, ... restaurantes, pizzarias, marisqueiras, ...

Exemplo típico: consultas com “Castelo Branco”

Reformulação automática

de consultas

Interface

“Restaurantes em

Castelo Branco”

Reformulação automática

de consultas

PESSOA: Camilo Castelo Branco LOCAL: Castelo Branco, Portugal

(6)

Rede de Conhecimento

Motor de recuperação

e ordenação de documentos

Reformulação automática

de consultas

Interface

Anotação e indexação

de documentos

Documentos

Rede de conhecimento

Rede semântica composta por

fontes de

informação em português

.

(7)

World-Wide Web

Fontes de informação

Ênfase em fontes ricas no domínio geográfico.

Wikipédia Ontologias geográficas Diários dos servidores

Lisboa...

Parte de:

Portugal (tipo: país) Adjacente a: Tejo (tipo: rio) Contém: Portela (tipo: aeroporto) Área: 84.8 km² Coordenadas: 38°42' N, 9°11' O População: 564,477 Listas de freguesias, castelos, universidades, museus, parques, ... Co-ocorrências entre consultas: “cidade”, “hotéis”, “benfica”, “pousadas”, “farmácia”, “Lisboa”, “metro”, “turismo”, ... Escolhas dos utilizadores: 1. www.cm-lisboa.pt 2. www.metrolisboa.pt ... Sítios: 1. www.cm-lisboa.pt 2. pt.wikipedia.org/wiki/ Lisboa 3. www.atl-turismolisboa.pt/ Títulos: ”Câmara Municipal de Lisboa”, “Lisboa”, “Associação de Turismo de Lisboa”, ...

(8)

Ponto da situação: Reformulação

automática de consultas

“Edifícios

altos em

Portugal”

QuerCol

edifícios,

altos,

portugal

portugal

Reformulação de termos

edifícios

,

altos

,

torres

,

arranha-céus

,

enormes

,

altura

,

portugal

,

clérigos

,

porto,...

Expansão ontológica

portugal

,

lisboa

,

porto

,

coimbra

,

braga

,

faro

,

beja

,

,

Motor de recuperação e ordenação de documentos Reformulação automática de consultas Interface Anotação e indexação de documentos Documentos

QuerCol

:

Módulo de reformulação de consultas.

Estratégias diferentes para termos geográficos e

termos não-geográficos.

Termos

não-geográficos

Termos geográficos

(9)

Eu visitei a

Torre dos

Clérigos, num

passeio que

fiz ao Porto.

Documentos iniciais

Documentos anotados

Eu visitei a

<CONSTRUÇÃO>

Torre dos Clérigos

</CONS

TRUÇÃO>

<LOCAL*>

Porto

</LOCAL*>

, num passeio que fiz

ao

<LOCAL>

Porto

<LOCAL>

.

R

EMBRANDT Wikipédia

Ponto da situação:

Anotação de documentos

Motor de recuperação e ordenação de documentos Reformulação automática de consultas Interface Anotação e indexação de documentos Documentos

REMBRANDT

: Reconhecimento de entidades mencionadas.

Usa a Wikipédia + regras gramáticas para reconhecer EM.

(10)

a, ao, clérigos, dos, eu,

fiz, num, passeio,

porto, que, torre, visitei.

textual

Índices

MG4J

porto

geográfico: implícito Eu visitei a <CONSTRUÇÃO>

Torre dos Clérigos</CONS

TRUÇÃO> <LOCAL*>Porto

</LOCAL*>, num passeio que fiz ao<LOCAL>Porto<LOCAL>.

Ponto da situação: Indexação e

recuperação geográfica de docs.

Motor de recuperação e ordenação de documentos Reformulação automática de consultas Interface Anotação e indexação de documentos Documentos

MG4J

: Indexação e ordenação de documentos.

Indexa separadamente as EM anotadas do

R

EMBRANDT

.

Documentos anotados

porto

(11)

Outros trabalhos em curso

R

ENOIR

– Módulo de experiências para a

geração de consultas semânticas.

(ex: PESSOA? presidente de LOCAL:Portugal)

Aproveitar as anotações do

R

EMBRANDT

para

enriquecer automaticamente as consultas.

Usar conhecimento (ex: DBpedia

[Auer et al, 2007]

)

para assistir a reformulação das consultas.

R

ENOIR:

xldb.di.fc.ul.pt/Renoir

(12)

Considerações finais

Consultas com âmbitos geográficos são

frequentes. Os motores de busca precisam

de se adaptar a esta realidade.

Como?

Compreendendo as consultas do utilizador.

Explorando diversas

fontes de informação

,

extraindo

conhecimento

, raciocinando sobre o

domínio geográfico

.

Personalizando os resultados de acordo com o

(13)

Novos rumos para a

recuperação de informação

geográfica em português

Nuno Cardoso

Universidade de Lisboa, Faculdade de Ciências, Laboratório LaSIGE

ncardoso@xldb.di.fc.ul.pt

Fim.

(14)

Referências

Andrei Broder, “The Next Generation Web Search and the Demise of

the Classic IR model “, ECIR 2007, Roma, Itália, Abril 2007

Amit Singhal. “Web Search: Challenges and Directions”, ECIR 2008,

Glasgow, Escócia, Abril 2008.

Nicholas J. Belkin. “Some(what) Grand Challenges for Information

Retrieval”, ECIR 2008, Glasgow, Escócia, Abril 2008.

Sören Auer, Christian Bizer, Georgi Kobilarov, Jens Lehmann,

Richard Cyganiak e Zachary Ives, “DBpedia: A Nucleus for a Web of Open Data”, ISWC 2007 + ASWC 2007, Busan, Coréia, 2007

Referências

Documentos relacionados

[r]

A Instituição de Ensino , a Concedente e o Estagiário elegem o Foro da Justiça Federal, Seção Judiciária do Rio Grande do Sul, Comarca de Pelotas, com renúncia expressa

Descrição das atividades a serem desenvolvidas pelo estagiário: Clique aqui para

A proposta consolidada será encaminhada pela PROEN ao Conselho Superior e/ou à Câmara de Ensino para ser apresentada e defendida pelo Diretor-geral ou

Gabinete do Reitor para inclusão do PPC na pauta do CODIR 6 3 8 9 10 11 3 Envio de memorando ao. Campus solicitando adequação do PPC (parecer

§ 1º A análise da documentação comprobatória de atividades complementares desenvolvidas pelo estudante é realizada ao término de cada período letivo, em reunião

- elaborar e pactuar com o aluno o Plano de Atividades a ser desenvolvido no estágio, incluindo a especificação da modalidade de avaliação, com a expressão

3º O trabalho de conclusão de curso (TCC) do Curso de constitui-se numa atividade curricular Caracterizar o tipo de atividade desenvolvida no curso como