• Nenhum resultado encontrado

Expansão de ontologia geográfica com textos em Português

N/A
N/A
Protected

Academic year: 2021

Share "Expansão de ontologia geográfica com textos em Português"

Copied!
7
0
0

Texto

(1)

Expansão de ontologia geográfica

com textos em Português

Marcirio Silveira Chaves

Linguateca www.linguateca.pt

Seminário doutoral – Fev./2006 Orientadores: Diana Santos

Mário J. Silva

23-Fev-06 Seminário doutoral DI-FCUL 2

Estrutura da apresentação

9 Motivação

9 Fases do trabalho

9 Trabalho realizado

9 GKB / Geo-Net-PT01

9 Trabalho em andamento

9 Hipótese 9 Objetivos 9 Experimentos

9 Tarefas a realizar

9 Resumo

23-Fev-06 Seminário doutoral DI-FCUL 3

Web Semântica

9 3 visões

¾ IA clássica

¾ Berners-Lee: base de dados

¾ Documentos anotados: PLN como base

9 Ontologia: conceito fundamental na arquitetura

da Web Semântica

9 “Assembling data is no longer the biggest

challenge. Instead, the major hurdle these days

is one of data integration.”

Russ Altman,Stanford

23-Fev-06 Seminário doutoral DI-FCUL 4

Problema de pesquisa

9Coleta, identificação, limpeza,

classificação, integração e

formalização da informação geográfica

(administrativa) sobre Portugal

9Formal

9Carência de informação geográfica detalhada formal

9Informal

9Nomes e relações geográficas informais

Fontes de informação (autoridades)

Ontologias

GKB

Textos

Ambiente de raciocínio e integração de conhecimento geográfico

Fases do trabalho

1. Criação da GKB

2. Caracterização da “geograficidade”

existente nos textos

3. Extração de conhecimento geográfico

4. Criação de ontologia geográfica

(2)

23-Fev-06 Seminário doutoral DI-FCUL 7

Contexto

9Linguateca –

Centro de recursos distribuídos

para o processamento computacional da língua

portuguesa

9Tumba!

9Projeto GREASE - Geographic Reasoning

for Search Engines

9WPT 03

23-Fev-06 Seminário doutoral DI-FCUL 8

GKB

9 GKB – Geographic Knowledge Base

¾ KB formada por fontes de informação distintas, heterogêneas e complementares

¾ Informação geográfica e de rede ¾ Mais de 800.000 registros ¾ Exportada como ontologias ¾ Geo-Net-PT01

¾ Feature

• Um objeto com significado no domínio selecionado do discurso [ISO19109].

Ex.: países, cidades e localidades

23-Fev-06 Seminário doutoral DI-FCUL 9

Integração de conhecimento na GKB

9 Hieraquia da GKB composta a partir de diferentes fontes

de informação 9 Algoritmo:

¾ Procurao tipo de feature comum em mais baixo nívelem ambas as hieraquias

¾ Se encontra, ele identifica as ocorrências comuns entre as hierarquias

¾ Sobe na hierarquia e procura peloascendente comum em mais baixo nível

¾ Verifica a distância (em nº de relacionamentos parteDe) entre as ocorrências comuns dos tipos de features e seus ascendentes. O ascendente que tem a menor distância até as ocorrências comuns éintegradocom um relacionamento parteDe com o ascendente na outra hierarquia

23-Fev-06 Seminário doutoral DI-FCUL 10

Integração de conhecimento na GKB

9 Hieraquia da GKB composta a partir de diferentes fontes

de informação H1 Norte Grande Porto Tâmega Matosinhos Vila Nova de Gaia Penafiel NUT2 NUT3 Concelho Concelho H2 Porto Matosinhos Vila Nova de Gaia Penafiel Distrito

23-Fev-06 Seminário doutoral DI-FCUL 11

Integração de conhecimento na GKB

9 Hieraquia da GKB composta a partir de diferentes fontes

de informação H1 Norte Grande Porto Tâmega Matosinhos Vila Nova de Gaia Penafiel NUT2 NUT3 Concelho Concelho H2 Porto Matosinhos Vila Nova de Gaia Penafiel Distrito

23-Fev-06 Seminário doutoral DI-FCUL 12

Integração de conhecimento na GKB

9 Hieraquia da GKB composta a partir de diferentes fontes

de informação H1 Norte Grande Porto Tâmega Matosinhos Vila Nova de Gaia Penafiel NUT2 NUT3 Concelho Concelho H2 Porto Matosinhos Vila Nova de Gaia Penafiel Distrito

(3)

23-Fev-06 Seminário doutoral DI-FCUL 13

Integração de conhecimento na GKB

Hierarquia integrada Norte Grande Porto Porto Tâmega Penafiel Matosinhos Vila Nova de Gaia

¾ Os relacionamentos existentes em ambas as hierarquias são mantidos.

23-Fev-06 Seminário doutoral DI-FCUL 14

Inserindo âmbitos geográficos na GKB

9 Âmbitos geográficos ¾www.cm-lisboa.pt ¾ Lisboa (concelho) 9 Fatos e regras

9 Novos relacionamentos e conhecimento 9 Lógicas de Descrição (LDs)

9 Domínio geográfico

¾ Nomes compostos por múltiplas palavras são representados de diferentes formas

9 Domínio de rede

¾ Nomes de URLs são decompostos com base na divisão de domínios correspondente

23-Fev-06 Seminário doutoral DI-FCUL 15

9 ABox em LDs para o:

¾ Concelho de Santiago do Cacém geoFeatureName(270,“santiagodocacem”). geoFeatureName(270,“santiagocacem”). geoFeatureName(270,“santiago-do-cacem”). geoFeatureName(270,“santiago-cacem”).

geoFeatureType(270,“CON”).

¾ Web site: www.cm-santiago-do-cacem.pt

netSiteSubDomain(33684,“www”).

netSitePrefix(33684,“cm”).

netSiteDomainToken(33684,“santiago-do-cacem”).

netSiteTLD(33684,“pt”).

Inserindo âmbitos geográficos na GKB

23-Fev-06 Seminário doutoral DI-FCUL 16

9 Descrição da terminologia (TBox em LDs)

¾Concelhos

hasScope(idN,idG) ≡ ∃netSiteDomainToken(idN,X) ∩

((∃netSitePrefix(idN,“cm”) ∪ ∃netSitePrefix(idN,“mun”)) ∩

∃geoFeatureType(idG,“CON”) ∩ ∃geoFeatureName(idG,X).

Inserindo âmbitos geográficos na GKB

9 Ex.:

hasScope(idN,idG) ≡ ∃netSiteDomainToken(idN,X) ∩

(∃netSitePrefix(idN,“cm”) ∪ ∃netSitePrefix(idN,“mun”)) ∩ ∃geoFeatureType(idG,“CON”) ∩ ∃geoFeatureName(idG,X). netSiteDomainToken(33684, “santiago-do-cacem”). netSitePrefix(33684, “cm”). geoFeatureType(270, “CON”). geoFeatureName(270, “santiago-do-cacem”).

Novo conhecimento: hasScope(33684, 270).

Inserindo âmbitos geográficos na GKB

9 Âmbitos atribuídos aos sites de Portugal com base nas regras

Tipo de Site # de domínios de sites # de combinações distritos 33 17 (52%) concelhos 288 261 (90%) freguesias 300 124 (41%) escolas básicas 1955 124 (6%) centros de formação 152 55 (36%) escolas secundárias 402 105 (26%)

(4)

23-Fev-06 Seminário doutoral DI-FCUL 19

GKB

Tipo de localidade # nomes distintos # nomes multi-palavra Sobre-posição Exemplos

NUT1 3 2 3 Continente, R.A. Açores, R.A. Madeira NUT2 7 2 7 Norte, Centro, Algarve NUT3 30 22 11 Grande Lisboa, Alentejo Central Distrito 18 3 18 Porto, Setúbal, Beja Concelho 308 121 308 Lisboa, Sintra, Lagos Ilha 11 11 11 Ilha das Flores, Ilha do Pico Freguesia 3.595 1.462 2.876 Meca, Pego, Mina Localidade 26.924 16.073 7.584 Igreja, Cabana, Horta Zona 3.594 2.392 1.737 Santana, São Bento, Forca Arruamento 75.946 51.087 27.805 Travessa Azenha, Rua Azenha Total 110.436 71.175

-64% dos nomes são multi-palavra.

23-Fev-06 Seminário doutoral DI-FCUL 20

Geo-Net-PT01

<gn:Geo_Featurerdf:ID="GEO_238"> <gn:geo_id>238</gn:geo_id> <gn:geo_name

xml:lang="pt">Porto</gn:geo_name> <gn:geo_type_id rdf:resource="#CON"/> <gn:info_source_id rdf:resource="#INE"/> <gn:related_to> <rdf:Bag> <rdf:li> <gn:Geo_Relationship> <gn:rel_type_id rdf:resource="#PRT"/> <gn:geo_id><rdf:Bag> <rdf:li rdf:resource="#GEO_130"/> <rdf:li rdf:resource="#GEO_3967"/> </rdf:Bag></gn:geo_id>

</gn:Geo_Relationship> </rdf:li>

<rdf:li><gn:Geo_Relationship> <gn:rel_type_id rdf:resource="#ADJ"/>

<gn:geo_id> <rdf:Bag>

<rdf:li rdf:resource="#GEO_127"/> <rdf:li rdf:resource="#GEO_156"/> <rdf:li rdf:resource="#GEO_162"/> <rdf:li rdf:resource="#GEO_331"/> </rdf:Bag> </gn:geo_id> </gn:Geo_Relationship></rdf:li> </rdf:Bag> </gn:related_to> <gn:population>263131</gn:population> </gn:Geo_Feature>

23-Fev-06 Seminário doutoral DI-FCUL 21

Geo-Net-PT01

<gn:Net_Featurerdf:ID="NET_32359"> <gn:net_id>32359</gn:net_id>

<gn:net_name>www.cf-coimbra.rcts.pt</gn:net_name> <gn:net_type_id rdf:resource="#STE"/>

<gn:info_source_id rdf:resource="#PT5"/> <gn:ip_number>194.210.0.18</gn:ip_number>

<gn:scope rdf:resource="#GEO_91"/>

</gn:Net_Feature>

23-Fev-06 Seminário doutoral DI-FCUL 22

Estatísticas sobre as ontologias criadas

Estatística Portugal Mundo

# de features 418,065 12,293

# de relacionamentos 419,867 12,258

# de relacionamentos parte-de 418,340 (99.83%) 12,245 (99,89%)

# de relacionamentos de equivalência 395 (0.09%) 2,501(20,40%) # de relacionamentos de adjacência 1,132 (0.27%) 13 (0.10%) Média de features mais abrangentes por feature 1.0016 1.07 Média de features mais específicas por feature 10.56 475.44 Média de features equivalentes por feature com equivalente 1.99 3.82 Média de features adjacentes por feature com adjacente 3.54 6.5 # de features sem ascendentes 3 (0.00%) 1(0.00%) # de features sem descendentes 374,349 (89.54%) 12,045 (97,98%) # de features sem equivalentes 417,867 (99.95%) 11,819 (96,14%) # de features sem adjacentes 417,739 (99.92%) 12,291 (99,99%)

23-Fev-06 Seminário doutoral DI-FCUL 23

Aplicações que usam as ontologias

geográficas produzidas pela GKB

9 Ferramenta REM (CAGE)

¾ Identificação e classificação de referências geográficas em texto

9 Ferramenta de atribuição de âmbitos

geográficos a documentos

9 Interface de RI para consultas geográficas

(5)

23-Fev-06 Seminário doutoral DI-FCUL 25

Trabalho em andamento

Hipótese:

Existe informação geográfica relevante e

interessante na web e é possível integrá-la em

ontologias geográficas

23-Fev-06 Seminário doutoral DI-FCUL 26

Objetivos subsequentes

9 explorar a informação geográfica em textos em

português de forma a suportar a expansão de

conceitos, relações e ocorrências de uma

ontologia geográfica

¾ caracterizar a informação geográfica presente em textos na web portuguesa

¾ extrair fatos e relações geográficas

¾ comparar uma uma ontologia geográfica derivada de textos em linguagem natural com uma criada a partir de fontes de dados administrativas

¾ integrar fatos e relações geográficas na ontologia

23-Fev-06 Seminário doutoral DI-FCUL 27

Caracterização da informação geográfica

presente em textos na web portuguesa

9Objetivo

¾Ter uma idéia preliminar da informação

geográfica na web portuguesa

¾Verificar a freqüência e distribuição das EMs

(SER, ORG, LOC)

¾Comparação com o conhecimento

armazenado da GKB

23-Fev-06 Seminário doutoral DI-FCUL 28

1º Estudo

9 SIEMÊS – sistema REM

9 1.000 documentos (1.704.679 palavras)

9 Cada documento apresenta, em média:

¾ 15,6 EMs distintas

¾ 3,8 EMs geográficas distintas

9 60,58% das EM distintas são multi-palavra.

9 50% das EMs geográficas distintas são

multi-palavra.

1º Estudo

9 Nomes de cidade, município ou vila (POV) ¾ tipo de geo-EM mais freqüente (77%)

9 Média: quase 3 EMs geográficas POV por documento 9 80% das geo-EMs na amostra analisada não estão

incluídas na Geo-Net-PT01

9 21.92% das localidades identificadas pelo SIEMÊS são nomes de localidades considerados oficiais pelas fontes de informação administrativas portuguesas

9 A parte da web portuguesa relacionada com Portugal é pequena (~20%).

2º Estudo

9 Relação entre as categorias SER, ORG e LOC

9 5.500 documentos aleatórios

9 Em média ...

¾ cada documento contém 1.562 palavras ¾ 1 EM da categoria Pessoa em cada 245 palavras ¾ 1 Organização em cada 248 palavras

(6)

23-Fev-06 Seminário doutoral DI-FCUL 31

2º Estudo

9 Amostra: 5 grupos de 1.000 documentos

9 EMs da categoria Local do tipo POV em

comparação com a Geo-Net-PT01, somente de

19% a 22% das localidades extraídas de texto

estão na Geo-Net-PT01

9 5% dos nomes de pessoas e organizações são

idênticos aos nomes de localidades

9 46% dos nomes multi-palavra de pessoas e

51% dos nomes multi-palavra de organizações

contém um nome geográfico

23-Fev-06 Seminário doutoral DI-FCUL 32

3º Estudo

9 30.000 documentos

9 190 Mbytes de texto anotado

9 201.691 EMs distintas correspondentes a três

categorias: SER, ORG, LOC

9 Média

9 6,72 EMs distintas por documento 9 1,33 LOCs por documento

23-Fev-06 Seminário doutoral DI-FCUL 33

3º Estudo

9 Das 40.022 localidades distintas, existem

27.463 localidades do tipo POV, das quais 5.140

(18,7%) estão na Geo-Net-PT01

¾ Geografia física

¾ Nomes de fora de Portugal ¾ Nomes informais

9 + de 68% da localidades geográficas detectadas

pelo SIEMÊS são do tipo POV

9 Ambigüidade

¾ 63.2% dos nomes de pessoas e

¾ 54.5% das organizações contém um nome geográfico

23-Fev-06 Seminário doutoral DI-FCUL 34

Análise dos experimentos

# docs. 36.500

Média EM distintas p/ doc. 6,48

1,30 77,80 15.8

Média LOC distintas p/ doc. EM distintas multi-palavra (%) Localidades (POV) na Geo-Net-PT01 (%)

9 LOCs representam cerca de 20% das EMs na amostra analisada do WPT 03

9 EM distintas multi-palavra são pervasivas 9 ~85% das localidades do tipo POV não estão na Geo-Net-PT01

23-Fev-06 Seminário doutoral DI-FCUL 35

Tarefas a realizar

9 Extração de informação em textos web

¾ Relações semânticas existentes na Geo-Net-PT-01 • Parte de, adjancente, equivalente

• Relações entre categorias

– LOC-LOC – ORG-LOC

9 Comparação de uma ontologia geográfica

derivada de textos em línguagem natural com

uma criada a partir de fontes de dados

administrativas

9 Integração de fatos e relações geográficas na

ontologia

23-Fev-06 Seminário doutoral DI-FCUL 36

Resumo

9GKB – Geo-Net-PT01

9Análise da geograficidade da web

portuguesa

¾Experimentos com sistemas REM

9Extração de Informação geográfica

9Expansão da Geo-Net-PT01 com

(7)

23-Fev-06 Seminário doutoral DI-FCUL 37

Resultados Parciais

9 Teóricos

¾ Chaves, Marcirio Silveira; Santos, Diana. What kinds of

geographical information are there in the Portuguese Web?

PROPOR, 2006. (no prelo)

¾ Chaves, Marcirio Silveira; Silva, Mário J. e Martins, Bruno. A

Geographic Knowledge Base for Semantic Web Applications.

SBBD05, pp. 40-54, 2005.

¾ Chaves, Marcirio Silveira; Silva, Mário J. e Martins, Bruno. GKB

-Geographic Knowledge Base. DI/FCUL, TR05-12, Julho, 2005. ¾ Martins, Bruno, Chaves, Marcirio Silveira e Silva, Mário J. Assigning

Geographical Scopes To Web Pages. ECIR 2005: 564-567, 2005 ¾ Martins, Bruno, Chaves, Marcirio Silveira e Silva, Mário J. Challenges and

resources for evaluating geographical IR. GIR 2005: 65-69, 2005.

23-Fev-06 Seminário doutoral DI-FCUL 38

Resultados Parciais

9 Teóricos

¾ Silva, Mário J.; Martins, Bruno; Chaves, Marcirio Silveira; Cardoso, Nuno; Afonso, Ana Paula. Adding Geographic Scopes to Web Resources. CEUS - Computers, Environment and Urban Systems, Elsevier Science. (no prelo).

¾ Cardoso, Nuno; Martins, Bruno;Chaves, Marcirio Silveira; Andrade, Leonardo; Silva, Mário J. The XLDB Group at GeoCLEF 2005. 6th CLEF Workshop, 2005.

¾ Santos, Diana et al. Linguateca: um Centro de Recursos Distribuído para o Processamento Computacional da Língua Portuguesa. Proc. of the international workshop "Taller de Herramientas y Recursos Linguísticos para el Espanõl y el Portugués", pp. 147-154, IBERAMIA, Puebla, Mexico, 2004.

9 Práticos

¾ Geo-Net-PT01: Primeira ontologia geográfica pública de Portugal -http://xldb.di.fc.ul.pt/geonetpt

Referências

Documentos relacionados

Organizar a capacitação dos profissionais de acordo com os protocolos, estabelecer periodicidade para atualização, com a versão atualizada na unidade, definir

No mesmo ano (em 2007), é lançado o Plano de Desenvolvimento da Educação (PDE), que no eixo Educação Inclusiva, enfatiza a necessidade da formação de

A autora fornece uma revisão sucinta de constatações a respeito do desenvolvimento cognitivo e socioemocional de crianças não gemelares, e conclui que não foram

Espécies carnívoras foram as mais atropeladas, mas também foram as mais comuns no entorno (Figura 6A). Espécies semi-aquáticas e arborícolas ocorrem no entorno, mas não

A Supervisão de Desporto e Recreação da Faculdade de Educação Física da UFMT, fica previamente autorizada a utilizar a cessão de uso de imagem dos

Existem publicações científicas do corpo docente do ciclo de estudos em revistas internacionais com revisão por pares, nos últimos 5 anos e na área do ciclo de estudos.. Existem

Foi concluído então que a suplementação de curcumina durante o período de 1 semana possui efeitos positivos nos marcadores selecionados de estresse oxidativo

Para se alcançar aos objetivos propostos, foi realizada pesquisa bibliográfica sobre os principais temas, como: reforma agrária, a região do Brejo Paraibano, a produção de