Expansão de ontologia geográfica
com textos em Português
Marcirio Silveira Chaves
Linguateca www.linguateca.pt
Seminário doutoral – Fev./2006 Orientadores: Diana Santos
Mário J. Silva
23-Fev-06 Seminário doutoral DI-FCUL 2
Estrutura da apresentação
9 Motivação
9 Fases do trabalho
9 Trabalho realizado
9 GKB / Geo-Net-PT019 Trabalho em andamento
9 Hipótese 9 Objetivos 9 Experimentos9 Tarefas a realizar
9 Resumo
23-Fev-06 Seminário doutoral DI-FCUL 3
Web Semântica
9 3 visões
¾ IA clássica
¾ Berners-Lee: base de dados
¾ Documentos anotados: PLN como base
9 Ontologia: conceito fundamental na arquitetura
da Web Semântica
9 “Assembling data is no longer the biggest
challenge. Instead, the major hurdle these days
is one of data integration.”
Russ Altman,Stanford
23-Fev-06 Seminário doutoral DI-FCUL 4
Problema de pesquisa
9Coleta, identificação, limpeza,
classificação, integração e
formalização da informação geográfica
(administrativa) sobre Portugal
9Formal
9Carência de informação geográfica detalhada formal
9Informal
9Nomes e relações geográficas informais
Fontes de informação (autoridades)
Ontologias
GKB
Textos
Ambiente de raciocínio e integração de conhecimento geográficoFases do trabalho
1. Criação da GKB
2. Caracterização da “geograficidade”
existente nos textos
3. Extração de conhecimento geográfico
4. Criação de ontologia geográfica
23-Fev-06 Seminário doutoral DI-FCUL 7
Contexto
9Linguateca –
Centro de recursos distribuídos
para o processamento computacional da língua
portuguesa
9Tumba!
9Projeto GREASE - Geographic Reasoning
for Search Engines
9WPT 03
23-Fev-06 Seminário doutoral DI-FCUL 8
GKB
9 GKB – Geographic Knowledge Base
¾ KB formada por fontes de informação distintas, heterogêneas e complementares
¾ Informação geográfica e de rede ¾ Mais de 800.000 registros ¾ Exportada como ontologias ¾ Geo-Net-PT01
¾ Feature
• Um objeto com significado no domínio selecionado do discurso [ISO19109].
Ex.: países, cidades e localidades
23-Fev-06 Seminário doutoral DI-FCUL 9
Integração de conhecimento na GKB
9 Hieraquia da GKB composta a partir de diferentes fontesde informação 9 Algoritmo:
¾ Procurao tipo de feature comum em mais baixo nívelem ambas as hieraquias
¾ Se encontra, ele identifica as ocorrências comuns entre as hierarquias
¾ Sobe na hierarquia e procura peloascendente comum em mais baixo nível
¾ Verifica a distância (em nº de relacionamentos parteDe) entre as ocorrências comuns dos tipos de features e seus ascendentes. O ascendente que tem a menor distância até as ocorrências comuns éintegradocom um relacionamento parteDe com o ascendente na outra hierarquia
23-Fev-06 Seminário doutoral DI-FCUL 10
Integração de conhecimento na GKB
9 Hieraquia da GKB composta a partir de diferentes fontesde informação H1 Norte Grande Porto Tâmega Matosinhos Vila Nova de Gaia Penafiel NUT2 NUT3 Concelho Concelho H2 Porto Matosinhos Vila Nova de Gaia Penafiel Distrito
23-Fev-06 Seminário doutoral DI-FCUL 11
Integração de conhecimento na GKB
9 Hieraquia da GKB composta a partir de diferentes fontesde informação H1 Norte Grande Porto Tâmega Matosinhos Vila Nova de Gaia Penafiel NUT2 NUT3 Concelho Concelho H2 Porto Matosinhos Vila Nova de Gaia Penafiel Distrito
23-Fev-06 Seminário doutoral DI-FCUL 12
Integração de conhecimento na GKB
9 Hieraquia da GKB composta a partir de diferentes fontesde informação H1 Norte Grande Porto Tâmega Matosinhos Vila Nova de Gaia Penafiel NUT2 NUT3 Concelho Concelho H2 Porto Matosinhos Vila Nova de Gaia Penafiel Distrito
23-Fev-06 Seminário doutoral DI-FCUL 13
Integração de conhecimento na GKB
Hierarquia integrada Norte Grande Porto Porto Tâmega Penafiel Matosinhos Vila Nova de Gaia¾ Os relacionamentos existentes em ambas as hierarquias são mantidos.
23-Fev-06 Seminário doutoral DI-FCUL 14
Inserindo âmbitos geográficos na GKB
9 Âmbitos geográficos ¾www.cm-lisboa.pt ¾ Lisboa (concelho) 9 Fatos e regras
9 Novos relacionamentos e conhecimento 9 Lógicas de Descrição (LDs)
9 Domínio geográfico
¾ Nomes compostos por múltiplas palavras são representados de diferentes formas
9 Domínio de rede
¾ Nomes de URLs são decompostos com base na divisão de domínios correspondente
23-Fev-06 Seminário doutoral DI-FCUL 15
9 ABox em LDs para o:
¾ Concelho de Santiago do Cacém geoFeatureName(270,“santiagodocacem”). geoFeatureName(270,“santiagocacem”). geoFeatureName(270,“santiago-do-cacem”). geoFeatureName(270,“santiago-cacem”).
geoFeatureType(270,“CON”).
¾ Web site: www.cm-santiago-do-cacem.pt
netSiteSubDomain(33684,“www”).
netSitePrefix(33684,“cm”).
netSiteDomainToken(33684,“santiago-do-cacem”).
netSiteTLD(33684,“pt”).
Inserindo âmbitos geográficos na GKB
23-Fev-06 Seminário doutoral DI-FCUL 16
9 Descrição da terminologia (TBox em LDs)
¾Concelhos
hasScope(idN,idG) ≡ ∃netSiteDomainToken(idN,X) ∩
((∃netSitePrefix(idN,“cm”) ∪ ∃netSitePrefix(idN,“mun”)) ∩
∃geoFeatureType(idG,“CON”) ∩ ∃geoFeatureName(idG,X).
Inserindo âmbitos geográficos na GKB
9 Ex.:
hasScope(idN,idG) ≡ ∃netSiteDomainToken(idN,X) ∩
(∃netSitePrefix(idN,“cm”) ∪ ∃netSitePrefix(idN,“mun”)) ∩ ∃geoFeatureType(idG,“CON”) ∩ ∃geoFeatureName(idG,X). netSiteDomainToken(33684, “santiago-do-cacem”). netSitePrefix(33684, “cm”). geoFeatureType(270, “CON”). geoFeatureName(270, “santiago-do-cacem”).
Novo conhecimento: hasScope(33684, 270).
Inserindo âmbitos geográficos na GKB
9 Âmbitos atribuídos aos sites de Portugal com base nas regras
Tipo de Site # de domínios de sites # de combinações distritos 33 17 (52%) concelhos 288 261 (90%) freguesias 300 124 (41%) escolas básicas 1955 124 (6%) centros de formação 152 55 (36%) escolas secundárias 402 105 (26%)
23-Fev-06 Seminário doutoral DI-FCUL 19
GKB
Tipo de localidade # nomes distintos # nomes multi-palavra Sobre-posição ExemplosNUT1 3 2 3 Continente, R.A. Açores, R.A. Madeira NUT2 7 2 7 Norte, Centro, Algarve NUT3 30 22 11 Grande Lisboa, Alentejo Central Distrito 18 3 18 Porto, Setúbal, Beja Concelho 308 121 308 Lisboa, Sintra, Lagos Ilha 11 11 11 Ilha das Flores, Ilha do Pico Freguesia 3.595 1.462 2.876 Meca, Pego, Mina Localidade 26.924 16.073 7.584 Igreja, Cabana, Horta Zona 3.594 2.392 1.737 Santana, São Bento, Forca Arruamento 75.946 51.087 27.805 Travessa Azenha, Rua Azenha Total 110.436 71.175
-64% dos nomes são multi-palavra.
23-Fev-06 Seminário doutoral DI-FCUL 20
Geo-Net-PT01
<gn:Geo_Featurerdf:ID="GEO_238"> <gn:geo_id>238</gn:geo_id> <gn:geo_name
xml:lang="pt">Porto</gn:geo_name> <gn:geo_type_id rdf:resource="#CON"/> <gn:info_source_id rdf:resource="#INE"/> <gn:related_to> <rdf:Bag> <rdf:li> <gn:Geo_Relationship> <gn:rel_type_id rdf:resource="#PRT"/> <gn:geo_id><rdf:Bag> <rdf:li rdf:resource="#GEO_130"/> <rdf:li rdf:resource="#GEO_3967"/> </rdf:Bag></gn:geo_id>
</gn:Geo_Relationship> </rdf:li>
<rdf:li><gn:Geo_Relationship> <gn:rel_type_id rdf:resource="#ADJ"/>
<gn:geo_id> <rdf:Bag>
<rdf:li rdf:resource="#GEO_127"/> <rdf:li rdf:resource="#GEO_156"/> <rdf:li rdf:resource="#GEO_162"/> <rdf:li rdf:resource="#GEO_331"/> </rdf:Bag> </gn:geo_id> </gn:Geo_Relationship></rdf:li> </rdf:Bag> </gn:related_to> <gn:population>263131</gn:population> </gn:Geo_Feature>
23-Fev-06 Seminário doutoral DI-FCUL 21
Geo-Net-PT01
<gn:Net_Featurerdf:ID="NET_32359"> <gn:net_id>32359</gn:net_id>
<gn:net_name>www.cf-coimbra.rcts.pt</gn:net_name> <gn:net_type_id rdf:resource="#STE"/>
<gn:info_source_id rdf:resource="#PT5"/> <gn:ip_number>194.210.0.18</gn:ip_number>
<gn:scope rdf:resource="#GEO_91"/>
</gn:Net_Feature>
23-Fev-06 Seminário doutoral DI-FCUL 22
Estatísticas sobre as ontologias criadas
Estatística Portugal Mundo
# de features 418,065 12,293
# de relacionamentos 419,867 12,258
# de relacionamentos parte-de 418,340 (99.83%) 12,245 (99,89%)
# de relacionamentos de equivalência 395 (0.09%) 2,501(20,40%) # de relacionamentos de adjacência 1,132 (0.27%) 13 (0.10%) Média de features mais abrangentes por feature 1.0016 1.07 Média de features mais específicas por feature 10.56 475.44 Média de features equivalentes por feature com equivalente 1.99 3.82 Média de features adjacentes por feature com adjacente 3.54 6.5 # de features sem ascendentes 3 (0.00%) 1(0.00%) # de features sem descendentes 374,349 (89.54%) 12,045 (97,98%) # de features sem equivalentes 417,867 (99.95%) 11,819 (96,14%) # de features sem adjacentes 417,739 (99.92%) 12,291 (99,99%)
23-Fev-06 Seminário doutoral DI-FCUL 23
Aplicações que usam as ontologias
geográficas produzidas pela GKB
9 Ferramenta REM (CAGE)
¾ Identificação e classificação de referências geográficas em texto
9 Ferramenta de atribuição de âmbitos
geográficos a documentos
9 Interface de RI para consultas geográficas
23-Fev-06 Seminário doutoral DI-FCUL 25
Trabalho em andamento
Hipótese:
Existe informação geográfica relevante e
interessante na web e é possível integrá-la em
ontologias geográficas
23-Fev-06 Seminário doutoral DI-FCUL 26
Objetivos subsequentes
9 explorar a informação geográfica em textos em
português de forma a suportar a expansão de
conceitos, relações e ocorrências de uma
ontologia geográfica
¾ caracterizar a informação geográfica presente em textos na web portuguesa
¾ extrair fatos e relações geográficas
¾ comparar uma uma ontologia geográfica derivada de textos em linguagem natural com uma criada a partir de fontes de dados administrativas
¾ integrar fatos e relações geográficas na ontologia
23-Fev-06 Seminário doutoral DI-FCUL 27
Caracterização da informação geográfica
presente em textos na web portuguesa
9Objetivo
¾Ter uma idéia preliminar da informação
geográfica na web portuguesa
¾Verificar a freqüência e distribuição das EMs
(SER, ORG, LOC)
¾Comparação com o conhecimento
armazenado da GKB
23-Fev-06 Seminário doutoral DI-FCUL 28
1º Estudo
9 SIEMÊS – sistema REM
9 1.000 documentos (1.704.679 palavras)
9 Cada documento apresenta, em média:
¾ 15,6 EMs distintas
¾ 3,8 EMs geográficas distintas
9 60,58% das EM distintas são multi-palavra.
9 50% das EMs geográficas distintas são
multi-palavra.
1º Estudo
9 Nomes de cidade, município ou vila (POV) ¾ tipo de geo-EM mais freqüente (77%)
9 Média: quase 3 EMs geográficas POV por documento 9 80% das geo-EMs na amostra analisada não estão
incluídas na Geo-Net-PT01
9 21.92% das localidades identificadas pelo SIEMÊS são nomes de localidades considerados oficiais pelas fontes de informação administrativas portuguesas
9 A parte da web portuguesa relacionada com Portugal é pequena (~20%).
2º Estudo
9 Relação entre as categorias SER, ORG e LOC
9 5.500 documentos aleatórios
9 Em média ...
¾ cada documento contém 1.562 palavras ¾ 1 EM da categoria Pessoa em cada 245 palavras ¾ 1 Organização em cada 248 palavras
23-Fev-06 Seminário doutoral DI-FCUL 31
2º Estudo
9 Amostra: 5 grupos de 1.000 documentos
9 EMs da categoria Local do tipo POV em
comparação com a Geo-Net-PT01, somente de
19% a 22% das localidades extraídas de texto
estão na Geo-Net-PT01
9 5% dos nomes de pessoas e organizações são
idênticos aos nomes de localidades
9 46% dos nomes multi-palavra de pessoas e
51% dos nomes multi-palavra de organizações
contém um nome geográfico
23-Fev-06 Seminário doutoral DI-FCUL 32
3º Estudo
9 30.000 documentos
9 190 Mbytes de texto anotado
9 201.691 EMs distintas correspondentes a três
categorias: SER, ORG, LOC
9 Média
9 6,72 EMs distintas por documento 9 1,33 LOCs por documento
23-Fev-06 Seminário doutoral DI-FCUL 33
3º Estudo
9 Das 40.022 localidades distintas, existem
27.463 localidades do tipo POV, das quais 5.140
(18,7%) estão na Geo-Net-PT01
¾ Geografia física¾ Nomes de fora de Portugal ¾ Nomes informais
9 + de 68% da localidades geográficas detectadas
pelo SIEMÊS são do tipo POV
9 Ambigüidade
¾ 63.2% dos nomes de pessoas e
¾ 54.5% das organizações contém um nome geográfico
23-Fev-06 Seminário doutoral DI-FCUL 34
Análise dos experimentos
# docs. 36.500
Média EM distintas p/ doc. 6,48
1,30 77,80 15.8
Média LOC distintas p/ doc. EM distintas multi-palavra (%) Localidades (POV) na Geo-Net-PT01 (%)
9 LOCs representam cerca de 20% das EMs na amostra analisada do WPT 03
9 EM distintas multi-palavra são pervasivas 9 ~85% das localidades do tipo POV não estão na Geo-Net-PT01
23-Fev-06 Seminário doutoral DI-FCUL 35
Tarefas a realizar
9 Extração de informação em textos web
¾ Relações semânticas existentes na Geo-Net-PT-01 • Parte de, adjancente, equivalente
• Relações entre categorias
– LOC-LOC – ORG-LOC
9 Comparação de uma ontologia geográfica
derivada de textos em línguagem natural com
uma criada a partir de fontes de dados
administrativas
9 Integração de fatos e relações geográficas na
ontologia
23-Fev-06 Seminário doutoral DI-FCUL 36
Resumo
9GKB – Geo-Net-PT01
9Análise da geograficidade da web
portuguesa
¾Experimentos com sistemas REM
9Extração de Informação geográfica
9Expansão da Geo-Net-PT01 com
23-Fev-06 Seminário doutoral DI-FCUL 37
Resultados Parciais
9 Teóricos¾ Chaves, Marcirio Silveira; Santos, Diana. What kinds of
geographical information are there in the Portuguese Web?
PROPOR, 2006. (no prelo)
¾ Chaves, Marcirio Silveira; Silva, Mário J. e Martins, Bruno. A
Geographic Knowledge Base for Semantic Web Applications.
SBBD05, pp. 40-54, 2005.
¾ Chaves, Marcirio Silveira; Silva, Mário J. e Martins, Bruno. GKB
-Geographic Knowledge Base. DI/FCUL, TR05-12, Julho, 2005. ¾ Martins, Bruno, Chaves, Marcirio Silveira e Silva, Mário J. Assigning
Geographical Scopes To Web Pages. ECIR 2005: 564-567, 2005 ¾ Martins, Bruno, Chaves, Marcirio Silveira e Silva, Mário J. Challenges and
resources for evaluating geographical IR. GIR 2005: 65-69, 2005.
23-Fev-06 Seminário doutoral DI-FCUL 38
Resultados Parciais
9 Teóricos¾ Silva, Mário J.; Martins, Bruno; Chaves, Marcirio Silveira; Cardoso, Nuno; Afonso, Ana Paula. Adding Geographic Scopes to Web Resources. CEUS - Computers, Environment and Urban Systems, Elsevier Science. (no prelo).
¾ Cardoso, Nuno; Martins, Bruno;Chaves, Marcirio Silveira; Andrade, Leonardo; Silva, Mário J. The XLDB Group at GeoCLEF 2005. 6th CLEF Workshop, 2005.
¾ Santos, Diana et al. Linguateca: um Centro de Recursos Distribuído para o Processamento Computacional da Língua Portuguesa. Proc. of the international workshop "Taller de Herramientas y Recursos Linguísticos para el Espanõl y el Portugués", pp. 147-154, IBERAMIA, Puebla, Mexico, 2004.
9 Práticos
¾ Geo-Net-PT01: Primeira ontologia geográfica pública de Portugal -http://xldb.di.fc.ul.pt/geonetpt