Minera¸
c˜
ao de Dados Espaciais
Carlos Augusto de S. Almeida
augusto.science@gmail.com
Curso de P´os-Gradua¸c˜ao em Ciˆencia da Computa¸c˜ao Universidade Federal de Campina Grande – UFCG
Campina Grande – PB Novembro / 2008
1 Introdu¸c˜ao
2 M´etodos
An´alise Estat´ıstica Generaliza¸c˜ao
Introdu¸c˜ao
Nonspatial-Data-Dominated Generalization Spatial-Data-Dominated Generalization STING
An´alise de Associa¸c˜oes
Introdu¸
c˜
ao: Motiva¸
c˜
ao
Problema: A quantidade de dados espaciais/n˜ao-espaciais (tera-byte de dados) coletada excede a capacidade de an´alise humana.
Solu¸c˜ao Encontrada: Aplicar t´ecnicas de minera¸c˜ao de dados para conhecimento dos dados espaciais.
Introdu¸
c˜
ao
Mas o que s˜ao dados espaciais?
Dados que se relacionam com objetos que ocupam espa¸co.
Eles podem ser descritos atrav´es de propriedades:
Geom´etricas (Ex: localiza¸c˜ao, ´area, ...) Topol´ogicas (Ex: adjacˆencia, inclus˜ao, ...)
Introdu¸
c˜
ao
O que ´e Minera¸c˜ao de Dados Espaciais?
Extrair padr˜oes e caracter´ısticas espaciais interessantes, relacionar dados espaciais e n˜ao-espaciais, e descobrir padr˜oes n˜ao triviais armazenados nos bancos de dados espaciais. ´
Introdu¸
c˜
ao
Desafio da Minera¸c˜ao de Dados Espacial
O grande desafio da Minera¸c˜ao de Dados Espacial ´e a
eficiˆencia dos algoritmos empregados devido ao grande volume de dados espaciais, a complexidade dos tipos de dados e aos m´etodos de acesso a esses dados.
Introdu¸
c˜
ao
Formas de representa¸c˜ao: regras, clusters, etc. Tipos de Regras:
Caracter´ıstica: Ex: descri¸c˜ao dos pre¸cos de casas em v´arias
regi˜oes.
Discriminante: Ex: compara¸c˜ao dos pre¸cos das casas em
diferentes regi˜oes.
Associa¸c˜ao: Ex: associa¸c˜ao do pre¸co das casas com
Introdu¸
c˜
ao: Aplica¸
c˜
oes
Sistemas de Informa¸c˜ao Geogr´afica (SIG); Controle de Tr´afego;
Gerenciamento de Recursos Naturais; Seguran¸ca;
Geologia; Medicina; ...
Introdu¸
c˜
ao: Estruturas de Dados Espaciais
Algoritmos de Minera¸c˜ao de Dados Espaciais freq¨uentemente utilizam opera¸c˜oes espaciais como uni˜oes e consultas de vizinhan¸cas. Portanto, m´etodos de acesso e estruturas de dados espaciais eficientes s˜ao fundamentais.
Exemplos:
MBR (Minimum Bounding Rectangles); Quad Tree;
R-trees; ...
Sum´ario Introdu¸c˜ao M´etodos Conclus˜oes Referˆencias
Introdu¸
c˜
ao: Estruturas de Dados Espaciais
MBR (Minimum Bounding Rectangles)
Caixa Limitante M´ınima.
MBR(A)
Introdu¸
c˜
ao: Estruturas de Dados Espaciais
Quad Tree 6 5 7 8 10 9 11 12 18 17 19 20 14 13 15 16Introdu¸
c˜
ao: Estruturas de Dados Espaciais
Introdu¸
c˜
ao: Estruturas de Dados Espaciais
R-tree
´
Arvore balanceada.
Cada n´o da ´arvore cont´em uma cole¸c˜ao de apontadores.
N´os internos apontam para uma sub´arvore. N´os-folha apontam para um dado espacial.
Introdu¸
c˜
ao: Estruturas de Dados Espaciais
An´
alise Estat´ıstica
Abordagem mais comum para analisar dados espaciais. Vantagens
´
Area muito avan¸cada;
Lida com dados num´ericos muito bem;
Desvantagens
Manipula¸c˜ao ineficiente de valores simb´olicos;
N˜ao trabalha bem com dados incompletos;
Generaliza¸
c˜
ao
Consiste basicamente:
(1) Coleta dos dados relevantes `a consulta.
(2) Generaliza¸c˜ao baseada no n´umero de valores diferentes.
Nonspatial-Data-Dominated Generalization
Suponhamos que desejamos saber qual o padr˜ao geral de precipita¸c˜ao na Col´umbia Britˆanica (British Columbia - B.C.) na primavera de 1990.
Prov´ıncias e Territ´orios do Canad´a. Col´umbia Britˆanica emvermelho.
Nonspatial-Data-Dominated Generalization
Desejamos saber qual ´e o padr˜ao de precipita¸c˜ao em B.C. na primavera de 1990. Seria interessante se pud´essemos resolver isso da seguinte forma:
extract region from precipitation-map
where province = "B.C." and period = "spring" and year = 1990 in relevance to precipitation and region.
Nonspatial-Data-Dominated Generalization
Base de dados.
Nan D.C.
Vic. Van. Kam.Pen. P.R.
P.G.
Figure 3. A map of British Columbia.
Table 2. Sample precipitation data (in inch) of 1990.
iiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiii city Jan Feb Mar Apr May June July Aug Sept Oct Nov Dec year total iiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiii Nanaimo 6.37 4.36 3.99 2.50 1.47 1.55 0.91 1.01 1.73 4.19 6.06 7.11 41.25 Vancouver 8.6 6.1 5.3 3.3 3.0 2.7 1.3 1.7 4.1 5.9 10.0 7.8 59.8 Victoria 11.12 9.74 5.15 2.68 2.51 1.07 0.42 2.42 0.95 2.69 2.64 4.36 45.75 Prince Rupert 9.8 7.6 8.4 6.7 5.3 4.1 4.7 5.2 7.7 12.2 12.3 11.3 95.16 . . . . . . iiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiii c c c c c c c c c c c c c c c c c c c c c c c c c c c c c c c c
Nonspatial-Data-Dominated Generalization
Uma das formas de resolver essa consulta ´e atrav´es da generaliza¸c˜ao dos atributos n˜ao-espaciais, obdecendo os seguintes passos:
(1) Coletar os dados n˜ao-espaciais relacionados a consulta.
(2) Executar a generaliza¸c˜ao orientada a atributos sobre os dados
n˜ao-espaciais.
Nonspatial-Data-Dominated Generalization
(1) Coletar os dados n˜ao-espaciais relacionados a consulta.
Executar a consulta, restringindo os dados: prov´ıncia = ’B.C.’
per´ıodo = ’primavera’ ano = 1990
Mas como selecionar o per´ıodo = primavera,
Nonspatial-Data-Dominated Generalization
Com o aux´ılio de uma hierarquia de generaliza¸c˜ao:
year winter autumn summer spring Nov. Oct. Sept. Aug. July June May Apr.
Mar. Dec. Jan. Feb.
Figure 2. A year-season-month hierarchy.
Hierarquia de Generaliza¸c˜ao
Agora sabemos quais dados extrair da base de dados: ’mˆes = mar¸co’ ou ’mˆes = abril’ ou ’mˆes = maio’.
Nonspatial-Data-Dominated Generalization
(2) Executar a generaliza¸c˜ao orientada a atributos sobre os dados n˜ao-espaciais.
Table 2. Sample precipitation data (in inch) of 1990.
iiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiii
city Jan Feb Mar Apr May June July Aug Sept Oct Nov Dec year total
iiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiii Nanaimo 6.37 4.36 3.99 2.50 1.47 1.55 0.91 1.01 1.73 4.19 6.06 7.11 41.25 Vancouver 8.6 6.1 5.3 3.3 3.0 2.7 1.3 1.7 4.1 5.9 10.0 7.8 59.8 Victoria 11.12 9.74 5.15 2.68 2.51 1.07 0.42 2.42 0.95 2.69 2.64 4.36 45.75 Prince Rupert 9.8 7.6 8.4 6.7 5.3 4.1 4.7 5.2 7.7 12.2 12.3 11.3 95.16 . . . . . . iiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiii c c c c c c c c c c c c c c c c c c c c c c c c c c c c c c c c
Os meses referentes `a ’primavera’ s˜ao mesclados,
atrav´es da m´edia dos valores.
Table 3. The relevant precipitation data of the regions and its generalization. iiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiii
city Mar Apr May Avg high-level concept
iiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiii Nanaimo 3.99 2.50 1.47 2.85 wet Vancouver 5.3 3.3 3.0 4.1 wet Victoria 5.15 2.68 2.51 3.43 wet iiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiii cc c c c c cc c c c c cc c c c c cc c c c c
Nonspatial-Data-Dominated Generalization
(2) Executar a generaliza¸c˜ao orientada a atributos sobre os dados n˜ao-espaciais.
Table 2. Sample precipitation data (in inch) of 1990.
iiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiii
city Jan Feb Mar Apr May June July Aug Sept Oct Nov Dec year total
iiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiii Nanaimo 6.37 4.36 3.99 2.50 1.47 1.55 0.91 1.01 1.73 4.19 6.06 7.11 41.25 Vancouver 8.6 6.1 5.3 3.3 3.0 2.7 1.3 1.7 4.1 5.9 10.0 7.8 59.8 Victoria 11.12 9.74 5.15 2.68 2.51 1.07 0.42 2.42 0.95 2.69 2.64 4.36 45.75 Prince Rupert 9.8 7.6 8.4 6.7 5.3 4.1 4.7 5.2 7.7 12.2 12.3 11.3 95.16 . . . . . . iiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiii c c c c c c c c c c c c c c c c c c c c c c c c c c c c c c c c
Os meses referentes `a ’primavera’ s˜ao mesclados, atrav´es da m´edia dos valores.
Table 3. The relevant precipitation data of the regions and its generalization. iiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiii city Mar Apr May Avg high-level concept iiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiii Nanaimo 3.99 2.50 1.47 2.85 wet c c c c c c c c c c c c
Nonspatial-Data-Dominated Generalization
(3) Executar a generaliza¸c˜ao dos dados espaciais.
Table 3. The relevant precipitation data of the regions and its generalization. iiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiii city Mar Apr May Avg high-level concept iiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiii Nanaimo 3.99 2.50 1.47 2.85 wet Vancouver 5.3 3.3 3.0 4.1 wet Victoria 5.15 2.68 2.51 3.43 wet iiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiii cc c c c c cc c c c c cc c c c c cc c c c c
Todas as regi˜oes adjacentes que possuem o mesmo n´ıvel de
Nonspatial-Data-Dominated Generalization
(3) Executar a generaliza¸c˜ao dos dados espaciais.
Table 3. The relevant precipitation data of the regions and its generalization. iiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiii city Mar Apr May Avg high-level concept iiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiii Nanaimo 3.99 2.50 1.47 2.85 wet Vancouver 5.3 3.3 3.0 4.1 wet Victoria 5.15 2.68 2.51 3.43 wet iiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiii cc c c c c cc c c c c cc c c c c cc c c c c
Todas as regi˜oes adjacentes que possuem o mesmo n´ıvel
Nonspatial-Data-Dominated Generalization
Resultado da Consulta. m.d. (VII) v.d. (VI) m.d. (V) f. (IV) m.w. (III) v.w. (II) w. (I)Figure 4. A sample B.C. spring precipitation diagram.
Table 4. General Precipitation Information.
iiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiii
Region Rainfall
iiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiii
Georgia Strait (I) wet
Coastal (II) very wet
Okanagan-Thompson (III) moderately wet Columbia-Kootenay (IV) fair
Central Interior (V) moderately dry Peace-Liard (VI) very dry Northern Interior (VII) moderately dry
iiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiii c c c c c c c c c c c c c c c c c c c c c c c c c c c c c c
O Algoritmo Nonspatial-Data-Dominant
Entrada:
D: O banco de dados espacial, H: A hierarquia espacial, C: A hierarquia conceitual, q: A consulta.
Saida:
As regras que caracterizam/relacionam os dados.
Nonspatial-Data-Dominant:
(1) Colete os dados n˜ao-espaciais referentes a consulta.
(2) Execute uma indu¸c˜ao orientada a atributos repetidamente
sobre os dados n˜ao-espaciais.
(3) Generalize os dados espaciais, para cada tupla de dados
Spatial-Data-Dominated Generalization
Muito similar ao Nonspatial-Data-Dominated Generalization. A indu¸c˜ao orientada a atributos ´e realizada sobre os dados espaciais.
Os dados n˜ao-espaciais acompanham a generaliza¸c˜ao dos dados espaciais.
Spatial-Data-Dominated Generalization
Dado as informa¸c˜oes de temperatura, qual ´e o padr˜ao de precipita¸c˜ao das regi˜oes de B.C. para o ver˜ao de 1990. Podemos resolver isso atrav´es da seguinte consulta:
extract characteristic rule from temperature-map
where province = "B.C." and period = "summer" and year = 1990 in relevance to region and temperature.
Spatial-Data-Dominated Generalization
Resultado da Consulta. v.h. h m h. m. m. m.c. m. m.h. m.Figure 6. A sample of B.C. summer temperature diagram.
Table 7. Generalized temperature information. iiiiiiiiiiiiiiiiiiiiiiiiiiiiii
Region Temperature iiiiiiiiiiiiiiiiiiiiiiiiiiiiii
North-West mild North-Central moderately cold
North-East mild Mid-West mild
Central moderately hot Mid-East hot South-West mild South-Central mild South-East very hot iiiiiiiiiiiiiiiiiiiiiiiiiiiiii cc c c c c c c c c c c c cc c c c c c c c c c c c cc c c c c c c c c c c c
O Algoritmo Spatial-Data-Dominant
Entrada:
D: O banco de dados espacial, H: A hierarquia espacial, C: A hierarquia conceitual, q: A consulta.
Saida:
As regras que caracterizam/relacionam os dados.
Spatial-Data-Dominant:
(1) Colete os dados espaciais referentes a consulta.
(2) Execute uma indu¸c˜ao orientada a atributos repetidamente
sobre os dados espaciais.
(3) Generalize os dados n˜ao-espaciais, para cada tupla de dados
STING
STING: STatistical INformation Grid Approach A ´area espacial ´e dividida em c´elulas retangulares.
H´a v´arios n´ıveis de c´elulas correspondentes a diferentes n´ıveis de resolu¸c˜ao.
STING
Cada c´elula do alto-n´ıvel ´e particionada em um n´umero de c´elulas menores no pr´oximo n´ıvel inferior.
As informa¸c˜oes estat´ısticas de cada c´elula s˜ao calculadas e armazenadas antecipadamente e s˜ao utilizadas para responder a consultas.
Os parˆametros das c´elulas do n´ıvel-superior podem ser facilmente calculadas atrav´es dos parˆametros do n´ıvel-inferior (m´edia, m´ınimo, m´aximo, ...).
STING
Vantagens
O processamento das consultas pode ser facilmente distribu´ıdo;
Quando os dados de uma c´elula s˜ao atualizados, n´os n˜ao
STING
Exemplo de Consulta: Obter as regi˜oes cuja densidade m´ınima seja de 100 casas por unidade de ´area.
STING
Exemplo de Consulta: Obter as regi˜oes cuja densidade m´ınima seja de 100 casas por unidade de ´area.
6 5 7 8 10 9 11 12 18 17 19 20 14 13 15 16
STING
Exemplo de Consulta: Obter as regi˜oes cuja densidade m´ınima seja de 100 casas por unidade de ´area.
6 5 7 8 10 9 11 12 18 17 19 20 14 13 15 16 4 3 2 2 5
STING
Exemplo de Consulta: Obter as regi˜oes cuja densidade m´ınima seja de 100 casas por unidade de ´area.
6 5 7 8 10 9 11 12 18 17 19 20 14 13 15 16 4 3 2 2 5 1 0 0 3 2 0 5 2 1 0 0
STING
Exemplo de Consulta: Obter as regi˜oes cuja densidade m´ınima seja de 100 casas por unidade de ´area.
11 6
3 10
STING
Exemplo de Consulta: Obter as regi˜oes cuja densidade m´ınima seja de 100 casas por unidade de ´area.
STING
Exemplo de Consulta: Obter as regi˜oes cuja densidade m´ınima seja de 100 casas por unidade de ´area.
STING
Exemplo de Consulta: Obter as regi˜oes cuja densidade m´ınima seja de 100 casas por unidade de ´area.
STING
Exemplo de Consulta: Obter as regi˜oes cuja densidade m´ınima seja de 100 casas por unidade de ´area.
11 6
3 10
STING
Exemplo de Consulta: Obter as regi˜oes cuja densidade m´ınima seja de 100 casas por unidade de ´area.
6 5 7 8 10 9 11 12 18 17 19 20 14 13 15 16 4 3 2 2 5 1 0 0 3 2 0 5 2 1 0 0
STING
Exemplo de Consulta: Obter as regi˜oes cuja densidade m´ınima seja de 100 casas por unidade de ´area.
6 5 7 8 10 9 11 12 18 17 19 20 14 13 15 16 4 3 2 2 5
STING
Exemplo de Consulta: Obter as regi˜oes cuja densidade m´ınima seja de 100 casas por unidade de ´area.
6 5 7 8 10 9 11 12 18 17 19 20 14 13 15 16
Generaliza¸
c˜
ao
Vantagens:
S˜ao algoritmos relativamente eficientes.
Desvantagens:
Assumem que as hierarquias est˜ao dispon´ıveis a priori.
A qualidade dos dados minerados depende muito da hierarquia.
An´
alise de Associa¸
c˜
oes
Regras de associa¸c˜ao espaciais representam a rela¸c˜ao entre dados espaciais e n˜ao-espaciais em um mapa. Por exemplo:
Um conseq¨uente n˜ao-espacial com um antecedente espacial e
n˜ao-espacial.
e um(X , casa) ∧ e proximo(X , praia) → e caro(X )
Um conseq¨uente espacial com um antecedente n˜ao-espacial.
e um(X , estacao de gas) → e uma(rodovia) Existem v´arios predicados:
Rela¸c˜oes topol´ogicas: intersec¸c˜ao, uni˜ao, ... Informa¸c˜oes de distˆancia: perto de, longe de, ...
An´
alise de Associa¸
c˜
oes
Como, em geral, existem uma grande quantidade de objetos espaciais relacionados que precisam ser analisados, o
procedimento pode sair caro.
Um m´etodo de otimiza¸c˜ao muito utilizado para an´alise de associa¸c˜oes ´e o refinamento progressivo.
(1): Minera grosseiramente o conjunto de dados utilizando um algoritmo r´apido.
(2): Aprimora os resultados obtidos no passo anterior utilizando algoritmos mais sofisticados.
Algoritmo para An´
alise de Associa¸
c˜
oes
(1): conj de obj relevantes := consulta bd; (2): conj de predicados grosseiros :=
computa¸c˜ao grosseira(conj de obj relevantes); (3): predicados grosseiros mais freq :=
filtro com suporte minimo(conj de predicados grosseiros); (4): predicados refinados :=
computa¸c˜ao refinada(predicados grosseiros mais freq); (5): encontra os predicados freq(predicados refinados);
Conclus˜
oes
Ainda existem muitas quest˜oes em aberto. A minera¸c˜ao de dados espaciais ainda est´a na infˆancia.
Linhas de pesquisa:
Linguagem de consulta.
Minera¸c˜ao de dados espa¸co-temporal.
Obrigado!!!
Referˆ
encias
Margaret H. Dunham.
Data Mining: Introductory and Advanced Topics.
Prentice Hall/Pearson Education, 2002.
K. Koperski.
A Progressive Refinement Approach To Spatial Data Mining.
PhD thesis, Simon Fraser University, 1999.
W. Lu, J. Han, B.C. Ooi, et al.
Discovery of General Knowledge in Large Spatial Databases.
In Proc. Far East Workshop on Geographic Information Systems, pages 275–289, 1993.