João Rui Magalhães Velho da Cunha Galvão
Segmentação de vastos
volumes de dados com o SNN
agg
João Rui Magalhães Velho da Cunha Galvão
dezembro de 2014
UMinho | 201
4
Segment
ação de v
as
tos
volumes de dados com o SNN
agg
Universidade do Minho
Escola de Engenharia
dezembro de 2014
Dissertação de Mestrado
Ciclo de Estudos Integrados Conducentes ao
Grau de Mestre em Engenharia de Comunicações
Trabalho efetuado sob a orientação da
Professora Doutora Maribel Yasmina Santos
João Rui Magalhães Velho da Cunha Galvão
Segmentação de vastos
volumes de dados com o SNN
agg
Universidade do Minho
Escola de Engenharia
DECLARAÇÃO
Nome: ___________________________________________________________________
Correio electrónico: __________________________________________________________
Tel./Tlm.: _____________Número do Bilhete de Identidade:___________________________
Título da dissertação/tese_____________________________________________________
________________________________________________Ano de conclusão: __________
Orientador(es): _____________________________________________________________
________________________________________________________________________
Designação do Mestrado:
Ciclo de Estudos Integrados Conducentes ao Grau de Mestre em
Área de Especialização:_______________________________________________________
Escola/Instituto:____________________________________________________________
Departamento: _____________________________________________________________
1.
É AUTORIZADA A REPRODUÇÃO INTEGRAL DESTA TESE/TRABALHO APENAS PARA EFEITOS DE
INVESTIGAÇÃO, MEDIANTE DECLARAÇÃO ESCRITA DO INTERESSADO, QUE A TAL SE COMPROMETE;
2.
É AUTORIZADA A REPRODUÇÃO PARCIAL DESTA TESE/TRABALHO (indicar, caso tal seja necessário,
nº máximo de páginas, ilustrações, gráficos, etc.), APENAS PARA EFEITOS DE INVESTIGAÇÃO, , MEDIANTE
DECLARAÇÃO ESCRITA DO INTERESSADO, QUE A TAL SE COMPROMETE;
3.
DE ACORDO COM A LEGISLAÇÃO EM VIGOR, NÃO É PERMITIDA A REPRODUÇÃO DE QUALQUER
PARTE DESTA TESE/TRABALHO
Guimarães
, ___/___/______
Intracluster =
!
t
i=1
!
l
j=1
|F dist(o
j
, m
i
)|
l
t
,
Intercluster =
!
t
i=1
!
t
j=i
!
li
Y =1
!
lj
z=1
|F dist(o
y
,o
z
)
|
l
i
∗l
j
!
t
k=1
n
k
,
!
t
k=1
n
k
Kd-SNN
Gravação do tempo de
execução
3 - Cálculo da
densidade
4 - Classificação dos
Core points
Input
K
Eps
MinPts
5 - Construção dos
clusters
Inicio
1 - Leitura do dataset
2 - Lista de k vizinhos
Dataset
Output
Ficheiro
com o
resultado
do
clustering
Ficheiro
com a
duração
da
execução
0"
50"
100"
150"
200"
250"
300"
350"
Model&Quality&
Time&get&from&file&
Quality(vs.(Time(
t5.8k
+25%rp.txt085015080"
t5.8k
+50%rp.txt0102018096"
t5.8k
+100%rp.txt01360240128"
0"
20"
40"
60"
80"
100"
120"
140"
160"
Mean%of%
density%
density%
Max%of%
density%
Min%of%
Density%
Std%
Density(
t5.8k
+25%rp.txt185115180"
t5.8k
+50%rp.txt1102118196"
t5.8k
+100%rp.txt11361241128"
0"
50"
100"
150"
200"
250"
Model&Quality&
Time&get&from&file&
Quality(vs.(Time(
MARIN+Che
+25%rp.csv+89+16+84"
MARIN+Che
+50%rp.csv+107+18+101"
MARIN+Che
+100%rp.csv+142+25+134"
0"
20"
40"
60"
80"
100"
120"
140"
160"
Mean%of%
density%
density%
Max%of%
density%
Min%of%
Density%
Std%
Density(
MARIN-Che
+25%rp.csv-89-16-84"
MARIN-Che
+50%rp.csv-107-18-101"
MARIN-Che
+100%rp.csv-142-25-134"
0"
200"
400"
600"
800"
1000"
1200"
Model&Quality&
Time&get&from&file&
Quality(vs.(Time(
twi+er_F16000+25%rp.t
xt61706306160"
twi+er_F16000+50%rp.t
xt62046366192"
twi+er_F16000+100%rp.
txt62726486256"
0"
50"
100"
150"
200"
250"
300"
Mean%of%
density%
Max%of%
density%
density%
Min%of%
Density%
Std%
Density(
twi*er_F16000+25%rp.tx
t51705305160"
twi*er_F16000+50%rp.tx
t52045365192"
twi*er_F16000+100%rp.
txt52725485256"
SNNr&r
Gravação do tempo de
execução
3 - Cálculo da
densidade
4 - Classificação dos
Core points
Input
K
Eps
MinPts
5 - Construção dos
clusters
Inicio1 - Leitura do dataset
2 - Lista de k vizinhos
Dataset
Output
Ficheiro
com o
resultado
do
clustering
Ficheiro
com a
duração
da
execução
1.1 - Retira os pontos
repetidos
5.1 - Junta os pontos
repetidos
0" 20" 40" 60" 80" 100" 120" 140" 160" 180" 200" 107)19)101" 10 7) 19 )1 01 )R& R" 128)23)120" 12 8) 23 )1 20 )R& R" 170)30)160" 17 0) 30 )1 60 )R& R" t7.10k+25%rp" t7.10k+50%rp" t7.10k+100%rp"
Time%
Time" 0" 50" 100" 150" 200" 250" 300" 107(19(101" 10 7( 19 (1 01 (R& R" 85 (1 5( 80 (R& R" 128(23(120" 12 8( 23 (1 20 (R& R" 85 (1 5( 80 (R& R" 170(30(160" 17 0( 30 (1 60 (R& R" 85 (1 5( 80 (R& R" t7.10k+25%rp" t7.10k+50%rp" t7.10k+100%rp"Model&Quality&
Model&Quality& 0" 20" 40" 60" 80" 100" 120" 140" 160" 180" 107)19)101" 10 7) 19 )1 01 )R& R" 85 )1 5) 80 )R& R" 128)23)120" 12 8) 23 )1 20 )R& R" 85 )1 5) 80 )R& R" 170)30)160" 17 0) 30 )1 60 )R& R" 85 )1 5) 80 )R& R" t7.10k+25%rp" t7.10k+50%rp" t7.10k+100%rp"Density(
Mean%of%density% Max%of%density% Min%of%density% Density%Std%0" 50" 100" 150" 200" 250" 89(16(84" 89 (1 6( 84 (R& R" 107(18(101" 10 7( 18 (1 01 (R& R" 142(25(134" 14 2( 25 (1 34 (R& R"
MARIN(Che+25%rp" MARIN(Che+50%rp" MARIN(Che+100%rp"
Time%
Time" 0" 10" 20" 30" 40" 50" 60" 89+16+84" 89 +1 6+ 84 +R& R" 14 1+ 25 +1 33 +R& R" 107+18+101" 10 7+ 18 +1 01 +R& R" 14 1+ 25 +1 33 +R& R" 142+25+134" 14 2+ 25 +1 34 +R& R" 14 1+ 25 +1 33 +R& R"MARIN+Che+25%rp" MARIN+Che+50%rp" MARIN+Che+100%rp"
Model&Quality&
Model&Quality& 0" 20" 40" 60" 80" 100" 120" 140" 160" 89)16)84" 89 )1 6) 84 )R& R" 14 1) 25 )1 33 )R& R" 107)18)101" 10 7) 18 )1 01 )R& R" 14 1) 25 )1 33 )R& R" 142)25)134" 14 2) 25 )1 34 )R& R" 14 1) 25 )1 33 )R& R"MARIN)Che+25%rp" MARIN)Che+50%rp" MARIN)Che+100%rp"
Density(
Mean%of%density% Max%of%density% Min%of%density% Density%Std%
0" 200" 400" 600" 800" 1000" 1200" 170)30)160" 17 0) 30 )1 60 )R& R" 204)36)192" 20 4) 36 )1 92 )R& R" 272)48)256" 27 2) 48 )2 56 )R& R"
twi2er_F16000+25%rp" twi2er_F16000+50%rp" twi2er_F16000+100%rp"
Time%
Time" 245$ 250$ 255$ 260$ 265$ 270$ 170)30)160$ 17 0) 30 )1 60 )R& R$ 13 6) 24 )1 28 )R& R$ 204)36)192$ 20 4) 36 )1 92 )R& R$ 13 6) 24 )1 28 )R& R$ 272)48)256$ 27 2) 48 )2 56 )R& R$ 13 6) 24 )1 28 )R& R$twi2er_F16000+25%rp$ twi2er_F16000+50%rp$ twi2er_F16000+100%rp$
Model&Quality&
Model&Quality& 0" 50" 100" 150" 200" 250" 300" 170(30(160" 17 0( 30 (1 60 (R& R" 13 6( 24 (1 28 (R& R" 204(36(192" 20 4( 36 (1 92 (R& R" 13 6( 24 (1 28 (R& R" 272(48(256" 27 2( 48 (2 56 (R& R" 13 6( 24 (1 28 (R& R"twi2er_F16000+25%rp" twi2er_F16000+50%rp" twi2er_F16000+100%rp"
Density(
Mean%of%density% Max%of%density% Min%of%density% Density%Std%
SNNad
Gravação do tempo de
execução
3 - Cálculo da
densidade
4 - Classificação dos
Core points
Input
K
Eps
MinPts
5 - Construção dos
clusters
Inicio
1 - Leitura do dataset
2 - Lista de k vizinhos
Dataset
Output
Ficheiro
com o
resultado
do
clustering
Ficheiro
com a
duração
da
execução
1.1 - Retira os pontos
repetidos
5.1 - Junta os pontos
repetidos
3.1 - Incrementa a
densidade dos pontos
representativos
0" 20" 40" 60" 80" 100" 120" 140" 160" 180" 200" 107)19)101" 10 7) 19 )1 01 )ad " 128)23)120" 12 8) 23 )1 20 )ad " 170)30)160" 17 0) 30 )1 60 )ad " t7.10k+25%rp" t7.10k+50%rp" t7.10k+100%rp"
Time%
Time" 0" 50" 100" 150" 200" 250" 300" 107(19(101" 10 7( 19 (1 01 (ad " 85 (1 5( 80 (ad " 128(23(120" 12 8( 23 (1 20 (ad " 85 (1 5( 80 (ad " 170(30(160" 17 0( 30 (1 60 (ad " 85 (1 5( 80 (ad " t7.10k+25%rp" t7.10k+50%rp" t7.10k+100%rp"Model&Quality&
Model&Quality& 0" 20" 40" 60" 80" 100" 120" 140" 160" 180" 107)19)101" 10 7) 19 )1 01 )ad " 85 )1 5) 80 )ad " 128)23)120" 12 8) 23 )1 20 )ad " 85 )1 5) 80 )ad " 170)30)160" 17 0) 30 )1 60 )ad " 85 )1 5) 80 )ad " t7.10k+25%rp" t7.10k+50%rp" t7.10k+100%rp"Density(
Mean%of%density% Max%of%density% Min%of%density% Density%Std%0" 50" 100" 150" 200" 250" 89(16(84" 89 (1 6( 84 (ad " 107(18(101" 10 7( 18 (1 01 (ad " 142(25(134" 14 2( 25 (1 34 (ad "
MARIN(Che+25%rp" MARIN(Che+50%rp" MARIN(Che+100%rp"
Time%
Time" 0" 10" 20" 30" 40" 50" 60" 89+16+84" 89 +1 6+ 84 +ad " 14 1+ 25 +1 33 +ad " 107+18+101" 10 7+ 18 +1 01 +ad " 14 1+ 25 +1 33 +ad " 142+25+134" 14 2+ 25 +1 34 +ad " 14 1+ 25 +1 33 +ad "MARIN+Che+25%rp" MARIN+Che+50%rp" MARIN+Che+100%rp"
Model&Quality&
Model&Quality& 0" 20" 40" 60" 80" 100" 120" 140" 160" 89)16)84" 89 )1 6) 84 )ad " 14 1) 25 )1 33 )ad " 107)18)101" 10 7) 18 )1 01 )ad " 14 1) 25 )1 33 )ad " 142)25)134" 14 2) 25 )1 34 )ad " 14 1) 25 )1 33 )ad "MARIN)Che+25%rp" MARIN)Che+50%rp" MARIN)Che+100%rp"
Density(
Mean%of%density% Max%of%density% Min%of%density% Density%Std%
0" 200" 400" 600" 800" 1000" 1200" 170)30)160" 17 0) 30 )1 60 )ad " 204)36)192" 20 4) 36 )1 92 )ad " 272)48)256" 27 2) 48 )2 56 )ad "
twi2er_F16000+25%rp" twi2er_F16000+50%rp" twi2er_F16000+100%rp"
Time%
Time" 245$ 250$ 255$ 260$ 265$ 270$ 170)30)160$ 17 0) 30 )1 60 )ad $ 13 6) 24 )1 28 )ad $ 204)36)192$ 20 4) 36 )1 92 )ad $ 13 6) 24 )1 28 )ad $ 272)48)256$ 27 2) 48 )2 56 )ad $ 13 6) 24 )1 28 )ad $twi2er_F16000+25%rp$ twi2er_F16000+50%rp$ twi2er_F16000+100%rp$
Model&Quality&
Model&Quality& 0" 50" 100" 150" 200" 250" 300" 170(30(160" 17 0( 30 (1 60 (ad " 13 6( 24 (1 28 (ad " 204(36(192" 20 4( 36 (1 92 (ad " 13 6( 24 (1 28 (ad " 272(48(256" 27 2( 48 (2 56 (ad " 13 6( 24 (1 28 (ad "twi2er_F16000+25%rp" twi2er_F16000+50%rp" twi2er_F16000+100%rp"
Density(
Mean%of%density% Max%of%density% Min%of%density% Density%Std%
SNNagg
Gravação do tempo de
execução
3 - Cálculo da
densidade
4 - Classificação dos
Core points
Input
K
Eps
MinPts
5 - Construção dos
clusters
Inicio
1 - Leitura do dataset
2 - Lista de k vizinhos
Dataset
Output
Ficheiro
com o
resultado
do
clustering
Ficheiro
com a
duração
da
execução
1.1 - Retira os pontos
repetidos
5.1 - Junta os pontos
repetidos
3.1 - Incrementa a
densidade dos pontos
representativos
2.1 - Inclui o desvio
padrão, do n. pontos
repetidos, no cálculo
da distância.
F d(x, y) = F da(x, y)
∗ ω +
σ(n
x
, n
y
)
M ax
σ
∗ (1 − ω)
F da(x, y)
x
y σ(n
x
, n
y
)
x y
M ax
σ
0" 20" 40" 60" 80" 100" 120" 140" 160" 180" 200" 107)19)101" 10 7) 19 )1 01 )ag g" 128)23)120" 12 8) 23 )1 20 )ag g" 170)30)160" 17 0) 30 )1 60 )ag g" t7.10k+25%rp" t7.10k+50%rp" t7.10k+100%rp"
Time%
Time" 0" 50" 100" 150" 200" 250" 300" 107(19(101" 10 7( 19 (1 01 (ag g" 85 (1 5( 80 (ag g" 128(23(120" 12 8( 23 (1 20 (ag g" 85 (1 5( 80 (ag g" 170(30(160" 17 0( 30 (1 60 (ag g" 85 (1 5( 80 (ag g" t7.10k+25%rp" t7.10k+50%rp" t7.10k+100%rp"Model&Quality&
Model&Quality& 0" 20" 40" 60" 80" 100" 120" 140" 160" 180" 107)19)101" 10 7) 19 )1 01 )ag g" 85 )1 5) 80 )ag g" 128)23)120" 12 8) 23 )1 20 )ag g" 85 )1 5) 80 )ag g" 170)30)160" 17 0) 30 )1 60 )ag g" 85 )1 5) 80 )ag g" t7.10k+25%rp" t7.10k+50%rp" t7.10k+100%rp"Density(
Mean%of%density% Max%of%density% Min%of%density% Density%Std%0" 50" 100" 150" 200" 250" 89(16(84" 89 (1 6( 84 (ag g" 107(18(101" 10 7( 18 (1 01 (ag g" 142(25(134" 14 2( 25 (1 34 (ag g"
MARIN(Che+25%rp" MARIN(Che+50%rp" MARIN(Che+100%rp"
Time%
Time" 0" 5" 10" 15" 20" 25" 30" 35" 40" 45" 50" 89*16*84" 89 *1 6* 84 *ag g" 14 1* 25 *1 33 *ag g" 107*18*101" 10 7* 18 *1 01 *ag g" 14 1* 25 *1 33 *ag g" 142*25*134" 14 2* 25 *1 34 *ag g" 14 1* 25 *1 33 *ag g"MARIN*Che+25%rp" MARIN*Che+50%rp" MARIN*Che+100%rp"
Model&Quality&
Model&Quality& 0" 20" 40" 60" 80" 100" 120" 140" 160" 89)16)84" 89 )1 6) 84 )ag g" 14 1) 25 )1 33 )ag g" 107)18)101" 10 7) 18 )1 01 )ag g" 14 1) 25 )1 33 )ag g" 142)25)134" 14 2) 25 )1 34 )ag g" 14 1) 25 )1 33 )ag g"MARIN)Che+25%rp" MARIN)Che+50%rp" MARIN)Che+100%rp"
Density(
Mean%of%density% Max%of%density% Min%of%density% Density%Std%
0" 200" 400" 600" 800" 1000" 1200" 170)30)160" 17 0) 30 )1 60 )ag g" 204)36)192" 20 4) 36 )1 92 )ag g" 272)48)256" 27 2) 48 )2 56 )ag g"
twi2er_F16000+25%rp" twi2er_F16000+50%rp" twi2er_F16000+100%rp"
Time%
Time" 250$ 252$ 254$ 256$ 258$ 260$ 262$ 264$ 266$ 268$ 270$ 272$ 170*30*160$ 17 0* 30 *1 60 *ag g$ 13 6* 24 *1 28 *ag g$ 204*36*192$ 20 4* 36 *1 92 *ag g$ 13 6* 24 *1 28 *ag g$ 272*48*256$ 27 2* 48 *2 56 *ag g$ 13 6* 24 *1 28 *ag g$twi2er_F16000+25%rp$ twi2er_F16000+50%rp$ twi2er_F16000+100%rp$
Model&Quality&
Model&Quality& 0" 50" 100" 150" 200" 250" 300" 170(30(160" 17 0( 30 (1 60 (ag g" 13 6( 24 (1 28 (ag g" 204(36(192" 20 4( 36 (1 92 (ag g" 13 6( 24 (1 28 (ag g" 272(48(256" 27 2( 48 (2 56 (ag g" 13 6( 24 (1 28 (ag g"twi2er_F16000+25%rp" twi2er_F16000+50%rp" twi2er_F16000+100%rp"
Density(
Mean%of%density% Max%of%density% Min%of%density% Density%Std%
0" 10" 20" 30" 40" 50" 60" 70" 80" 90" 100" kd .S NN" SN N r&r " SN N ad " SN N ag g" kd .S NN" SN N r&r " SN N ad " SN N ag g" kd .S NN" SN N r&r " SN N ad " SN N ag g" kd .S NN" SN N r&r " SN N ad " SN N ag g" kd .S NN" SN N r&r " SN N ad " SN N ag g" kd .S NN" SN N r&r " SN N ad " SN N ag g" t4.8k+25%rp.txt.68.12.64" t4.8k+25%rp.txt.85.15.80" t4.8k+50%rp.txt.68.12.64" t4.8k+50%rp.txt.102.18.96" t4.8k+100%rp.txt.68.12.64" t4.8k +100%rp.txt.136.24.128"
Time%
0" 50" 100" 150" 200" 250" kd (S NN" SN N r&r " SN N ad " SN N ag g" kd (S NN" SN N r&r " SN N ad " SN N ag g" kd (S NN" SN N r&r " SN N ad " SN N ag g" kd (S NN" SN N r&r " SN N ad " SN N ag g" kd (S NN" SN N r&r " SN N ad " SN N ag g" kd (S NN" SN N r&r " SN N ad " SN N ag g" t4.8k+25%rp.txt(68(12(64" t4.8k+25%rp.txt(85(15(80" t4.8k+50%rp.txt(68(12(64" t4.8k+50%rp.txt(102(18(96" t4.8k+100%rp.txt(68(12(64" t4.8k +100%rp.txt(136(24(128"Model&Quality&
0" 2" 4" 6" 8" 10" 12" 14" 16" 18" 20" kd *S NN" SN N r&r " SN N ad " SN N ag g" kd *S NN" SN N r&r " SN N ad " SN N ag g" kd *S NN" SN N r&r " SN N ad " SN N ag g" kd *S NN" SN N r&r " SN N ad " SN N ag g" kd *S NN" SN N r&r " SN N ad " SN N ag g" kd *S NN" SN N r&r " SN N ad " SN N ag g" MARIN*LPG
+25%rp.csv*35*7*33" +25%rp.csv*45*8*43"MARIN*LPG +50%rp.csv*35*7*33"MARIN*LPG +50%rp.csv*54*10*51"MARIN*LPG +100%rp.csv*35*7*33"MARIN*LPG +100%rp.csv*71*13*67"MARIN*LPG
Time%
0" 0,1" 0,2" 0,3" 0,4" 0,5" 0,6" kd ,S NN" SN N r&r " SN N ad " SN N ag g" kd ,S NN" SN N r&r " SN N ad " SN N ag g" kd ,S NN" SN N r&r " SN N ad " SN N ag g" kd ,S NN" SN N r&r " SN N ad " SN N ag g" kd ,S NN" SN N r&r " SN N ad " SN N ag g" kd ,S NN" SN N r&r " SN N ad " SN N ag g" MARIN,LPG+25%rp.csv,35,7,33" +25%rp.csv,45,8,43"MARIN,LPG +50%rp.csv,35,7,33"MARIN,LPG +50%rp.csv,54,10,51"MARIN,LPG +100%rp.csv,35,7,33"MARIN,LPG +100%rp.csv,71,13,67"MARIN,LPG
0" 200" 400" 600" 800" 1000" 1200" 1400" 1600" 1800" kd *S NN" SN N r&r " SN N ad " SN N ag g" kd *S NN" SN N r&r " SN N ad " SN N ag g" kd *S NN" SN N r&r " SN N ad " SN N ag g" kd *S NN" SN N r&r " SN N ad " SN N ag g" kd *S NN" SN N r&r " SN N ad " SN N ag g" kd *S NN" SN N r&r " SN N ad " SN N ag g" tw_F32k+25%rp.txt*85*15*80" tw_F32k +25%rp.txt*272*48*256" tw_F32k+50%rp.txt*102*18*96" +50%rp.txt*272*48*256"tw_F32k +100%rp.txt*136*24*128"tw_F32k +100%rp.txt*272*48*256"tw_F32k