• Nenhum resultado encontrado

Conjuntos de Dados e Descri¸c˜ao dos Experimentos

4.5 Experimentos

4.5.1 Conjuntos de Dados e Descri¸c˜ao dos Experimentos

Foram executados experimentos sobre os algoritmos desenvolvidos sobre conjuntos de dados georeferenciados e conjuntos de imagens. Esta se¸c˜ao apresenta resultados obtidos sobre dois desses conjuntos, descritos a seguir.

Conjunto CidadesAmericanas

O primeiro conjunto de dados ´e o conjunto CidadesAmericanas, que cont´em o nome, o estado, as coordenadas geogr´aficas e mais 97 atributos de dados demogr´aficos de 25.374 cidades dos Estados Unidos. Este conjunto foi obtido por meio da combina¸c˜ao de da- dos demogr´aficos das cidades, referentes ao censo americano de 2000, e as coordenadas geogr´aficas do sistema Tiger, ambos disponibilizados pelo U.S. Census Bureau. Para avaliar os algoritmos que executam consultas ck-NN restritas por condi¸c˜oes baseadas em

agrega¸c˜ao por contagem, ´e preciso verificar como o desempenho de umack-NNq ´e afetado

pelo n´umero de vizinhos (k), pelo valor de c e pela seletividade da condi¸c˜ao de filtragem da condi¸c˜ao baseada em agrega¸c˜ao fornecida. Observe-se que uma ck-NNq restrita por uma

c-acond, tal que θ = ‘≥’ e que a condi¸c˜ao de filtragem tcond que ´e satisfeita por apenas 1% das tuplas da rela¸c˜ao de entrada (o que corresponde a uma seletividade de 99%), tende a ser mais custosa do que uma ck-NNq restrita por uma c-acond semelhante, mas cuja

condi¸c˜ao de filtragem ´e satisfeita por 20% das tuplas da rela¸c˜ao de entrada (seletividade de 80%). No caso de ck-NNq restritas por condi¸c˜oes baseadas em tupla, o desempenho

dos algoritmos ´e afetado apenas pelo n´umero de vizinhos e pela seletividade da condi¸c˜ao. Desta forma, para permitir avaliar o impacto desses parˆametros, as consultas deste teste foram definidas como segue:

Consulta 9: Retorne as k cidades que s˜ao as mais pr´oximas `a cidade de referˆencia, de forma que o resultado inclua ao menos c cidades com popula¸c˜ao maior ou igual a x habitantes.

Consulta 10: Retorne as k cidades que s˜ao as mais pr´oximas `a cidade de referˆencia, de forma que o resultado inclua ao menos c cidades, de estados distintos, com popula¸c˜ao maior ou igual a x habitantes.

Consulta 11: Retorne as k cidades que s˜ao as mais pr´oximas `a cidade de referˆencia que tenham popula¸c˜ao maior ou igual a x habitantes.

onde a Consulta 9 ´e a umack-NNq restrita por uma c-acond, a Consulta 10 ´e umack-NNq

com uma cd-acond e a Consulta 11 ´e uma ck-NNq restrita por uma tcond. Com respeito

baterias de 500 consultas, cada uma com uma cidade de referˆencia sorteada aleatoriamente e usando a distˆancia L2 sobre as coordenadas das cidades como fun¸c˜ao de dissimilaridade,

sendo: 1a

bateria: variando-se c entre 1 e 100 para a Consulta 9 e entre 1 e 10 para a Consulta 10 e, para ambas as consultas, fixando-se k = 100 e fixando-se a seletividade da tcond em 95% (dada por x = 29674);

2a

bateria: fixando-se c = 20 para a Consulta 9 e c = 5 para a Consulta 10 e, para ambas as consultas, variando-se k entre 20 e 400 e fixando-se a seletividade da tcond em 95%;

3a

bateria: fixando-se c = 20 para a Consulta 9 e c = 5 para a Consulta 10 e, para ambas as consultas, fixando-se k = 100 e variando-se a seletividade da tcond entre 50% e 99%.

Para asck-NNq com condi¸c˜oes baseadas em tupla, foram executadas duas baterias de

500 consultas, sendo: 1a

bateria: variando-se k entre 1 e 400 e fixando-se a seletividade da tcond em 95%; 2a

bateria: fixando-se k = 100 e variando-se a seletividade da tcond entre 50% e 99%. Conjunto DICOM HC200k

O segundo conjunto de dados, denominado DICOM HC200k2, foi obtido a partir de

uma cole¸c˜ao de 200 mil imagens DICOM, do Hospital das Cl´ınicas da Faculdade de Medicina de Ribeir˜ao Preto da USP (HCFMRP-USP). De cada imagem, foi extra´ıdo o histograma normalizado de 256 n´ıveis de cinza e 13 atributos do cabe¸calho da imagem, incluindo a descri¸c˜ao do exame, a idade do paciente e outras informa¸c˜oes. As consultas executadas sobre este conjunto de dados utilizaram a distˆancia L1 e foram enunciadas

como segue:

Consulta 12: Retorne as k imagens que s˜ao as mais pr´oximas `a imagem de referˆencia, de forma que ao menos c delas sejam de pacientes com x anos de idade ou mais.

Consulta 13: Retorne as k imagens que s˜ao as mais pr´oximas `a imagem de referˆencia, de forma que ao menos c delas sejam de exames/estudos distintos de pacientes com x anos de idade ou mais.

2

Este conjunto de dados ´e uma parte do conjunto DICOM HC, utilizado nos experimentos apresen-

Consulta 14: Retorne as k imagens que s˜ao as mais pr´oximas `a imagem de referˆencia que sejam de pacientes com x anos de idade ou mais.

Para as consultas baseadas em agrega¸c˜ao por contagem sobre este conjunto (consultas 12 e 13), tamb´em foram executadas trˆes baterias de consultas, mas considerando a m´edia de 50 consultas com imagens de referˆencia aleat´orias, a saber:

1a

bateria: variando-se c entre 1 e 100 para a Consulta 12 e entre 1 e 35 para a Con- sulta 13 e, para ambas as consultas, fixando-se k = 100 e fixando-se a seletividade da tcond em 93.75% (dada por x = 77);

2a

bateria: fixando-se c = 20 para a Consulta 12 e c = 15 para a Consulta 13 e, para ambas as consultas, variando-se k entre 20 e 400 e fixando-se a seletividade da tcond em 93.75%;

3a

bateria: fixando-se c = 20 para a Consulta 12 e c = 15 para a Consulta 13 e, para ambas as consultas, fixando-se k = 100 e variando-se a seletividade da tcond entre 50% e 99%.

Para as ck-NNq com condi¸c˜oes baseadas em tupla (Consulta 14), foram executadas

duas baterias de consultas, sendo: 1a

bateria: variando-se k entre 1 e 400 e fixando-se a seletividade da tcond em 93.75%; 2a

bateria: fixando-se k = 100 e variando-se a seletividade da tcond entre 50% e 99%. Os experimentos foram executados em uma m´aquina equipada com um processador Intel Core 2 Quad 2.83GHz, 4GB de mem´oria RAM e um disco r´ıgido SATA2 de 2TB e 7.200RPM, sobre o sistema operacional Kubuntu GNU/Linux 10.04 64bit. Os algoritmos foram implementados em C++, utilizando a biblioteca Arboretum3, uma biblioteca de

m´etodos de acesso, desenvolvida em C++ pelo Grupo de Bases de Dados e Imagens do Instituto de Ciˆencias Matem´aticas e de Computa¸c˜ao da Universidade de S˜ao Paulo (GBdI-ICMC-USP), e compilados com o GCC 4.4.3 para GNU/Linux.