• Nenhum resultado encontrado

Técnicas de Projeção para Identificação de Grupos e Comparação de Dados Multidimensionais Usando Diferentes Medidas de Similaridade

N/A
N/A
Protected

Academic year: 2021

Share "Técnicas de Projeção para Identificação de Grupos e Comparação de Dados Multidimensionais Usando Diferentes Medidas de Similaridade"

Copied!
6
0
0

Texto

(1)

Técnicas de Projeção para Identificação de Grupos e

Comparação de Dados Multidimensionais Usando

Diferentes Medidas de Similaridade

Paulo Joia1, Luis Gustavo Nonato1

1Instituto de Ciências Matemáticas e de Computação (ICMC) – USP, São Carlos, Brasil

{pjoia,gnonato}@icmc.usp.br

Abstract. This work explores the potential of the projection techniques to solve problems related to:clustering and similarity search in multidimensional data. For clustering data, a local and interactive projection technique capable of pro-jecting data with effective preservation of distances was developed and also a new clustering method, which operates in the visual space, ensuring that clus-ters are not fragmented during the visualization. For the similarity search, we build a family of class-specific metrics and the fuzzy set theory was used to esti-mate a degree of uncertainty that is embedded in the metric, increasing its pre-cision. The results confirm the effectiveness of the developed techniques, which represent significant contributions for this investigation area.

Resumo. Este trabalho explora o potencial das técnicas de projeção para re-solver problemas relacionados à: identificação de agrupamentos e busca por similaridade em dados multidimensionais. Para identificação de agrupamentos foi desenvolvida uma técnica de projeção local e interativa capaz de projetar dados com ótima preservação de distâncias, além de um novo método para identificação de agrupamentos, o qual opera no espaço visual, garantindo que os grupos obtidos não fiquem fragmentados durante a visualização. Para as buscas por similaridade em dados multidimensionais, uma família de métricas baseada em classes foi construída e a teoria dos conjuntos fuzzy foi usada para estimar um valor de incerteza que é transferido para a métrica, aumentando sua precisão. Os resultados confirmam a efetividade das técnicas desenvolvidas, as quais representam significativa contribuição nesta área de investigação.

1. Introdução

Visualização de informação desempenha um papel importante na organização e explo-ração de dados multidimensionais, graças à capacidade de percepção visual do sistema cognitivo humano, assim como técnicas de projeção, as quais reduzem a dimensionali-dade do conjunto de dados permitindo visualizar informações muitas vezes ocultas na alta dimensão. Este trabalho explora o potencial das técnicas de visualização de infor-mação com ênfase em projeção para auxiliar na identificação de agrupamentos e busca

por similaridade em dados multidimensionais.

1.1. Motivação

Consideráveis avanços têm sido observados nas técnicas de projeção nos últimos anos, com aplicações em diferentes domínios. Algumas até propõem soluções para os proble-mas de identificação de agrupamentos e busca por similaridade em dados multidimen-sionais, contudo, longe da solução ideal. Por exemplo, identificar grupos é uma tarefa scopic mobility models". IEEE 78th Vehicular Technology Conference

(VTC-Fall), (2013):1-5.

13. [Conference A1]Fabrício A. Silva; Thais R. M. B. Silva; Linnyer B. Ruiz; An-tonio A. F. Loureiro, "ConProVA: A Smart Context Provisioning Middleware for VANET Applications". IEEE 77th Vehicular Technology Conference

(VTC-Spring), (2013):1-5.

14. [Conference B2]Fabrício A. Silva; Thais M. B. Silva; Linnyer B. Ruiz; Antonio A. F. Loureiro, "Um Middleware para provisionamento de contextos para redes veiculares". Simpósio Brasileiro de Redes de Computadores, (2013):615-628.

5. Final Remarks and Impact

In the thesis, we explored the field of content delivery for vehicular ad hoc networks (VANETs), with the hypothesis that concepts inherited from Content Delivery Network (CDN) and Peer-to-Peer (P2P) and adapted to VANET applications would improve their performance. Given that, the objective was to investigate how those concepts could be applied to VANETs, and propose solutions that validate this hypothesis.

The impact of the thesis can be observed by the relevant results reported in very qualified journal and conference publications, as presented in the previous sections. All such publications are expected to contribute significantly with other researchers in this field. We highlight the work to appear in the ACM Computing Surveys (Impact Factor 3.37), which demonstrates our familiarity with the state-of-the-art in the area. We also state the importance of the other three journal papers published in the Ad Hoc Networks (Impact Factor 1.94), IEEE Transactions on Vehicular Technology (Impact Factor 2.64) and Computer Networks (Impact Factor 1.28), which reinforce that our work has been well accepted by the research community. Finally, we should mention the last journal paper that describes the overall VCDN model to appear in the IEEE Wireless Communications

Magazine (Impact Factor: 5.41).

References

Costa-Montenegro, E., Quiñoy-García, F., González-Castaño, F., and Gil-Castineira, F. (2012). Vehicular entertainment systems: Mobile application enhancement in net-worked infrastructures. IEEE Vehicular Technology Magazine, 7(3):73–79.

Gerla, M., Wu, C., Pau, G., and Zhu, X. (2014). Content distribution in VANETs.

Vehic-ular Communications, 1(1):3–12.

Lee, E., Lee, E.-k., and Gerla, M. (2014). Vehicular Cloud Networking: Architecture and Design Principles. IEEE Communications Magazine, (2):148–155.

Passarella, A. (2012). A survey on content-centric technologies for the current internet: Cdn and p2p solutions. Computer Communications, 35(1):1–32.

Peng, G. (2004). CDN: Content Distribution Network. arXiv preprint cs/0411069. Wang, Y. and Li, F. (2009). Vehicular ad hoc networks. In Guide to wireless ad hoc

networks, pages 503–525. Springer.

Zeadally, S., Hunt, R., Chen, Y.-S., Irwin, A., and Hassan, A. (2012). Vehicular ad hoc networks (VANETS): status, results, and challenges. Telecommunication Systems, 50(4):217–241.

(2)

complexa e na maioria das vezes os grupos obtidos não correspondem à verdadeira na-tureza dos dados, normalmente organizados com base na geometria. Quanto à busca por similaridade, existem várias abordagens, todavia, poucas empregam medidas de similari-dade realmente aptas a discriminar objetos de acordo com as classes existentes.

2. Contribuições

A tese de doutorado aqui apresentada, produziu resultados significativos na área de vi-sualização de informação, com ênfase em projeção multidimensional. Resultados que podem ser comprovados pelas novas técnicas desenvolvidas e respectivas metodologias empregadas no desenvolvimento, conforme sumarizado abaixo. Para um exame mais de-talhado sobre cada técnica, incluindo sua formulação matemática, algoritmo, resultados e comparações com outras técnicas, recomendamos que o leitor consulte [Joia 2015]. 2.1. Técnica de Projeção Local Interativa

Local Affine Multidimensional Projection (LAMP) [Joia et al. 2011a] permite manipular

pontos de controle no espaço visual de modo a organizá-los, possibilitando ao usuário guiar a projeção, porém, com uma grande vantagem sobre as demais técnicas que se apoiam em subconjunto de amostras: requer um número muito reduzido de pontos de controle como entrada, tornando-se ideal para aplicações interativas. Tem formulação matemática baseada em mapeamentos ortogonais, garantindo ótima preservação de dis-tâncias durante a projeção multidimensional e, não depende de grafos de vizinhança para construir o mapeamento. É altamente precisa, com baixo custo computacional, apropriada para aplicações interativas envolvendo grandes volumes de dados. LAMP está atualmente entre as técnicas do estado da arte em relação à preservação de distâncias e eficiência computacional, além de permitir projetar dados explorando tanto relações globais como locais entre instâncias, de maneira efetiva. A Figura 1 mostra o potencial da LAMP ao estabelecer uma correlação visual entre conjuntos de dados, a princípio, sem qualquer conexão.

Figura 1. Utilizando a LAMP para correlacionar dados de diferentes naturezas. Inicialmente, uma projeção é criada para cada conjunto de dados, a partir de al-gumas amostras. A correlação entre as amostras é definida pelo usuário, agru-pando objetos no espaço visual (imagens e músicas). Em seguida, os dados são projetados segundo as associações criadas pelo usuário. Por fim, as listas de objetos associados são usadas para criar uma apresentação deslides onde

(3)

2.2. Método para Identificação de Grupos com Base em Projeção

Column Selection Method (CSM) [Joia et al. 2015], um método de visualização apoiado

em projeção multidimensional que permite agrupar dados. CSM opera no espaço visual, garantindo que os grupos obtidos não fiquem fragmentados durante a visualização. É orientado por um mecanismo de amostragem determinístico, capaz de identificar instân-cias representativas que correspondem a um certo padrão nos dados. O mecanismo de amostragem é baseado em decomposição matricial (SVD) e capaz de operar mesmo em conjuntos de dados desbalanceados. Além de identificar instâncias representativas, o me-canismo de amostragem pode ser ajustado para identificar os atributos mais relevantes de cada agrupamento obtido. Portanto, em um único framework, três tarefas são con-templadas: amostragem de dados, detecção de agrupamentos e seleção de atributos. A Figura 2 ilustra a metáfora visual utilizada pela CSM para representar grupos e atributos, por meio de superfícies e nuvens de palavras.

Figura 2. Metáfora visual utilizada pela CSM para representar grupos e atributos.

2.3. Família de Métricas Classes-Específicas

Muitas técnicas propõem medidas de similaridade para comparar dados multidimensio-nais, mas nenhuma diretamente relacionada às classes de objetos existentes no conjunto de dados. A Class-Specific Multidimensional Projection (CSMP) [Joia et al. 2012] é uma técnica de projeção baseada em uma família de métricas específicas por classe para projetar e comparar dados multidimensionais. As métricas são obtidas pela seleção dos atributos que melhor representam cada classe do conjunto de dados, de modo a minimizar a dissimilaridade entre pares de objetos pertencentes à mesma classe e, ao mesmo tempo, maximizá-la para objetos pertencentes a classes distintas. As métricas classes-específicas são avaliadas no contexto de recuperação de imagens por conteúdo para encontrar ima-gens similares a uma dada imagem de consulta. A lista de imaima-gens similares pode ser retornada pelo sistema ou selecionada diretamente pelo usuário, a partir do layout da pro-jeção, conforme exemplificado na Figura 3.

complexa e na maioria das vezes os grupos obtidos não correspondem à verdadeira na-tureza dos dados, normalmente organizados com base na geometria. Quanto à busca por similaridade, existem várias abordagens, todavia, poucas empregam medidas de similari-dade realmente aptas a discriminar objetos de acordo com as classes existentes.

2. Contribuições

A tese de doutorado aqui apresentada, produziu resultados significativos na área de vi-sualização de informação, com ênfase em projeção multidimensional. Resultados que podem ser comprovados pelas novas técnicas desenvolvidas e respectivas metodologias empregadas no desenvolvimento, conforme sumarizado abaixo. Para um exame mais de-talhado sobre cada técnica, incluindo sua formulação matemática, algoritmo, resultados e comparações com outras técnicas, recomendamos que o leitor consulte [Joia 2015]. 2.1. Técnica de Projeção Local Interativa

Local Affine Multidimensional Projection (LAMP) [Joia et al. 2011a] permite manipular

pontos de controle no espaço visual de modo a organizá-los, possibilitando ao usuário guiar a projeção, porém, com uma grande vantagem sobre as demais técnicas que se apoiam em subconjunto de amostras: requer um número muito reduzido de pontos de controle como entrada, tornando-se ideal para aplicações interativas. Tem formulação matemática baseada em mapeamentos ortogonais, garantindo ótima preservação de dis-tâncias durante a projeção multidimensional e, não depende de grafos de vizinhança para construir o mapeamento. É altamente precisa, com baixo custo computacional, apropriada para aplicações interativas envolvendo grandes volumes de dados. LAMP está atualmente entre as técnicas do estado da arte em relação à preservação de distâncias e eficiência computacional, além de permitir projetar dados explorando tanto relações globais como locais entre instâncias, de maneira efetiva. A Figura 1 mostra o potencial da LAMP ao estabelecer uma correlação visual entre conjuntos de dados, a princípio, sem qualquer conexão.

Figura 1. Utilizando a LAMP para correlacionar dados de diferentes naturezas. Inicialmente, uma projeção é criada para cada conjunto de dados, a partir de al-gumas amostras. A correlação entre as amostras é definida pelo usuário, agru-pando objetos no espaço visual (imagens e músicas). Em seguida, os dados são projetados segundo as associações criadas pelo usuário. Por fim, as listas de objetos associados são usadas para criar uma apresentação deslides onde

(4)

Figura 3. Seleção de imagens similares com o uso da CSMP.

2.4. Cálculo de Incerteza na Família de Métricas Classes-Específicas

Com o intuito de aumentar a precisão da família de métricas classes-específicas empre-gada na CSMP, uma nova técnica denominada Class-Specific with Weight Image

Re-trieval (CSWIRe) foi desenvolvida. Nesta abordagem, o usuário constrói um modelo

a partir de um subconjunto de imagens, denominado “modelo de classes”. A seguir, um classificador é aplicado sobre este modelo, retornando as melhores características e pesos que representam cada classe do modelo. Utilizando a teoria dos conjuntos fuzzy, um valor de incerteza é então calculado e associado à resposta do classificador para derivar uma família de métricas classes-específicas com pesos utilizada para comparar imagens com maior precisão. A Figura 4 ilustra o processo de recuperação de imagens da CSWIRe, utilizando uma interface gráfica apropriada.

Figura 4. Interface gráfica da CSWIRe, mostrando o processo de recuperação de imagens por conteúdo.

(5)

3. Outras Produções Relevantes

Além das contribuições apresentadas anteriormente, merece destaque o trabalho desen-volvido em colaboração com o grupo de pesquisa da Universidade de Calgary1, visando a exploração de espaços multidimensionais via projeção inversa, com uso da técnica inti-tulada inverse-LAMP (iLAMP). Esta técnica executa a projeção inversa através de mapea-mentos locais afins que preservam a distância entre as novas amostras de modo preciso, já que ela segue os mesmos preceitos da LAMP. Desse modo, o usuário pode interativa-mente criar instâncias no conjunto de dados original, gerando assim, dados multidimen-sionais sintéticos além dos já existentes na disposição inicial. Para maiores detalhes sobre iLAMP, consulte [Dos Santos Amorim et al. 2012].

Para atender os requisitos do projeto, foram desenvolvidas algumas ferramentas computacionais. Projection Analyzer (PAn), um conjunto de bibliotecas de alto desem-penho em ANSI C (versão inicial disponível emhttp://sites.google.com/site/ paulojoiafilho/tools). Também foi implementado um módulo em Python para fa-cilitar a execução das tarefas, que além de reutilizar o código em C, permite integração com pacotes de matemática numérica conhecidos. As interfaces gráficas mostradas nas Figuras 2 e 4, por exemplo, foram desenvolvidas a partir destas ferramentas.

4. Publicações, Prêmios e Estado da Arte

A técnica LAMP [Joia et al. 2011a] destaca-se como uma das técnicas de projeção mais precisas da atualidade. O recente trabalho apresentado por [Fadel et al. 2015] comprova este fato ao comparar várias técnicas de projeção (stress e tempo computacional), posi-cionando a LAMP como uma das técnicas de projeção do estado da arte em relação à preservação de distâncias e custo computacional. Além de um número considerável de citações em trabalhos científicos, LAMP também recebeu menção honrosa na

Con-ferência IEEE Information Visualization, uma das principais dessa área de pesquisa do

mundo (mais informações emhttp://www.usp.br/agen/?p=79480). 4.1. Lista de Publicações

1. [Joia et al. 2011a] “Local Affine Multidimensional Projection”, IEEE Transactions on Visualization and Computer Graphics (Qualis A1).

2. [Joia et al. 2011b] “Projection-based Image Retrieval using Class-Specific Metrics”, 24th SIBGRAPI, IEEE Computer Society (Qualis B1).

3. [Joia et al. 2012] “Class-Specific Metrics for Multidimensional Data Projection Applied to CBIR”, The Visual Computer Journal (Qualis B1).

4. [Dos Santos Amorim et al. 2012] “iLAMP: Exploring High-Dimensional Spacing through Backward Multidimensional Projection”, IEEE VAST’12 (Qualis B1).

5. [Casaca et al. 2013] “Spectral Image Segmentation Using Image Decomposition and Inner Product-Based Metric”, Journal of Mathematical Imaging and Vision (Qualis A2). 6. [Joia et al. 2015] “Uncovering Representative Groups in Multidimensional Projections”,

Computer Graphics Forum (EuroVis’15) (Qualis A2).

7. Joia, P.; da Silva, S. F.; Batista, J.; Nonato, L. G. “Class-specific metrics with weights and uncertainty modeling using fuzzy sets applied to content-based image retrieval”, Expert Systems with Applications, Elsevier. Submetido, em processo de revisão (Qualis A1).

1Interactive Reservoir Modeling and Visualization Group, Universidade de Calgary, Alberta, Canadá.

Figura 3. Seleção de imagens similares com o uso da CSMP.

2.4. Cálculo de Incerteza na Família de Métricas Classes-Específicas

Com o intuito de aumentar a precisão da família de métricas classes-específicas empre-gada na CSMP, uma nova técnica denominada Class-Specific with Weight Image

Re-trieval (CSWIRe) foi desenvolvida. Nesta abordagem, o usuário constrói um modelo

a partir de um subconjunto de imagens, denominado “modelo de classes”. A seguir, um classificador é aplicado sobre este modelo, retornando as melhores características e pesos que representam cada classe do modelo. Utilizando a teoria dos conjuntos fuzzy, um valor de incerteza é então calculado e associado à resposta do classificador para derivar uma família de métricas classes-específicas com pesos utilizada para comparar imagens com maior precisão. A Figura 4 ilustra o processo de recuperação de imagens da CSWIRe, utilizando uma interface gráfica apropriada.

Figura 4. Interface gráfica da CSWIRe, mostrando o processo de recuperação de imagens por conteúdo.

(6)

4.2. Prêmios

1. [Joia et al. 2011a] Local Affine Multidimensional Projection. Honorable Mention Award - IEEE InfoVis 2011 (http://www.cad.zju.edu.cn/home/vag/~cwf/ vispapers/infovis2011.html).

2. [Joia et al. 2011b] Projection-based Image Retrieval using Class-Specific Met-rics. Best Paper Award - Sibgrapi 2011 (https://www.computer.org/csdl/ proceedings/sibgrapi/2011/4548/00/4548z022.pdf).

5. Conclusões

Este trabalho apresentou soluções para problemas de identificação de agrupamentos e

busca por similaridade em dados multidimensionais, utilizando técnicas de projeção.

Para cada problema, duas novas técnicas foram desenvolvidas, atingindo resultados ex-pressivos em cada uma delas, uma das quais, inclusive, equipara-se ao estado da arte em termos de precisão e eficiência computacional (LAMP).

Agradecimentos

Agradecemos ao Instituto de Ciências Matemáticas e de Computação (ICMC/USP) pelo suporte ao projeto e à Fundação de Amparo à Pesquisa do Estado de São Paulo (FAPESP) pela apoio financeiro (Processo #2010/07367-9).

Referências

Casaca, W., Paiva, A., Gomez-Nieto, E., Joia, P., and Nonato, L. G. (2013). Spectral Image Segmentation Using Image Decomposition and Inner Product-Based Metric. Journal of Math-ematical Imaging and Vision, 45(3):227–238.

Dos Santos Amorim, E. P., Brazil, E. V., Daniels, J., Joia, P., Nonato, L. G., and Sousa, M. C. (2012). iLAMP: Exploring High-Dimensional Spacing through Backward Multidimensional Projection. In IEEE Conference on Visual Analytics Science and Technology (VAST), pages 53–62. IEEE.

Fadel, S. G., Fatore, F. M., Duarte, F. S. L. G., and Paulovich, F. V. (2015). LoCH: A neighborhood-based multidimensional projection technique for high-dimensional sparse spaces. Neurocomputing, 150(Part B):546–556.

Joia, P. (2015). Técnicas de projeção para identificação de grupos e comparação de dados mul-tidimensionais usando diferentes medidas de similaridade. Tese de Doutorado, Universidade de São Paulo - USP, São Carlos, SP. Disp. em: <http://www.teses.usp.br/teses/ disponiveis/55/55134/tde-29032016-143247>. Acesso em: 25 maio 2016. Joia, P., Coimbra, D., Cuminato, J. A., Paulovich, F. V., and Nonato, L. G. (2011a). Local Affine

Multidimensional Projection. IEEE Transactions on Visualization and Computer Graphics, 17(12):2563–2571.

Joia, P., Gomez-Nieto, E., Batista Neto, J., Casaca, W., Botelho, G., Paiva, A., and Gustavo Nonato, L. (2012). Class-specific metrics for multidimensional data projection applied to CBIR. The Visual Computer, 28(10):1027–1037.

Joia, P., Gomez Nieto, E., Botelho, G., Batista Neto, J., Paiva, A., and Nonato, L. G. (2011b). Projection-based Image Retrieval using Class-Specific Metrics. In Lewiner, T. and Torres, R., editors, 24th SIBGRAPI, pages 125–132, Maceio, AL. IEEE Computer Society.

Joia, P., Petronetto, F., and Nonato, L. G. (2015). Uncovering Representative Groups in Multidi-mensional Projections. Computer Graphics Forum, 34(3):281–290.

Referências

Documentos relacionados

Este artigo está dividido em três partes: na primeira parte descrevo de forma sumária sobre a importância do museu como instrumento para construção do conhecimento, destaco

 Numéricos das das Propriedades Propriedades do do Ar Ar Úmido, Úmido, Cartas Cartas Psicrométricas, Psicrométricas, Processos Processos Psicrométricos, Psicrométricos,

Por último, temos o vídeo que está sendo exibido dentro do celular, que é segurado e comentado por alguém, e compartilhado e comentado no perfil de BolsoWoman no Twitter. No

Como objetivos específicos pretendeu-se iden- tificar os taxa existentes nesta gruta, determinar a riqueza de es- pécies de sua comunidade; verificar a influência de fatores

Mineração de conhecimento interativa em níveis diferentes de abstração: Como é  difícil  prever  o  que  exatamente  pode  ser  descoberto  de  um  banco 

Local de realização da avaliação: Centro de Aperfeiçoamento dos Profissionais da Educação - EAPE , endereço : SGAS 907 - Brasília/DF. Estamos à disposição

No sentido de reverter tal situação, a realização deste trabalho elaborado na disciplina de Prática enquanto Componente Curricular V (PeCC V), buscou proporcionar as

Os casos não previstos neste regulamento serão resolvidos em primeira instância pela coorde- nação do Prêmio Morena de Criação Publicitária e, em segunda instância, pelo