• Nenhum resultado encontrado

Utilizando Características Semânticas e Espaço-Temporais de Dados de Social Media para Descoberta de Conhecimento em Smart Cities

N/A
N/A
Protected

Academic year: 2021

Share "Utilizando Características Semânticas e Espaço-Temporais de Dados de Social Media para Descoberta de Conhecimento em Smart Cities"

Copied!
7
0
0

Texto

(1)

Utilizando Características Semânticas e Espaço-Temporais de

Dados de Social Media para Descoberta de Conhecimento em

Smart Cities

Ricardo Chagas Rapacki1, Renata Galante (Orientadora)1

1Instituto de Informática – Universidade Federal do Rio Grande do Sul (UFRGS) Caixa Postal 15.064 – 91.501-970 – Porto Alegre – RS – Brasil

{rcrapacki,galante}@inf.ufrgs.br

Nível: Mestrado

Programa: Programa de Pós-graduação em Computação (PPGC) da

Universidade Federal do Rio Grande do Sul (UFRGS)

Ingresso: Março/2015

Época esperada para conclusão: Março/2017

Etapas concluídas: Créditos (2015) e Proposta (Outubro/2015)

Etapas futuras: Submissão de Artigos (Julho/2016 – Março/2017) e Defesa

da Dissertação (Março/2017)

Abstract. This paper proposes a novel method for retrieving information about

city dynamics and urban characterization by incorporating new dimensions to the existing algorithms. While most of the state of the art methods only use spatiotemporal aspects of social media, this paper aims to benefit from the full extent of the information existing in social networks. Aspects such as venue information and content posted by users may lead to new and more complete information to understand activities and trends in a city. Preliminary experiments show that it is possible to aggregate information from different social networks to build a dataset with more dimensions than only spatiotemporal and execute modifications in state of the art methods.

Keywords: smart cities, social networks, urban planning, spectral clustering. Resumo. Este artigo propõe um novo método de recuperação de informações

sobre as dinâmicas de uma cidade e caracterização urbana incorporando novas dimensões a algoritmos já existentes. Enquanto a maioria dos métodos do estado da arte usam somente aspectos espaço-temporais de dados sociais, este artigo pretende se beneficiar da riqueza de informações existentes nas redes sociais. Aspectos como informação do estabelecimento e conteúdo postado por usuários fornecem informações novas e mais completas para entenderatividades e tendências em uma cidade. Experimentos preliminares demonstram que é possível agregar informações de diferentes plataformas

(2)

sociais para construir um dataset com novas dimensões além de espaço-temporal e executar modificações dos métodos do estado da arte.

Palavras-chave: cidades inteligentes, redes sociais, planejamento urbano,

clustering espectral.

1. Introdução

Com o uso intensivo de smartphones e redes sociais, uma grande quantidade de dados gerados por usuários se tornou disponível como fonte de informação, possibilitando novos insights [Silva et al. 2013]. A sua utilização em áreas como planejamento urbano fez emergir conceitos como Smart Cities, definindo cidades com infraestrutura e serviços desenvolvidos e guiados por dados de cidadãos e sensores [Frias-Martinez et al. 2014].

Entre as fontes de informações citadas, alguns exemplos são redes sociais baseadas em localização (Location-Based Social Networks ou LBSN) como Foursquare1, redes sociais de compartilhamento de media como Instagram2 e plataformas gerais como Facebook3 e Twitter4. Os problemas associados com esta área são na maioria os mesmos de Big Data, como integração de dados de diferentes provedores, gerenciamento de grandes volumes de dados e limpeza de dados.

Este trabalho foca na análise de grandes volumes de dados sob a perspectiva de cidades inteligentes, buscando agregar os diferentes tipos de informação disponíveis para obter conhecimento sobre as cidades. Por exemplo, ao examinar a densidade de

posts por região da cidade e horário, pode-se descobrir a “popularidade” da região de

acordo com o momento do dia e os tipos das regiões descobertas (comercial, residencial, etc). Além disso, o uso de catálogos de locais como Foursquare, Google Places5 e Facebook Places6 permite o enriquecimento da informação sobre os locais analisados.

Diversos artigos exploram estes dados geolocalizados para descobrir relações entre as cidades e seus cidadãos. Por exemplo, Cranshaw et al. (2010) propõe um modelo para detectar relações entre interações online, como os check-ins do usuário em redes sociais, e offline, como a quantidade de amigos e com quem este usuário se relaciona.

Além disso, métodos tradicionais de planejamento urbano como pesquisas e inspeções podem ser substituídos por soluções automáticas que oferecem menor custo e mais rapidez. Nesse sentido, Frias-Martinez et al. (2014) fornece uma técnica não-supervisionada que automaticamente determina a caracterização do tipo de terreno aplicando clustering em regiões com padrões similares de tweets. Similarmente, 1 https://foursquare.com/ 2 https://instagram.com/ 3 https://www.facebook.com/ 4 https://twitter.com 5 https://developers.google.com/places/ 6 https://www.facebook.com/places/

(3)

Cranshaw et al. (2012) sugere um modelo de clustering e metodologia de pesquisa para estudar a estrutura e dinâmica de uma cidade baseada em seus residentes de um modo automático.

Como todos estes artigos exploram somente aspectos espaço-temporal dos dados, o objetivo deste trabalho avançar a literatura atual e experimentar aspectos semânticos implícitos nos posts dos usuários, - como, por exemplo, popularidade e entropia social (quantidade de usuários diferentes que já foram em estabelecimentos daquela categoria) - para examinar seus benefícios. Este artigo está organizado da seguinte forma: a seção 2 explora com mais detalhes os trabalhos relacionados, a seção 3 explica o objetivo do trabalho, a seção 4 detalha os experimentos feitos e finalmente a seção 5 conclui o artigo com últimas observações e futuras investigações.

2. Trabalhos Relacionados

Entre os artigos relacionados na área de Social Media aplicado em Smart Cities, pode-se notar uma tendência em tentar compreender a relação entre áreas da cidade e atividades e preferências das pessoas onde ali vivem. Por exemplo, é possível analisar o comportamento de usuários, popularidade de áreas, rotinas, mapeamento de transições entre áreas e extração de pontos turísticos [Silva et al. 2013].

A fim de mapear atividades online como check-ins no Foursquare e informações de relacionamentos offline como laços de amizade, Cranshaw et al. (2010) propõe um modelo que estuda o impacto de características de contexto social das localizações, como co-locação e mobilidade de usuários. Utilizando classificadores e análise de regressão múltipla, é provada a forte relação entre o contexto do local e mobilidade de usuários com a quantidade de amigos que o usuário possui. Além disso, fica demonstrada a importância de medidas de diversidade como a entropia dos visitantes para analisar o contexto social do local.

Por outro lado, Frias-Martinez et al. (2014) exploram especificamente o problema de caracterizar o tipo de utilização de terreno utilizando dados do Twitter. Assim, o artigo sugere um método não-supervisionado para solucionar automaticamente este problema aplicando clustering em regiões com atividades de Twitter semelhantes. Ao comparar os clusters descobertos com mapas oficiais da cidade, observa-se que o método não só descobre as áreas com alta intersecção como também consegue encontrar tipos de uso não mapeados oficialmente, como de atividade noturna.

De modo semelhante, Cranshaw et al. (2012) sugerem um modelo de clustering que efetivamente mistura aspectos espaciais e sociais para compreender melhor padrões de atividade coletiva que se apresentam nas regiões da cidade. Nas entrevistas com cidadãos, os resultados exibem uma forte correlação entre os clusters descobertos e a percepção das pessoas entrevistadas. Isto se explica pela influência de diversos fatores não utilizados normalmente por métodos tradicionais como desenvolvimento econômico, características demográficas dos visitantes e arquitetura.

(4)

Tabela 1. Comparação entre trabalhos relacionados da área

Apesar de fornecer soluções muito interessantes para seus problemas, os trabalhos relacionados focam fortemente em aspectos temporais e espaciais das informações, com exceção do conceito de entropia social utilizada por Cranshaw et al. (2010). Pode-se observar na tabela 1 as principais contribuições dos trabalhos mencionados, com suas diferentes abordagens em relação a cidades e cidadãos mas que os métodos de clustering se limitam a informações espaço-temporais.

Por isso, a hipótese deste trabalho é que diversos benefícios podem ser encontrados ao incorporar novas dimensões de informações dos mesmos dados ou de outras redes sociais, acrescentando semântica e contexto implícitos aos métodos já utilizados. Por exemplo, pode-se utilizar o conteúdo postado pelos usuários, os tipos de estabelecimento indicados nos check-ins como restaurantes ou universidades ou a popularidade representada por quantidade de likes e comentários.

3. KANDOR

Este trabalho tem como objetivo propôr um novo método para descoberta de conhecimento no contexto de cidades inteligentes (smart cities), com foco nas informações presentes em redes sociais (social media). Para isso, será estudada a utilização de dados de plataformas sociais - como conteúdo de posts, geolocalização e catálogos de locais - e seus benefícios nessa área. Para isso, como muitos artigos do estado da arte, métodos como clustering e classificadores serão utilizados para encontrar informações sobre a dinâmica e estrutura de cidades e de seus habitantes.

7 http://locaccino.org/ Cranshaw et al. (2010) Frias-Martinez et al. (2014) Cranshaw et al. (2012) Contribuição Modelo para prever

amizade entre usuários a partir de atributos espaciais e sociais Uso de tweets geolocalizados como fonte complementar de informação para planejamento urbano Representação de áreas dinâmicas que representam a cidade Método Classificadores e análise de regressão múltipla

Clustering espectral Clustering

espectral Dataset Posts do Locaccino7 de Pittsburgh Posts do Twitter de Londres, Madrid e Manhattan Check-ins do Foursquare de Pittsburgh Ano de Publicação 2010 2014 2012

(5)

Nos trabalhos relacionados, foi apresentado que diversos artigos utilizam LBSN (Location-Based Social Networks) como Foursquare ou Twitter para encontrar informações geolocalizadas para seus métodos. Entretanto, nestes artigos, somente a informação espaço-temporal foi levada em consideração - como longitude, latitude, data e hora - não explorando todo o potencial da informação criada pelos usuários. Por isso, é neste espaço que este trabalho se insere, experimentando utilizar diferentes tipos de informação como o conteúdo das mensagens e catálogos para melhorar os métodos existentes.

Sendo assim, a contribuição do trabalho para a Ciência da Computação é adicionar novas dimensionalidades nos métodos existentes, analisando também informações semânticas implícitas nos posts dos usuários como, por exemplo, a popularidade, entropia social ou a avaliação de um estabelecimento para enriquecer os métodos e por consequência os resultados obtidos. Assim, as contribuições se estendem também para os urbanistas, governos e cidadãos que possuirão cada vez mais ferramentas e informações para tornar as cidades cada vez mais inteligentes.

Para avaliar a solução proposta, pretende-se utilizar um dataset próprio de posts obtido através da API do Instagram para a região de Porto Alegre já que serão realizadas entrevistas com residentes da cidade pra avaliar a eficiência dos métodos propostos. Finalmente, foi executado um programa para pegar todos posts públicos do Instagram que estavam relacionados a algum destes estabelecimentos. É importante salientar que, apesar deste trabalho focar na cidade de Porto Alegre pra facilitar a avaliação dos resultados, a obtenção de dados pode ser configurada pra qualquer outra cidade e o método é genérico o suficiente pra não precisar de nenhuma alteração. Após a execução dos métodos propostos, os resultados obtidos no trabalho serão comparados com o

baseline cujos métodos utilizam somente informação espaço-temporal, a fim de

observar possíveis ganhos de informação e precisão. Por isso, serão utilizadas análises estatísticas das correlações feitas por ambos os métodos como métricas.

4. Implementação e Experimentos

Para realização dos experimentos, foi criado um script para obter informações de estabelecimentos e check-ins das redes sociais Facebook e Instagram da cidade de Porto Alegre no Rio Grande do Sul. De modo a obter uma amostra heterogênea de Porto Alegre, foram recuperados estabelecimentos no raio de 2 kilômetros de cada bairro através da API de busca (Search API) do Facebook a partir dos 61 bairros da cidade registrados em uma lista do Foursquare,. Em seguida, foi realizada uma busca de todos estabelecimentos do Instagram que correlacionam com os obtidos na etapa anterior.

Com isso, utiliza-se o potencial de cada rede social ao obter os dados, já que o Facebook possui muito mais informações sobre os estabelecimentos e o Instagram possui uma quantidade muito maior de check-ins e riqueza de informação sobre eles. A partir destes estabelecimentos, foram recuperados todos os check-ins relacionados a estes lugares, ressaltando que somente check-ins públicos são retornados da API do Instagram. Ao todo, foram obtidos 2.727 estabelecimentos e 850.694 checkins de 148.051 usuários diferentes.

(6)

Após esta etapa, um algoritmo de clustering espectral baseado no utilizado por Cranshaw et al. (2012) foi desenvolvido para obtenção dos resultados baseline com uma simples modificação do parâmetro de vizinhos em relação a execução original baseada na cidade de Pittsburgh. Foram implementados então duas modificações no modelo que adicionam informações semânticas implícitas nos dados: a entropia social da categoria dos estabelecimentos (universidade, atração turística, alimentação, etc.) e a popularidade do estabelecimento baseada na quantidade de likes e comentários nos posts.

Para construir estas variações do modelo, foi utilizado o modelo original onde cada estabelecimento possui um vetor e no qual cada elemento i representa o número de

checkins do usuário i para aquele estabelecimento. Para a variação de entropia social da

categoria, foram adicionadas features correspondendo a cada categoria existente na base de dados, onde o valor é a quantidade de usuários diferentes que fizeram checkin em lugares com esta categoria, caso o estabelecimento seja dessa categoria, e zero caso contrário. Para a variação de popularidade, foram adicionadas duas novas features, uma para quantidade de likes e outra para quantidade de comentários em posts naquele estabelecimento.

Como o passo seguinte do algoritmo é a construção da matriz de afinidade, estas modificações no modelo geram mudanças na função de similaridade e por consequência uma matriz de afinidade e agrupamentos diferentes.

5. Considerações Finais e Trabalhos Futuros

Neste artigo foi apresentado o problema de identificar características de regiões de cidades, como popularidade e predominância de tipos de atividade, baseado em dados obtidos por redes sociais. Enquanto trabalhos do estado da arte já conseguiram provar o benefício de utilizar estes tipos de dados para compreensão e planejamento urbano, a grande maioria limita-se a atributos espaço-temporais e deixam de explorar outras dimensões das informações.

Por isso, este trabalho se insere nesta área para descobrir se atributos como tipo de estabelecimento ou conteúdo do post podem contribuir para os métodos já existentes. Experimentos preliminares mostraram que essas informações estão disponíves em redes sociais como Facebook, Foursquare e Instagram e podem ser agregadas em um único

dataset correlacionando estabelecimentos e checkins.

Como etapas futuras, pretende-se: (i) finalizar a implementação do algoritmo de

clustering espectral; (ii) modificar a matriz de entrada para incorporar novas dimensões

aos dados geotemporais; e (iii) comparar resultados do baseline dos trabalhos relacionados com o método apresentado por este artigo.

Referências

Silva, T. H., De Melo, P. O. S. V., Almeida, J. M., Salles, J. & Loureiro, A. A. F. (2013) A comparison of Foursquare and Instagram to the study of city dynamics and urban social behavior. In: UrbComp '13 Proceedings of the 2nd ACM SIGKDD International Workshop on Urban Computing, Article No. 4.

(7)

Frias-Martinez, V. & Frias-Martinez E. (2014) Spectral clustering for sensing urban land use using Twitter activity. In: Engineering Applications of Artificial Intelligence, Volumes 35, October, 2014, Pages 237-45.

Cranshaw, J., Toch, E., Hong, J., Kittur, A. & Sadeh, N. (2010) Bridging the gap between physical location and online social networks. In: UbiComp`10 Proceedings of the 12th ACM International conference on Ubiquitous computing, Pages 119-128. Cranshaw, J., Schwartz, R., Hong, J. & Sadeh, N. (2012) The Livehoods Project: Utilizing Social Media to Understand the Dynamics of a City. In: Proceedings of the Sixth International AAAI Conference on Weblogs and Social Media (ICWSM 2012).

Referências

Documentos relacionados

A solução, inicialmente vermelha tornou-se gradativamente marrom, e o sólido marrom escuro obtido foi filtrado, lavado várias vezes com etanol, éter etílico anidro e

Participação em curso/congresso Não será cobrado Farmacêutico Substituto, desde que não ultrapasse.. os

Apesar de o mercado acionário brasileiro ter se tornado mais importante para a economia brasileira, sobretudo entre o período de 2002 para 2005 (Tabela 3), sua repre- sentatividade

No caso de uma apresentação de Artigo em formato Áudio, o arquivo deverá ser enviado em CD por correio postal para:.. Comitê Editorial INFEIES - RM

No sentido de reverter tal situação, a realização deste trabalho elaborado na disciplina de Prática enquanto Componente Curricular V (PeCC V), buscou proporcionar as

Os casos não previstos neste regulamento serão resolvidos em primeira instância pela coorde- nação do Prêmio Morena de Criação Publicitária e, em segunda instância, pelo

Os instrumentos de pesquisa utilizados serão: Ficha de Rastreamento das Participantes do Estudo, International Consultation on Incontinence Questionnaire – Short Form

Quando a empresa atinge um tamanho considerável, passando de micro (empresas com até 9 empregados) para pequena empresa (empresas com um número de empregados que vai de 10 a 49),