• Nenhum resultado encontrado

Um modelo para extrair conhecimento de artigos científicos utilizando redes complexas

N/A
N/A
Protected

Academic year: 2021

Share "Um modelo para extrair conhecimento de artigos científicos utilizando redes complexas"

Copied!
144
0
0

Texto

(1)

UNIVERSIDADE ESTADUAL DE CAMPINAS Faculdade de Engenharia Elétrica e da Computação

LEONARDO MAIA BARBOSA

UM MODELO PARA EXTRAIR CONHECIMENTO DE ARTIGOS

CIENTÍFICOS UTILIZANDO REDES COMPLEXAS

CAMPINAS 2016

(2)

LEONARDO MAIA BARBOSA

UM MODELO PARA EXTRAIR CONHECIMENTO DE ARTIGOS

CIENTÍFICOS UTILIZANDO REDES COMPLEXAS

Dissertação apresentada à Faculdade de Engenharia Elétrica e de Computação da Universidade Estadual de Campinas como parte dos requisitos exigidos para a obtenção do título de Mestre em Engenharia Elétrica, na Área de Engenharia da Computação

Orientador: Romis Ribeiro de Faissol Attux

Este exemplar corresponde à versão final dissertação defendida pelo aluno Leonardo Maia Barbosa, e orientada pelo prof. Dr. Romis Ribeiro de Faissol Attux.

CAMPINAS 2016

(3)

Agência(s) de fomento e nº(s) de processo(s): Não se aplica.

Ficha catalográfica

Universidade Estadual de Campinas Biblioteca da Área de Engenharia e Arquitetura

Rose Meire da Silva - CRB 8/5974

Barbosa, Leonardo Maia, 1987- B234m Bar

Um modelo para extrair conhecimento de artigos científicos utilizando redes complexas / Leonardo Maia Barbosa. – Campinas, SP : [s.n.], 2016.

Orientador: Romis Ribeiro de Faissol Attux.

Dissertação (mestrado) – Universidade Estadual de Campinas, Faculdade de Engenharia Elétrica e de Computação.

1. Mineração de textos (Computação). 2. Redes complexas.

I. Attux, Romis Ribeiro de Faissol,1978-.

II. Universidade Estadual de Campinas. Faculdade de Engenharia Elétrica e de Computação. III. Título.

Informações para Biblioteca Digital

Título em outro idioma: An approach to extract knowledge from scientific articles through

complex networks

Palavras-chave em inglês:

Data Mining Complex Networks

Área de concentração: Engenharia de Computação Titulação: Mestre em Engenharia Elétrica

Banca examinadora:

Romis Ribeiro de Faissol Attux [Orientador] Fabrício Olivetti de França

Fernando José Von Zuben

Data de defesa: 10-08-2016

(4)

COMISSÃO JULGADORA - DISSERTAÇÃO DE MESTRADO

Candidato: Leonardo Maia Barbosa RA: 107213 Data da Defesa: 10 de Agosto de 2016

Título da Tese: "Um modelo para extrair conhecimento de artigos científicos utilizando

Redes Complexas"

Prof. Dr. Romis Ribeiro de Faissol Attux (Presidente, FEEC/UNICAMP) Prof. Dr. Fabrício Olivetti de França (UFABC)

Prof. Dr. Fernando José Von Zuben (FEEC/UNICAMP)

A ata de defesa, com as respectivas assinaturas dos membros da Comissão Julgadora, encontra-se no processo de vida acadêmica do aluno.

(5)

DEDICATÓRIA

Meu agradecimento, primeiramente, a Deus, por me dar sabedoria e força para alcançar meus objetivos profissionais e pessoais, e que continua acompanhando e iluminando minhas escolhas.

Ao meu pai, Elcio, pelo exemplo de força e à minha mãe, Natércia, pelo afeto, dedicação e apoio constante. À minha irmã Soraya, que sempre apoiou e se orgulhou das minhas decisões.

À minha namorada, Sílvia, por dividir comigo todas as dúvidas e ansiedades, e por ter me apoiado pacientemente em todos os momentos. Agradeço por você estar sempre ao meu lado, pelos cuidados e pelo amor.

Ao Prof. Romis Attux pela orientação e pela oportunidade de fazer parte do grupo de pesquisa. Pela confiança no meu trabalho e por todo aprendizado científico.

Ao pesquisador Alan Godoy pelo conhecimento compartilhado, por seus conselhos e motivação constante.

Ao povo brasileiro e a CAPES pelo apoio. Aos demais amigos, familiares e a todos que de alguma forma participaram desta vitória.

(6)

RESUMO

O crescente número de publicações científicas desperta um interesse em novas descobertas e vislumbra uma diferente maneira de analisar e visualizar as informações. Neste trabalho, é apresentado um método para representar e analisar metadados provenientes de artigos científicos utilizando redes complexas heterogêneas. A abordagem proposta utiliza técnicas de mineração de textos para extrair dados adequados como atributos, para inseri-los como elementos em uma rede complexa armazenada em um banco de dados orientado a grafos. O principal objetivo é, dado um conjunto local de artigos científicos, analisar como conceitos, instituições de ensino e indivíduos estão relacionados, e refletir sobre como se estabelece a colaboração sob diferentes perspectivas. Este estudo visa entender como as parcerias entre autores e países são estabelecidas, a relação entre temas pesquisados em diferentes, dentre outros tópicos relacionados a colaboração científica.

Palavras-chave: Mineração de textos, Redes complexas, Redes heterogêneas, Assortatividade, Correlação, Similaridade

(7)

ABSTRACT

The rising number of scientific documents arouses the interest in the new kinds of scientific discoveries and envisions a distinct way to analyze and visualize such information. In this work, a method is proposed to represent and analyze metadata from scientific papers using multiplex complex networks. This method makes use of text mining techniques to extract suitable data as attributes and later insert them as elements in a complex network stored in a graph database. The main goal is, given a local set of scientific papers, to investigate how concepts, research institutions and individuals are related and to reflect about the collaboration achievement from different perspectives. This study aims to understand how partnerships between authors and countries are established, what is the relationship between subjects studied in different countries, among others topics related to scientific collaboration.

Keywords: Data Mining, Complex Networks, Multiplex Networks, Assortativity,

(8)

LISTA DE ILUSTRAÇÕES

Figura 2-1 – Grafo simples. ... 20

Figura 2-2 – Grafo orientado. ... 20

Figura 2-3 – Exemplo de um laço. ... 21

Figura 2-4 – Grafo G_Mat para exemplo de matrizes. ... 22

Figura 2-5 – Exemplo de grafo regular e completo. ... 23

Figura 2-6 – Exemplo de grafo bipartido. ... 23

Figura 2-7 – Exemplo de grafo semântico e valorado. ... 24

Figura 2-8 – Ilustração de um multigrafo . ... 24

Figura 2-9 – Subgrafo a partir do grafo . ... 24

Figura 2-10 – Exemplo de grafo G conexo e orientado. ... 25

Figura 2-11 – Exemplo de grafo G desconexo. ... 25

Figura 2-12 – Exemplo de vértice de corte V2 e aresta ponte A2. ... 26

Figura 2-13 – Grafo G esparso. ... 26

Figura 2-14 – Grafo G denso. ... 27

Figura 2-15 – Processo de descoberta de conhecimento em banco de dados... 28

Figura 2-16 – Distribuição de grau para redes aleatórias. ... 31

Figura 2-17 – Exemplos de aleatoriedade para diferentes modelos de redes. ... 33

Figura 2-18 – Distribuição de grau para redes livre de escala... 35

Figura 2-19 – Exemplo do crescimento da rede. ... 35

Figura 4-1 – Procedimento para o método para tratamento de dados. ... 46

Figura 4-2 – Ilustração parcial do modelo de rede proposto. ... 61

Figura 4-3 – Ferramentas utilizadas para implementação do modelo proposto. ... 66

Figura 6-1 – Ilustração parcial da rede complexa sobre "openflow". ... 75

Figura 6-2 – Exemplo de centralidade de proximidade aplicada no estudo de caso N1. ... 77

Figura 6-3 – Ilustração parcial da rede complexa no estudo de caso N2. ... 79

Figura 6-4 – Ilustração parcial da rede N2 incluindo nomes de relacionamentos. ... 80

Figura 6-5 – Ilustração parcial da sub-rede de colaboração entre autores... 81

Figura 6-6 – Ilustração da colaboração entre países. ... 86

Figura 6-7 – Referência de artigos para diferentes continentes ... 88

Figura 6-8 – Interseção entre palavras-chave utilizadas no Brasil e países de outros continentes. ... 90

(9)

Figura 6-10 – Colaboração entre autores. ... 98

Figura 6-11 – Associação entre palavras-chave para o estudo de caso N3. ... 100

Figura 6-12 – Ilustração completa da sub-rede de associações entre países. ... 101

Figura 6-13 – Ilustração parcial da sub-rede de citações entre artigos. ... 105

(10)

LISTA DE TABELAS

Tabela 2-1 – Matriz de adjacência do Grafo G_Mat ... 22

Tabela 2-2 – Matriz de incidência do Grafo G_Mat ... 22

Tabela 4-1 – Perfil do modelo de rede proposto ... 60

Tabela 6-1 – Precisão do método de extração para N1 ... 76

Tabela 6-2 – Correlação das medidas de centralidade ... 77

Tabela 6-3 – Precisão do método de extração para N2 ... 78

Tabela 6-4 – Palavras-chave com maior grau na sub-rede de palavras-chave ... 83

Tabela 6-5 – Associação de palavras-chave por ano ... 84

Tabela 6-6 – Associação entre países por continente ... 85

Tabela 6-7 – Citação entre artigos por continente ... 87

Tabela 6-8 – Associação de palavras-chave por continente ... 89

Tabela 6-9 – Artigos por ano de publicação ... 97

Tabela 6-10 – Número de relacionamentos de países para com outros países ... 103

Tabela 6-11 – Países com maior número de relacionamentos... 104

Tabela 6-12 – Citações de artigos distribuídas pelo ano de publicação ... 109

Tabela 6-13 – Artigos mais citados considerando a base local ... 111

Tabela 6-14 – Utilização de palavras-chave por ano de publicação... 112

Tabela 6-15 – Colaboração entre países agrupados de acordo com o continente ... 113

Tabela 6-16 – Colaboração entre países da Europa e América do Norte ... 114

Tabela 6-17 – Colaboração entre países da Europa ... 114

Tabela 6-18 – Colaboração entre países da América do Norte ... 115

Tabela 6-19 – Colaboração entre países da América da Norte e América do Sul ... 116

Tabela 6-20 – Colaboração entre países da Ásia e América do Norte ... 117

Tabela 6-21 – Colaboração entre países da Europa e África ... 117

Tabela 6-22 – Colaboração entre países da Europa e América do Sul ... 119

Tabela 6-23 – Países com maior número de nós vizinhos na sub-rede de países... 120

Tabela 6-24 – Países com maior número de relacionamentos com outros países ... 121

Tabela 6-25 – Países com maior número de publicações ... 122

Tabela 6-26 – Países com maior número de artigos referenciados ... 123

Tabela 6-27 – Citações entre países agrupados por continentes ... 126

Tabela 6-28 – Citações entre países ... 127

(11)

Tabela 6-30 – Análise de assortatividade de grau para os estudos de caso N2 e N3 ... 129 Tabela 6-31 – Análise de assortatividade de discreta para os estudos de caso N2 e N3 ... 130

(12)

LISTA DE ABREVIATURAS

Sigla Significado

BFS Breadth First Search

BRA Brasil

CAPES Coordenação de Aperfeiçoamento de Pessoal de Nível Superior

CRFs Conditional Random Fields

CRH Conflict Resolution on Heterogeneous Data

CSCW Computer Supported Cooperative Work

DFS Depth First Search

DOI Digital Object Identifier

GBs Gigabytes

HMMs Hidden Markov Models

HTML Hyper Text Markup Language

ISO International Organization for Standardization

KDD Knowledge Discovery in Databases

MBs Megabytes

NLP Natural Language Processing

PDF Portable Document Format

SVMs Support Vector Machines

USA Estados Unidos

(13)

SUMÁRIO 1. INTRODUÇÃO ... 15 1.1. Objetivos ... 16 1.2. Organização ... 17 2. DEFINIÇÃO DE CONCEITOS... 18 2.1. Ciência de redes ... 18

2.2. Teoria dos grafos ... 19

2.2.1. Definições básicas em teoria dos grafos ... 19

2.3. Mineração de dados ... 27

2.4. Redes Complexas ... 28

2.4.1. Modelos de redes ... 30

2.4.2. Redes complexas no mundo real ... 36

3. ANÁLISES DE PESQUISAS CIENTÍFICAS ... 39

3.1. Mineração de dados em artigos científicos ... 40

3.2. Redes científicas... 40

3.3. Redes heterogêneas ... 42

4. PROPOSTA DO TRABALHO E METODOLOGIA ... 46

4.1. Captura ... 46

4.1.1. Captura de dados a partir de artigos PDF em geral ... 47

4.1.2. Captura de dados a partir de artigos XML da base PLOS ONE ... 53

4.1.3. Captura de métricas de artigos provenientes da base PLOS ONE ... 56

4.2. Curadoria ... 57

4.3. Análise... 59

4.4. Modelo de rede heterogênea proposto ... 60

4.5. Implementação do modelo de rede proposto ... 65

(14)

5.1. Centralidades ... 67 5.2. Assortatividade de grau ... 68 5.3. Assortatividade discreta... 70 5.4. Correlações ... 71 5.4.1. Jaccard ... 71 5.4.2. Correlação de Pearson ... 72 6. RESULTADOS ... 74

6.1. Estudo de caso N1 - IEEE “OpenFlow” ... 74

6.2. Estudo de caso N2 - IEEE “Collaborative” ... 78

6.2.1. Análise de assortatividade de grau ... 80

6.2.2. Análise de assortatividade discreta ... 84

6.2.3. Similaridades ... 90

6.3. Estudo de caso N3 - PLOS ONE “Computer Science” ... 93

6.3.1. Análise de assortatividade de grau ... 97

6.3.2. Citações provenientes do sistema Crossref ... 107

6.3.3. Análise de assortatividade discreta ... 108

6.4. Comparações entre estudos de caso ... 128

7. CONCLUSÕES ... 132

7.1. Contribuições ... 134

7.2. Trabalhos futuros ... 135

ARTIGOS PUBLICADOS ... 136

REFERÊNCIAS ... 137

(15)

Capítulo 1 - Introdução 15

1.

INTRODUÇÃO

Todos os dias, um "tsunami" com 2.5 quintilhões (1018) de bytes de dados é criado, sendo que grande parte destes foram gerados nos últimos anos [1], [2]. Este aumento descomunal fez surgir um novo paradigma intitulado Big Data [2]. Diante deste fato, um dos grandes desafios atuais é a tarefa não trivial de processar estes dados e extrair informações relevantes deles [1]. Em sintonia com este fenômeno, o número de publicações científicas cresce anualmente no Brasil e também no mundo [3]. Este crescente número desperta interesse sobre o estudo de publicações científicas e demanda formas de analisar e visualizar as informações, diferentes daquelas disponíveis atualmente.

Diversas pesquisas já foram realizadas sobre redes de coautoria e citações [4]-[7] considerando redes homogêneas. Este trabalho, em contraste, propõe realizar uma análise considerando não apenas a relação entre nós de um mesmo tipo (autores ou artigos, por exemplo), mas também diversos atributos bibliométricos e as formas como estes se relacionam. Neste contexto, esta pesquisa faz uso de métodos para extrair automaticamente múltiplos atributos (ex.: título, autor, palavras-chave e ano de publicação) e seus relacionamentos a partir de artigos acadêmicos, os quais serão modelados em uma rede como nós e arestas, respectivamente.

Considerando um conjunto local de artigos científicos, a finalidade é, uma vez extraídos os atributos, analisar quais inferências podem ser feitas a partir da base de dados. Deste modo, podem ser identificados nós que se destacam em relação aos demais, tendências de nós se associarem a outros nós de perfis similares, correlações entre os dados, dentre outros itens.

Estas análises permitem a discussão de algumas questões intrigantes acerca da colaboração científica internacional. Como se dá a associação entre autores e ou países? As palavras-chave de artigos utilizadas em um determinado ano de publicação coincidem com palavras-chave utilizadas em outros anos? Países do mesmo continente tendem a colaborar entre si, ou colaborar com países de outros continentes? Qual é a sintonia de pesquisa entre países, ou seja, palavras-chave compartilhadas por estes? Existe uma tendência de artigos referenciarem outros artigos do mesmo continente? Existe alguma relação entre artigos altamente referenciados e artigos com grau menor de citações? Há algum vínculo entre países colonizadores e suas respectivas ex-colônias

(16)

Capítulo 1 - Introdução 16 do ponto de vista de colaboração científica? Estes são alguns tópicos que serão

abordados no desenvolvimento do trabalho.

A principal contribuição deste trabalho é o estudo de redes complexas heterogêneas, avaliando diferentes pontos de vista do trabalho e do fluxo de informações no meio acadêmico. O intuito é identificar informações e padrões ocultos a priori, como correlações, similaridades e centralidades de pesquisadores, artigos e temas, bem como as características e mecanismos que conduzem a evolução da rede analisada. Além do estudo da rede em si, objetiva-se com essa pesquisa a padronização da base de dados com a possibilidade de compartilhamento da mesma.

1.1. Objetivos

O principal objetivo desta dissertação é introduzir e caracterizar um modelo particular para analisar dados provenientes de trabalhos científicos, de forma a revelar informações ocultas a priori, e permitir uma visualização transparente e flexível.

Muitos desafios tiveram que ser superados a fim de atingir o objetivo primário. Alguns desses desafios seguem listados abaixo:

 como extrair informações de artigos a partir de diferentes formatos;

 como realizar a correção de dados em massa;

 como armazenar os dados de uma rede complexa, de forma a permitir o compartilhamento da base em tempo real;

 como analisar os dados de redes complexas sob diferentes perspectivas;

 como realizar análises em redes complexas utilizando tipos diferentes de nós;

 como explicar os relacionamentos entre os diferentes atributos de artigos científicos;

 como analisar similaridades e correlações em dados de redes heterogêneas;

(17)

Capítulo 1 - Introdução 17

1.2. Organização

Esta dissertação está organizada em sete capítulos que são descritos brevemente a seguir.

Este primeiro capítulo traz uma descrição geral da proposta de trabalho, incluindo algumas abordagens existentes e uma perspectiva de como a ciência de redes pode ser utilizada para aferir informações do mundo científico.

O Capítulo 2 é uma revisão de conceitos sobre os temas abordados, cuja compreensão é fundamental para o acompanhamento dos capítulos seguintes. Ele começa pela definição de ciência de redes, percorre a teoria dos grafos, traz concepções sobre mineração de dados e, por fim, mostra como as redes complexas estão inseridas neste contexto.

O Capítulo 3 faz uma análise sobre as pesquisas científicas já realizadas no contexto de mineração de dados, redes complexas a partir de dados científicos e redes heterogêneas com diferentes tipos.

O Capítulo 4 expõe a proposta do trabalho, a qual está divida nas fases de captura da informação, curadoria dos dados e análise das informações. Em seguida, o modelo de rede heterogênea é apresentado, incluindo as ferramentas utilizadas em sua implementação.

O Capítulo 5 mostra as principais métricas e métodos analíticos sugeridos para redes complexas formadas a partir de dados científicos, as quais evidenciam tendências, inferem correlações e destacam informações que eram obscuras a princípio.

O Capítulo 6 exibe três estudos de casos realizados para análise de resultados, denominados respectivamente N1 - IEEE "openflow", N2 - IEEE "collaborative" e N3 - PLOS ONE "computer science", onde os dois primeiros processam artigos no formato PDF, e o último trabalha com artigos no formato XML. Por fim é apresentada uma comparação entre os resultados dos mesmos.

(18)

Capítulo 2 - Definição de conceitos 18

2.

DEFINIÇÃO DE CONCEITOS

2.1. Ciência de redes

A ciência de redes, ou “network science” em inglês, é um recente campo acadêmico interdisciplinar que compreende o estudo de estruturas de rede em múltiplas esferas, como redes de computadores, redes sociais e redes biológicas, dentre outras, provendo meios para analisar os componentes da rede e seus relacionamentos. Esta área de pesquisa tem como base teorias e métodos provenientes de outros campos já estabelecidos, como, teoria dos grafos, mineração de dados, física estatística e estudos de estruturas sociais, dentre outros [8],[9].

A ciência de redes se distingue das demais não apenas pela temática, mas também pela sua metodologia. A seguir, serão apresentadas características fundamentais sobre esta ciência, bem como abordagens utilizadas para compreender redes de sistemas complexos em diversos domínios.

A natureza interdisciplinar da ciência de redes permite a interação de disciplinas de diferentes áreas através de uma linguagem em comum. Desta forma, pesquisadores que possuem tarefas semelhantes que consistem em extrair informações de bases de dados irregulares e entender o sistema por trás da rede formada têm a possibilidade de compartilhar um conjunto de técnicas e ferramentas independentemente do conteúdo abordado. Por exemplo, o conceito de intermediação, que foi introduzido na literatura de redes sociais alguns anos atrás, hoje tem um papel fundamental na rede de dados da internet para identificar nós com grande volume de tráfego. No mesmo sentido, algoritmos desenvolvidos para partição de grafos têm uma nova aplicação na biologia celular [9].

Uma propriedade fundamental desta ciência é o fato de ter forte inclinação empírica e guiada por dados (data driven), o que, por sua vez, demanda ferramentas para o tratamento e análise dos dados. Estas ferramentas utilizam o formalismo e os conceitos da teoria dos grafos para tratar as redes e procurar por princípios de organização a partir de princípios físicos. Por fim, são adotados conceitos e regras derivados da engenharia, teoria da informação, controle, estatística e mineração de dados, com o intuito de possibilitar uma extração propícia da informação, mesmo considerando bases de dados incompletas ou irregulares [9].

(19)

Capítulo 2 - Definição de conceitos 19 A ideia central da ciência de redes é que, para compreender um sistema complexo, é essencial analisar a estrutura da interação dos vários componentes desse sistema [9]. Em um sistema social, por exemplo, é preciso ter conhecimento sobre as associações de amigos. Na rede da web, é preciso saber os hyperlinks que conectam páginas formando associações. No ramo biológico, informações sobre interações e reações de genes, proteínas e metabólitos são requisitos indispensáveis.

A ciência de redes tem o objetivo não apenas de descobrir as propriedades de uma rede, mas também entender a sua origem, decifrando as leis que dirigem sua evolução, bem como suas implicações através da compreensão do seu comportamento. Por esse ponto de vista, pode-se dizer que, por trás de todo sistema complexo, existe uma rede que contém informações sobre as interações de seus componentes [9].

2.2. Teoria dos grafos

O mais antigo relato de estudo relacionado à teoria dos grafos aparenta ser de autoria de Leonhard Euler, em [10]. Neste documento, Euler discute se é possível caminhar pelas pontes de Königsberg, a qual mais tarde viria se chamar Kaliningrad, atravessando cada uma das pontes exatamente uma vez. Através deste estudo Euler propôs condições que são necessárias para encontrar este respectivo caminho.

A teoria dos grafos nasceu de estudos provenientes de problemas ou situações como a mencionada anteriormente, e teve grande desenvolvimento em um período pós Euler, que inclui contribuições de outros grandes matemáticos como Cauchy, Hamilton, Cayley, Kirchoff e Pólya. Até meados do século XX, o objetivo da teoria dos grafos era simples: descobrir e catalogar as propriedades dos grafos. Alguns séculos depois, a atenção dos matemáticos se voltou para o estudo da estrutura dos grafos e de como estes se formam [8].

Para um melhor entendimento do conteúdo proposto neste trabalho, seguem algumas definições úteis sobre teoria dos grafos, que envolvem desde conceitos básicos até algoritmos de busca que são utilizados implicitamente em grande parte das abordagens propostas em ciência de redes [11].

2.2.1.

Definições básicas em teoria dos grafos

Este tópico se destina a expor as definições básicas sobre grafos necessárias para o entendimento dos próximos capítulos deste trabalho. Os conceitos aqui discutidos

(20)

Capítulo 2 - Definição de conceitos 20 podem ser encontrados em livros clássicos de teoria dos grafos. Ao leitor interessado, recomenda-se a leitura das referências [11]-[15].

Um grafo pode ser definido como , o qual é composto pelo conjunto de vértices e arestas, simbolizados respectivamente por e . Mais especificamente, é o conjunto não vazio de vértices do grafo , e é o conjunto de arestas do grafo . Supondo vértices e pertencendo a , é possível afirmar que e são adjacentes ou vizinhos se existe uma aresta que conecta ambos, sendo ∈ . No caso de um grafo não direcional, dizemos que e incide tanto em quanto em , sendo e os extremos de .

Um grafo simples é caracterizado por não possuir informação de direção nas arestas, não possuir múltiplas arestas interligando dois vértices específicos, nem arestas do tipo laço, as quais conectam um vértice a ele mesmo. Já um grafo orientado é caracterizado por pares de vértices e ∈ conectados por arestas que têm sentido definido de para ou vice-versa. Neste caso, a aresta orientada recebe o nome de arco, e é denotada por . Na literatura de teoria dos grafos, grande parte dos exemplos ou problemas envolvem grafos simples e não orientados. Esta notação pode ser entendida como um grafo padrão, a menos que sejam especificadas outras características contrárias.

A Figura 2.1 abaixo exemplifica um grafo simples não orientado ou seja, as arestas não possuem direcionamento. Assim a relação é simétrica para ambas às partes que compõem a aresta. Na Figura 2.2, o grafo ilustra um grafo orientado, no qual se indica um sentido do relacionamento de uma das partes com outra.

Figura 2-1 – Grafo simples.

(21)

Capítulo 2 - Definição de conceitos 21 A ordem de um grafo estabelece seu número de vértices. Sendo assim, as ordens dos grafos e exibidos nas Figuras 2.1 e 2.2 são, respectivamente, =2 e =2. Conforme mencionado anteriormente, dois vértices e são adjacentes (ou vizinhos) se existe uma aresta Considerando grafos direcionados, a adjacência pode ser caracterizada em termos de sucessor, o vértice sucessor no qual o arco termina, e antecessor, aquele no qual o arco tem início. No exemplo da Figura 2.2, o grafo B tem o vértice como antecessor e o vértice

como sucessor do arco .

A propriedade ligada à contagem do número de arestas que incidem sobre um vértice é denominada grau. Sendo assim, o grau dos vértices mencionados no grafo A e no grafo B tem o valor e Para um grafo orientado, o grau ainda pode ser caracterizado em termos de grau de emissão ou saída, que contabiliza o número de arcos que partem do vértice, e grau de recepção ou entrada, que considera o número de arcos que chegam ao vértice. No exemplo da Figura 2.2, o vértice tem grau de entrada igual a zero e grau de saída igual a um. Já o vértice tem grau de entrada igual a um e grau de saída igual a zero. Conforme mencionado anteriormente, laços são caracterizados por uma aresta ou arco do tipo , ou seja, um vértice está relacionado a ele próprio, como ilustrado na Figura 2.3.

Figura 2-3 – Exemplo de um laço.

Aprofundando um pouco mais o estudo matemático sobre grafos, uma maneira natural de representar um grafo é utilizar uma matriz, aproveitando assim de todas as manipulações permitidas pela álgebra linear. Basicamente, existem dois tipos de matrizes para representar de maneira fiel um grafo: matrizes de adjacência e matrizes de incidência.

A partir da matriz de adjacência, é possível projetar as conexões entre cada vértice que compõe o grafo. Para exemplificar este conceito, seja um grafo simples de vértices e arestas o qual está ilustrado na Figura 2.4. A matriz de adjacência é uma matriz x , onde o valor de cada elemento

(22)

Capítulo 2 - Definição de conceitos 22 da matriz é determinado da seguinte forma: se os vértices e são conectados por uma aresta, caso contrário .

Por outro lado, a matriz de incidência é uma matriz x , onde é o número de vértices e é número de arestas. O valor de cada elemento desta matriz é determinado deste modo: caso a aresta seja incidente ao vértice , senão . Abaixo seguem como exemplos a Tabela 2.1, que projeta a matriz de adjacência, e a Tabela 2.2, que projeta a matriz de incidências, sendo ambas relacionadas ao grafo .

Figura 2-4 – Grafo G_Mat para exemplo de matrizes.

Tabela 2-1 – Matriz de adjacência do Grafo G_Mat

V1 V2 V3 V4

V1 0 1 0 0

V2 1 0 1 0

V3 0 1 0 1

V4 0 0 1 0

Tabela 2-2 – Matriz de incidência do Grafo G_Mat

V1 V2 V3 V4

A1 1 1 0 0

A2 0 1 1 0

A3 0 0 1 1

Existem algumas propriedades no que diz respeito à classificação do tipo de grafo. Assim, um grafo é chamado regular se todos os seus vértices possuem o mesmo grau. Em outro tipo de classificação, um grafo é chamado completo se existe uma aresta

(23)

Capítulo 2 - Definição de conceitos 23 entre cada par de seus vértices. A Figura 2.5 exemplifica um grafo regular e completo, no qual cada vértice possui e todos possuem arestas entre si.

Figura 2-5 – Exemplo de grafo regular e completo.

Um grafo é caracterizado por ser bipartido se o conjunto de vértices puder ser dividido em dois subconjuntos e , de forma que suas arestas sempre conectem um vértice proveniente de a outro vértice de , não havendo arestas entre vértices de C1 ou de C2. A Figura 2.6 ilustra uma possibilidade de um grafo bipartido, a qual divide o grafo em dois subconjuntos de vértices ímpares e pares, sendo respectivamente e . Apenas para clarificar, este exemplo citado é apenas uma das possibilidades de combinações para os subconjuntos C1 e C2 para esta imagem.

Figura 2-6 – Exemplo de grafo bipartido.

A propriedade semântica de um grafo é caracterizada pela existência de rótulos identificadores para vértices ou arestas [11]. Estes rótulos propiciam a identificação única de cada elemento, o que, por sua vez, permite que o grafo mantenha um banco de informações. Neste mesmo sentido, um grafo é caracterizado por ser ponderado se existe um valor ou peso para cada aresta. A Figura 2.7 mostra o exemplo de um grafo semântico e ponderado, que possui respectivamente rótulos para os vértices e pesos para as arestas.

(24)

Capítulo 2 - Definição de conceitos 24

Figura 2-7 – Exemplo de grafo semântico e valorado.

Um multigrafo é caracterizado por ser um grafo no qual existem múltiplas arestas entre pares de vértices de . Na Figura 2.8, existem três arestas conectando os vértices e .

Figura 2-8 – Ilustração de um multigrafo .

Um subgrafo é caracterizado ser parte de um grafo quando ⊆ e ⊆ . A Figura 2.9 abaixo mostra um exemplo de um subgrafo gerado a partir do grafo ilustrado na Figura 2.8.

Figura 2-9 – Subgrafo a partir do grafo .

Uma das propriedades descritas em teoria dos grafos diz respeito à capacidade de realizar sequências de visitas aos vértices. Neste quesito, existem diferentes formas de realizar tais visitas, que serão descritas a seguir.

Considerando um grafo , uma cadeia é uma sequência qualquer de arestas adjacentes que ligam dois vértices. Este mesmo conceito também é válido para grafos orientados, bastando apenas desconsiderar o sentido das arestas. Uma cadeia é caracterizada por ser elementar se não possui um mesmo vértice visitado mais de uma vez, e o seu comprimento é dado pelo número de arestas (arcos) que a compõe.

Na Figura 2.10, uma cadeia pode ser ilustrada pela sequência de vértices . Outro tipo de sequência é um caminho, que é caracterizado por

(25)

Capítulo 2 - Definição de conceitos 25 ser uma cadeia cujos arcos possuem a mesma orientação. A sequência de vértices é um exemplo de caminho do grafo . Um ciclo é caracterizado por ser uma cadeia simples e fechada, ou seja, o vértice inicial é o mesmo que o vértice final. Assim, a sequência de vértices , é um exemplo de ciclo elementar no grafo da Figura 2.10.

Neste mesmo tema, um circuito é caracterizado por ser um caminho simples e fechado. A sequência de vértices , é um exemplo de circuito elementar em . Por fim, a distância é um métrica comum, sendo caracterizada pela quantidade de arestas em um caminho mínimo, que conecta dois vértices em um grafo. Desta forma, no grafo ilustrado pela Figura 2.10, ou seja, a distância de a é igual a dois, respeitando o sentido das arestas.

Figura 2-10 – Exemplo de grafo G conexo e orientado.

Um grafo é caracterizado por ser conexo se existe pelo menos uma cadeia ligando cada par de vértices deste grafo . Assim, cada vértice pode ser alcançável a partir de qualquer outro vértice do grafo. Um grafo desconexo é formado por pelo menos dois subgrafos conexos que são disjuntos em relação aos vértices. O grafo da Figura 2.10 ilustra um grafo conexo, enquanto o grafo da Figura 2.11 abaixo ilustra um grafo desconexo formado pelas duas componentes conexas e .

(26)

Capítulo 2 - Definição de conceitos 26 Um vértice é caracterizado por ser um vértice de corte se sua remoção juntamente com as arestas a ele conectadas divide o grafo em subgrafos disjuntos. De maneira análoga, uma aresta é caracterizada por ser uma aresta ponte, se sua remoção provoca a separação do grafo. Na Figura 2.12 abaixo, o vértice e a aresta , são exemplos respectivamente de vértice de corte e aresta ponte. Na mesma figura, o vértice e a aresta , também são exemplos respectivamente de vértice de corte e aresta ponte.

Figura 2-12 – Exemplo de vértice de corte V2 e aresta ponte A2.

Uma clique é caracterizado como um subgrafo de que também é um grafo completo, ou seja, todos os vértices deste respectivo subgrafo estão conectados entre si e apresentam o mesmo grau. Um exemplo de clique está ilustrado na Figura 2.8, no subgrafo formado pelos vértices .

Caso o grafo possua poucas arestas para uma determinada quantidade de vértices, este é identificado com um grafo esparso. Por outro lado, um grafo é dito denso quando possui muitas arestas para uma determinada quantidade de vértices. A Figura 2.13 ilustra um grafo G esparso, enquanto a Figura 2.14 ilustra outro grafo G com a mesma quantidade de vértices, porém denso, apresentando múltiplas arestas entre os vértices.

(27)

Capítulo 2 - Definição de conceitos 27

Figura 2-14 – Grafo G denso.

2.3. Mineração de dados

A mineração de dados pode ser definida como um processo de descoberta automática de informação útil a partir de grandes volumes de dados. O processo de aplicação de técnicas de mineração de dados em grandes bases de dados tem o objetivo de descobrir padrões e informações que estão ocultos a priori. Algumas funções que também se associam a estas técnicas são [16]:

 Análise de associação – utilizada para identificar situações ou padrões que tenham características altamente associadas.

 Agrupamentos – identifica grupos nos quais seus respectivos componentes possuem mais semelhanças entre si (dentro do grupo) do que com componentes de outros grupos.

 Detecção de anomalias – identificar situações que tenham características significativamente diferentes do restante de dados.

 Modelagem preditiva – a capacidade de criar modelos preditivos baseando-se em dados pré-existentes.

A descoberta de conhecimento em banco de dados (KDD – Knowledge Discovery in Databases) consiste em um processo que tem a mineração de dados como uma das partes. A parte de pré-processamento refere-se à transformação de dados de entrada brutos em uma forma mais adequada para análises posteriores [16]. Algumas tarefas deste procedimento incluem seleção de registros, normalização e outras características importantes para garantir a execução do passo seguinte.

A mineração de dados, como descrito anteriormente, consiste na aplicação de técnicas para transformar os dados em informações úteis. Por fim, o pós-processamento é a etapa de validação dos resultados de forma que somente sejam

(28)

Capítulo 2 - Definição de conceitos 28 divulgados aqueles que forem legítimos e úteis ao propósito [16]. Alguns exemplos deste procedimento incluem a filtragem de padrões, visualização da informação sob diferentes pontos de vista e interpretação [2]. O processo descrito anteriormente segue ilustrado na Figura 2.15 abaixo:

Figura 2-15 – Processo de descoberta de conhecimento em banco de dados.

Alguns desafios que podem ser encontrados na mineração de dados [16]:

 Escalabilidade – atualmente, a quantidade de dados disponíveis cresce exorbitantemente, o que pode implicar em alto custo computacional. Técnicas de amostragem aleatórias, amostras oportunistas e ou computação distribuída podem ser utilizadas para contornar o problema.

 Alta dimensionalidade – dependendo do contexto da análise, múltiplas dimensões são requisitos mandatórios para o desenvolvimento dos dados, o que pode trazer implicações de complexidade e alto custo computacional.

 Heterogeneidade – alta diversidade com relação ao tipo e à categoria de dados.

 Dados ausentes – ausência de valores para determinadas variáveis, ou seja, registros com dados incompletos, seja por falhas no processo de seleção ou de revisão.

Apesar de ser um tema relativamente recente se comparado a outros conceitos computacionais como aprendizado de máquina e programação, a mineração de dados possui uma vasta bibliografia que inclui tópicos mais avançados.

2.4. Redes Complexas

Um sistema complexo pode ser caracterizado como um sistema cuja organização depende fortemente da interação de suas partes constituintes. Estas interações se dão numa perspectiva local, entre vizinhos, ou entre partes afastadas no sistema, e podem levar a comportamentos de larga escala, os quais não podem ser

(29)

Capítulo 2 - Definição de conceitos 29 previstos trivialmente a partir dos comportamentos individuais. Estes efeitos coletivos são denominados comportamentos emergentes [17],[18].

Um desafio, nesse caso, é entender a dinâmica da rede e a relação entre comportamento individual e global do sistema para permitir a extração de padrões e inferência de modelos. Neste contexto, as redes complexas surgem como uma proposta para estudar e analisar as interações de um sistema complexo [8]-[9],[16].

O estudo das redes complexas dentro da ciência de redes, conforme explicado anteriormente, tem como base a teoria dos grafos, herdando grande parte dos conceitos aplicados neste tema. Desde sua origem, há poucas décadas, este estudo tem evoluído significativamente, de modo que hoje existem definições bem estabelecidas que se propõem a descrever o comportamento de redes observadas no mundo real. Dentre estas definições, algumas podem ser citadas, como:

 Grau – número de conexões de um nó [8],[9].

 Hubs – nós que se destacam dos demais por apresentarem um grande número de conexões em uma rede, sendo comumente responsáveis pela intermediação entre nós [8],[9].

 Clusterização – mede quão conectados estão os nós próximos em uma rede [19].

 Centralidade – medida para identificar a importância de um nó dentro da rede [12],[20].

 Robustez e resiliência – analisa o comportamento e persistência de uma rede ao lidar com mudanças, adaptando-se a alterações e moldando modificações [21].

 Comunidades – identifica subconjuntos de nós que estão conectados mais fortemente entre si do que ao resto da rede [22].

 Assortatividade – identifica a tendência de nós se conectarem com outros nós que apresentam alguma característica similar [4],[5]. Um uso comum da assortatividade está presente no estudo da correlação entre os graus (número de conexões) dos nós que são vizinhos em uma rede.

(30)

Capítulo 2 - Definição de conceitos 30 As definições sobre Clusterização, Centralidade e Assortatividade, por serem parte conceitual fundamental deste trabalho, estão definidas em maiores detalhes nos capítulos posteriores.

Considerando as propriedades de redes complexas e suas aplicações em situações reais, é possível constatar que muitas dessas redes compartilham algumas das propriedades mencionadas acima, de modo que conjuntos de redes complexas podem compartilhar processos de formação, restrições e funcionalidades.

A fim de estabelecer um vocabulário para uma melhor compreensão do trabalho, o termo “rede complexa”, em geral, se refere a uma modelagem de sistemas reais que envolvem uma topologia de interações de diversos elementos e o comportamento desses elementos com relação a essas interações [18]. Estes elementos são, normalmente, chamados de nós e as interações são chamadas de conexões ou relacionamentos. “Grafo”, por sua vez, se refere à estrutura matemática usada para representar a topologia da “rede complexa”, sendo elementos e interações chamados, respectivamente, de vértices e arestas.

2.4.1.

Modelos de redes

Nesta seção, será apresentada uma breve descrição de alguns modelos que se propõem a descrever o crescimento e a estrutura de uma rede, destacando as respectivas propriedades.

Redes aleatórias

Dois matemáticos húngaros, Erdös e Rényi, fizeram uso da aleatoriedade para tentar resolver problemas provenientes do mundo dos grafos atentando à questão da quantidade de arestas existentes no grafo [23]. Diferentemente dos grafos regulares, nos quais os vértices possuem o mesmo número de arestas, a premissa do modelo aleatório é igualitária de outra forma: todas as possíveis arestas têm a mesma chance de serem criadas. Seguindo este pensamento, ao inserir conexões aleatoriamente em uma rede, eventualmente alguns nós obterão mais conexões que outros.

Considerando uma rede grande, apesar da localização absolutamente aleatória das conexões, quase todos os nós terão aproximadamente o mesmo número de conexões, seguindo uma distribuição Normal. Por conveniência e simplicidade, adota-se

(31)

Capítulo 2 - Definição de conceitos 31 a distribuição de Poisson [8] que é uma aproximação da distribuição Normal e depende apenas do grau médio da rede. A equação de Poisson segue descrita abaixo:

onde indica a proporção dos nós no grafo que possuem grau , e é o grau médio da rede.

Portanto o universo aleatório de Erdös e Rényi é dominado pelas médias, característica que está ilustrada na Figura 2.16, que mostra a distribuição de grau para o modelo aleatório.

Figura 2-16 – Distribuição de grau para redes aleatórias.

Para exemplificar este modelo, suponhamos uma sociedade virtual cujas conexões sociais tenham sido geradas pelo modelo de Erdös e Rényi. A distribuição de Poisson estabelece que muitas destas pessoas possuirão, aproximadamente, o mesmo número de amigos ou conhecidos, e também que será exponencialmente raro encontrar alguém que se desvie consideravelmente da média para mais ou menos conexões. Ou seja, a teoria aleatória prediz que, ao alocarmos conexões sociais ao acaso, chegaremos a uma sociedade relativamente uniforme.

Sociedades e outras redes do mundo real, por outro lado, apresentam outras características que não podem ser explicadas pelo modelo de Erdös e Rényi, como, por exemplo, a existência de nós hubs que concentram um número de conexões maior que a média, e por esta razão são comumente responsáveis pela intermediação entre nós [24]. Assim, o modelo aleatório pode ser utilizado para descrever determinados tipos de rede, como por exemplo, redes de jogos de azar. Mas, não é o tipo ideal para modelar algumas redes complexas, tais como, sociedades humanas, economia e células

(32)

Capítulo 2 - Definição de conceitos 32 biológicas. As estruturas destas redes podem conter outras informações a serem consideradas, e que podem ajudar no seu entendimento.

Redes de mundo pequeno

Duncan Watts, durante seu doutorado, se deparou com uma questão fundamental para entender como os grilos sincronizavam seus ruídos "cri-cris". Para responder esta dúvida, Watts percebeu que seria necessário compreender a estrutura de organização entre os grilos. Assim, visando entender possíveis tendências de agrupamento das partes em um sistema, Watts introduziu, juntamente com seu orientador Steven Strogatz, o conceito de coeficiente de clusterização para mensurar os quão localmente conectados estão os elementos de uma rede [19].

Considerando uma rede social entre amigos e conhecidos, o coeficiente de clusterização informa o grau de coesão entre os indivíduos desta rede, no qual um valor próximo de um indica que todos seus amigos também são amigos uns dos outros. Por outro lado, um valor próximo de zero indica que apenas você é o responsável por agregar este vínculo de amizades, ou seja, os outros indivíduos não se importam com a companhia uns dos outros. Assim, o coeficiente de clusterização para um nó, ou clusterização local, pode ser definido pela razão entre o número efetivo de conexões entre seus vizinhos próximos e o número máximo possível de conexões considerando estes vizinhos.

(2.1)

onde é o número atual de conexões entre os vizinhos do nó , e é o número máximo possível. Já o coeficiente de clusterização médio ou global, é a média do valor de para todos os nós em uma rede, conforme equação abaixo:

(2.2)

O coeficiente de clusterização (ou transitividade) quantifica a presença de triângulos na rede (conjuntos de três vértices conectados uns aos outros).

Apesar de a alta clusterização ser uma característica importante dos relacionamentos humanos - indivíduos tendem a se associar com pessoas com as quais

(33)

Capítulo 2 - Definição de conceitos 33

compartilham contatos -, em uma sociedade existem também conexões diretas com outros nós mais “distantes” [19]. Este tipo de conexão encurta distâncias em uma rede, proporcionando à rede um pequeno valor para a média do tamanho dos menores caminhos entre quaisquer pares de vértices, quando comparado ao tamanho total da rede. Este efeito é denominado de mundo pequeno (“small world”) [19].

O modelo de Watts e Strogatz se relaciona fortemente com os estudos de Stanley Milgram sobre a associação entre pessoas [25]. Nesse experimento, determinadas pessoas deveriam fazer cartas chegarem a alguns indivíduos alvos, utilizando para isso amigos e conhecidos como transmissores das cartas. O resultado mostrou que, em média, as cartas que completaram seu destino, passaram por seis pessoas, um valor pequeno se comparado ao número de conexões sociais destas pessoas e também a quantidade de pessoas no planeta [18],[25]. Para explicar essa pequena distância, é possível destacar o fato de que algumas pessoas possuem parentes e amigos que não vivem em lugares próximos, de modo que estas conexões funcionam como atalhos entre indivíduos que se encontram regiões geograficamente distantes.

A grande descoberta de Watts e Strogatz é que, considerando um grafo inicial regular e com alta clusterização, a adição de poucas conexões com nós mais distantes já é suficiente para reduzir drasticamente a separação média entre os nós. Como são poucas, essas conexões não alteram significativamente o coeficiente de clusterização da rede, que, assim, é denominada rede de mundo pequeno. A Figura 2.17, a seguir, ilustra alguns exemplos dos modelos de rede regular, mundo pequeno e aleatório [8].

(34)

Capítulo 2 - Definição de conceitos 34

Rede livre de escala ou lei de potência

Quase ao mesmo tempo em que Watts e Strogatz propunham as redes de mundo pequeno, Réka Albert e Albert-László Barabási introduziram um novo modelo, denominado rede livre de escala [26]. A grande percepção de Albert e Barabási é que as redes do mundo real raramente são estáticas, de modo que este modelo permite a criação de novos nós e conexões ao decorrer do tempo. Ainda no mesmo raciocínio, comparando este modelo com os de Erdös-Rényi e Watts-Strogatz, existe uma diferença baseada no fato de que estes dois consideram os nós da rede como iguais, ou seja, a probabilidade de obter conexões é a mesma. Por outro lado, Albert-Barabási sugere que nós que já possuem mais conexões têm uma probabilidade maior de se conectarem a novos nós [8].

A partir da análise de redes do mundo real, Albert e Barabási verificaram que o número de conexões dos nós de redes como redes sociais de atores e autores, redes elétricas e redes de hyperlinks na web [8] seguem distribuições em lei de potência, ao contrário da Poisson prevista para redes totalmente aleatórias. O caráter distintivo da lei de potência não é apenas que existam muitos eventos pequenos, mas sim que estes coexistam com eventos de grande magnitude. Em redes, esta distribuição de conexões implica que grande parte dos nós possui um pequeno número de conexões, enquanto que um pequeno número de nós possui muitas conexões (os quais são chamados de hubs), algo não explicado pelos modelos anteriores.

A lei de potência tem a seguinte relação entre dois escalares x e y, conforme a função:

(2.3)

onde, a é uma constante de proporcionalidade e k a constante de expoente.

O modelo Albert-Barabási, no âmbito de análise da distribuição de graus em uma rede, traz um valor fixo para o grau do expoente negativo igual a três, assim a distribuição de graus em uma rede segue por . A Figura 2.16, apresentada

anteriormente, a curva em forma de sino que representa uma distribuição aleatória de graus, na qual o pico é a média. Já a Figura 2.18 abaixo, mostra a distribuição de graus para o modelo livre de escala [9].

(35)

Capítulo 2 - Definição de conceitos 35

Figura 2-18 – Distribuição de grau para redes livre de escala.

Assim, Albert e Barabási propuseram um modelo capaz de gerar redes nas quais os graus seguem a distribuição livre de escala [8]. Este modelo, chamado de modelo livre de escala, é composto por dois mecanismos fundamentais:

1. Crescimento: a cada período dado é adicionado um novo nó à rede. Esta etapa enfatiza que as redes se compõem por um nó de cada vez, ilustrado pela Figura 2.19 a abaixo.

Figura 2-19 – Exemplo do crescimento da rede.

2. Conexão preferencial: a probabilidade de um novo nó se associar com outro na rede é proporcional ao número de conexões do nó já existente na rede, ou seja, um nó A já existente na rede com o dobro de conexões de outro nó B, também existente, possui o dobro de chances de ser o escolhido pelo novo nó C para estabelecer uma nova conexão. Esta definição é dada pela equação abaixo, onde é o grau do nó i:

(36)

Capítulo 2 - Definição de conceitos 36

(2.4)

A partir do modelo Albert-Barabási, outras abordagens surgiram para melhorar ou complementar as propriedades que foram ali estabelecidas [8]. Neste âmbito, Luis Amaral et al. [27], através do conceito de idade do nó, demonstraram que o tamanho dos hubs é limitado, caso estes não conseguirem links após certa idade, o que consequentemente torna hubs grandes menos frequentes do que o previsto na lei de potência. Dorogovtsev e Mendes, em um trabalho semelhante [28], mostraram que o gradual envelhecimento dos hubs não destrói as leis de potência, mas simplesmente altera o número de hubs ao mudar o expoente de grau.

Paul Krapvisky, Sid Redner e Francois Leyvraz [29] generalizaram a conexão preferencial para estudar quando a possibilidade de que a conexão a um nó não fosse simplesmente proporcional ao número de links que o nó possui, mas obedecesse a

alguma função complexa para estar de acordo com a lei de potência. Os próprios autores, Albert e Barabási fizeram extensões ao modelo incluindo, por exemplo, estudos sobre efeitos de processos locais como adição de novos nós, novos links e renovação sobre a estrutura de redes livre de escala [30].

Uma vez definidos os principais conceitos relacionados a estrutura de formação de redes complexas, em seguida serão apresentados alguns exemplos de como e onde este conhecimento pode ser aplicado considerando sistemas de mundo real.

2.4.2.

Redes complexas no mundo real

A eclosão das pesquisas em redes sociais online é caracterizada principalmente pela utilização colossal por parte dos usuários e também pela disponibilização de dados pelos grandes sistemas provedores. Considerando análises sobre suas propriedades, uma pesquisa constatou que muitas das redes sociais apresentam propriedades de mundo pequeno e distribuição de grau obedecendo à lei de potência [31].

Outro assunto que vem sendo estudado por vários pesquisadores é a difusão da informação em redes sociais, que tem o intuito de identificar padrões nestes processos. Assim, o termo “viral” é comumente usado quando algo alcança níveis populares notáveis. Em [32], foram reunidas algumas propriedades sobre virais, como: a

(37)

Capítulo 2 - Definição de conceitos 37 maioria possui profundidade pequena, os grandes virais são eventos raros e excepcionais, enquanto a grande maioria das difusões é pequena e não alcançam todos nós na rede. Em geral, o viral (incluindo aqueles com grandes dimensões) possui um período curto de vida sendo que qualquer usuário da rede tem potencial de iniciar virais. Outros estudos recentes a partir de diversos virais em redes reais avaliam a estrutura dos mesmos, bem como características específicas, e apontam que não existe um padrão único ou definido para a difusão de virais, mas múltiplas bases ou formas para que um determinado item se torne um viral [33].

Para o contexto de epidemias, Pastor-Satorras et al. [34] apresentam uma revisão concisa de pesquisas sobre processos epidêmicos, detalhando abordagens de êxito, bem como seus respectivos limites. Nesse trabalho, são descritos modelos de difusão de doenças contagiosas e os principais resultados considerando processos de contágio social generalizados. Já em [35], Liljeros et. al fizeram análises sobre o comportamento sexual humano através de entrevistas e questionários. Nesse estudo, especificamente, foi identificado um modelo livre de escala e também características de conexão preferencial. Ainda foi destacada a importância de campanhas focadas em indivíduos com um grande número de parceiros, com o intuito de evitar a difusão de epidemias e doenças sexualmente transmissíveis.

Considerando análises de texto e semântica, existem estudos através de processamento de linguagem natural sobre a coocorrência de palavras em frases, mostrando que a rede formada possui características dos modelos de livre escala e mundo pequeno, como mostra Ferrer i Cancho e Sole em [36]. Já na pesquisa de S. Ronen et. al [37], é apresentada uma rede global de línguas para avaliar a influência das mesmas, onde os resultados sugerem que a posição da língua na rede reflete a visibilidade dos falantes a popularidade cultural que estes produzem. A. Pak e P. Paroubek demonstram em [38] que as redes sociais podem ser grandes bases para pesquisas de processamento de linguagem natural (PLN). Assim, é possível, realizar análises de sentimento em textos [39], considerando emoticons para melhorar o processo de classificação [40], com o objetivo de identificar, se determinada mensagem possui um aspecto positivo ou negativo.

Nas áreas biológicas, existem análises sobre redes de proteínas e genes. A evolução de genes é estudada a partir de um modelo de rede de interações entre proteínas, que traz como característica a duplicação de nós somada à reescrita dos genes recém-criados [41].

(38)

Capítulo 2 - Definição de conceitos 38 No âmbito de neurologia, alguns estudos têm o objetivo de descrever a organização neural e destacar padrões na rede complexa formada. A partir destes padrões é possível identificar desvios que podem caracterizar patologias como, esquizofrenia e Alzheimer [42]-[44].

Já no contexto tecnológico, alguns estudos [45]-[46] destinam-se a explorar redes de distribuição de energia elétrica, páginas web e tráfego de dados na internet, ligações telefônicas, dentre outras.

A compreensão do funcionamento de cidades, incluindo concentração de pessoas, serviços e economia é um tema novo de estudos na ciência de redes. A partir de dados de redes sociais online com localização geográfica, em [47] Lenormand et. al tentam mapear a influência de cidades, através de uma rede formada pela mobilidade e o fluxo dos usuários entre as cidades, permitindo uma visão regional e global sobre o sistema.

Outra abordagem exposta em [48], Louail et. al utilizam dados disponibilizados por operadoras de telefonia móvel para mapear a estrutura da cidade em uma rede complexa, permitindo identificar comunidades e mobilidade de usuários. Neste trabalho, são destacados dois tipos de fluxos, sendo um fluxo integrado que caracteriza deslocamento entre residências e trabalho, e fluxo aleatório, que é caracterizado por outros deslocamentos variados, onde a importância varia de acordo com o tamanho e possibilidades oferecidas pela cidade.

(39)

Capítulo 3 - Análises de Pesquisas Científicas 39

3.

ANÁLISES DE PESQUISAS CIENTÍFICAS

O mundo atual está cada vez mais cercado por sistemas interligados que possuem características complexas para serem entendidas de uma maneira instantânea. A sociedade, por exemplo, estabelece-se através da cooperação entre bilhões de indivíduos de diferentes lugares ou culturas. O sistema de comunicação depende de uma infraestrutura integrada de bilhões de dispositivos como computadores, links e satélites. A própria capacidade de raciocínio e compreensão do ser humano sobre o mundo só é possível devido à atividade interativa entre bilhões de neurônios na rede cerebral. Ainda neste aspecto, o corpo humano é composto por milhares de genes em nossas células, que são material de estudo sobre a raiz da existência nas das redes de transcrição genética.

A tecnologia moderna hoje é alimentada por uma rede de energia elétrica constituída por geradores e linhas de transmissão. Redes de negócios realizadas a nível mundial garantem a interligação necessária entre nações para troca de bens e serviços, e a partir destas é possível identificar a propagação de inovações ou crises financeiras no setor econômico. As redes também são o núcleo de algumas das principais empresas de tecnologias atuais, seja a rede de buscas web para o Google, redes sociais para o Facebook e Twitter, ou ainda rede de dados para a Cisco, dentre outros casos.

Uma característica fundamental na ciência de redes é que existem muitas informações que requerem um grau maior de entendimento do que uma simples avaliação, ou seja, alguns sistemas complexos não podem ser compreendidos sem uma profunda análise sobre as redes que estão por trás dos mesmos [8]-[9].

A ciência de redes é um campo relativamente novo no ambiente acadêmico, mas suas raízes estão fixadas em séculos anteriores, conforme já mencionado. No início deste século, houve um grande despertar de interesse na área, que acabou por focar na emergência e evolução das redes através de um conjunto de padrões e mecanismos fundamentais. Apesar da característica de natureza diversa das redes considerando o contexto, tamanho, forma e idade, muitas das redes observadas na ciência, tecnologia e sociologia compartilham os mesmos princípios de organização, ou seja, uma vez que desconsideramos a natureza dos componentes e suas interações, as redes formadas pelos mesmos possuem várias propriedades semelhantes [8]-[9].

Nas próximas seções, será discutida a evolução da ciência de redes e sua abrangência no mundo atual, bem como trabalhos relacionados à abordagem proposta.

(40)

Capítulo 3 - Análises de Pesquisas Científicas 40

3.1. Mineração de dados em artigos científicos

No que diz respeito à mineração de textos em artigos científicos no formato PDF, alguns trabalhos relacionados à extração automática de dados em documentos acadêmicos utilizam métodos de aprendizado de máquina, como Support Vector

Machines (SVMs) [49], Hidden Markov Models (HMMs) [50] e Conditional Random Fields (CRFs) [51], para identificar os atributos bibliométricos. Todos esses modelos

apresentam uma estrutura semelhante no quesito de identificação, no qual é necessário rotular cada campo específico a partir de padrões de texto, para então possibilitar uma base para comparação com os dados ainda não rotulados.

Por outro lado, existem métodos baseados em regras e padrões de formatação aliados à Linguagem Natural para processar o texto e identificar atributos [52],[53]. As abordagens citadas primeiramente apresentam resultados positivos com altas taxas médias de acerto para cada campo identificado e extraído, porém existe o pré-requisito de treinar o modelo com dados rotulados, trabalho que em muitos casos é realizado manualmente e pode ser dispendioso.

Já as abordagens citadas por último, também apresentam resultados positivos para extração dos campos, introduzindo inclusive a possibilidade de utilizar bases externas para confirmar os resultados. Porém, como desvantagem, possuem a dependência de uma ferramenta para decompor o texto e posteriormente rotular os dados baseando-se em dicionários pré-existentes, tarefa a qual pode demandar grande custo de processamento considerando funções analíticas de linguagem natural.

3.2. Redes científicas

No contexto de redes complexas, os trabalhos existentes sobre bibliometria científica compreendem, principalmente as redes de colaboração e citação, as quais exploram respectivamente, o relacionamento de cooperação e o fluxo de informações existentes no mundo acadêmico.

No começo deste século Newman [54]-[55] realizou pesquisas em redes de coautoria aplicando conceitos de redes complexas. As primeiras análises de resultados mostraram previsões sobre o modelo de rede, bem como propriedades macroscópicas, evidenciando que estes tipos de redes apresentam alta clusterização e características de redes de mundo pequeno [19], ou seja, na média, existe uma pequena distância entre dois cientistas escolhidos aleatoriamente.

(41)

Capítulo 3 - Análises de Pesquisas Científicas 41 Barabási demonstrou em [26] que as redes de coautoria apresentam características de rede livre de escala no âmbito de distribuição do grau de conexão de cada nó.

Newman realizou estudos de distâncias médias entre nós e coeficiente de clusterização para diversas redes de coautoria, que mostram um valor de menor distância e de maior clusterização para Física do que se comparado com as disciplinas de Matemática e Biologia [56].

Um pouco mais tarde, Barabási et al. [6], realizaram um estudo sobre a evolução de redes de colaboração, mapeando uma rede com dados dos principais periódicos de Matemática e Neurociência, para um dado período de oito anos.

Os resultados demonstraram uma estrutura de rede livre de escala, que evolui com características do tipo conexão preferencial: autores que estão há mais tempo no ambiente acadêmico publicam mais artigos na média e, assim, recebem mais conexões, se comparado a nós mais novos. Porém, em contraste com outros modelos, com o decorrer do tempo, o valor do grau médio aumenta e a separação diminui, apontando uma característica da estrutura social acadêmica. Por fim, foi destacado que modelos anteriores desconsideram que as principais métricas de redes complexas são dependentes do tempo, e que a interações acadêmicas são dinâmicas, o que, por sua vez, pode apresentar alterações consideráveis nos resultados obtidos.

Na mesma linha, o trabalho de Cotta e Merelo em [57] expõe uma revisão sobre a relação entre redes complexas e coautoria no campo da Computação Evolutiva, contemplando avanços no contexto de análises de colaboração científica. Também foram aplicadas métricas de distância e centralidade com o objetivo de destacar os principais autores para várias bases de publicações. Já na pesquisa de Andrade et al. em [7], foram analisadas diversas redes brasileiras baseadas em produções científicas da base de dados CAPES. Os resultados mostraram características para redes de coautoria, como distribuição de graus livre de escala, efeito mundo pequeno e conexão preferencial. Também foi destacada a existência de pesquisadores influentes como nós hubs e membros de grupos de pesquisa que mantiveram um alto nível de produção científica durante o período avaliado, em virtude do grande número de conexões.

Outra abordagem é feita por Newman em [4], que propõe uma métrica para identificar a tendência de nós se conectarem com outros de perfis similares. Neste âmbito, alguns estudos evidenciaram uma assortatividade de grau positiva para redes de

Referências

Documentos relacionados

É perceptível, desta forma, o constante aumento do aprofundamento dos personagens: os “príncipes” têm agora não só nome e falas, mas personalidades bem desenvolvidas,

A nutrição enteral (NE), segundo o Ministério da Saúde do Brasil, designa todo e qualquer “alimento para fins especiais, com ingestão controlada de nutrientes, na forma isolada

O segundo Beneficiário será designado pelo Segurado na Proposta de Adesão, podendo ser substituído a qualquer tempo, mediante solicitação formal assinada pelo próprio Segurado, para

Nos tempos atuais, ao nos referirmos à profissão docente, ao ser professor, o que pensamos Uma profissão indesejada por muitos, social e economicamente desvalorizada Podemos dizer que

Pode – se perceber que para o homem sair da menoridade, não seria que ele tivesse ganhado a maioridade cronológica, mas partir da compreensão estaria sendo

Depois de se cultivar as variedades de soja Santa Rosa e UFV-1 em solução nutritiva "completa" e com deficiência de B, Cu e Zn, de se analisar as suas folhas e de

Almanya'da olduğu gibi, burada da bu terimin hiçbir ayrım gütmeden, modern eğilimleri simgeleyen tüm sanatçılar için geçerli olduğu anlaşılıyor.. SSCB'de ilk halk

O destaque é dado às palavras que abrem signi- ficados e assim são chaves para conceitos que fluem entre prática poética na obra de arte e sua reflexão em texto científico..