• Nenhum resultado encontrado

5. MÉTRICAS PARA REDES DE COLABORAÇÃO CIENTÍFICAS

5.1. Centralidades

Dado um conjunto de artigos científicos, o que pode-se inferir sobre estes? Uma vez extraídos os atributos, quais destes se destacam com relação aos demais? Considerando os principais nós, quais seus papéis na rede?

Neste contexto, as medidas de centralidade buscam, destacar os principais nós em uma rede, que neste trabalho podem ser artigos, autores, palavras-chave, países e ano de publicação, entre outros. Abaixo seguem algumas das principais medidas de centralidade que podem ser aplicadas:

 Centralidade de grau – aponta os vértices que possuem maior número de conexões imediatas (vizinhos). Seja um grafo qualquer (conexo ou não) com nós e seja um nó de . A centralidade de grau de um dado nó

é dada pelo número de relacionamento incidentes a este [12],[20]:

(5.1)

onde são elementos da matriz de adjacência do respectivo grafo

 Centralidade de proximidade – identifica os vértices que possuem menor distância com relação aos demais na rede. A centralidade de proximidade é baseada na soma das distâncias de um vértice em relação aos demais vértices do grafo. Assim, seja um grafo conexo com vértices e seja um vértice de . A centralidade de proximidade de , denotada por ,

é dada pelo inverso da soma das distâncias de a todos os demais vértices do grafo [12],[20]:

Capítulo 5 - Métricas para Redes de Colaboração Científicas 68 (5.2)

 Centralidade de intermediação – identifica na rede os vértices que participam do maior número de caminhos mais curtos entre pares de vértices, ou seja, identifica os vértices que servem como conexão entre grupos. Considerando um grafo , (conexo ou não) com vértices e seja um vértice de . Para cada par de vértices e em G , tal que , e , a intermediação parcial de com respeito a e é dada por [12],[20]: (5.3)

onde é o número de menores caminhos entre e e é o número de menores caminhos entre e que passam por .

A definição da função para calcular a centralidade de intermediação, denotada por , é a soma de todas as intermediações parciais de em . (5.4)

5.2. Assortatividade de grau

A assortatividade de grau é uma medida intrínseca na rede, pois é possível obter o grau de cada vértice sem a necessidade de informações adicionais. A partir disso, pode-se determinar, por exemplo, se os vértices com elevados valores de grau possuem uma propensão de se associar com outros vértices com grau alto. A definição da assortatividade de grau é dada por [4],[5]:

Capítulo 5 - Métricas para Redes de Colaboração Científicas 69 (5.5)

onde é o número total de arestas, e são respectivamente os valores de grau para os vértices que estão nos extremos da i-ésima aresta, com . Como demonstrado em (5.5), a assortatividade de grau, é na verdade, o coeficiente de correlação de Pearson aplicado para os valores de grau dos vértices das extremidades das arestas, vigorando, dessa forma, a condição , sendo que indica uma perfeita assortatividade e uma completa desassortatividade. No último caso, tem-se que vértices com graus mais altos tendem a se relacionar com vértices com graus mais baixos.

Uma variação da medida de assortatividade de grau, surge da possibilidade de se considerar o direcionamento das arestas, o que dá origem à assortatividade de grau direcionada [4],[5]:: ( (5.6)

sendo e , respectivamente, os valores de grau de entrada e grau de saída dos vértices extremos da i-ésima aresta e o número total de arestas

Neste trabalho, é considerado o valor total de grau para a medida de assortatividade de grau, que possui o mesmo resultado da abordagem de graus remanescentes proposta em [4]. O objetivo é identificar como graus de autores, países, artigos, palavras-chave e ano de publicação estão associados na rede. Algumas de suas possíveis aplicações são:

 Colaboração entre autores – identificar se existe uma tendência de autores se conectarem com outros que possuem número de colaboradores similar.

 Colaboração entre países – identificar se existe uma tendência de países que se envolvem em colaborações com mais nações, a se relacionar com outros países com essa mesma característica.

Capítulo 5 - Métricas para Redes de Colaboração Científicas 70

 Citação entre artigos – identificar se existe uma tendência de artigos mais citados referenciarem outros artigos com grande número de citações.

5.3. Assortatividade discreta

Para a medida de assortatividade discreta, são consideradas algumas características discretas ou enumerativas, ou seja, propriedades nominais que permitem uma classificação dos vértices em uma rede. Assim é possível verificar por exemplo em uma rede de pessoas classificada por gênero, a tendência de relacionamento entre indivíduos masculinos e femininos.

Desta forma, para se aplicar a medida de assortatividade discreta é necessário primeiramente selecionar uma propriedade nominal que permita criar uma nova classificação de vértices de um mesmo tipo na rede. Em seguida, serão analisadas tendências de relacionamentos entre os vértices sob a nova perspectiva de classificação.

A medida de assortatividade de discreta é definida por [4],[5]:

( (5.7) na qual define a quantidade de arestas na rede que conectam o vértice ao vértice , o termo é o traço da matriz quadrada formada pelos elementos e suas respectivas relações, é o somatório dos elementos da coluna j dado por , por fim, é o somatório dos elementos da linha i dado por . O resultado de está situado no intervalo , sendo que valores mais altos indicam maior assortatividade dos elementos avaliados.

Abaixo seguem alguns exemplos de aplicações da assortatividade no contexto deste trabalho:

 Associação de palavras-chave por ano – As palavras-chave de artigos utilizadas em um determinado ano de publicação coincidem com palavras- chave utilizadas em outros anos?

 Assortatividade discreta por continente – Considerando um agrupamento de atributos por continente, existe uma tendência de associações entre nós similares?

Capítulo 5 - Métricas para Redes de Colaboração Científicas 71  Colaboração entre países por continente – Países do mesmo

continente tendem a colaborar entre si, ou colaborar com países de outros continentes?

 Associação entre palavras-chave por continente – Qual a sintonia de pesquisa entre continentes, ou seja, palavras-chave compartilhadas por continentes?

 Associação entre artigos por continente – Existe uma tendência de artigos referenciarem outros artigos do mesmo continente?

As classificações dos respectivos continentes de países neste trabalho utiliza a convenção de sete continentes, que é o modelo convencional que se ensina habitualmente na maioria dos países de língua inglesa. Esta escolha pode ser justificada pelo fato de que os artigos estão no idioma inglês. Em termos gerais, neste conceito, o termo Oceania é substituído por Austrália para referenciar o continente australiano e, a América Central está incluída dentro do continente norte-americano.

5.4. Correlações

As medidas de similaridade citadas abaixo [16] foram implementadas de modo a encontrar padrões em comum para elementos do mesmo tipo sob diferentes perspectivas.

5.4.1.

Jaccard

O índice de Jaccard é largamente utilizado em situações com atributos binários assimétricos. Esta medida compara dois vetores binários e desconsidera valores que não são indicativos de similaridade, ou seja, que são falsos em ambos os casos. Neste trabalho, cada atributo binário indicará a ocorrência ou não de relacionamento entre determinados nós de uma rede. O coeficiente de Jaccard é definido por [16]:

(

(5.8) onde é o número de correspondências para ambos casos verdadeiros, apenas o primeiro caso verdadeiro e somente o segundo caso verdadeiro. Assim a definição

Capítulo 5 - Métricas para Redes de Colaboração Científicas 72 pode ser entendida como o número de ocorrências correspondentes sobre o número de correspondências não relacionadas a termos absolutamente ausentes .

O índice de Jaccard assume valores entre zero e um, , onde indica uma similaridade positiva, ou seja, os dados dos vetores possuem características iguais sob o ponto de vista avaliado, e indica uma desigualdade entre os dados dos vetores.

5.4.2.

Correlação de Pearson

O índice de Pearson é uma métrica comum para definir padrões de similaridades em vetores. O coeficiente é definido pelo cálculo da covariância dos vetores sobre o produto do desvio padrão de cada vetor, como segue abaixo [16]:

( (5.9)

onde e são os -ésimos elementos dos vetores e respectivamente, e , representam as médias dos vetores. Os valores dos vetores serão os pesos dos relacionamentos entre determinados nós da rede, que, neste trabalho, são dados pela soma da quantidade de ocorrências da respectiva conexão.

Medidas de correlação entre diferentes características de um determinado tipo de nó podem auxiliar na busca por padrões em comum para estes elementos. Alguns exemplos são:

 Similaridades para autores – comparação que permite verificar se os autores de artigos mais referenciados são nós colaboradores na sub-rede de autores.

 Similaridades para países – esta análise permite avaliar, por exemplo, se os países com artigos mais referenciados são países colaborativos, ou seja, países que possuem publicações em conjunto com outras nações.

 Similaridades para palavras-chave – permite averiguar se as mesmas palavras-chave presentes em artigos mais referenciados são também as mais adotadas por autores em geral.

Capítulo 5 - Métricas para Redes de Colaboração Científicas 73 O coeficiente de Pearson possui um valor resultante variando de menos um a um, , no qual um valor positivo, indica que o conjunto de variáveis analisadas estas estão relacionadas, ou seja, possuem uma interdependência. De maneira contrária, um valor negativo para correlação, indica um distanciamento de relação, ou seja, independência entre as partes.

Capítulo 6 - Resultados 74

6.

RESULTADOS

A partir da metodologia aqui proposta, pretende-se extrair informações de artigos científicos, de forma a criar uma base padronizada que possa ser compartilhada. Além disso, as análises sobre os dados aqui propostas objetivam um modo de visualizar a informação distinto de outros métodos convencionais, fazendo se valer prismas ainda pouco explorados no contexto de redes científicas, através do uso de redes heterogêneas. Como forma de validar a abordagem aqui apresentada, foram realizadas três análises de conjuntos de dados. Nos dois primeiros casos, N1 e N2, os estudos foram realizados a partir de um conjunto local de arquivos na extensão PDF, onde foram extraídos dados sobre artigos científicos e autores. Já o último estudo realizado N3, conta com uma extensa base de arquivos no formato XML, da qual foram extraídas as respectivas informações sobre artigos e autores. Visando manter o padrão de análise, foi utilizado sempre que possível, o mesmo critério para classificação e processamento dos dados.