• Nenhum resultado encontrado

Capítulo 4 – Rede Social Científica Multi-relacional

4.4 Modelagem da Rede Social Científica Multi-Relacional

4.4.2 Idade do Relacionamento

Outro fator importante a ser considerado na definição do grau de relacionamento é a idade do mesmo, ou seja, é importante saber o ano em que o relacionamento foi criado. A idade do relacionamento é útil para indicar se o relacionamento reflete uma conexão atual, ou se é apenas uma conexão que existia no passado e que talvez nem exista nos dias atuais.

Existem dois tipos de relacionamentos a serem considerados quando se olha para o ano em que a conexão ocorreu. O primeiro tipo é o relacionamento exato que ocorre em um determinado momento e a conexão entre os elementos não irá necessariamente continuar ao longo do tempo, como é o caso dos relacionamentos de co-autoria. O outro tipo é o relacionamento contínuo que é aquele que tem uma duração definida, ou seja, ele reflete uma coexistência dos elementos durante um intervalo de tempo, como é o caso dos relacionamentos de participação em projetos.

Para ilustrar a importância de analisar a idade de relacionamento, suponha que dois pesquisadores A e B tenham publicado três trabalhos há vinte anos, e dois outros pesquisadores C e D publicaram um artigo em conjunto no ano passado. Se for considerado apenas o número de publicações em comum, será concluído que A e B têm uma relação mais forte do que os pesquisadores C e D. No entanto, as relações entre A e B são muito antigas e, provavelmente, esses pesquisadores podem não estar trabalhando juntos nos dias atuais. Por outro lado, as conexões entre C e D são recentes, o que indica que eles atualmente têm interesses comuns.

Para considerar a idade dos relacionamentos na modelagem da rede social científica foi adicionado um peso do ano para os relacionamentos na equação (6), obtendo a seguinte equação:

1 1

,

t d AB j i i i j

TR

 

R

 



(7) onde d é a duração do relacionamento em anos e j é uma função de penalização com relação ao ano do relacionamento. Assume-se que os relacionamentos exatos possuem duração de um ano e os relacionamentos contínuos têm duração igual ao número de anos

71

que a conexão existiu, sendo que essa informação está disponível no currículo Lattes do pesquisador.

A definição da função de penalização com base no ano do relacionamento foi feita a partir da análise dos resultados gerados por três tipos de funções diferentes, são elas: função potência (Acar, Dunlavy and Kolda, 2009), função exponencial e função sigmóide.

Neste capítulo essas funções serão formalmente definidas para compor o processo de modelagem da rede social científica. A análise dos resultados produzidos por cada uma delas será apresentado em detalhes nos próximos capítulos. Com base nos resultados obtidos foi possível definir qual a função de penalização reflete melhor o comportamento das redes sociais científicas multi-relacionais.

A função potência foi sugerida por Acar em (Acar, Dunlavy and Kolda, 2009) e a sua definição matemática é dada por:

(1 )BY RY

j

(8)

onde BY é o ano-base utilizado neste trabalho, sendo igual a 2011 (ano do cálculo dos experimentos), RY é o ano do relacionamento e o parâmetro

(0,1) pode ser definido pelo usuário ou segundo experimentos realizados em um conjunto de treinamento. Essa função descreve uma curva representada graficamente pela Figura 25.

72

Valores de  próximos a zero produzem uma função peso que penaliza

rapidamente os relacionamentos mais antigos, enquanto que valores próximos a 1 penaliza pouco os relacionamentos antigos. As funções geradas pela variação do parâmetro  estão representadas na Figura 26.

Figura 26 - Variação do parâmetro da função de penalização Potência

A definição do parâmetro  não foi trivial. Essa definição foi feita a partir da análise dos resultados produzidos pelo método de agrupamento utilizando valores diferentes para esse parâmetro. A análise dos grupos formados mostrou que os melhores resultados foram obtidos para 0, 7.

A função exponencial é definida como segue: 1 ( )

,

BY RY j

e

(9)

onde BY e RY seguem a mesma definição da equação (8).

A função definida na equação (9) descreve a curva mostrada na Figura 27. Pode ser observado que, assim como na função potência, quanto mais recente for o relacionamento, maior será o peso dado a ele. Assim, tem-se a garantia de que os relacionamentos mais recentes possuem um peso maior na análise da rede social que os relacionamentos mais velhos.

73

Figura 27 - Representação gráfica da função de penalização Exponencial

Durante a análise evolutiva da rede social científica, realizada durante o desenvolvimento do módulo de sugestão de relacionamentos (capítulo 7), foi verificado que alguns pesquisadores não se relacionavam com uma freqüência anual, ou seja, existem pesquisadores que se relacionam de dois em dois anos e até mesmo com freqüências maiores.

Esse comportamento foi identificado através da análise manual do conjunto de dados. Foi identificado, por exemplo, que dois pesquisadores publicam novos artigos com uma freqüência de dois em dois anos. Em alguns casos essa freqüência de publicação chega a ser de três anos. Assim, embora existam muitos pesquisadores que desenvolvem novos trabalhos anualmente, existem outros que não possuem uma freqüência tão alta.

Com o intuito de representar o comportamento descrito anteriormente foi definida a função de penalização sigmóide. Essa função de penalização possui valores bem próximos de 1 quando o ano do relacionamento é até 3 anos menor que o ano corrente. Os relacionamentos só começam a ser realmente penalizados quando a diferença entre o ano corrente e o ano do relacionamento é maior que 3. Assim, os pesquisadores que se relacionam com uma freqüência de dois em dois anos ou de três em três não seriam penalizados.

74

Como dito anteriormente, a freqüência de publicações foi identificada através da análise manual do conjunto de dados. Cerca de 30% do total de relacionamento não ocorre com uma freqüência anual, sendo que, desses 30%, cerca de 90% deles ocorrem com uma freqüência máxima de 3 anos. Embora existam relacionamentos que ocorreram com uma freqüência mair que 3 anos, a maioria dos pesquisadores publica novos trabalhos em no máximo 3 anos.

A função sigmóide é definida por:

(1 )( ( 10))

1

0,01

1

j RY BY

e

  

(10)

Onde  (0,1) é o parâmetro que define a intensidade da curva da função, BY é o ano corrente e RY é o ano do relacionamento. O valor de 0,01 somado na função impede que a penalização seja nula para os relacionamentos muito antigos. Já o valor 10, no denominador da equação, indica o intervalo para que a curva da função decresça com maior intensidade, ou seja, a curva irá decrescer com maior intensidade entre os anos de 1998 e 2008. Esses valores foram obtidos através da análise dos resultados gerados para configurações diferentes. A curva descrita pela função sigmóide está ilustrada na Figura 28.

Figura 28 - Representação gráfica da função de penalização Sigmóide

Assim como na função potência, o valor de  é definido pelo usuário ou através de experimentos feitos no conjunto de treinamento. Os experimentos realizados mostraram que  0, 4 produz uma curva um pouco mais suave, gerando resultados consistentes na análise dos grupos formados pelo método de mineração de dados.

75

O objetivo das funções de penalização, como o próprio nome já diz, é penalizar os relacionamentos muito antigos de tal forma que, caso não surjam novos relacionamentos entre os pesquisadores a ligação entre eles receberá uma penalização maior a cada ano até ser completamente eliminada da rede social científica.

Embora tenham sido sugeridas três funções de penalização com base no ano do relacionamento, a função exponencial foi a que apresentou melhores resultados. A análise dos resultados de cada uma dessas funções está no capítulo 5 e também no capítulo 8.

Após aplicar a equação (7) em todos os relacionamentos foi construída uma matriz de pesos MxM que representa o grau de relacionamento entre cada par de pesquisadores de uma rede social científica multi-relacional, onde M é o número de pesquisadores do conjunto de dados. Como o grau do relacionamento representa o peso entre os pesquisadores essa matriz é chamada de matriz de pesos e está representada na equação (11). . se se relaciona com 0 caso contrário AB TR A B MP           (11)