• Nenhum resultado encontrado

A constru¸c˜ ao da rede social de coautoria inicial

3.6 As fun¸c˜ oes de similaridade aplicadas na metodologia

3.7.1 A constru¸c˜ ao da rede social de coautoria inicial

A constru¸c˜ao de uma rede de coautoria numa situa¸c˜ao ideal exigiria que houvesse uma rela¸c˜ao estrita entre autores pivˆos (o quadro de professores das universidades fornecidos como dados de entrada `a ferramenta), seus coautores (identificados unicamente) e os arti- gos que publicaram. No caso dos dados que a ferramenta utiliza h´a apenas prov´aveis de- nomina¸c˜oes que correspondam aos autores pivˆos, e denomina¸c˜oes pouco ou nada similares que correspondem aos seus coautores (se¸c˜ao 3.6.2) e esta ´e a informa¸c˜ao que ´e produzida na constru¸c˜ao da rede de autoria. A rede de autoria segrega denomina¸c˜oes semelhantes a um autor pivˆo cuja afilia¸c˜ao a universidades dos artigos, onde s˜ao encontradas, caso n˜ao possuam a universidade deste autor pivˆo. O pressuposto de que a universidade foi

corretamente identificada na consulta `a base de dados bibliogr´afica permite utilizar uma heur´ıstica. Que dentre os autores pivˆos, o autor pivˆo afiliado a uma universidade mais similar aos autores de artigos atribu´ıdos a esta universidade ´e a denomina¸c˜ao de autor pivˆo com maior ind´ıcio de ser a correta a atribuir a estes autores.

Como ponto inicial este algoritmo, ir´a unificar prov´aveis denomina¸c˜oes de autores pivˆos a cada autor pivˆo de forma mais exigente e assim, conceder mais precis˜ao `a rede de autoria e por conseguinte `as rela¸c˜oes da rede de coautoria inicial. Esta abordagem permite que se possa considerar os dados mais relevantes para uma rede de coautoria que envolva os autores pivˆos. Sendo assim, foram descartados os componentes da rede de coautoria que n˜ao envolviam os autores-pivˆos. Para isso foram estabelecidos alguns crit´erios que buscam encontrar dentre as prov´aveis denomina¸c˜oes de um autor pivˆo, ou seja, as denomina¸c˜oes dos autores de cada artigo da base de dados que possuam ind´ıcios m´ınimos de corresponderem a este autor pivˆo. A fun¸c˜ao Ind´ıcios de similaridade suficien- tes, descrita no algoritmo 3, levam em considera¸c˜ao dados constantes no artigo na qual se encontra aquela denomina¸c˜ao: emails, categorias de ´area de pesquisa, e a sua similaridade com autor pivˆo de seu agrupamento obtido na constru¸c˜ao da rede de autoria. Ou seja, similaridade entre denomina¸c˜oes, se ele conta com o nome completo al´em do abreviado, se o email o autor pivˆo ´e encontrado na lista de emails do artigo e se ´area de pesquisa ´e a mesma da definida para o autor pivˆo.

A constru¸c˜ao da rede de coautoria inicial se d´a em dois passos: o primeiro considera apenas os agrupamentos de autores pivˆos e os artigos em comum entre eles, o segundo passo considera os artigos diferentes entre os agrupamentos de autores pivˆos, mas que tenham algum coautor em comum (que n˜ao ´e um agrupamento de autor pivˆo). Por isso ´e chamada de rede de coautoria inicial. O produto deste algoritmo ´e uma matriz que identifica a possibilidade de coautoria entre dois agrupamentos de denomina¸c˜oes de autores, e a lista de denomina¸c˜oes que foram identificadas nesta rede de coautoria.

Fun¸c˜ao de decis˜ao se h´a ind´ıcios de similaridade suficiente entre uma de- nomina¸c˜ao e um autor pivˆo

A constru¸c˜ao da rede de coautoria utiliza a fun¸c˜ao Ind´ıcios de similaridade suficientes (algoritmo 3) que decide se h´a ind´ıcios de similaridade suficiente entre uma denomina¸c˜ao e um autor pivˆo. Esta fun¸c˜ao tem os seguintes parˆametros: Ind´ıcios de similaridade entre denomina¸c˜ao de autor de artigo e uma denomina¸c˜ao de autor pivˆo e o SimMin ou Limiar de m´ınima similaridade entre denomina¸c˜oes.

Ind´ıcios de similaridade entre uma denomina¸c˜ao de autor e um autor pivˆo identificam situa¸c˜oes chamadas de ind´ıcios de similaridade: emails em comum (email na lista de emails do artigo e os emails do autor pivˆo), dom´ınio de email em comum (o mesmo em rela¸c˜ao ao dom´ınio do email), ´area de pesquisa em comum, ´area tem´atica de pesquisa em comum

52 Cap´ıtulo 3. Ferramenta para an´alise de redes sociais em dados bibliogr´aficos

Algoritmo 1: Contrutor da rede de coautoria inicial - passo 1

Entrada: IdsAgrupamentosPivos, AgrupamentosDenAutores, SimMin Sa´ıda: MatrizPossibilidadeCoautoria, DenNaRede

Incializa com zeros MatrizPossibilidadeCoautoria e DenNaRede=∅ ;

para todo IdAgX, IdAgZ ∈ IdsAgrupamentosPivos e IdAgX = IdAgZ fa¸ca

AgX,AgZ = agrupamentos em AgrupamentosDenAutores com IdAgX e de IdAgZ; AutorPivoX,AutorPivoZ = denomina¸c˜oes dos autores pivˆos do AgX e de IdAgZ ; EmailsPX = emails de AutorPivoX;

EmailsPZ = emails de AutorPivoZ;

para todo DenAutorX ∈ AgX e DenAutorZ ∈ AgZ fa¸ca ArtigoX = artigo a que se refere DenAutorX;

ArtigoZ = artigo a que se refere DenAutorZ; EmailsAX = emails do ArtigoX;

EmailsAZ = emails do ArtigoZ;

sx = similaridade entre AutorPivoX e DenAutorX; sz = similaridade entre AutorPivoZ e DenAutorZ; sx = sx ou 100 se EmailsPX ∩ EmailsAX 6= ∅ ; sz = sz ou 100 se EmailsPZ ∩ EmailsAZ 6= ∅ ;

IndSimXPX = ind´ıcios de similaridade entre AutorPivoX e DenAutorX; IndSimZPZ = ind´ıcios de similaridade entre AutorPivoZ e DenAutorZ; se ArtigoX = ArtigoZ e sx = SimMin e sz = SimMin ent˜ao

se IndiciosSimilaridadeSuficientes(sx,IndSimXPX) ou IndiciosSimilaridadeSuficientes(sz,IndSimZPZ) ent˜ao

MatrizPossibilidadeCoautoria[IdAgX, IdAgZ] = (sxsz)/100; DenNaRede = DenNaRede ∪ {DenAutorX, DenAutorZ}; fim

fim fim fim

Algoritmo 2: Contrutor da rede de coautoria inicial - passo 2

Entrada: IdsAgrupamentosPivos, AgrupamentosDenAutores, SimMin Sa´ıda: MatrizPossibilidadeCoautoria, DenNaRede

para todo IdAgX, IdAgZ ∈ IdsAgrupamentosPivos e IdAgX = IdAgZ fa¸ca

AgX,AgZ = agrupamentos em AgrupamentosDenAutores com IdAgX e de IdAgZ; AutorPivoX,AutorPivoZ = denomina¸c˜oes dos autores pivˆos do AgX e de IdAgZ ; EmailsPX,EmailsPZ = emails de AutorPivoX e de AutorPivoZ;

para todo DenAutorX ∈ AgX e DenAutorZ ∈ AgZ fa¸ca ArtigoX = artigo a que se refere DenAutorX;

ArtigoZ = artigo a que se refere DenAutorZ;

EmailsAX,DenXs = emails e autores em artigo ArtigoX; EmailsAZ,DenZs = emails e autores em artigo ArtigoZ;

IdAgYXs = identificadores dos agrupamentos dos DenXs diferentes de IdAgX; IdAgYZs = identificadores dos agrupamentos dos DenZs diferentes de IdAgZ; IdAgYs = IdAgYXs ∩ IdAgYZs;

para todo IdAgY ∈ IdAgYs e ArtigoX 6= ArtigoZ fa¸ca

AgY = agrupamento em AgrupamentosDenAutores com IdAgY; sx = similaridade entre AutorPivoX e DenAutorX;

sz = similaridade entre AutorPivoZ e DenAutorZ; sx = sx ou 100 se EmailsPX ∩ EmailsAX 6= ∅ ; sz = sz ou 100 se EmailsPZ ∩ EmailsAZ 6= ∅ ;

IndSimXPX = ind´ıcios de similaridade entre AutorPivoX e DenAutorX; IndSimZPZ = ind´ıcios de similaridade entre AutorPivoZ e DenAutorZ; para todo (DenAutorY, DenAutorYb) ∈ AgY e DenAutorY ∈ DenXs e DenAutorYb ∈ DenZs fa¸ca

sy,yb = similaridade entre DenAutorY e DenAutorYb;

sx,y = (sxsy,yb)/100 ;

sz,y = (szsy,yb)/100 ;

sx,z = (sx,ysz,y)/100;

se sx,z = SimMin e ( IndiciosSimilaridadeSuficientes(sx,IndSimXPX) ou IndiciosSimilaridadeSuficientes(sz,IndSimZPZ) ) ent˜ao

atualiza MatrizPossibilidadeCoautoria com sx,z, sz,y, sz,y desde que j´a n˜ao haja um valor maior;

DenNaRede = DenNaRede ∪ {DenAutorY, DenAutorYb}; fim

fim fim fim

54 Cap´ıtulo 3. Ferramenta para an´alise de redes sociais em dados bibliogr´aficos

presen¸ca de nome completo na denomina¸c˜ao de autor.

O limiar de m´ınima similaridade (SimMin) ´e um parˆametro da ferramenta como um todo e define em um significado num´erico a exigˆencia de similaridade m´ınima em trˆes patamares: estreito, muito estreito e extremamente estreito. Estes patamares de simila- ridade podem ser otimizados em trabalhos futuros, utilizando algoritmos de aprendizado baseados em exemplos com uma amostra de dados previamente catalogada.

Algoritmo 3: Ind´ıciosSimilaridadeSuficientes

Entrada: SimilaridadeEntreDenomina¸c˜aoAutorEDenomina¸c˜aoAutorPivˆo, Ind´ıciosSimilaridadeEntreDenomina¸c˜aoAutorEDenomina¸c˜aoAutorPivˆo Sa´ıda: verdadeiro ou falso

SimXPX = SimilaridadeEntreDenomina¸c˜aoAutorEDenomina¸c˜aoAutorPivˆo;

IndXPX = Ind´ıciosSimilaridadeEntreDenomina¸c˜aoAutorEDenomina¸c˜aoAutorPivˆo; SimMinEstreito = 100 − (100 − SimMin)/2;

SimMinMuitoEstreito = 100 − (100 − SimMin)/4;

SimMinExtremamenteEstreito = 100 − (100 − SimMin)/8; selecione IndXPX fa¸ca

caso IndXPX indica email em comum com autor pivˆo retorne verdadeiro

caso IndXPX indica ´area de pesquisa em comum com autor pivˆo

se SimXPX = SimMinEstreito e IndXPX indica que denomina¸c˜ao tem especificado seu nome completo ent˜ao

retorne verdadeiro sen˜ao

se SimXPX = SimMinMuitoEstreito ent˜ao retorne verdadeiro

sen˜ao

retorne falso fim

fim

caso IndXPX indica que denomina¸c˜ao tem especificado seu nome completo se SimXPX = SimMinExtremamenteEstreito ent˜ao

retorne verdadeiro sen˜ao

retorne falso fim

sen˜ao retorne falso fim