• Nenhum resultado encontrado

2.3 O Reconhecimento de Padrões Aplicado ao Campo Científico: Uma Revisão

2.3.3 Análise Qualitativa da RSL

Do ponto de vista teórico, em geral, os artigos não realizam uma discussão teórica no

sentido de debate de ideias, mas eles apontam autores que os embasaram para desenvolver o

trabalho. O referencial teórico encontrado nos trabalhos possuem um foco maior em

Computação, trazendo conceitos vindos do Aprendizado de Máquina e os classificadores (

K-Means, Redes Neurais, Árvores de Decisão, etc). Algumas exceções a serem consideradas

estão no artigo de Ortega (2015) e de Huang e Yuan (2012). O artigo de Ortega (2015)

apresenta algumas definições de índice/h, que é um índice métrico muito utilizado na área de

Ciência da Informação. O artigo de Huang e Yuan (2012) trabalha com um conjunto de

índices métricos, como o índice/h e o índice/i10, e os conceitua no trabalho.

Do ponto de vista dos dados usados nos artigos, pode-se citar: 1) Ortega (2015) usou 5

amostras trimestrais compreendidas no período de dezembro de 2011, dezembro de 2012 e

uma amostra anual de dezembro de 2013. Mais de 12.000 perfis foram selecionados nessas

amostras e, após o processo de limpeza e normalização, 3.034 perfis foram utilizados. Talvez

a quantidade de dados poderia ser maior se o autor utilizasse mais dados, pois foi usado

apenas uma amostra, que foi selecionada e depois normalizada. 2) Alheyasat (2016) usou uma

amostra de 1 milhão de usuários e isso pode ser considerado significativo para o problema,

mesmo sendo uma amostra por conveniência, pois a quantidade de dados é maior que todos os

artigos discutidos nesta Seção. O autor poderia ter considerado verificar se a amostra é

representativa estatisticamente levando em consideração o universo dos dados no Research

Gate (Rede Social Científica que o autor coletou os dados) e também ao objetivo proposto

(identificar a correlação entre os dados de perfil dos usuários e seus seguidores). 3) Huang e

Yuan (2012) apresentaram um total de 3.539 pesquisadores, usando um critério de seleção

com apenas pesquisadores com mais de 200 citações em pelo menos 10 trabalhos. Levando

em consideração seu critério, a quantidade de dados pode ser válida, pois os autores limitaram

os dados neste ponto. 4) Lima e Machado (2012) e Lima, Machado e Lopes (2015)

apresentaram o universo de 2000 usuários. Como o Scientia.net tinha poucos usuários se for

comparar com outras Redes Sociais Científicas, a quantidade de dados foi considerada grande

levando em conta as limitações do próprio Scientia.net em número de usuários.

Resumindo a avaliação dos dados coletados nos artigos, os trabalhos de Lima e

Machado (2012), Lima, Machado e Lopes (2015) e de Huang e Yuan (2012) apresentaram

dados mais completos, enquanto o de Ortega (2015) pode ser considerado incompleto por ter

uma amostra muito pequena (porém, que não inviabiliza sua pesquisa) e o trabalho de

Alheyasat (2016) é considerado completo, apesar de ser uma amostra de usuários.

Analisando os métodos usados nos artigos encontrados nesta RSL, pode-se informar o

seguinte: 1) O método proposto por Ortega (2015) realiza a coleta de dados no Google

Scholar e, após isso, faz a seleção dos dados coletando amostras trimestrais em dezembro de

2011 a dezembro de 2012, além de uma anual em dezembro de 2013 e coletam um total de

3.034 perfis que podem ser classificados simultaneamente de acordo com as categorias

gênero, posto acadêmico e área de investigação; 2) O artigo de Alheyasat (2016) propõe como

método o uso de 2 web-crowlers para a coleta de 1 milhão de usuários no Research Gate. Um

gerava uma lista de links e o outro usava a lista para coletar dados e estes eram organizados

em tuplas. Foi feito o uso das Redes Neurais para investigar a correlação entre os dados dos

perfis dos usuários e o número de seus seguidores; 3) O artigo de Huang e Yuan (2012) tem,

como proposta metodológica, uma coleta de dados no Google Scholar e foi realizado um

agrupamento no qual foram selecionados apenas pesquisadores com mais de 200 citações em

pelo menos 10 trabalhos, e isso totalizou 3.539 pesquisadores. Após isso, houve a

classificação dos documentos de cada pesquisador organizados em ordem decrescente

baseados no número de citação. Depois, foi criado um vetor “10D” e, em cada posição do

vetor, foi alocada a proporção de citações dos papers mais citados. A primeira posição do

vetor agrupa os 10% superiores enquanto que a última posição tem os 10% inferiores; 4) O

artigo de Lima e Machado (2012) apresenta um método baseado na coleta de 2000 usuários

do Scientia.net, divididos em 20 áreas do conhecimento com o objetivo de coletar seus perfis

acadêmicos. A base de dados coletada foi replicada 9 vezes com os mesmos registros,

mudando a ordem de inserção para executar os algoritmos, a fim de garantir a legitimidade

dos resultados já que eles são sensíveis a ordem. Os resultados de cada execução foram

reunidos para atingir uma média dos resultados. Além disso, foi necessário definir classes

para que os algoritmos supervisionados (Redes Neurais Multilayer Perceptron e Support

Vector Machine) pudessem classificar os dados e para os algoritmos não supervisionados

(Konohen Network e K-Means) foi gerado grupos que foram analisados manualmente para

verificar a similaridade de todos os atributos de perfis incluídos em cada grupo; 5) O artigo de

Lima, Machado e Lopes (2015) utiliza praticamente o mesmo procedimento metodológico

informado no quarto tópico, diferenciando apenas no tratamento dos algoritmos

supervisionados e não supervisionados que, neste caso, foram usados em conjunto. O

algoritmo não supervisionado foi utilizado para gerar grupos e formar clusters, enquanto que

o algoritmo supervisionado foi usado para treinamento dos dados para obter os resultados.

Com base no resumo dos métodos apresentados, nota-se que foi utilizado métodos

para classificar usuários de acordo com determinada categoria (ORTEGA, 2015); investigar a

correlação entre os dados de perfis de um usuário e o número de seus seguidores

(ALHEYASAT, 2016); verificar padrões gerais de citações e sua relação entre métricas de

índices, os padrões de citação pessoal dos pesquisadores e a transformação dos temas de

pesquisa ao longo do tempo (HUANG; YUAN, 2012); usar classificadores divididos por

paradigma para classificar usuários (LIMA; MACHADO, 2012); usar classificadores com

paradigmas diferentes, unidos para classificar usuários (LIMA; MACHADO; LOPES, 2015).

Neste sentido, ainda há ausência de métodos que avaliem comparativamente o

comportamento dos cientistas em diferentes países, ou que utilize dados de mais de uma Rede

Social Científica com um único classificador ou com vários classificadores para comparar

resultados. Faltam também estudos que avaliem a popularidade de publicações em uma Rede

Social Científica ou diversas comparativamente, etc. Considera-se que ainda existe uma

infinidade de métodos que podem ser usados usando Redes Sociais Científicas e

Reconhecimento de Padrões.

Levando em consideração o ponto de vista da discussão dos resultados apresentados

nos artigos, nota-se que todos falham em uma discussão crítica dos resultados. Ambos os

artigos apresentam como conclusão uma análise descritiva dos resultados encontrados, sem

apresentar uma discussão teórica ou crítica que aponte claramente para possíveis

contribuições ao campo de estudo.

Analisando as limitações dos artigos, pode-se observar que, no geral, todos os artigos

apresentados possuem fortes limitações, principalmente metodológicas. Entretanto, é

importante esclarecer que as limitações não inviabilizam ou deslegitimam os artigos, já que as

limitações são necessárias para delimitar uma pesquisa.

Como limitação, pode ser encontrado o seguinte: 1). O artigo de Ortega (2015), nos

resultados, trabalha com áreas como ciências da vida – artes e humanidades e ciências sociais

– ciências da saúde – multidisciplinar, o que indica que estas áreas foram classificadas juntas

na árvore de decisão. Trabalhando com elas separadamente, talvez outros resultados poderiam

ser encontrados. Além disso, o autor usa, durante a coleta de dados, somente os dados obtidos

na categoria gênero, posição acadêmica e disciplina, não inserindo mais atributos para

alimentar as Árvores de Decisão. O autor também não usa outros classificadores além da

árvore de decisão para verificar diferenças nos resultados e usa somente o Google Scholar

para coleta de dados. 2). No artigo de Alheyasat (2016), foi coletada uma amostra de um

milhão de usuários no Research Gate. Não se sabe o motivo de não ter coletado este universo

de usuários. O autor usa somente as Redes Neurais para gerar resultados e a Rede Social

Científica Research Gate para identificar correlações entre os dados dos perfis dos usuários e

o número de seus seguidores. 3). O artigo de Huang e Yuan (2012), tem como limitação o uso

do algoritmo k-means para classificar citações no Google Scholar usando as áreas de

computação. Pode ser que, com o uso de outros classificadores, novos resultados sejam

encontrados, tendo a possibilidade de comparar os resultados encontrados no k-means. Os

autores também usam somente o Google Scholar, podendo utilizar outras redes sociais

científicas para ter mais resultados a comparar. O método apresentado neste artigo também é

bastante rigoroso, tendo como critério de seleção somente autores com mais de 200 citações

em pelo menos 10 trabalhos. 4). O artigo de Lima e Machado (2012) utiliza um total de 4

classificadores (Redes Neurais, Support Vector Machine, K-Means e Konohen Network)

separados em 2 paradigmas (o primeiro e segundo classificadores são supervisionados,

enquanto o terceiro e o quarto são não-supervisionados). Eles utilizam o universo de 2000

usuários da Rede Social Científica Scientia.net. Os resultados do artigo estão focados apenas

no desempenho dos algoritmos na classificação dos usuários da rede, tanto individualmente

quanto divididos pelo paradigma. Outra limitação encontrada neste trabalho está em relação a

Rede Social Científica Scientia.net, pois os autores poderiam usar o mesmo método em outras

Redes Sociais Científicas para encontrar outros resultados e compará-los. 5). O artigo de

Lima, Machado e Lopes (2015) utiliza uma técnica de rotulagem, por meio do uso de um

algoritmo não supervisionado (K-Means) com outro supervisionado (Redes Neurais) para

gerar grupos e classificar usuários no Scientia.net. O artigo poderia usar mais modelos de

algoritmos não supervisionados e supervisionados para verificar os resultados e compará-los

com o modelo aplicado neste trabalho. O uso da Rede Social Científica Scientia.net também

pode ser considerado uma limitação, pois os autores usam somente ela, sem trabalhar com

dados coletados de outras Redes Sociais Científicas para obter resultados diferenciados e

compará-los.

Quanto as limitações desta Revisão Sistemática, tentamos utilizar várias bases de

dados para coletar o máximo de documentos possíveis que estejam relacionados ao tema

Redes Sociais Científicas e Reconhecimento de padrões. Do total de artigos, apenas 5 foram

pertinentes o que pode significar uma necessidade de pesquisa urgente neste campo, porém, a

revisão sistemática apresentada baseou-se em critérios rigorosos de seleção, deixando de lado,

por exemplo, estudos de Redes Sociais Comuns (Facebook, Google Plus, entre outros). É

possível que existam muitos estudos que envolvem o uso de Reconhecimento de Padrões

nestas redes, com métodos que possivelmente podem ter aplicabilidade em Redes Sociais

Científicas. Considera-se que esta RSL também não é capaz de avaliar a relevância dos

artigos encontrados e das pesquisas feitas, apesar de considerar que os artigos encontrados são

os pioneiros nos estudos de Redes Sociais Científicas com Reconhecimento de Padrões.

Por fim, conclui-se neste Capítulo que as Redes Sociais Científicas trazem

consequências para a visibilidade e a invisibilidade dos artigos e dos próprios cientistas. Isso

ocorre devido a essas Redes se basearem em algoritmos que classificam artigos quanto a

popularidade, utilizando uma série de fatores como, por exemplo, quantidade de vezes que um

artigo foi lido ou até mesmo verificando o número de seguidores do autor daquele artigo. Um

estudo interessante que foi discutido nesta RSL é o trabalho de Alheyasat (2015), que chegou

a conclusão de que existe uma alta correlação entre os usuários e seus seguidores por meio de

publicação de atividades de pesquisa, indicando que muitos usuários se interessam por outros

usuários com maiores habilidades de pesquisa. Esse fato faz com que o autor ganhe certa

visibilidade ao publicar seus trabalhos em uma Rede Social Científica e os algoritmos

desenvolvidos para definir a popularidade de um artigo nessas redes pode seguir um rumo

parecido (é possível que outras variáveis existam além dessas aqui discutidas). Esta

dissertação tenta, como um dos objetivos, identificar essas variáveis que indicam que

determinado artigo (aqui chamado de paper) é popular usando a Rede Social Científica

Mendeley.

A visibilidade e invisibilidade também podem causar impactos em diversos fatores,

como a produção, difusão, divulgação e uso da ciência. Muitos trabalhos acadêmicos

publicados nessas redes são pouco lidos, tendo assim pouca popularidade, dificultando a

divulgação do trabalho para que novos estudos de determinado tópico de pesquisa venham a

surgir.

O Capítulo 3, que será apresentado a seguir, mostrará as definições de aprendizado de

máquina e reconhecimento de padrões importantes para a compreensão dos métodos que

serão aplicados nessa dissertação.

Documentos relacionados