2.3 O Reconhecimento de Padrões Aplicado ao Campo Científico: Uma Revisão 2.3.3 Análise Qualitativa da RSL Do ponto de vista teórico, em geral, os artigos não realizam uma discussão teórica no sentido de debate de ideias, mas eles apontam autores que os embasaram para desenvolver o trabalho. O referencial teórico encontrado nos trabalhos possuem um foco maior em Computação, trazendo conceitos vindos do Aprendizado de Máquina e os classificadores ( K-Means, Redes Neurais, Árvores de Decisão, etc). Algumas exceções a serem consideradas estão no artigo de Ortega (2015) e de Huang e Yuan (2012). O artigo de Ortega (2015) apresenta algumas definições de índice/h, que é um índice métrico muito utilizado na área de Ciência da Informação. O artigo de Huang e Yuan (2012) trabalha com um conjunto de índices métricos, como o índice/h e o índice/i10, e os conceitua no trabalho. Do ponto de vista dos dados usados nos artigos, pode-se citar: 1) Ortega (2015) usou 5 amostras trimestrais compreendidas no período de dezembro de 2011, dezembro de 2012 e uma amostra anual de dezembro de 2013. Mais de 12.000 perfis foram selecionados nessas amostras e, após o processo de limpeza e normalização, 3.034 perfis foram utilizados. Talvez a quantidade de dados poderia ser maior se o autor utilizasse mais dados, pois foi usado apenas uma amostra, que foi selecionada e depois normalizada. 2) Alheyasat (2016) usou uma amostra de 1 milhão de usuários e isso pode ser considerado significativo para o problema, mesmo sendo uma amostra por conveniência, pois a quantidade de dados é maior que todos os artigos discutidos nesta Seção. O autor poderia ter considerado verificar se a amostra é representativa estatisticamente levando em consideração o universo dos dados no Research Gate (Rede Social Científica que o autor coletou os dados) e também ao objetivo proposto (identificar a correlação entre os dados de perfil dos usuários e seus seguidores). 3) Huang e Yuan (2012) apresentaram um total de 3.539 pesquisadores, usando um critério de seleção com apenas pesquisadores com mais de 200 citações em pelo menos 10 trabalhos. Levando em consideração seu critério, a quantidade de dados pode ser válida, pois os autores limitaram os dados neste ponto. 4) Lima e Machado (2012) e Lima, Machado e Lopes (2015) apresentaram o universo de 2000 usuários. Como o Scientia.net tinha poucos usuários se for comparar com outras Redes Sociais Científicas, a quantidade de dados foi considerada grande levando em conta as limitações do próprio Scientia.net em número de usuários. Resumindo a avaliação dos dados coletados nos artigos, os trabalhos de Lima e Machado (2012), Lima, Machado e Lopes (2015) e de Huang e Yuan (2012) apresentaram dados mais completos, enquanto o de Ortega (2015) pode ser considerado incompleto por ter uma amostra muito pequena (porém, que não inviabiliza sua pesquisa) e o trabalho de Alheyasat (2016) é considerado completo, apesar de ser uma amostra de usuários. Analisando os métodos usados nos artigos encontrados nesta RSL, pode-se informar o seguinte: 1) O método proposto por Ortega (2015) realiza a coleta de dados no Google Scholar e, após isso, faz a seleção dos dados coletando amostras trimestrais em dezembro de 2011 a dezembro de 2012, além de uma anual em dezembro de 2013 e coletam um total de 3.034 perfis que podem ser classificados simultaneamente de acordo com as categorias gênero, posto acadêmico e área de investigação; 2) O artigo de Alheyasat (2016) propõe como método o uso de 2 web-crowlers para a coleta de 1 milhão de usuários no Research Gate. Um gerava uma lista de links e o outro usava a lista para coletar dados e estes eram organizados em tuplas. Foi feito o uso das Redes Neurais para investigar a correlação entre os dados dos perfis dos usuários e o número de seus seguidores; 3) O artigo de Huang e Yuan (2012) tem, como proposta metodológica, uma coleta de dados no Google Scholar e foi realizado um agrupamento no qual foram selecionados apenas pesquisadores com mais de 200 citações em pelo menos 10 trabalhos, e isso totalizou 3.539 pesquisadores. Após isso, houve a classificação dos documentos de cada pesquisador organizados em ordem decrescente baseados no número de citação. Depois, foi criado um vetor “10D” e, em cada posição do vetor, foi alocada a proporção de citações dos papers mais citados. A primeira posição do vetor agrupa os 10% superiores enquanto que a última posição tem os 10% inferiores; 4) O artigo de Lima e Machado (2012) apresenta um método baseado na coleta de 2000 usuários do Scientia.net, divididos em 20 áreas do conhecimento com o objetivo de coletar seus perfis acadêmicos. A base de dados coletada foi replicada 9 vezes com os mesmos registros, mudando a ordem de inserção para executar os algoritmos, a fim de garantir a legitimidade dos resultados já que eles são sensíveis a ordem. Os resultados de cada execução foram reunidos para atingir uma média dos resultados. Além disso, foi necessário definir classes para que os algoritmos supervisionados (Redes Neurais Multilayer Perceptron e Support Vector Machine) pudessem classificar os dados e para os algoritmos não supervisionados (Konohen Network e K-Means) foi gerado grupos que foram analisados manualmente para verificar a similaridade de todos os atributos de perfis incluídos em cada grupo; 5) O artigo de Lima, Machado e Lopes (2015) utiliza praticamente o mesmo procedimento metodológico informado no quarto tópico, diferenciando apenas no tratamento dos algoritmos supervisionados e não supervisionados que, neste caso, foram usados em conjunto. O algoritmo não supervisionado foi utilizado para gerar grupos e formar clusters, enquanto que o algoritmo supervisionado foi usado para treinamento dos dados para obter os resultados. Com base no resumo dos métodos apresentados, nota-se que foi utilizado métodos para classificar usuários de acordo com determinada categoria (ORTEGA, 2015); investigar a correlação entre os dados de perfis de um usuário e o número de seus seguidores (ALHEYASAT, 2016); verificar padrões gerais de citações e sua relação entre métricas de índices, os padrões de citação pessoal dos pesquisadores e a transformação dos temas de pesquisa ao longo do tempo (HUANG; YUAN, 2012); usar classificadores divididos por paradigma para classificar usuários (LIMA; MACHADO, 2012); usar classificadores com paradigmas diferentes, unidos para classificar usuários (LIMA; MACHADO; LOPES, 2015). Neste sentido, ainda há ausência de métodos que avaliem comparativamente o comportamento dos cientistas em diferentes países, ou que utilize dados de mais de uma Rede Social Científica com um único classificador ou com vários classificadores para comparar resultados. Faltam também estudos que avaliem a popularidade de publicações em uma Rede Social Científica ou diversas comparativamente, etc. Considera-se que ainda existe uma infinidade de métodos que podem ser usados usando Redes Sociais Científicas e Reconhecimento de Padrões. Levando em consideração o ponto de vista da discussão dos resultados apresentados nos artigos, nota-se que todos falham em uma discussão crítica dos resultados. Ambos os artigos apresentam como conclusão uma análise descritiva dos resultados encontrados, sem apresentar uma discussão teórica ou crítica que aponte claramente para possíveis contribuições ao campo de estudo. Analisando as limitações dos artigos, pode-se observar que, no geral, todos os artigos apresentados possuem fortes limitações, principalmente metodológicas. Entretanto, é importante esclarecer que as limitações não inviabilizam ou deslegitimam os artigos, já que as limitações são necessárias para delimitar uma pesquisa. Como limitação, pode ser encontrado o seguinte: 1). O artigo de Ortega (2015), nos resultados, trabalha com áreas como ciências da vida – artes e humanidades e ciências sociais – ciências da saúde – multidisciplinar, o que indica que estas áreas foram classificadas juntas na árvore de decisão. Trabalhando com elas separadamente, talvez outros resultados poderiam ser encontrados. Além disso, o autor usa, durante a coleta de dados, somente os dados obtidos na categoria gênero, posição acadêmica e disciplina, não inserindo mais atributos para alimentar as Árvores de Decisão. O autor também não usa outros classificadores além da árvore de decisão para verificar diferenças nos resultados e usa somente o Google Scholar para coleta de dados. 2). No artigo de Alheyasat (2016), foi coletada uma amostra de um milhão de usuários no Research Gate. Não se sabe o motivo de não ter coletado este universo de usuários. O autor usa somente as Redes Neurais para gerar resultados e a Rede Social Científica Research Gate para identificar correlações entre os dados dos perfis dos usuários e o número de seus seguidores. 3). O artigo de Huang e Yuan (2012), tem como limitação o uso do algoritmo k-means para classificar citações no Google Scholar usando as áreas de computação. Pode ser que, com o uso de outros classificadores, novos resultados sejam encontrados, tendo a possibilidade de comparar os resultados encontrados no k-means. Os autores também usam somente o Google Scholar, podendo utilizar outras redes sociais científicas para ter mais resultados a comparar. O método apresentado neste artigo também é bastante rigoroso, tendo como critério de seleção somente autores com mais de 200 citações em pelo menos 10 trabalhos. 4). O artigo de Lima e Machado (2012) utiliza um total de 4 classificadores (Redes Neurais, Support Vector Machine, K-Means e Konohen Network) separados em 2 paradigmas (o primeiro e segundo classificadores são supervisionados, enquanto o terceiro e o quarto são não-supervisionados). Eles utilizam o universo de 2000 usuários da Rede Social Científica Scientia.net. Os resultados do artigo estão focados apenas no desempenho dos algoritmos na classificação dos usuários da rede, tanto individualmente quanto divididos pelo paradigma. Outra limitação encontrada neste trabalho está em relação a Rede Social Científica Scientia.net, pois os autores poderiam usar o mesmo método em outras Redes Sociais Científicas para encontrar outros resultados e compará-los. 5). O artigo de Lima, Machado e Lopes (2015) utiliza uma técnica de rotulagem, por meio do uso de um algoritmo não supervisionado (K-Means) com outro supervisionado (Redes Neurais) para gerar grupos e classificar usuários no Scientia.net. O artigo poderia usar mais modelos de algoritmos não supervisionados e supervisionados para verificar os resultados e compará-los com o modelo aplicado neste trabalho. O uso da Rede Social Científica Scientia.net também pode ser considerado uma limitação, pois os autores usam somente ela, sem trabalhar com dados coletados de outras Redes Sociais Científicas para obter resultados diferenciados e compará-los. Quanto as limitações desta Revisão Sistemática, tentamos utilizar várias bases de dados para coletar o máximo de documentos possíveis que estejam relacionados ao tema Redes Sociais Científicas e Reconhecimento de padrões. Do total de artigos, apenas 5 foram pertinentes o que pode significar uma necessidade de pesquisa urgente neste campo, porém, a revisão sistemática apresentada baseou-se em critérios rigorosos de seleção, deixando de lado, por exemplo, estudos de Redes Sociais Comuns (Facebook, Google Plus, entre outros). É possível que existam muitos estudos que envolvem o uso de Reconhecimento de Padrões nestas redes, com métodos que possivelmente podem ter aplicabilidade em Redes Sociais Científicas. Considera-se que esta RSL também não é capaz de avaliar a relevância dos artigos encontrados e das pesquisas feitas, apesar de considerar que os artigos encontrados são os pioneiros nos estudos de Redes Sociais Científicas com Reconhecimento de Padrões. Por fim, conclui-se neste Capítulo que as Redes Sociais Científicas trazem consequências para a visibilidade e a invisibilidade dos artigos e dos próprios cientistas. Isso ocorre devido a essas Redes se basearem em algoritmos que classificam artigos quanto a popularidade, utilizando uma série de fatores como, por exemplo, quantidade de vezes que um artigo foi lido ou até mesmo verificando o número de seguidores do autor daquele artigo. Um estudo interessante que foi discutido nesta RSL é o trabalho de Alheyasat (2015), que chegou a conclusão de que existe uma alta correlação entre os usuários e seus seguidores por meio de publicação de atividades de pesquisa, indicando que muitos usuários se interessam por outros usuários com maiores habilidades de pesquisa. Esse fato faz com que o autor ganhe certa visibilidade ao publicar seus trabalhos em uma Rede Social Científica e os algoritmos desenvolvidos para definir a popularidade de um artigo nessas redes pode seguir um rumo parecido (é possível que outras variáveis existam além dessas aqui discutidas). Esta dissertação tenta, como um dos objetivos, identificar essas variáveis que indicam que determinado artigo (aqui chamado de paper) é popular usando a Rede Social Científica Mendeley. A visibilidade e invisibilidade também podem causar impactos em diversos fatores, como a produção, difusão, divulgação e uso da ciência. Muitos trabalhos acadêmicos publicados nessas redes são pouco lidos, tendo assim pouca popularidade, dificultando a divulgação do trabalho para que novos estudos de determinado tópico de pesquisa venham a surgir. O Capítulo 3, que será apresentado a seguir, mostrará as definições de aprendizado de máquina e reconhecimento de padrões importantes para a compreensão dos métodos que serão aplicados nessa dissertação. No documento Dissertação de mestrado Março de 2018 papers no Mendeley Reconhecimento de padrões em rede social científica: aplicação do algoritmo Naive Bayes para classificação de TOBIAS RIBEIRO SOMBRA (páginas 63-68)