Árvores de cluster ou rede temática - Técnicas de visualização

CAPÍTULO I – OS ESTUDOS BIBLIOMÉTRICOS

SEÇÃO 1 – Evolução dos estudos bibliométricos como estratégia para a produção do

1.7 Técnicas de visualização

1.7.1 Árvores de cluster ou rede temática

A primeira fase da descrição de uma rede é composta pela identificação de clusters, descrição das ligações internas entre os temas e representação da sua estrutura interna. Em outras palavras, é a caracterização morfológica da rede como um todo e a contribuição de cada um desses agregados a sua estrutura. Callon et al. (1991) definem

cluster a partir de duas perspectivas diferentes, porém complementares: a primeira, o cluster pode ser visto como um ponto em uma rede geral. Aquele que se caracteriza pela

sua posição, ou seja, pelo conjunto de ligações unindo a outros clusters na rede geral. A segunda pode ser vista como um aglomerado composto de palavras ligadas entre si - ele próprio define uma rede mais ou menos densa, o que é mais ou menos coerente e robusto.

Há várias maneiras possíveis de estabelecer uma divisão da rede de unidades associadas a um determinado bando de dados. Podem ser usados diferentes algoritmos de agrupamento para criar uma partição da rede ou gráfico: Streemer espectral clustering (Cobo et al., 2011a). Especificamente, numa análise de copalavras, é possível utilizar qualquer algoritmo de agrupamento a partir de uma matriz de similaridade retornando com grupos rotulados. Nalguns casos, o algoritmo de cluster não fornece um rótulo para cada um, o que implica um pós-processamento automático ou manual.

Courtial e Michelet (1994) e Bailón-Moreno et al. (2005) propuseram o “algoritmo de centros simples”. Para esses autores, o algoritmo de centros simples, é um algorítmo amigável e bem conhecido no âmbito da análise de copalavras que tem sido utilizado em muitos estudos dessa natureza. Além disso, os algorítmos de centros simples devolvem automaticamente aglomerados etiquetados, de modo que, não é necessário um pós-processamento para rotulá-los. No entanto, pode ocorrer que, duas palavras-chave que têm pouca frequência no corpus, mas como sempre aparecem juntas terão maiores valores de força do que palavras-chave que nem sempre aparecem juntas muitas vezes no corpus. Nesse caso, possíveis associações irrelevantes ou fracas podem dominar a rede.

Para Callon et al. (1991) o algorítmo de centro simples resolve esse problema por meio de diferentes parâmetros: frequência mínima e os limites de co-ocorrência. Apenas os pares de palavras-chave que excedem esses limites são considerados potenciais ligações. Por outro lado, o algorítmo tem dois parâmetros para limitar o tamanho dos temas detectados: o tamanho mínimo e máximo das redes. Por isso, somente os pares de palavras-chave que se enquadram nesses limites são considerados potenciais ligações. Callon et al. (1991) classificaram em três categorias distintas os clusters de uma determinada rede temática:

 Cluster isolado, que se caracteriza por uma ausência ou baixa intensidade de ligações com outros grupos. A única questão sobre ele é sua homogeneidade interna: pode consistir em vários subgrupos que valem a pena identificar ao examinar a estrutura de suas relações internas;

 Cluster secundário, cujos elos externos com outros conjuntos acima do limite do teto são suficientemente fortes, o que é legítimo considerar que eles são a extensão natural de um desses;

 Cluster principal, ao qual um ou mais outros clusters (secundários) estão associados por links cujo valor é inferior ao limiar de saturação.

Assim, por exemplo, os temas podem ser representados como uma esfera, sendo seu volume proporcional aos diferentes dados quantitativos (ou qualitativos), por exemplo: i) o número de documentos associados com o tema, (documentos principais + documentos secundários); ii) o número de citações recebidas dos documentos

associados com o tema; iii) o número de autores8_{pesquisando no campo do tema. O}

volume das esferas é proporcional ao número de documentos e a espessura do elo entre duas esferas é proporcional ao Indice de Equivalência.

A partir das unidades de análise de um determinado campo de investigação e suas inter- relações se constrói um gráfico de rede, denominado por Cobo et al. (2011a), derede temática. Cada rede temática é rotulada com o nome do autor, palavra-chave, jornal, instituição, etc. mais importante associado ao tema (geralmente identificadas pela unidade mais central do tema). Um exemplo ilustrativo de uma rede temática é apresentado na Figura 2. Nesse caso, várias unidades de análise estão interligadas, em que o volume das esferas é proporcional ao número de documentos que correspondem a cada unidade e a espessura do elo entre duas esferas é proporcional ao Equivalence hindex eij.

Considerando uma determinada rede temática, Callon et al., (1991) e Cobo et al. (2011b) dizem-nos que um documento é designado de “documento central” se tiver pelo menos duas palavras-chave contidas na rede temática. No caso de conter apenas uma palavra-chave associada à rede temática é chamado de “documento secundário.” Ambos os documentos, principais e secundários, podem pertencer a mais de uma rede temática.

Figura 2 – A representação gráfica de uma rede hipotética.

Assim, as redes ou gráficos temáticos constituem uma ferramenta importante para representar as interações entre os itens de interesse de forma ilustrativa e agradável. No entanto, o simples fato de representar, graficamente, as interações de um determinado grupo nem sempre é suficiente para estabelecer uma análise em profundidade de cada

8_{O uso de documentos principais e secundários implica que um documento pode pertencer a diferentes temas, isto é,}

item dentro de uma rede. Mesmo com o apoio de ferramentas matemáticas e estatísticas, como é o caso da SciMAT, para as análises das redes, a capacidade interpretativa do investigador ainda continua indispensável.

No documento Educação para o empreendedorismo: antecedentes e intenções empreendedoras (páginas 34-37)