ANÁLISE FATORIAL DOS DADOS - Pontifícia Universidade Católica de São Paulo PUC-SP

3. METODOLOGIA

3.6. ANÁLISE FATORIAL DOS DADOS

Com os dados do SMC etiquetados e tabulados em formato de tabela .csv, o próximo passo é a utilização de um software de análise fatorial para a execução dos dados. Dentre as opções disponíveis, o programa escolhido para a análise dos dados desta pesquisa foi o SAS University Edition 43_{(Figura 7), em sua versão on-line (SAS}

on Demand). Para que a análise fatorial fosse realizada, foi utilizado um script

desenvolvido por Tony Berber Sardinha e cujos passos principais serão apresentados a seguir.

FIGURA 7– TELA DO SAS ON DEMAND

Fonte: SAS University Edition

Primeiramente, foi listada a biblioteca que foi atribuída à sessão do SAS. Criou- se referência ao arquivo externo .csv, que foi importado para a variável “yara”. Em

seguida, foi realizada a leitura do data set e a remoção da variável “_1990s” (Figura 8). No passo seguinte, foi invocado o procedimento e identificado opcionalmente o

input do data set “yara”. Criou-se uma tabela multiplicando os dados da variável “adult”

até “young” (incluindo todas as variáveis nesse intervalo) com esses mesmos dados, de acordo com sua correlação policórica ou tetracórica. As correlações policórica e tetracórica são cálculos estatísticos pertinentes à análise fatorial quando as observações contidas em um corpus de estudo são textos curtos, com 400 palavras ou menos, de acordo com a literatura. Esse passo é importante para que a matriz de correlações produzida não seja distorcida pela presença de textos pequenos no

corpus de estudo. De modo simplificado, esses procedimentos estatísticos fazem com

que se possa relativizar a importância de uma variável que ocorre duas vezes em um texto de 15 palavras, ou 20 vezes em um texto de 5.000 palavras, sem que o tamanho dos textos possa enviesar a relevância da variável em questão. Em seguida, para que os dados fossem salvos na biblioteca do programa, foi criada a cópia do data set “work” para “yara”. (Figura 9).

FIGURA 8 – PASSO A PASSO DA ANÁLISE FATORIAL (PASSO 1)

A próxima etapa foi a criação de um data set chamado “eg”, que é um subconjunto dos dados para fins de inspeção. Colocou-se uma condicional para encontrar os valores menores ou iguais a 20 para “_n_”. Como resultado dessa etapa, foi criado o arquivo “yara_mycorr_5-point.csv”, que, para facilitar a consulta posterior, foi salvo em formato de planilha de dados compatível com o programa Excel. Criou- se, então, o data set “mycorr”, com valor de formato 15.10, e esse resultado foi salvo no data set “yara.mycorr” (Figura 10). Em seguida, foi criado o data set “mycorrt” tendo o “mycorr” como base. Criou-se um grupo com o maior valor das variáveis _n_ -1, dividido pelas 377 variáveis do data set. Depois, criaram-se tabelas assimétricas. O data set “mycorr” foi exportado para o arquivo “yara_mycorrt_5-point.csv” e um data

set “eg” baseado no “mycorrt” foi criado contendo as 20 primeiras linhas da planilha e

uma tabela foi gerada para a verificação dos dados (Figura 11).

FIGURA 10 – PASSO A PASSO DA ANÁLISE FATORIAL (PASSO 3)

Criou-se então um data set “mymatrix” a partir do “mycorrt” transposto, sem a coluna “_name_group” e com os dados classificados por grupo. Criou-se um data set “y” a partir do “mymatrix” transposto e um data set “x” baseado em “y”. Criou-se um

Nesse ponto, os dados estão tratados para que a análise fatorial não- rotacionada propriamente dita se inicie (Figura 13). Nessa etapa, o “fuzz=0.15” indica que haverá 15% de valores absolutos máximos a serem exibidos como faltantes nas matrizes de correlação e de carregamento. O parâmetro “heywood” estabelece para 1 qualquer comunalidade maior do que 1, permitindo o prosseguimento das iterações. Por comunalidade, entende-se “a porcentagem de variação em uma variável observada que é explicada pelos componentes retidos (ou fatores)44_{.” Uma variável} vai apresentar uma grande comunalidade quando ela carrega em pelo menos um dos componentes da pesquisa. O parâmetro “nobs” que aparece nesse passo refere-se ao número de observações, isto é, o número de textos do corpus de estudo, que no caso desta investigação, é 555.

FIGURA 11 – PASSO A PASSO DA ANÁLISE FATORIAL (PASSO 4)

44_{https://www.sas.com/storefront/aux/en/spsxsfactor/61314_excerpt.pdf, p. 10. (acesso em}

FIGURA 12 – PASSO A PASSO DA ANÁLISE FATORIAL (PASSO 5)

FIGURA 13 – PASSO A PASSO DA ANÁLISE FATORIAL (PASSO 6)

O objetivo do passo seguinte (Figura 14) é o de revelar e eliminar as variáveis com baixa comunalidade, porque elas pouco contribuem para a variação total dos fatores. De acordo com Biber (2006, p.183), as variáveis cujas variações compartilhadas sejam menores que 0,15 devem ser removidas, pois suas cargas não são significantes para total do fator. Para tal tarefa, criou-se um data set “fout2” baseado no “fout” e, em seguida, criou-se um data set “fout3” transposto do “fout2”. Ocorreu, também, a criação de observações do data set por valores de uma ou mais variáveis. Por fim, criou-se um data set “commun”, baseado em “fout3”, com comunalidade abaixo de 15%. Nesse passo foi constatado que nenhuma das variáveis analisadas apresentou uma variação abaixo do limite de corte (0,15).

FIGURA 14– PASSO A PASSO DA ANÁLISE FATORIAL (PASSO 7)

A parte seguinte da análise fatorial (Figura 15) tem como objetivo o cálculo dos

eigenvalues45_{para cada fator e a subsequente geração de uma tabela contendo a} matriz de correlação entre os fatores (Figura 16). Os eigenvalues representam a quantidade de variância para cada fator; quanto maior seu valor, mas variância é revelada pelo fator. Também nesta parte, e utilizando-se dos eigenvalues resultantes do cálculo anterior, será gerado o gráfico de sedimentação, ou scree plot (Figura 17), que ordena os eigenvalues de cada fator do maior para o menor valor. As informações contidas na tabela da matriz de correlação e no gráfico de sedimentação servirão de base para a determinação do número de fatores mais apropriado para esta investigação. Para tal, criou-se um data set “fout2”, baseado no “fout” com _TYPE_ igual a “EIGENVAL”. Em seguida, criou-se um data set transposto chamado “fout3” baseado no “fout2” sem a coluna “_NAME_” e um data set “fout4” baseado no data

set “fout3” com fator menor ou igual a 20. Criou-se um gráfico de sedimentação (scree plot) baseado no “fout4” e sobrepôs-se em um único conjunto de eixos.

FIGURA 15 – PASSO A PASSO DA ANÁLISE FATORIAL (PASSO 8)

FIGURA 16 – EIGENVALUES

FIGURA 17 – GRÁFICO DE SEDIMENTAÇÃO (SCREE PLOT)

Fonte: SAS University Edition

Tendo como base a tabela dos eigenvalues (Figura 16) e o gráfico de sedimentação (Figura 17), informações essas que nos possibilitam a análise de variância total explicada, decidiu-se por utilizar sete fatores para o próximo passo da pesquisa: a análise fatorial rotacionada46_{. O propósito da análise fatorial em pesquisas} como a que aqui apresento foi o de reduzir o número de variáveis observadas – nesse caso, as palavras de conteúdo – a um número relativamente pequeno, mas ainda representativo, para que sua análise seja possível. Assim, podemos concluir que a decisão pelo número de fatores que comporão as dimensões da pesquisa é vital para que resultados significativos sejam alcançados. Cada fator, segundo Biber (1988, p. 79) “representa alguma área dos dados originais que podem ser resumidos e generalizados”, isto é, cada fator traz diferentes notas da essência dos dados originais e, estatisticamente falando, representa áreas de alta variância compartilhada.

O número de fatores escolhidos deve levar em conta os eigenvalues (Figura 16): quando a diferença entre os valores de fatores subsequentes se tornar pequena,

46_{“Na solução rotacionada, cada fator é caracterizado pelas poucas características que são as mais}

pode-se concluir que os fatores seguintes contribuirão pouco para o resultado total da análise. Essa informação, no gráfico de sedimentação (Figura 17), é representado por uma quebra característica47_{que indica o ponto que representa o número de fatores} estatisticamente mais representativos para a pesquisa. Há, entretanto, que se levar em consideração que não há uma fórmula estatística para determinar com precisão o número de fatores ideal a serem extraídos (Biber, 1988). Os eigenvalues e a quebra no gráfico de sedimentação são indicadores importantes, mas a decisão final deve ser do pesquisador que, por conhecer sua própria pesquisa e os objetivos a serem alcançados, poderá adicionar o ponto de vista qualitativo ao olhar quantitativo da análise fatorial.

Na pesquisa aqui apresentada, por exemplo, diferentes soluções foram testadas e a análise rotacionada foi realizada com a extração de três, quatro, cinco e sete fatores. Com a análise das variáveis carregadas em cada um dos fatores para as quatro soluções testadas, a alternativa com sete fatores mostrou-se mais robusta e mais apta a explicar a variância dos dados. Minha decisão é embasada por Biber (1988, p.84), quando ele recomenda uma abordagem mais conservadora para a escolha do número de fatores:

Quando há uma escolha entre um maior e um menor número de fatores, o procedimento mais conservador é extrair o maior número de fatores e descartar os restantes. [...] A extração de poucos fatores resultará em perda de informação pois os construtos subjacentes aos fatores excluídos não serão notados. Esta decisão pode também distorcer a estrutura dos fatores remanescentes porque múltiplos construtos serão revelados no mesmo fator48_.

Portanto, tendo como base tanto os resultados da análise fatorial quanto meu posicionamento por uma extração mais conservadora de fatores e, logo, com a menor perda de informação possível, decidi por continuar o passo final da análise fatorial (a

47_{Cotovelo, ou elbow, em inglês.}

48_{Tradução minha, do original: “When faced with a choice between a larger or smaller number of factors,}

the more conservative procedure is to extract the larger number and then discard any unnecessary factors. […] Extracting too few factors will result in loss of information, because the constructs underlying the excluded factors will be overlooked; it might also distort the factorial structure of the remaining factors, because multiple constructs are collapsed into a single factor”.

análise fatorial rotacionada) com a extração de sete fatores, confiante de que tal decisão terá proporcionado as dimensões mais robustas e apropriadas, para que a sua interpretação possa ser generalizada para todo o SMC.

Para tal, realizou-se uma análise fatorial, com rotação Promax, reordenado, com sete fatores e utilizando as 377 variáveis (Figura 18). O valor de “fuzz=0.15” indica que teremos 15% de valores absolutos máximos a serem exibidos como faltantes nas matrizes de correlação e de carregamento. Em seguida, foi criado um

data set “rotated2” baseado no “rotated” e, em seguida, um data set transposto de

nome “rotated”. Por fim, criou-se um data set “rotate3” baseado no “rotated2” com diversas condicionais para todos os sete fatores (Figura 19). Nesse passo, as variáveis são divididas entre os sete fatores de modo que as variáveis carreguem em apenas um dos fatores, e que mesmo quando uma variável apresentar carga fatoriais significativas para mais de um fator, ela apenas será carregada no fator em que sua carga seja maior.

É interessante ressaltar que a ordem dos fatores também é um importante elemento a ser considerado para sua interpretação. O primeiro fator explica a maior parte da variância encontrada e, por isso, a maioria das variáveis carregará nesse fator. Isso pode potencialmente mascarar construtos interessantes nos fatores seguintes. A análise fatorial rotacionada é feita para compensar essa perda. Segundo Biber (1988), na solução rotacionada, “cada fator é caracterizado por poucas características que são as mais representativas de uma quantidade específica de variância compartilhada” simplificando, portanto, a interpretação dos fatores, quando se comparada à extração inicial. A interpretação dos sete fatores desta pesquisa será apresentada na próxima seção (Apresentação e Análise dos Resultados).

FIGURA 18 – PASSO A PASSO DA ANÁLISE FATORIAL (PASSO 9)

FIGURA 19 – PASSO A PASSO DA ANÁLISE FATORIAL (PASSO 10)

A extração rotacionada dos fatores pode ser feita de diversas formas, os métodos conhecidos como Varimax e Promax são os mais comuns. A diferença entre eles é relacionada à estrutura da extração e o que se entende sobre a correlação entre os fatores: no método Varimax, a estrutura de rotação é ortogonal e supõe-se que não haja nenhuma correlação entre os fatores. No método Promax, a estrutura de rotação é oblíqua e supõe-se que haja correlação entre os fatores (COSTELLO; OSBORNE, 2005). Nas análises de dados linguísticos, como a AMD, a rotação Promax é mais utilizada justamente por pressupor a correlação entre os fatores, isto é, por entender

que no estudo da linguagem, bem como em outras áreas das ciências humanas, “os comportamentos raramente são divididos em unidades empacotadas que operam isoladamente” (COSTELLO; OSBORNE, 2005, p.3). A Figura 20 abaixo apresenta a variação explicada para cada fator, com a utilização da rotação Promax:

FIGURA 20: VARIAÇÃO EXPLICADA POR CADA FATOR (ROTAÇÃO: PROMAX)

Fonte: SAS University Edition

Após a extração dos fatores, foi realizada a Análise de Variância (ANOVA49_), que é o procedimento estatístico utilizado para medir a relação de variação entre os valores das variáveis dependentes e independentes. Entende-se por variável dependente aquela cujo valor é medido pela pesquisa, como por exemplo, as cargas fatoriais das variáveis. As variáveis independentes, em contrapartida, são aquelas cujos valores são anteriores à pesquisa e, portanto, mesmo sendo referências importantes para a análise, não são alterados por ela. O cálculo das ANOVAs (Figura 21) visa, medir a quantidade de variação capturada por cada fator (BERBER SARDINHA; VEIRANO PINTO, 2019, p. 6) para verificar se a variação presente é estatisticamente significante e se os fatores exercem influência em alguma variável independente. Pode-se dizer, então, que a ANOVA nos permite decidir se os agrupamentos das variáveis nos fatores são realmente significativos ou se são causais, isto é, decorrentes da variabilidade natural da amostra. Para esta pesquisa, foram realizados cálculos da ANOVA para quatro variáveis fixas: registro, formato,

mídia e público leitor. Tais cálculos seguiram os comandos do script apresentados na

Figura 20 acima, que foram executados quatro vezes, e, a cada comando, as variáveis “class”, “model f&i” e “means” receberam a nomenclatura referente à variável fixa analisada50_.

49_{ANOVA, do inglês, “Analysis of Variation”.}

FIGURA 21 – PASSO A PASSO DA ANÁLISE FATORIAL (PASSO 11 - ANOVAS)

Os cálculos das ANOVAs para as quatro variáveis fixas produziram resultados estatísticos relevantes para a análise e interpretação dos fatores, a saber, a razão F, o coeficiente de determinação (R2_{) e o valor de p. A razão F, segundo Berber Sardinha} e Veirano Pinto (2019, p. 6) “indica se a variação nos dados é estatisticamente significativa em todos os componentes do corpus”. Quanto maior o valor de F, mais significante serão os resultados. O coeficiente de determinação (R2_{) mede a} porcentagem de variação capturada em cada dimensão para cada variável analisada (no caso desta pesquisa, registro, formato, mídia e público leitor). Na pesquisa aqui apresentada, por exemplo, a variável registro na primeira dimensão tem um R2 _{= 0,50,} o que significa que 50% da variação pode ser explicada pelo registro. O valor de p é uma estimativa probabilística de que um valor de um teste estatístico possa ter ocorrido por acaso. Para que os resultados sejam considerados significativos, isto é, para que eles não sejam considerados aleatórios, o valor de p deve ser menor que 0,05 (5%). Nesta pesquisa, todas as ANOVAS, com a exceção de uma (referente a

formato, na dimensão quatro), registraram valores de p abaixo de 5%, e em sua

grande maioria, registraram valores abaixo de 0,0001, o que atesta a relevância dos resultados obtidos pela AMD.

Na seção seguinte (Apresentação e Análise dos Resultados), além da interpretação dos sete fatores revelados pela análise e os paralelos entre os

resultados revelados e a obra de Sally Mann, também serão apresentados os dados relativos às ANOVAs das quatro variáveis fixas (registro, formato, mídia e público

No documento Pontifícia Universidade Católica de São Paulo PUC-SP (páginas 94-108)