5 METODOLOGIA
5.7 O PROGRAMA COMPUTACIONAL
A Sociolinguística variacionista conta com um suporte teórico-metodológico de caráter estatístico e com ferramentas de análise e quantificação de dados linguísticos. Essas ferramentas possibilitam análises para o estudo da variação linguística, dando ao pesquisador a viabilidade de enxergar a sistematicidade, o encaixamento linguístico e social, assim como uma possível relação com mudanças linguísticas (GUY; ZILLES, 2007). A metodologia estatística na Sociolinguística Variacionista mostra-se fundamental para análise da variação linguística, pois,
O uso de métodos estatísticos, contudo, tem permitido demonstrar o quão central a variação pode ser para o entendimento de questões como identidade, solidariedade ao grupo local, comunidade de fala, prestígio e estigma, entre tantas outras. (GUY;
ZILLES, 2007, p. 173).
Dessa forma, através da introdução e formulação da noção de regra variável na Teoria da Variação e Mudança Linguística, os estudos variacionistas de linguagem possibilitam a compreensão e o reconhecimento de fenômenos variáveis existentes numa língua, numa comunidade de fala, e asseguram, com base teórica, sua existência e sua realização.
Essas pesquisas utilizam a forma de análise quantitativa dos dados, realizada através da utilização do pacote de programas VARBRUL, ou suas atualizações. O VARBRUL é um conjunto de
[...] programas computacionais de análise multivariada, especificamente estruturado para acomodar dados de variação sociolinguística. A análise se chama ‘multivariada’
porque permite investigar situações em que a variável linguística em estudo é influenciada por vários elementos do contexto, ou seja, múltiplas variáveis independentes (GUY; ZILLES, 2007, p. 105, aspas dos autores).
Em nosso caso, utilizaremos, como já apresentado em nosso texto, o Goldvarb X (SANKOF; TAGLIAMONTE; SMITH, 2005). Esse programa estatístico possibilita que as variáveis sejam ordenadas de acordo com o PR, que contribuem para a ocorrência de cada uma das variantes linguísticas (LABOV, 2008).
Um dos primeiros passos para a análise estatística é a escolha de qual variante será dada como valor de aplicação, como já comentado, pois essa decisão vai depender dos objetivos da pesquisa (GUY; ZILLES, 2007, p. 228). Em nosso caso, temos três variantes que não sofrem estigma, mas sabemos que uma delas está se sobressaindo em relação às outras, que é a variante inovadora, que, como diz Guy e Zilles (2007), a escolha pela variante inovadora propõe descrever o curso da mudança, além de descrever o papel das variáveis linguísticas e sociais que influenciam o uso de uma variante X.
Ainda de acordo com Guy e Zilles (2007), é possível, também, que optemos por tomar como valor de aplicação a variável conservadora, para que possamos perceber e discutir a influência do falar culto na preservação das formas antigas, ou prestigiadas.
As análises estatísticas se iniciam quando, após selecionada a variante de aplicação e a codificação de cada dado, lançamos o arquivo de dados no programa estatístico em busca de imperfeições, como erros de digitação ou de codificação. A primeira rodada nos fornece as frequências e ocorrências por variantes, assim como, por cada variável e seus fatores, o que nos permite retirar nocautes que decorrem da ocorrência de dados em apenas um dos fatores de uma variável, apresentando frequência zero ou categórica (0% ou 100%). Após esses passos, passamos a realização das rodadas com análises binárias em busca dos fatores relevantes para a variável de aplicação, que é aquela à qual se voltará todos os resultados e os PRs. Para uma variável eneária ou ternária, como nosso caso, é necessário que o pesquisador escolha duas de suas variantes para serem testadas juntas, por vez, e entre elas verificar os fatores relevantes.
Baseados nesses passos, realizaremos as seguintes análises binárias: haver vs. ter, depois a análise existir vs. ter e, por último, haver vs. existir.
Nessas rodadas binárias, podemos, ainda, criar novos grupos de fatores com os já existentes - como sexo e faixa etária - que possam nos apresentar um novo viés da análise em questão - como um fator mulheres de faixa etária II -, para uma variante X. Assim,
exploraremos vários recursos disponibilizados pelo programa no decorrer da análise dos dados, sempre que necessário for.
Na análise binária, o programa realiza, então, os steps, que, segundo Guy e Zilles (2007), são procedimentos estatísticos do Goldvarb X que identificam as variáveis que possuem significância estatística e as agrupa em dois grupos: um grupo de variáveis relevantes para a variação em pauta, e outro, com as variáveis irrelevantes, ou descartáveis, para a variação, - aquelas que não influenciam estatisticamente as variantes -, apresentando, ao pesquisador, a significância do conjunto das variáveis, sem informar a significância individual de cada variável.
No step up, o programa faz a interação de variáveis ao acrescentar uma variável por vez, em cada interação (Run) para verificar qual interação do step up inteiro obteve melhor resultado e, consequentemente, os melhores pesos relativos. Já no step down, a interação entre as variáveis é realizada excluindo-se em cada Run uma variável para verificar quais variáveis são irrelevantes para a variação.
No Goldvarb X há, ainda, outros números que são muito importantes para a interpretação da variação em estudo, como o input, a significância, log-likelihood, que são dados apresentados em cada step da análise.
Segundo Guy e Zilles (2007, p. 238), o input “representa o nível geral de uso de determinado valor da variável dependente”, e, ainda, ajuda no cálculo dos PRs. O input de uma rodada tem, por base, a frequência da variante de aplicação, como uma probabilidade de a variante de aplicação acontecer na fala dos indivíduos analisados. Já, o nível de significância é considerado a margem de erro de uma pesquisa. O pacote de programas Varbrul utiliza uma margem de 5% (threshold, 0,5), porcentagem trabalhada pelas ciências sociais, em todas as rodadas estatísticas do programa, sendo, assim, o grau de confiabilidade dos resultados estatísticos. Scherre (1993) acrescenta, ainda, que, “se o nível de significância for acima deste valor, [0,5] previamente arbitrado, os resultados não são considerados estatisticamente significativos.” (1993, p. 27). Além desses, o logaritmo de verossimilhança, ou log-likelihood no Goldvarb X, é número necessário para o teste de significância, também realizado pelo programa, apresentando um número negativo. Em nossas pesquisas, a significância é calculada a partir de 0,05, ou seja, o p<0,05 é a nossa referência para o cálculo do qui-quadrado (x2), significância da pesquisa, ou seja, quando p for menor que 0,05, a análise refuta a hipóteses nula, que, nos estudos de variação linguística, é a não variação.
Os valores do PR vão de 0 a 1, ou seja, em uma análise entre duas variantes, se a variante de aplicação X obtiver PR de 0,60, a variante Y obterá, necessariamente, PR de 0,40,
pois esses números são menores que 1 e, juntos, somam 1. O peso relativo é o nível geral da ocorrência, ou a probabilidade de uma variante ocorrer, influenciada por um fator linguístico ou extralinguístico, assim, “peso de um fator [...] indica o efeito deste fator sobre o uso da variante investigada neste conjunto” (GUY; ZILLES, 2007p. 239).
Os PRs gerados pelo programa que sejam abaixo de 0,50 (como no exemplo acima, a variante Y) serão considerados desfavorecedores da regra de aplicação da análise, mas se o PR for acima de 0,50 (como no exemplo, a variante X), será considerado favorecedor. Já o PR que for exatamente 0,50 será considerado neutro, ou seja, não condiciona nem inibe a regra. É a partir do valor do PR, dado pelo programa, que poderemos saber quais fatores favorecem ou inibem a regra, e quais fatores apresentam um papel neutro (GUY; ZILLES, 2007).
Dessa forma, o PR é uma medida usada na sociolinguística variacionista para calcular o efeito de um fator condicionador na aplicação da regra variável, ou seja, o peso que um fator tem ao condicionar a ocorrência de uma variante estipulada por nós, como aplicação da regra (GUY; ZILLES, 2007). A partir do PR, conseguiremos identificar se um determinado fator contribui ou não para a aplicação da regra, por exemplo, se o fator sexo feminino favorece uma ou outra variante de nosso estudo, ou se o tempo verbal presente desfavorece ou haver, ou existir, ou ter.
Importante salientar que o PR nos fornece apenas valores, os quais temos que interpretá-los, a fim de que possamos tirar nossas conclusões, pois sabemos que esses resultados dependem da análise e manipulação do pesquisador para que possamos gerar resultados concretos, compreensíveis e que nos apontem provas de covariação (WEINREICH; LABOV;
HERZOG, 2006).
Baseados nos dados estatísticos fornecidos pelo Goldvarb X, como PR, frequências, totais de aplicação, input, significância e log-likelihood é que elaboramos os gráficos e tabelas que foram analisados e descritos a partir da perspectiva da Sociolinguística Variacionista seguindo as instruções de Guy e Zilles (2007).
As rodadas que pretendemos realizar são, então: haver vs. ter; haver vs. existir e existir vs. ter. Nossa escolha se dá devido já sabermos, previamente, a partir de nossas leituras sobre o tema, que o verbo ter vem protagonizando, em outros bancos de dados, um processo de mudança linguística sobre o verbo haver em muitos falares. Dessa forma, pretendemos saber quais fatores ainda favorecem o uso de haver e existir na fala culta fortalezense.
Passemos à Seção 6 na qual realizamos a apresentação e discussão dos resultados obtidos.