Pacote VARBRUL - Carolina Cardoso Oliveira

3 METODOLOGIA

3.2 Pacote VARBRUL

A análise estatística contribui significativamente no tratamento dos dados de um trabalho desta natureza. Para tanto, foi utilizado o Pacote Computacional VARBRUL, responsável pelo tratamento estatístico dos dados. A razão pela escolha de um programa como este vem de sua já comprovada eficiência para analisar dados lingüísticos em grande quantidade, fornecendo freqüências e probabilidades, além de selecionar variáveis relevantes no processo de aquisição da linguagem.

Apesar de ser um programa criado para a área da variação, o VARBRUL já foi utilizado com sucesso em dados da aquisição da linguagem (Miranda, 1996; Mezzomo, 1999 e 2004; Savio, 2001; Oliveira, 2002; Ribas, 2002).

Conforme Scherre (1993, p.1), o VARBRUL foi desenvolvido “com o objetivo de implementar modelos matemáticos que procuram dar tratamento estatístico adequado a dados lingüísticos variáveis”. A tarefa

organizá-lo, de acordo com a variável dependente, em "ambientes possíveis"

do ponto de vista lingüístico e extralingüístico. Estabelecidos tais contextos, é realizado um algoritmo que oferece informações estatísticas, na forma de pesos relativos, para cada fator condicionador de uma regra variável (Pintzuk, 1989).

São cinco os programas básicos que constituem o Pacote:

CHECKTOK, READTOK, MAKECELL, VARB2000 e TVARB.

Uma primeira etapa consiste na entrada dos dados e das especificações.

Os dados devem ser previamente codificados, a partir das gravações, de acordo com a simbologia do pesquisador. Do mesmo modo, a lista de variáveis, com seus respectivos fatores, recebe codificação própria. Os dados e as variáveis, separadamente, são digitados mediante algum programa editor, criando os arquivos com as especificações .dat e .esp, respectivamente (Espiga, 2001; p.103).

O CHECKTOK, primeiro programa a ser utilizado, lê os arquivos de especificações e dados, e gera um arquivo corrigido (.cor). De acordo com Espiga (2001), o programa critica a qualidade dos dados, ou seja, verifica se os mesmos estão de acordo com a codificação informada no arquivo de especificações. Os dados corrigidos servirão de input para o READTOK. O READTOK efetua as transformações nos dados corrigidos pelo CHECKTOK e gera novos dados com as modificações. O arquivo gerado contém somente dados passíveis de computação. Para rodar o próximo

programa é necessário o arquivo de condições.

Esse arquivo é construído pelo número de ordem dos grupos de fatores propostos no arquivo de especificações, inclusive a variável dependente. É através dele que o pesquisador informa ao programa como quer seus dados analisados, ou seja, quais grupos de fatores devem ser considerados, quais fatores devem ser reunidos em um único e quais devem ser cruzados (Brescancini, 2002).

O MAKECELL lê os arquivos de condições e de dados corrigidos, gerando um arquivo de células. Se houver situações de knockout, estas serão denunciadas pelo programa. O knockout caracteriza a aplicação ou a não-aplicação categórica da variante considerada quanto a um certo fator.

O VARB2000 lê o arquivo de células e gera um arquivo de resultados.

Nesta etapa (Pintzuck, 1989), o VARBRUL calcula, além dos percentuais de aplicação da variável dependente, os pesos relativos de todos os fatores de cada variável independente. O programa também fornece a ordem de significância das variáveis independentes na aplicação do valor considerado na análise.

Como o IVARB trabalha com variáveis dependentes binárias, o VARBRUL também dispõe do programa TVARB, para variáveis dependentes com três variantes, e do programa MVARB, para variáveis dependentes com quatro ou mais variantes.

do Windows (VARBWIN), desenvolvida por Amaral (1998). Essa versão apresenta diferenças em relação à original no que se refere à digitação e à preparação de dados para a realização da análise estatística, possibilitando uma análise estatística de maneira mais interativa que aquela feita em ambiente DOS.

Os pesos relativos foram retirados da interação que contém, conjuntamente, todas as variáveis selecionadas pelo programa. Esses fatores são estatisticamente mais significativos e mostram que têm um papel no fenômeno estudado.

Para a composição de tabelas sobre fatores não selecionados, os pesos relativos foram retirados do nível 1 do stepdown. As variáveis não selecionadas também constam deste trabalho, mesmo não sendo estatisticamente relevantes, pois pouco se sabe sobre a interferência das mesmas no domínio das róticas.

Há outro programa também utilizado neste trabalho, o CROSSTAB.

Este programa permite o cruzamento dos percentuais atribuídos a dois grupos de fatores especificados e verifica a presença de cruzamentos vazios.

3.2.1 Preparação e criação do arquivo de dados

Das entrevistas analisadas foram retiradas todas as palavras que continham, na forma adulta, o ‘r-fraco’ e/ou o ‘r-forte’, respeitando-se alguns critérios que serão explicitados.

Para os falantes do PB, formas verbais no infinitivo (ex. cantar) foram excluídas do corpus, em razão de que na forma adulta (na variante falada na região) o fonema líquido não é produzido.

Tanto nos dados de língua portuguesa, como nos dados de língua espanhola, foram descartados todos os casos de assimilação por entender-se que estes casos devem ser estudados à parte.

Encerrada a etapa de levantamento de dados, foram criados símbolos para cada fator das variáveis definidas, pois, para utilizar os programas do pacote VARBRUL, as informações devem estar codificadas. Assim, no arquivo de dados, cada palavra recebia uma entrada de acordo com os códigos estabelecidos. Veja-se um exemplo abaixo.

carne ['karni] - 1 a n d 1 d l (seqüência de símbolos)

 ____ faixa etária 3:10-3:11  ______ dissílaba

 ________'r' na sílaba forte do pé  __________'r' em posição de coda medial  ____________contexto seguinte nasal

 ______________contexto precedente de vogal /a/

________________produção correta

Os símbolos utilizados encontram-se no Anexo A.

3.2.2 Cruzamentos

Algumas variáveis foram cruzadas a fim de investigar a interferência das mesmas no fenômeno em estudo, pois, a partir dessas comparações

controladas, podem ser feitas generalizações válidas.

Para a execução de cada cruzamento foi necessária a criação de um arquivo de condições correspondente, no qual foi inserido um novo grupo contendo o cruzamento em questão.

No documento Carolina Cardoso Oliveira (páginas 61-66)