• Nenhum resultado encontrado

3.4 Linguística de Corpus

3.4.1 WordSmith Tools: ferramentas e utilitários

Como vimos, a Linguística de Corpus é uma das áreas de pesquisa de linguagem mais ativas nos últimos anos e, notavelmente, por meio de variados programas de computador e ferramentas computacionais, vem auxiliando cada vez mais pesquisadores a lidar com grandes quantidades de dados antes inacessíveis. Dentre os vários software existentes atualmente destacamos o WordSmith Tools.

A opção por esse programa justifica-se por duas razões: primeiro, por ser um software de referência nos estudos linguísticos (particularmente, os lexicais) já consagrado no campo da LC, e utilizado por um grande número de usuários em todo o mundo. Por essa razão, “tem sido um fator de divulgação da Linguística de Corpus no Brasil” (BERBER SARDINHA,

103 2009, p. 8); e segundo, por já possuirmos certa habilidade com as ferramentas do programa a partir do desenvolvimento de análises baseadas em corpus na ocasião das disciplinas do Doutorado.

Basicamente, o WordSmith Tools (doravante WST), criado em 1996 por Mike Scott, da Universidade de Liverpool, Reino Unido, e comercializado pela Oxford University Press é um conjunto integrado de programas (‘suíte’) destinado à análises linguísticas. Além de permitir a realização de análises baseadas na frequência e na coocorrência de palavras em corpora, ele também permite “pré-processar os arquivos do corpus (retirar partes indesejadas de cada texto, organizar o conjunto de arquivos, inserir e remover etiquetas etc.), antes da análise propriamente dita” (BERBER SARIDINHA, 2009, p. 8). O WST já se encontra em sua sétima versão e possui ferramentas essenciais de análise: a WordList (lista de palavras), a Concord (concordâncias) e a KeyWords (palavras-chave), as quais apresentamos a seguir:

FIGURA 2: Tela inicial do WordSmith Tools versão 6.0

Fonte: WordSmith Tools 6.0

A WordList permite gerar uma lista de palavras presentes no corpus. Ela produz duas listas, uma em ordem alfabética e outra por ordem de frequência. Além disso, essa ferramenta possui uma terceira janela, denominada de Statistics, onde é feito o levantamento dos dados

104 estatísticos do corpus, ou seja, essa função informa o número de tokens (itens), types (formas) e type/token ratio (razão forma/item).

De acordo com a nomenclatura e explicação feita por Berber Sardinha (2004 apud NOVODVORSKI, 2013, p. 66):

(1) os itens (tokens) ou palavras corridas (running words) indicam a totalidade de ocorrências ou palavras contidas, seja no geral (primeira coluna), seja em cada um dos textos (demais colunas);

(2) as formas (types) indicam a quantidade de palavras diferentes, isto é, computadas uma única vez em cada um dos textos; e

(3) a Razão forma/item (type/token ratio) é a porcentagem resultante da seguinte fórmula:

Essa relação também é oferecida pelo programa.

Já a ferramenta Concord realiza concordâncias, isto é, “extrai todas as ocorrências de uma palavra de busca num corpus juntamente com seu cotexto, apresentando-as na forma de uma concordância” (TAGNIN, 2011a, p. 358). Além disso, essa ferramenta também oferece listas de “Collocates, que apresenta os colocados da palavra de busca; e Clusters, que relaciona os agrupamentos em que aparece a palavra de busca” (TAGNIN, 2011a, p. 358).

Por outro lado, a KeyWords compara a lista de palavras de um corpus de estudo com a lista de palavras de um corpus de referência e gera uma lista de palavras-chave, ou seja aquelas palavras consideradas mais chaves no corpus de estudo, “cujas freqüências são estatisticamente diferentes (maiores ou menores) do que as freqüências das mesmas palavras num outro corpus (de referência)”. Essa ferramenta mostra a frequência de cada item, bem com a sua chavicidade21 (keyness) e “calcula também palavras-chave chave, que são chave em

vários textos” (BERBER SARDINHA, 2009, p. 9)

Sobre os utilitários do programa, Berber Sardinha (2009) diz que o WST possui: o File Manager, que “abre uma janela para gerenciamento de arquivos”; o Splitter, que “permite dividir um arquivo em vários arquivos menores”; o Text Converter, que oferece várias funções para “o pré-processamento de textos, como a substituição de palavras, partes de palavras ou partes de textos, simultaneamente num conjunto de arquivos, a renomeação e a

21É um termo usado para designar aquelas palavras que caracterizam um corpus nos seus mais variados aspectos

(a saber: o léxico, o conteúdo semântico, a temática e a variedade linguística predominante nos textos) a partir de cálculos de significância estatística.

105 mudança de pasta”; e o Viewer & Aligner, que “fornece meios para visualização de textos e para o alinhamento de dois textos num só” (BERBER SARDINHA, 2009, p. 10).

Essa explicação detalhada sobre o funcionamento do programa nos permite não apenas compreender o desenvolvimento da análise que realizamos nesta pesquisa, como também vislumbrar a qualidade do WST, tanto no que se refere à organização dos dados gerados quanto à variedade de funções disponibilizadas, o que por sua vez propicia uma análise mais vigorosa e precisa dos dados.

Segundo Berber Sardinha (2009), cada vez mais, o programa torna-se referência para a análise linguística via computador. Isto se deve por várias razões:

A primeira é a facilidade de uso; trata-se de um programa escrito para o ambiente Windows, o ambiente operacional dominante no mundo de hoje, o que significa dizer que a maioria dos interessados já terá alguma familiaridade com operações exigidas pelo WordSmith Tools [...]. A segunda razão é decorrência da primeira: devido ao fato de rodar num ambiente gráfico como Windows, o programa oferece uma facilidade maior na utilização dos seus recursos disponíveis, o que por sua vez propicia um aprendizado mais rápido e intuitivo de suas várias funções. A terceira razão é o fato de ser disponibilizado via Internet, o que significa que o usuário não precisa comprá-lo numa loja ou por correio, bastando baixá-lo da rede e encomendar a sua senha pagando com cartão de crédito [...]. A quarta razão do sucesso de WordSmith Tools é sua versatilidade. O software consiste na verdade de uma ‘suíte’ de diferentes programas, que se destinam a várias aplicações, que compreendem o pré-processamento, a organização dos dados, e a análise propriamente dita de corpora ou textos isolados (BERBER SARDINHA, 2009, p. 9).

Como vimos, o WST tem sido fundamental para a divulgação da LC, auxiliando cada vez mais pesquisadores de diversos lugares do mundo. Sabemos que LC é um campo que se dedica à criação e análise de corpora para fins de exploração da linguagem nos seus mais diversos níveis. Mas para lidar com corpora, ou seja, para analisar e descrever determinados fenômenos linguísticos é preciso que o pesquisador lance mão de um programa de computador adequado. Isto significa dizer que escolhemos o WST, não apenas pelas qualidades que possui, mas, sobretudo, por ser o programa mais adequado para a análise que intentamos fazer.

No capítulo a seguir, trataremos de todos os aspectos metodológicos desenvolvidos nesta pesquisa por meio das ferramentas do WST.

106 4 METODOLOGIA

Este capítulo apresenta o corpus de estudo e os procedimentos metodológicos adotados e desenvolvidos, ao longo da pesquisa, em consonância com o tipo de aporte teórico que a fundamenta.

A primeira seção exibe uma breve descrição do corpus, demonstrando suas principais características. As seções seguintes relatam, de forma pormenorizada e sequencial, todos os passos realizados durante as várias etapas da pesquisa que vão desde a compilação e preparação do corpus de estudo ao levantamento, seleção, descrição e análise dos dados.

Por fim, o capítulo mostra o modelo de ficha etnoterminográfica, o modelo de verbete, a organização da macro e microestrutura de nossa proposta de Vocabulário e, também, a construção da página Web. Assim, é possível observar, por um lado, a aplicabilidade e a eficácia dos procedimentos adotados, por outro, as condições linguísticas do corpus e a significância dos resultados alcançados.