As ferramentas do programa WordSmith Tools®

CAPÍTULO 2 – Corpus e metodologia

2.3. Procedimentos metodológicos

2.3.3. As ferramentas do programa WordSmith Tools®

Desde a coleta do corpus Brown, primeiro corpus lingüístico computadorizado na década de sessenta, a utilização de computadores como instrumento para a análise lingüística e o armazenamento de dados tem aumentado velozmente (BERBER SARDINHA, 1999a; 2000; 2004). Entre as diversas razões apontadas por esse autor, em que o uso de computadores traria benefícios para a investigação da linguagem, assumiram- se para este trabalho a contagem de palavras, a identificação de todas as ocorrências de um termo, a classificação em ordem de itens listados e a concordância a partir de um elemento de busca ou nódulo. Todas essas tarefas e muitas outras podem ser realizadas em poucos segundos por um computador, conseguindo resultados consistentes, pela abrangência dos dados examinados, e, ao mesmo tempo, confiáveis, algo que seria impossível sem a ajuda de programas específicos.

Outro aspecto do uso de computadores, aliados aos estudos da linguagem, é a possibilidade de descobrir fatos antes impensados, capazes de fazer modificar a própria concepção sobre a linguagem. Berber Sardinha (2004) menciona os trabalhos de Hoey (1993) e de Stubbs (1996) e destaca a afirmação desses autores, a respeito das semelhanças com o que ocorreu quando da introdução do microscópio nas ciências, que chegou a contestar opiniões e crenças pré-estabelecidas. Humblé (2001, p.157), por exemplo, destaca a contribuição das novas tecnologias com a ajuda do computador atrelado ao ensino de línguas estrangeiras, em particular, significando “uma verdadeira revolução”. O

autor apresenta uma aplicação em sala de aula aliando a Lingüística de Corpus ao ensino de língua espanhola.

Entre os programas de computador mais flexíveis e de simples manuseio para o estudo da linguagem se encontra o WordSmith Tools®, escrito por Mike Scott e publicado pela Oxford University Press. Nesta dissertação, o WST foi a principal ferramenta no levantamento dos dados em termos quantitativos, colocacionais e de freqüência, partindo da manipulação inicial já mencionada, passando pela leitura dos textos com o programa e alcançando posteriormente a análise crítica do material resultante.

Segundo Berber Sardinha (1999a, p.04-05; 2004, p.90-91), os programas de computador para análise lingüística funcionam com base em três princípios abstratos básicos. Assim, o WordSmith Tools é regido pelos princípios de

(1) Ocorrência, os itens devem estar presentes para serem computados, do contrário não são incorporados por não serem observados pelo programa. Por este princípio, observa-se que a anotação inicial do corpus, por meio da etiquetagem, possibilitou a contabilização de ocorrências que do contrário não seriam computadas. A busca, sendo realizada pela etiqueta, revela as diversas formas de representação de um mesmo ator social, inclusive aquelas em que se encontra elíptico.

(2) Recorrência, os itens são observados em função de sua repetição, mas sem desconsiderar os itens de freqüência 1, mais conhecidos como hapax legomenon, e que formam a maioria dos itens da linguagem, sendo responsável, em grande medida, pela representatividade de um corpus.

(3) Co-ocorrência, segundo o qual os itens devem ser observados na companhia de outros, pois, como assevera Berber Sardinha (2004, p.90-91), “um item isolado é muito pouco informativo. Ele obtém significância na medida que é interpretado como parte de um conjunto formado por outros itens”. O autor ainda destaca que o

horizonte da co-ocorrência varia de acordo com a orientação da pesquisa, podendo ir de “algumas palavras ao redor de um item às fronteiras do texto, ou até mesmo compreender um corpus multitextual inteiro”. Nesta dissertação, sendo que se trata de um corpus especializado tematicamente, compilado em função de um mesmo assunto, os horizontes da co-ocorrência se expandem pela totalidade dos textos, mas, sem perder os limites de cada subcorpus, de cada meio de publicação e de cada texto em si.

O programa WST é composto de ferramentas, utilitários, instrumentos e funções. As ferramentas que oferece o programa são três: WordList, Concord e KeyWords. Aqui, descrever-se-ão, apenas, as duas primeiras ferramentas, por fazerem parte da metodologia de trabalho desta dissertação. Entre as funções principais, destaca-se a Classificação, que consiste na ordenação de listas e concordâncias por ordem alfabética, de freqüência ou por posição (na lista de colocados). A Delimitação é outra função, e permite a escolha de quais partes do corpus serão lidas pelo programa, permitindo reconhecer ou ignorar cabeçalhos de textos etiquetados. Também é possível ajustar o Horizonte ou Janela da concordância, determinando a quantidade de palavras à esquerda e à direita dentro das quais o programa calcula os colocados.

Na descrição da ferramenta WordList, Berber Sardinha (2004, p.91) afirma que se trata de um listador de palavras, que produz, simultaneamente, três listas: uma, ordenada alfabeticamente e identificada pela letra A entre parênteses; outra, classificada por ordem de freqüência das palavras e identificada pela letra F, com a palavra mais freqüente encabeçando a lista; e uma terceira lista, identificada pela letra S, em que aparecem as estatísticas relativas aos dados utilizados na produção das listas. Cada uma destas três listas é apresentada em uma janela diferente. Um dos recursos que oferece esta ferramenta é contabilizar sentenças e parágrafos, mas, para que essa contagem seja correta, é necessário que os textos estejam preparados para tal fim. Na etapa de preparação dos textos, nesta

pesquisa, foram seguidos os critérios de utilizar as marcas de pontuação e de separar os parágrafos com uma linha em branco, mas, essas informações não foram incluídas para integrar a análise.

A outra ferramenta que oferece o programa, e que foi a mais utilizada nesta dissertação, é o Concord. Seu emprego consiste na realização de linhas de concordância e de listagens das ocorrências de itens específicos. Berber Sardinha (2004, p.105) informa que são as chamadas palavras de busca ou nódulo, e que podem ser formados por uma ou mais palavras. A ferramenta provê a listagem do nódulo em posição centralizada, acompanhado à esquerda e à direita por porções contínuas das palavras do texto original que compõem seu co-texto, determinado previamente pela dimensão do horizonte de concordância ou janela. Esse configura o tipo de concordância mais comum, que é a KWIC, sigla de Key Word in Context, ou palavra chave no contexto. O autor (idem, p.106- 107) assinala que “as concordâncias são instrumentos reconhecidamente indispensáveis no estudo da colocação e da padronização lexical e, por isso, fundamental, na investigação de corpora”.

O Concord pode ser utilizado em separado, com o propósito de realizar concordâncias avulsas, ou pode funcionar em conjunto com as ferramentas WordList e KeyWords. O emprego da ferramenta Concord, para esta dissertação, resultou útil no sentido de alinhar as concordâncias, em função das etiquetas previamente anotadas nos textos. Assim, foi utilizado em separado em atenção a esse propósito. Funcionando em conjunto com a ferramenta WordList, o Concord foi acessado a partir da seleção de um item das listas de palavras por freqüência (F), com o intuito de observar o ambiente de ocorrência dos itens mais e menos freqüentes do corpus e dos subcorpora. Essas linhas de concordância foram realizadas ativando a função de ignorar as etiquetas. Também cabe assinalar a utilização da lista de colocados (collocates), a fim de levantar os termos mais

próximos e recorrentes a cada etiqueta de análise empregada. Assim, foi possível verificar, por exemplo, quais estruturas lingüísticas representaram a Supressão nos textos, ou quais atores sociais estiveram mais ou menos representados como ativados ou apassivados a partir de um denominador comum.

Por último, cabe notar que, além da utilização do WST, também foi utilizado um corpus de consulta, o Corpus del Español78, de autoria de Mark Davies e publicado pela Universidade Brigham Young. Esse procedimento originou-se diante da necessidade de verificar a co-ocorrência de itens, selecionados no momento da análise, e que poderiam configurar casos marcados no uso da linguagem. Para não proceder a julgamentos prematuros, no momento da análise, buscou-se esse recurso de consulta, com o qual houve mais elementos para sustentar a leitura crítica do corpus.

O próximo capítulo consiste na análise do corpus lingüístico coletado e compilado, tal como indicado nos procedimentos metodológicos, e na discussão dos dados obtidos.

78_{O corpus encontra-se disponível em http://www.corpusdelespanol.org. É composto por cem milhões de} palavras e abarca o período compreendido entre os séculos XIII e XX, distribuídos da seguinte maneira: vinte milhões dos séculos XIII a XV; quarenta milhões dos séculos XVI a XVIII, vinte milhões do século XIX e vinte milhões do século XX. Para os vinte milhões de palavras do século XX há um corpo balanceado de 25% de espanhol falado, 25% de ficção, 25% de textos jornalísticos e 25% de textos acadêmicos, outros e não ficção. Para os períodos anteriores não existe a mesma variedade de registros, mas o autor do corpus assinala que procurou um equilíbrio entre ficção e não ficção. O “corpus del español” foi criado há seis anos e, em outubro de 2007, foi disponibilizada para o público sua última versão. Estas informações foram tomadas da entrevista com o Dr. Mark Davies, autor do corpus, publicada em La página del Idioma Español e disponível em http://www.elcastellano.org/ns/edicion/2007/diciembre/corpus.html. Acesso em 10/03/2008.

No documento A representação de atores sociais nos discursos sobre o ensino de espanhol no Brasil em corpus jornalístico (páginas 125-130)