• Nenhum resultado encontrado

4.2 SOFTWARES UTILIZADOS

4.2.1 O Wordsmith Tools

Conforme mencionado, com o Wordsmith é possível analisar um ou vários corpora a partir de várias funções, incluindo-se concordâncias, listas de frequências, colocados. Esse software não é gratuito, podendo ser adquirido na internet, via download, no endereço http://www.lexically.net/wordsmith/. Apesar de a ferramenta não ser gratuita, é possível utilizar a versão demo gratuitamente, porém com restrições na quantidade de resultados exibidos. Ela possui um layout simples, como pode ser visto na figura 3, a seguir.

Figura 3: A ferramenta WordSmith Tools

Conforme mostrado na figura 3, as 3 (três) funções básicas da ferramenta são o WordList, o Keywords e o Concord. Para o processo de seleção dos dados do presente estudo, utilizei todas as três funcionalidades, que serão descritas a seguir.

O Word List é uma funcionalidade do WordSmith que gera uma lista contendo todas as palavras de um corpus selecionado. Esse mecanismo contabiliza o número de ocorrências de cada uma das palavras e as apresenta em ordem decrescente de frequência (utilizado neste trabalho) ou na ordem em que o pesquisador preferir. A lista de palavras possui várias utilidades, sendo uma delas a criação das palavras- chave.

Figura 4: Exemplo de lista de palavras da ferramenta WordSmith Tools

Conforme mostrado na figura 4, a lista gerada pelo WordList com o corpus LOCNESS exibe a palavra, seguida do número de ocorrências da mesmo no corpus. Em seguida, aparece uma porcentagem indicadora do quanto essa frequência representa no número total de palavras do corpus. E, finalmente, há uma indicação de em quantos textos esse termo aparece e outra de quanto essa frequência representa no número total de textos do corpus. Nessa figura, a palavra the ocorreu 9.036 vezes, o que representa 5,68% das palavras do corpus, tendo aparecido em 1.206 textos diferentes, o que representa 100% dos textos. Essa informação é importante para se observar se um termo ou expressão ocorreu em apenas um texto isolado ou se sua frequência pode ser algo regular.

Como essa funcionalidade do WordSmith Tools inclui todas as palavras do corpus, é esperado que as palavras mais frequentes do corpus sejam palavras gramaticais, como artigos, preposições e verbos auxiliares, já que esses são elementos que existem em número mais limitado na língua (em comparação com as palavras lexicais) e que são essenciais em um texto, ou seja, de grande

funcionalidade na expressão de conteúdos linguísticos. Observe, na figura 4, que 10 das 12 palavras mais frequentes são gramaticais.

Por esse motivo, também, a seleção dos dados foi feita a partir da função Keywords, conforme será discutido na próxima seção deste capítulo. Para gerar essa lista de palavras-chave, é necessário, antes, gerar a lista de palavras de todos os corpora estudados.

Com a utilização do Keyword List, pode-se criar uma lista de palavras-chave do corpus de estudo que pode ser comparada com uma lista de palavras de um corpus de referência. Esse instrumento de análise pode ser utilizado para se identificarem palavras características em um texto ou gênero. De acordo com Evison (2010),

palavras-chave não são, necessariamente, as palavras mais frequentes em um corpus, mas são aquelas palavras que são identificadas por comparação estatística de um corpus 'alvo' com outro corpus maior, que é referido como o corpus de 'referência'. Esta identificação envolve a comparação automática de listas de palavras usando softwares como o Keyword do programa WordSmith Tools. A lista de palavras-chave inclui itens que são ou significativamente relevantes (palavras chave positivas) ou infrequentes (palavras-chave negativas), e é um ponto de partida útil para muitas análises linguísticas de corpus (SCOTT, 1999 e este volume; HUNSTON, 2002; REPPEN; SIMPSON, 2002; McENERY et al. 2006). Apesar de haver disponível várias formas de calcular a significância estatística, um teste de 'keyness' é especialmente útil para a análise de dados de corpus, pois, sendo baseado em um teste de log-likelihood (LL) (DUNNING, 1993), ele não se baseia na suposição de que os dados têm uma distribuição normal.26

(EVISON, 2010, p. 127).

Conforme mencionado por Evison (2010), o WordSmith Tools compara duas listas de palavras: a primeira do corpus de referência e a segunda do corpus de estudo.

26 No original: “Key words are not necessarily the most frequent words in a corpus, but they are those words which are identified by statistical comparison of a ‘target’ corpus with another, larger corpus, which is referred to as the ‘reference’ or ‘benchmark’ corpus. This identification involves the automatic comparison of word lists using software such as the WordSmith Tools Keyword program. A key-word list includes items that are either significantly frequent (positive key words) or infrequent (negative key words), and is a useful starting point for many corpus linguistic analyses (Scott 1999 and this volume; Hunston 2002; Reppen and Simpson 2002; McEnery et al. 2006). Although there are several ways of calculating statistical significance available, a test of ‘keyness’ is especially useful for the analysis of corpus data because, being based on a log-likelihood (LL) test (Dunning 1993), it is not predicated on the assumption that data have a normal distribution”.

Para se utilizar a função Keyword List, são necessários dois corpora: um de referência, que deve ser maior do que o corpus de estudo, e o corpus de estudo. A partir dessa função, é possível gerar a lista de palavras-chave, exibida na figura 5.

Figura 5: Exemplo de lista de palavras-chave do corpus LOCNESS com o corpus de referência BAWE

O a análise qualitativa dos dados em linguística de corpus é feita através das linhas de concordância. Linhas de concordância consistem em uma palavra, sintagma ou expressão aparecendo junto com o respectivo contexto de um texto (HUNSTON, 2010). A figura 6 mostra o resultado da busca da palavra women no corpus BAWE, utilizando a função Concord.

Os programas de concordância, incluindo o WordSmith Tools, ajustam a quantidade de contexto a ser exibida junto com o termo buscado, permitindo aumentar ou diminuir a quantidade nas configurações dos programas. O termo pesquisado fica centralizado em uma cor diferente, com contexto tanto do lado esquerdo quanto do lado direito do termo. Através do contexto ao redor do termo pesquisado e da exibição de todas as ocorrências de um termo seguidas em seu contexto, facilita-se a identificação de padrões gramaticais não antes observados, quando visualizados separadamente em um texto.

O resultado da busca do Concord também fornece muitas informações a respeito do termo pesquisado. Dentro da janela de resultados, o WordSmith Tools dá a possibilidade de se verificarem várias características do termo pesquisado: os Collocates, Plot, Patterns, Clusters, Filenames, Source text e Notes.

 Os Collocates são palavras que ocorrem imediatamente antes e depois do termo. O resultado mostra uma lista de palavras que ocorrem ao redor do termo pesquisado, a frequência em que ocorrem etc.

 O Plot mostra o resultado da busca a partir de um gráfico, em um formato de código de barras, conforme a figura 7.

Esse recurso também permite ver a posição em que a palavra buscada está em cada um dos textos do corpus, mostrando, assim, a sua distribuição através dos textos.

 O Patterns cria uma lista com os itens lexicais que ocorrem mais vezes ao redor de uma palavra pesquisada. Essa função é parecida com a de collocates. Porém, em vez de mostrar em forma de lista de palavras que antecedem e sucedem um termo pesquisado, ele mostra um mapa das palavras que aparecem em todas as posições, sendo a primeira à direita, a segunda à direita, a terceira à direita, a primeira à esquerda, a segunda à esquerda e assim sucessivamente.

Figura 8 – Exemplo do recurso Patterns do corpus LOCNESS

 O Clusters é um mecanismo que computa automaticamente grupos de palavras com dois ou mais termos que ocorrem junto ao termo pesquisado. Com isso, a ferramenta busca, de forma automática, padrões gramaticais, lexicais, expressões idiomáticas, dentre outras possibilidades.

 O Filenames mostra todos os nomes dos arquivos em que o termo buscado ocorreu.

 O Source text mostra o contexto expandido, com o texto completo de uma ocorrência. Para se visualizar o contexto expandido, basta clicar duas vezes sobre a linha de concordância desejada.

Essas funcionalidades do Concord descritas foram utilizadas nesta pesquisa seja para se decidirem quais os próximos passos a serem seguidos, seja para se verificar se um termo foi produzido por vários alunos etc. Quando esses recursos mostraram resultados significantes para o trabalho, o procedimento, assim como os resultados encontrados, foi descrito na seção a seguir, ou nos resultados.