• Nenhum resultado encontrado

CAPÍTULO 2: Metodologia e Apresentação dos Resultados

2.6 Segundo passo: produção das listas de candidatos a termos

2.6.2 WordSmith Tools 3.0

Microsoft Office Excel 2007 (figura 4), que chamarei, daqui em diante, de planilha 1, para compará-los, posteriormente, aos candidatos extraídos pelos outros aplicativos, e iniciei os procedimentos para produção da lista de palavras-chave no programa KeyWords, da suíte WordSmith Tools 3.0.

Figura 4: tela da planilha do Microsoft Office Excel 2007 com os candidatos extraídos do Corpógrafo 4.0. No detalhe, em vermelho, a folha onde foram colados os dados.

2.6.2 WordSmith Tools 3.0

Salvos em formato texto (.txt), os arquivos do corpus de estudo foram inseridos, a uma só vez, no programa WordList, para obtenção da lista de frequência das palavras. A figura 5, abaixo, exibe a tela do WordList, na qual é feita a escolha dos arquivos dos quais será extraída a lista.

Figura 5: tela do programa WordList, onde são selecionados os arquivos do corpus estudo para feitura da lista de frequência de palavras. ______________

58 A fim de tornar a análise qualitativa factível, optei pelos 1325 primeiros candidatos a termos, pois eles

Em azul (figura 5), estão todos os arquivos do corpus de estudo (310), que foram selecionados conjuntamente. Para isso, acionei o botão All, à direita e abaixo da barra de rolagem e cliquei em OK. O mesmo foi feito com o corpus de referência (Banco de Português). As figuras 6 e 7, abaixo, exibem parte do resultado do processamento dos dois

corpora pelo programa.

Figura 6: lista de frequência das palavras do corpus de estudo (WordList).

Figura 7: lista de frequência das palavras do corpus de referência, Banco de Português, (WordList).

1. N, números correspondentes à ordem frequencial das palavras listadas; 2. Word, palavras listadas;

3. Freq., valor da frequência de cada palavra; 4. %, percentual dos valores da frequência;

5. Lemmas59, computa a frequência de outros itens, como flexões, à palavra corrente (selecionada)60.

Prontas as duas listas, parti para a feitura da lista das palavras-chave (cf. subseção 2.4.1). Com a janela da ferramenta KeyWords aberta, ajustei o programa, no menu Settings / Min. &

Max. Frequencies, de acordo com as seguintes configurações (figura 8):

Figura 8: tela do menu Settings, do programa KeyWords (WordSmith Tools 3.0).

O valor de p (nível de significância, que determina se uma palavra é chave ou não) corresponde ao mínimo desejável para as ciências sociais: 0,05; max. wanted refere-se ao número máximo de palavras-chave que o programa lista61; e min. frequency permite determinar o valor mínimo de frequência62 para uma palavra ser chave63.

_________________

59 A coluna Lemmas está sem valores, pois não fiz uso desse recurso: primeiro por acreditar que termos lexicalizados de forma diferente do que é considerado cânone — o que parece ser comum em terminologias — teriam a expressão prejudicada se fossem lematizados e, segundo, por compartilhar do raciocínio de Tognini- Bonelli (2007, p. 82 e 83), segundo o qual a lematização pode dificultar a investigação de padrões léxicogramaticais, já que os colocados podem variar de acordo com cada item lexical.

60 Para mais detalhes e exemplos, vide Berber Sardinha, 2004, p. 93.

61 Escolhi o valor exibido em max. wanted (figura 8) no intuito de tornar a pesquisa qualitativa compatível com o tempo de que disporia para analisar os dados.

62 O valor de corte igual a 7 se deu em virtude do tamanho do corpus, a partir da fórmula: valor do corte= (<tamanho do corpus>/100.000 + 1) (BAGOT, 1999 apud LOPES et al., 2010a). Usei esse critério apenas como um parâmetro estatístico inicial para filtrar, pela frequência absoluta, os candidatos a termo. Entretanto, esse valor de corte não me impediu, adiante, ao analisar os candidatos via linha de concordância, de considerar os coocorrentes destes que atenderam ao critério de designação de conceito dentro da (sub)área em questão como termo, embora tivessem frequência inferior a sete. Além disso, cabe frisar que existem outros cálculos por meio dos quais é possível estipular um valor de corte, como a medida F (F-measure), resultado do equilíbrio entre precisão (capacidade do programa de identificar candidatos verdadeiro-positivos) e abrangência (quantidade de candidatos verdadeiro-positivos que, de fato, o programa extraiu), considerando-se os índices de frequência absoluta e relativa dos dados. Para mais detalhes e exemplos, vide LOPES et al., 2009 e LOPES et al., 2010b). 63 As configurações de Database foram ignoradas por não fazer parte do escopo desta pesquisa identificar a frequência das palavras-chave positivas por arquivo (palavras-chave chave). Para mais detalhes, vide Berber Sardinha, 2004, p. 104.

Na sequência, iniciei o processo de produção de listagem das palavras-chave: à esquerda selecionei o corpus de estudo, à direita, o de referência, e cliquei em OK. O programa elencou 5.174 palavras-chave, das quais 4.298 eram positivas (possuíam, estatisticamente, frequência maior no corpus de estudo que no de referência), restando 87664 negativas (cuja frequência estatística era maior no corpus de referência que no de estudo).

Abaixo, segue a tela do WordSmith Tools 3.0, onde é feita a seleção das listas de palavras dos corpora que serão contrastados, com o propósito de gerar a lista de palavras-chave do

corpus de estudo (figura 9). Na sequência, segue uma amostra das palavras-chave positivas listadas (figura 10).

Figura 9: tela do KeyWords na qual é possível selecionar as listas de palavras dos corpora que serão contrastados (corpus de estudo e corpus de referência).

Figura 10: tela do KeyWords com uma amostra da lista de palavras-chave positivas do corpus de estudo.

______________ 64

As palavras-chave negativas (876 itens) foram descartadas, quando da comparação com as listas dos demais programas, por serem próprias da linguagem geral (frequência maior no corpus de referência).

As oito colunas que a tela exibe, da esquerda para a direita, correspondem a: 1. N, número indicativo da quantidade de palavras listadas por ordem frequencial; 2. WORD, palavra do corpus de estudo considerada chave;

3. FREQ., frequência do item no corpus de estudo;

4. 310FILES.LST %, porcentagem da palavra em relação ao total do corpus de estudo;

5. FREQ., frequência da palavra no corpus de referência;

6. BPTUDO.LST %, porcentagem da palavra em relação ao total do corpus de

referência;

7. KEYNESS, resultado da estatística da comparação;

8. P, o valor da significância da estatística (log-likelihood) atingido pelo resultado da

estatística.

Novamente, nesta etapa da pesquisa, após salvar a lista de palavras-chave em formato texto (.txt), selecionei as 4.298 palavras-chave positivas do corpus de estudo do total geral de palavras-chave 5174 (cf. nota 64, na página anterior) e as copiei em outra folha da planilha 1, do Microsoft Office Excel 2007 (onde já estavam os dados extraídos com o Corpógrafo 4.0), para voltar a ela após obtenção dos dados descritos nos subseções 2.6.3 e 2.6.4, a seguir.