Segundo passo: revisão da etiquetagem e extração de dados

3.5 A ANÁLISE

3.5.2 Segundo passo: revisão da etiquetagem e extração de dados

Nessa etapa da análise, procedi à revisão das identificações das categorias e à extração dos dados com o auxílio das ferramentas incorporadas ao sofware Wordsmith Tools 6.0, especificamente, a WordList e a Concord. Ressalto que as duas ferramentas permitem ao pesquisador fazer análise linguística baseada na frequência e na coocorrência de padrões linguísticos em corpus.

A ferramenta WordList, além de produzir listas de frequência de palavras, fornece também, entre outros, dados quantitativos gerais, tais como tamanho do corpus, número totais de palavras (tokens), número de palavras diferentes (types) presentes nos textos. Embora a contagem de palavras realizada por essa ferramenta as apresenta por ordem de frequência alfabética e por dados estatísticos, somente o segundo recurso foi utilizado para o propósito da pesquisa. Assim sendo, a WordiList fez a contagem de todas as palavras de cada um dos quatro subcorpus: Sc1(Q), Sc2(EC), Sc3(A) e Sc4(L), que compõem o corpus.

Após a inserção dos textos dos quatro subcorpus em formato .txt e completamente etiquetados no Wordsmith Tools, foi realizada a leitura pela ferramenta WordList tendo em vista a extração de dados. O passo a passo para a execução desse procedimento encontra-se ordenado sequencialmente no quadro 11.

QUADRO 11- Comandos para a extração de dados quantitativos pela ferramenta WorList

1. clicar sobre o menu settings e na opção adjust setting na tela inicial; 2. escolher a aba tags com um clique;

3. digitar asteriscos entre parênteses angulares (<*>) na opção mark-up to ignore; 4. clicar uma vez em save e em ok,

5. clicar sobre o nome da ferramenta WordList;

6. clicar em file new choose texts da aba main;

7. escolher o ícone com símbolo de arquivo (back) selecionar os arquivos.txt para leitura pelo WordList;

8. deslocar os arquivos.txt, incorporados em files available (lado esquerdo da tela), para dentro da caixa files selected (lado direito da tela);

9. marcar a opção ok com um clique selecionar make a word list na aba main; 10. clicar sobre a aba statistics, na parte inferior da tela, para visualizar os dados, da lista,

gerados.

Fonte: Elaborada pela autora a partir de Silva (2014, p.65)

Percorrendo esse caminho, realizei a extração dos dados relevantes do corpus, os quais permitiram a descrição de características representativas dos excertos dos artigos de cada um dos quatro subcorpus além de viabilizar o tratamento dos dados, no intuito de alcançar os resultados finais. A título de ilustração, as Figuras 18, 19 e 20 apresentam alguns dados estatísticos produzidos pela ferramenta WordList. As duas primeiras figuras mostram dados dos 40 excertos analisados individualmente, por sua vez, a terceira apresenta os dados dos 4 subcorpus no seu conjunto, isto é, contendo 10 excertos cada.

FIGURA 18 - Tela da WordList exibindo individualmente alguns dados estatísticos de cada excerto dos subcorpus Sc1(Q) e Sc2(EC)

Fonte: Elaborada pela autora

A Figura seguinte complementa a anterior:

FIGURA 19- Tela da WordList exibindo individualmente alguns dados estatísticos de cada excerto dos subcorpus Sc3(A) e Sc4(4)

FIGURA 20- Tela da WordList apresentando alguns dados estatísticos extraídos dos 4 subcorpus - Sc1(Q) - Sc2(EC) - Sc 3(A) - Sc4(L)

Fonte: Elaborada pela autora

A WordList produz uma significativa quantidade de dados estatísticos, conforme mostrado nas Figuras 18,19 e 20. Nas duas primeiras, são apresentadas informações estatísticas de cada um dos excertos de modo individual, tais como o tamanho dos arquivos, o total de palavras corridas em cada excerto, o total de palavras corridas válidas para análise (excluídos os numerais), o total de lexemas ou as palavras corridas com a exclusão das derivadas por sufixação de uma dada palavra primitiva, entre outros dados, o total de numerais excluídos de cada excerto. No entanto, para efeitos desta pesquisa, somente alguns desses dados foram utilizados.

Assim, para um entendimento mais acurado das informações relevantes para este estudo, consoante a Figura 20, na qual se encontra os dados relativos a cada subcorpus, convém esclarecer que à direta da letra N, encontra-se o número ordenado da consulta de cada subcorpus. Em text file, temos os nomes dos arquivos em formato .txt inseridos, a saber Sc1(Q).txt; Sc2(EC).txt, Sc3(A).txt e Sc4(L).txt, referentes, respectivamente, ao subcorpus 1 , da disciplina Química, ao subcorpus 2, da disciplina Engenharia Civil, ao subcorpus 3 de

Antropologia e ao subcorpus 4 da área disciplinar Linguística. Em seguida vem file size

indicando o tamanho de cada arquivo .txt. O primeiro possui 189.168Kb; o segundo 210.106. Kb; o Sc3(A) tem 207.306Kb e por último vem o Sc4(L) com 194.790Kb. Em tokens (running words) in text, temos o total de palavras corridas em cada subcorpus, contando com os

numerais, que é de 10.617 para o subcorpus 1; 10.482 relativo ao subcorpus 2; 10.195 para o 3 e 10.028 para o subcorpus 4. Em seguida temos o total de palavras corridas válidas para análise, excluídos os numerais (tokens used for Word list), correspondendo a 10.021 para Sc1(Q), 10.038 para Sc2(EC), 10.072 para o Sc3(A) e 10.028 para o Sc4(L), totalizando 40.159 palavras válidas para análise no corpus.

Os dados seguintes significam os lexemas ou as palavras corridas com a exclusão das derivadas por sufixação de uma dada palavra primitiva em types (distinct words). Já em type/token ratio (TTR), temos o percentual relativo à razão entre as palavras distintas (types) e o total de palavras (tokens) em cada subcorpus, indicando a variedade lexical; standardised TTR apresenta a variedade lexical como padronizada (por cada 1.000 palavras no texto). Por último, temos numbers removed indicando o total de numerais excluídos do total de palavras corridas, sendo 596 em Sc1(Q), 444 em Sc2(EC), 123 em Sc3(A) e 300 em Sc4(L). Na mesma ordem de apresentação de cada subcorpus, no topo da lista, vemos o total de cada dado estatístico no corpus em sua inteireza. Assim, o tamanho do arquivo do corpus é de 801.370Kb; os tokens (running words) in text é 41.622 palavras; os tokens used for word list correspondem a 40.159 palavras; 7.945 são os types (distinct words); a porcentagem do type/token ratio (TTR) é de 19, 78% no corpus inteiro; o standadised TTR é de 43, 37%%. Por último, em numbers removed, temos a quantidade de números removidos em todo o corpus, totalizando 1.463 numerais.

A ferramenta Concord tem a função de produzir concordância, ou seja, permite produzir listagens das ocorrências, contabilização de dados e agrupamentos lexicais. Entre outras funções, essa ferramenta também permite o acesso às ocorrências das categorias no corpus. Portanto, para efeito desta pesquisa, utilizei o concordanciador com a finalidade de fazer a revisão das identificações das categorias e das inserções das etiquetas nos roteiros. Além disso, lancei mão da Concord para a extração dos dados de ocorrência das categorias/etiquetas tendo em vista o tratamento quantitativo. Desse modo, para produzir os dados descritos a partir da Concord segui a sequência de passos apresentadas no Quadro 12.

QUADRO 12- Comandos para a extração de linhas de concordância e dados quantitativos pela ferramenta Concord

Na tela inicial

1. clicar sobre o menu settings e na opção adjust setting;

2. escolher a aba tags com um clique certificar que o espaço esteja em branco na opção mark-up to ignore;

3. marcar com um clique em save e ok;

4. clicar sobre o nome Concord file new; 5. clicar na opção choose texts now da aba texts;

6. escolher o ícone/símbolo de arquivo (back) e selecionar cada arquivo.txt para leitura; 7. fazer o deslocamento de cada arquivo .txt, presente em files available (no lado esquerdo da

tela), para dentro da caixa files selected (no lado direito da tela);

8. marcar a opção ok (na parte superior da tela) digitar o nome da etiqueta de consulta (palavra de busca), abaixo do nome da aba searchword marcar ok;

9. clicar no menu edit resort (F6) R1 da aba mainsort; 10. marcar as opções ascending e ok;

11. clicar 2 vezes sobre qualquer etiqueta para visualização/consulta da mesma no corpus; 12. clicar na aba concordance para sair de sourcetext e retornar à lista gerada.

(no canto inferior da tela, abaixo do nome da aba concordance, é exibido o número de etiquetas contabilizadas em cada subcorpus).

Fonte: Elaborada pela autora a partir de Silva (2014, p.67)

Retomando o mencionado no parágrafo anterior, ao percorrer os passos descritos no Quadro 12 me foi permitido a visualização e consulta a todas as ocorrências das etiquetas (ou palavras de busca), acompanhadas pelo cotexto no qual elas foram inseridas em ordem alfabética. As etiquetas puderam ser visualizadas, ainda, a partir da Concord, por ordem em que elas se encontram no corpus, por ordem de percentuais de cada uma no corpus, pela data da inserção do corpus para análise no concordanciador, entre outros. Clicando duas vezes sobre qualquer etiqueta, é possível visualizá-la no interior de cada subcorpus. Tal procedimento viabilizou não somente a revisão da análise pela confirmação ou não confirmação das categorias identificadas no corpus, mas também possibilitou fazer a correção dos erros de

digitação. Além disso, foi possível proceder à aferição das etiquetas inseridas quanto ao posicionamento/localização no interior dos quatro subcorpus. A título de ilustração, trago a Figura 21 para mostrar o uso do Concord para a revisão da análise.

FIGURA 21- Tela da Concord exibindo etiquetas da subrede de 'gradação' em Sc4(L)

Fonte: Elaborado pela autora

A Figura 21, como já foi sinalizado, ilustra uma tela da Concord exibindo a lista de todas as ocorrências das etiquetas contabilizadas em Sc4(L), concernentes às combinações dos termos/escolhas da microrrede de 'força' do subsistema 'gradação' até o sexto nível de delicadeza. Nesse caso, temos todas as ocorrências de 'gradação ‘-’força’-’quantificação’- ’quantidade'- 'isolada ’-’aumentando', o que totaliza 22 etiquetas. O número 22, disposto no canto inferior esquerdo da tela, abaixo do nome da aba concordance, equivale ao valor absoluto total das ocorrências da etiqueta no subcorpus em tela; cada palavra em vermelho à direita significa o cotexto no qual ocorre a etiqueta. Assim, para visualizar as etiquetas no interior do corpus, caso necessite fazer quaisquer ajustes, conforme já apontado no parágrafo precedente à

Figura 21, basta dar um duplo clique sobre cada uma delas. Ao executar esse comando, teremos acesso ao Source text, ou seja, o texto de origem da etiqueta escolhida, consoante a tela ilustrada pela Figura 22 apresentada a seguir.

FIGURA 22 - Tela do Concord exibindo os excertos de origem da etiqueta <Sc3(A) _GRAD_FORÇA_QTIF_QTID_ISO_AUM >

Fonte: Elaborada pela autora

A etiqueta escolhida para ser visualizada ou conferida no Source text, encontra-se no topo da tela à esquerda, realçada pela cor vermelha. A tag selecionada, de acordo com a tela, refere-se a <Sc3(A) _GRAD_FORÇA_QTIF_QTID_ISO_AUM>, que identifica 'gradação'- 'força'-'quantificação'-'quantidade'-'isolada'-'aumentando', referente ao Sc3(A). Além da tag escolhida, o concordanciador coloca em destaque várias outras dentre o conjunto de etiquetas inseridas no corpus no domínio da subrede em análise. Esse procedimento me permitiu fazer a identificação dos excertos de origem de cada etiqueta, que, por sua vez, facilitou a execução da revisão e dos ajustes necessários da etiquetagem em todo o corpus.

No documento O estilo avaliativo de textos instanciadores do gênero artigo científico nas áreas de Química, Engenharia Civil, Antropologia e Linguística (páginas 119-127)