• Nenhum resultado encontrado

3.4 AS ETAPAS PARA A CONSTITUIÇÃO DO CORPUS

3.4.2 Seleção e identificação dos trechos dos artigos científicos

Para a execução desta etapa, ou como parte dela, foi indispensável, de antemão a conversão dos formatos dos arquivos e a limpeza dos textos. A conversão dos formatos. docx (documento de Word de extensão) e.pdf (portable document format) para o formato.txt (plain text) foi realizada de forma automática por meio da ferramenta XPDF (programa de código aberto que permite a conversão automática de arquivos), disponível gratuitamente na Web. Em seguida, realizei a limpeza dos dez artigos de cada disciplina. Uma vez que lancei mão do software WordSmith Tools 6.0 (SCOTT, 1998), para a identificação das ocorrências dos termos/escolhas avaliativas no corpus e da fórmula randbetween, para a seleção das amostras, o formato.txt é o mais apropriado porque é facilmente manipulável pelas ferramentas computacionais (discorro sobre as duas ferramentas citadas mais adiante).

A limpeza dos textos consistiu na retirada de imagens, gráficos, tabelas, números de páginas, referências bibliográficas e demais anotações que não fazem parte do texto como elemento verbal. A formatação e a limpeza dos artigos tiveram como propósito prepará-los para o processamento por meio das ferramentas computacionais mencionadas no parágrafo anterior. Após esses dois procedimentos, os textos limpos foram armazenados em pastas provisórias identificadas com os seguintes rótulos: AF1(Q); AF2(EC); AF3(A) e AF4(L) (onde se lê ‘artigos-fonte 1 Química, artigos-fonte 2 Engenharia Civil, artigos-fonte 3 Antropologia e artigos-fonte 4 Linguística).

Importa ressaltar ainda que as partes dos artigos, anteriormente relatadas, não serviram de fonte para a seleção dos trechos que findaram com 1.000 palavras porque o Abstract é escrito em outra língua que não é o Português Brasileiro; as tabelas, os quadros e as figuras são textos esquemáticos e, como tal, não são construídos exclusivamente via linguagem verbal (o meu foco é apenas a linguagem verbal); as Referências Bibliográficas, porque, apesar de construídas exclusivamente via linguagem verbal, não apresentam escolhas avaliativas feitas pelos autores dos artigos.

Nunes (2014; 2010) e Lima (2013), conforme já mencionado, para a seleção das amostras que constituíram o corpus de suas pesquisas, utilizaram dois procedimentos: a fórmula randbetween (permite escolher uma página aleatória em um texto no intervalo entre a primeira página, onde se encontra o título e a última página das considerações finais/conclusões) disponível no Programa Microsoft Excel© e, a partir de Biber (1993, 1990), o método das metades (split-half), que consiste em dividir uma amostra de 2.000 palavras ao meio. As amostras divididas foram de 2.000 palavras porque, segundo os referidos autores, Biber (1990) “sugere que uma amostra representativa e balanceada deva somar ao menos dez textos do mesmo tipo contendo trechos com 2.000 palavras cada e demonstra que cada uma das sub-amostras de 1.000 palavras já contém uma distribuição confiável no que toca à variabilidade das características linguísticas entre os textos” (NUNES, 2014, p. 66). Assim como eles, adotei os mesmos procedimentos para chegar aos trechos de 1.000 palavras, ressaltando que o corpus da pesquisa aqui proposta foi constituído por quatro subcorpus. Cada subcorpus foi formado por dez trechos aleatórios com 1.000 palavras, os quais foram extraídos, por seu turno, de grupos de dez artigos científicos de cada uma das quatro áreas disciplinares.

Para chegar aos trechos de 1.000 palavras, apliquei, em primeiro lugar, a fórmula randbetween. Por meio dessas fórmulas foram extraídos aleatoriamente trechos de 2.000 palavras em cada artigo. Em seguida, recorri ao método split-half (metades): cada trecho selecionado contendo 2.000 palavras foi dividido ao meio, o que resultou em dois trechos de 1.000 palavras. Um dos dois trechos foi escolhido por meio de sorteio para compor o corpus, que somente foi considerado como tal após a conclusão de todos os procedimentos delineados nos dois estágios descritos na Subseção 3.4.1 e nesta, a 3.4.2. Os trechos selecionados (10 de cada disciplina) foram devidamente identificados por um cabeçalho contendo as seguintes informações: autoria, periódico, volume, número, local, ano, título do artigo-fonte, subárea do conhecimento/disciplina. O Quadro 4 a seguir ilustra o modelo de cabeçalho adotado para a identificação de cada excerto do corpus.

QUADRO 4- Modelo de cabeçalho para a identificação dos excertos do corpus da pesquisa

<NEVES, Maria Helena de Moura. DELTA, volume 30, número 1, São Paulo, 2014. Excerto do artigo: Do “politicamente correto” ao incorreto polido. LINGUÍSTICA.>

Os trechos dos artigos somente foram considerados definitivamente o corpus desta pesquisa depois de concluídas as duas etapas descritas nas Subseções 3.2.2.1 e 3.2.2.2. Assim constituído, o corpus se configura em uma amostra representativa e balanceada do gênero artigo científico tal qual realizado nos registros relativos às áreas disciplinares Química,

Engenharia Civil, Antropologia e Linguística. Após a identificação dos dez excertos das

quatro áreas disciplinares, no total 40 (quarenta) trechos, com os cabeçalhos nos moldes apresentados anteriormente, os arquivos foram depositados em 4 pastas definitivas, identificadas a partir de cada área disciplinar. Sendo assim, as referidas pastas receberam os seguintes rótulos:

QUADRO 5-Rótulos identificativos das pastas dos subcorpus definitivos

Sc1(Q) Identifica a pasta contendo o subcorpus 1- excertos dos artigos da Área do Conhecimento 1, área disciplinar Química

Sc2(EC)

Identifica a pasta contendo o subcorpus 2 - excertos dos artigos da Área do Conhecimento 2, área disciplinar Engenharia Civil

Sc3(A)

Identifica a pasta contendo o subcorpus 3 – excertos dos artigos da Área do Conhecimento 3, área disciplinar Antropologia

Sc4(L) Conhecimento 4, área disciplinar Linguística Identifica a pasta contendo o subcorpus 4 – excertos dos artigos da Área do

Fonte: Elaborado pela autora

A Figura 16 mostra a organização dos subcorpus em suas respectivas pastas, situados na área de trabalho do computador.

FIGURA 16- Tela da Área de Trabalho do PC exibindo as pastas definitivas dos quatro subcorpus que compõem o corpus da pesquisa

Findadas todas as etapas para a seleção e tratamento dos excertos dos artigos que constituíram o corpus, conforme já relatado nas seções e subseções anteriores e mostrado no Quadro 1 e na Figura 16, saliento que as pastas contendo os subcorpus trazem identificações representativas de acordo com a respectiva área disciplinar. Por conseguinte, o subcorpus referente à área disciplinar Química recebeu o rótulo Sc1(Q), o da disciplina Engenharia Civil ficou sendo Sc2(EC); o subcorpus equivalente à área disciplinar Antropologia foi nomeado Sc3(A) e o de Linguística trouxe o rótulo Sc4(L). Apresento no Quadro 5 os dados referenciais de todo o corpus, ordenados por subcorpus.

QUADRO 6- Dados referenciais do corpus da pesquisa, por subcorpus Subcorpus: Sc1(Q) - título do artigo-volume,

número e ano do periódico

Autor (es)

1 Acúmulo de cargas elétricas em propelente sólido compósito com matriz de

polibutadieno líquido hidroxilado, v. 37, n.1, 2014. SÍLVIO, Manea et al. 2 Composição elementar do aerossol atmosférico na região central da Bacia

Amazônica, v.37, n.2, 2014. ARANA, A; ARTAXO, Paulo.

3 Análise do teor e da qualidade dos lipídeos presentes em sementes de

oleaginosas por rmn de baixo campo, v.37, n., 2014 CONSTANTINO F. André et al.

4 Caracterização de membranas assimétricas de acetato de celulose produzidas a partir do aproveitamento do resíduo da palha de milho para uso em ultra filtração, v. 37, n. 3, 2014.

RIBEIRO, E. Angélica Mundim et al. 5 Cinética e caracterização de ramnolipídeos produzidos por Pseudomonas

aeruginosa MSIC02 utilizando glicerol como fonte de carbono

SOUSA, Juliana R. et al. 6 A regra de Bent contextualiza a força da ligação de hidrogênio em clusters

trimoleculares, v.37, n. 4. SANTOS, Ives T. O.; REGO, Danilo G.; OLIVEIRA, Boaz G.

7 Catálise básica usando sílica mesoporosa estabilizada por acrilatos

encapsulados, V.37, o. 5. CRUZ, Fernanda Tália; CARDOSO, Dilson.

8 Desenvolvimento de tecnologia de pré-polímeros na síntese de poliuretanos

empregados em combustíveis sólidos, v. 37, n 6. CLEMENTE, Marcelo et al.

97 Atividade antibacteriana in vitro e toxicidade frente à Artemia salina Leach. de

alguns compostos triazenos, v.37, n. 7. PARAGINSKI, Gustavo Luiz et al.

10 Avaliação de dispositivos de captura de imagens digitais para detecção

colorimétrica em microzonas impressas, v.37, no. 7. SOUZA, Fabrício Ribeiro de et al.

Subcorpus: Sc2(EC) - título do artigo -volume, número

e ano do periódico Autor (es)

1 Avaliação dos momentos de segunda ordem em estruturas de concreto armado utilizando os coeficientes γze B2, v.7, no. 3.

OLIVEIRA, D. M.; SILVA, N. A.; OLIVEIRA, P. M.; C.C.

2 Análise estatística e teste de conformidade do concreto de obras portuárias,

v.7, n. 3. LAROSSA, M. C. et al.

3

Interação solo-estrutura para sistemas estruturais reticulados sobre fundações rasas, v.7, n. 2.

PAVAN, R.C; COSTELLA, M. F.; GUARNIERI G.

4 Análise da influência das cinzas do bagaço de cana-de-açúcar no comportamento mecânico de concretos, v.7, n. 4.

SAMPAIO, Z. L. M.; SOUZA, P.A.B.F.; GOUVEIA, B.G.

5 O papel do metacaulim na proteção dos concretos contra a ação deletéria de

cloreto, v.7, n. 4. FIGUEIREDO, C. P. et al.

6

Enriquecimento com calda do CCR para face de barragens, v.7, n. 4. WENDLER, A. P. et al 7 Análise numérica e experimental da transferência de carga do concreto para a

armadura em pilares. v.7, n. 5. KATAOKA, L. T.; BITTENCOURT, T. N.

8 Estudo do comportamento reológico de pastas cimentícias utilizando reômetro

de cisalhamento dinâmico, v.7, n. 6. TEIXEIRA, J. E. S. L. et al.

9 Análise da força longitudinal devida à frenagem considerada pela NBR7187

10 Análise não linear numérica via MDFE de lajes de concreto armado utilizando a mecânica do dano, v.7, n. 6.

LIMA, M. V. A.; LIMA, J. M. F.; LIMA, P. R. L.

Subcorpus: Sc3(A) - título do artigo -volume, número

e ano do periódico Autor(es)

1 Culturas morais e políticas de desenvolvimento na noruega e na união

europeia, v.20, n.41. BARROSO, M. M; NICAISE, N.

2 As políticas globais de governança e regulamentação da privacidade na

internet, v.20, n.41. SOUZA, Rebeca H. Vergara et al.

3 Babaçu livre e queijo serrano: histórias de resistência à legalização da

violação a conhecimentos tradicionais, v.20, n.41. PORRO, Joaquim et al. 4 O sofrer, o narrar, o agir: dimensões da mobilização social de familiares

de vítimas, v.20, n.42. LACERDA, Paula.

5 Sofrimento, tempo, testemunho: expressões da violência em um conflito de

terras, vol.20, no. 42. AYOUB, Dibe.

6 "Não quero lembrar... muito sofrimento": percursos da memória entre os

refugiados palestinos no Brasil, v.20, n.42. PRATES, Daniele Regina Abilas.

7

Pentecostalismo e o sofrimento do (ex-) bandido: testemunhos, mediações,

modos de subjetivação e projetos de cidadania nas periferias. v.20, n.42. MACHADO, Carly Barboza. 8

Múltiplas vitimizações: crianças indígenas Kaiowá nos abrigos urbanos do

Mato Grosso do Sul, vol.20 no. 42, NASCIMENTO, Silvana Jesus do.

9

Aborto e corporalidade: sofrimento e violência nas disputas morais através

de imagens, vol.20, no. 42. LUNA, Naara.

10

Sobre errâncias, imprecisões e ambivalências: notas sobre as trajetórias de jovens cariocas e sua relação com o mundo do crime, vol.20, no. 42.

SENTO-SÉ, João Trajano; COELHO, Maria Claudia.

Subcorpus: Sc4(L) - título do artigo -volume, número do periódico e ano do periódico

Autores

1

Apagamento vocálico e binariedade no português: uma investigação baseada em preditivas Bayesianas, vol.30, no. 1.

ABAURRE, M.B. M; SANDALO, F; GONZÁLEZ-LÓPEZ, V.

2

Estudo sobre a intervenção em crianças falantes do Português Europeu

com atraso fonológico, vol.30, no. 1. CASSANDRA Pedro et al.

3

Do "politicamente correto" ao incorretamente polido, v.30, n.1. NEVES, M. H de Moura. 4 Tarefas pedagógicas online criadas por alunos da disciplina de

Metodologia de Ensino de Língua Estrangeira em um Curso de Letras, vol.30, no. 1.

ALMEIDA, Patrícia Vasconcelos.

5 Fatores intervenientes na produção correta da sílaba (c) vc em dados típicos e atípicos de fala, vol.30, no. 2.

MEZZOMO, C.Lisbôa; DIAS, R. Freitas; VARGAS, D. Zacarias.

6

Carnavalização e New Journalism: o agenciamento da emoção e do

ethos em crônicas da esfera jornalística, vol.30, no. 2. SILVEIRA, Ana Paula Kuczmynda da 7 As hipóteses de Aryon Rodrigues: validade, valor e papel no cenário dos

estudos de línguas indígenas e de linguística histórica, vol.30, no. Especial.

SOARES, Marília Facó; CARVALHO, Fernando Orphão de.

8

A Língua Geral como código secreto de comunicação entre jesuítas,

vol.30, no. Especial. MONSERRAT, Ruth; BARROS, Cândida.

9 Nem eu, nem você e nem ele: o morfema relacional em hierarquia de pessoa e marcação diferenciada de objeto no Kadiwéu, vol.30, n. especial.

SANDALO, Filomena. 10

A criação do espaço institucional da linguística e dos estudos das línguas

indígenas no Brasil, vol.30, no. Especial,. GRANNIER, Daniele Marcelle.

Fonte: Elaborado pela autora com base do corpus da pesquisa

Como já sinalizei, o quadro 5 expõe os dados referenciais dos artigos-fonte dos quatro subcorpus que constituíram o corpus analisado nesta pesquisa. Os primeiros 10 artigos, tal qual mostrado nesse quadro, são referentes à área disciplinar Química, representado pelo rótulo Sc1(Q). Abaixo da identificação do cabeçalho, encontram-se em ordem sequencial, de 1 a 10, os títulos dos artigos-fonte, as informações referentes ao volume, o número e ano do periódico. À direita do título do artigo, temos o(s) nome(s) do(s) autor (es) de cada texto. A apresentação dos dados referenciais das demais áreas disciplinares seguiram o mesmo padrão de Química. Ressalto que os artigos-fonte foram assim denominados porque equivaleram aos artigos escolhidos aleatoriamente, a partir da biblioteca Scielo-Brasil, dos quais foram extraídos os excertos que formaram o corpus desta pesquisa. A seguir, na Seção 3.5, descrevo os procedimentos adotados para a análise do corpus, que consiste na identificação das ocorrências dos termos/escolhas avaliativas no corpus e apresento as etiquetas usadas para a categorização dos dados.