Estudo piloto 1 A arquitetura de um corpus na área de Teologia: concepção e procedimentos de compilação

4 ANÁLISE DE DADOS

4.1 Estudo piloto 1 A arquitetura de um corpus na área de Teologia: concepção e procedimentos de compilação

Por definição, o estudo piloto é um teste, em pequena escala, dos procedimentos, materiais e métodos propostos para determinada pesquisa (MACKEY; GASS, 2005). Ou seja, é uma versão mínima do estudo completo, que envolve a realização de todos os procedimentos previstos na metodologia de modo a possibilitar alteração/melhoria dos instrumentos na fase que antecede a investigação em si.

Em relação a este trabalho, a opção por esses experimentos, de caráter inicial, forneceu pistas e a base para o desenvolvimento do estudo em sua totalidade. Além disso, os estudos piloto tiveram importância ímpar no que se refere ao nosso aprendizado e domínio das ferramentas computacionais, viabilizando, assim, o estudo com um número muito maior de textos.

A primeira análise piloto foi realizada sob orientação do Professor Doutor Ariel Novodvorski, durante o curso de Linguística de Corpus aplicada a pesquisas de base empírica – 1º semestre 2015, PPGEL/UFU. Para esta análise, coletamos um arquivo46

de acesso público, baixado em formato *pdf e salvo em formato *txt para possibilitar a leitura pelo programa WST.

Já apresentamos, anteriormente, a elaboração de árvore de domínio como metodologia para a aproximação inicial de uma área específica porque, por meio dessa estrutura, é possível delinearmos toda a arquitetura organizacional dos corpora da área objeto de pesquisa. Muito embora esse processo possa resultar em apenas um diagrama composto por termos-chave de

O arquivo trata-se do livro História dos hebreus: de Abraão à queda de Jerusalém, digitalizado por Levita Digital para e-books evangélicos e disponibilizado gratuitamente no endereço:

uma especialidade, na verdade, a elaboração de árvore de domínio só é possível por meio de muito tempo dedicado a pesquisas bibliográficas, leituras de documentos, consultas e entrevistas com especialistas.

O resultado apresentado nesse trabalho, para além da configuração da árvore de domínio e da arquitetura inicial do nosso corpus de pesquisa, envolve também a aproximação e a compreensão de uma área de conhecimento.

Observando a árvore de domínio da Teologia da Fases (FIGURA 6, p. 70), podemos constatar que História e Geografia Bíblica pertence à subárea da Teologia Sistemática. Para melhor localização, apresentamos o recorte feito para este estudo na Figura 9.

Figura 9 Árvore da área de conhecimento da Teologia da Fases – Destaque História e Geografia Bíblica

Fonte: Elaboração própria.

Inicialmente, usamos a ferramenta WordList para a produção da lista com todas as palavras do arquivo selecionado. Esta lista (FIGURAS 10 e 11) apresenta, elencadas em conjunto, as frequências absolutas e percentuais de cada palavra. A WordList “também compara listas, criando listas de consistência, onde é informado em quantas listas cada palavra aparece” (BERBER SARDINHA, 2009, p. 8).

Figura 10 WordList – História e Geografia Bíblica

Figura 11 Lista de palavras em ordem de frequência do corpus de História e Geografia Bíblica (vista parcial)

Fonte: Elaboração própria.

Como resultado da contagem final das palavras, obtivemos os resultados apresentados na Tabela 2.

Tabela 2 Quantidade itens/formas Quantidade de itens/formas do corpus

Itens (quantidade total de palavras nos textos) 613.060 Formas (quantidade de palavras diferentes nos textos) 27.173

Fonte: Elaboração própria.

Tendo por base o critério de medição desenvolvido por Berber Sardinha (2004), podemos afirmar que o conjunto de material selecionado para este estudo piloto é constituído por um corpus de tamanho médio. Isso nos permite afirmar que este é um corpus representativo no universo dos textos na subárea da História e Geografia Bíblica. Lembramos que, nesse trabalho, utilizamos apenas uma parte do corpus, o da História e Geografia Bíblica.

Como resultado da arquitetura por nós delineada, temos a seguinte tipologia (QUADRO 4) para o corpus de História e Geografia Bíblica, que se constitui como subárea da Teologia.

Quadro 4 – Tipologia do corpus

Tipologia do Corpus de História e Geografia Bíblica – subárea da Teologia Língua Monolíngue (português)

Modo Escrito (livro)

Data de publicação Sincrônico

Seleção Amostragem, Estático Conteúdo Especializado (Teologia)

Autoria Falantes nativos (português) e traduções Disposição Interna Não comparável

Uso na pesquisa Estudo (análise terminológica/terminográfica) Tamanho Médio (250 mil a 1 milhão de palavras) Nível de Codificação Com cabeçalhos, sem etiquetas

Fonte: Elaboração própria.

De posse da lista de palavras, o próximo passo foi a elaboração da lista de palavras- chave. Para a elaboração dessa lista (FIGURA 12), aplicamos previamente à lista de palavras (WordList), uma stoplist47, ou seja, uma lista de palavras consideradas irrelevantes para a pesquisa que foram ignoradas nos resultados gerados pelas ferramentas.

Esta operação pode ser considerada apenas como uma técnica de compressão de listas, pois a eliminação de palavras gramaticais reduz o número de palavras a serem analisadas no

corpus e também o número de palavras a serem armazenadas em uma base de dados. O que

proporciona, também, melhores resultados quanto à frequência das classes de palavras lexicais, a saber: verbos, substantivos e adjetivos, de maior relevância para a pesquisa. Entretanto, em trabalhos terminológicos, no que se refere ao plano das categorias gramaticais, os nomes predominam, pois estes ocupam um lugar de destaque nas terminologias, ou seja, no conjunto de termos de uma área especializada (BARROS, 2004).

Assim, a classe gramatical que faz parte da nossa busca, atendendo ao objetivo deste trabalho, são os substantivos. Daí a necessidade de se aplicar uma stoplist, com o objetivo de filtrar as ocorrências de palavras gramaticais (preposições, artigos, pronomes etc.), uma vez que pretendemos buscar as palavras que têm significado no contexto específico do corpus de estudo. A stoplist adotada neste trabalho é uma lista na qual há as palavras gramaticais que podem ser eliminadas dos corpora sem que afetem o objetivo do trabalho.

As listas elaboradas com palavras do corpus de estudo (FIGURA 12) permitem as primeiras suposições sobre as características do vocabulário usado nos estudos de Teologia.

Neste trabalho, usamos uma stoplist concedida a nós pela autora Flávia Santos da Silva, doutoranda da Universidade Federal de Uberlândia.

Nota-se, por exemplo, que o termo Deus é, ao mesmo tempo, o mais frequente e o mais chave, o que condiz com o fato de que os textos abordam questões acerca da Teologia q e “é a ciência que se dedica ao estudo e ao conhecimento de Deus”.48

A Figura 12 apresenta a lista de palavras sem e com a aplicação da stoplist.

Figura 12 – Lista de palavras sem stoplist (à esquerda) e com stoplist (à direita)

Fonte: Elaboração própria.

Em seguida, fizemos a lista das palavras-chave (KeyWords) (FIGURA 13), que é uma lista contendo palavras do corpus de estudo que têm uma frequência relativa maior que as palavras do corpus de referência. Antes de iniciar a ferramenta KeyWords do WST, é necessária a criação dos chamados corpora de referência, que são grandes corpora de textos gerais da língua em análise e que servem como parâmetro de comparação para a ferramenta. Nesta pesquisa, para a elaboração da lista de palavras-chave, fizemos a inserção, no programa, do corpus de referência do português brasileiro Lácio-Web49.

Definição retirada do corpus de estudo, arquivo: PTM-MF-TM-CC.txt. 49

Figura 13 KeyWords – História e Geografia Bíblica (vista parcial)

Fonte: Elaboração própria.

Após essa comparação, o WST exibe as palavras-chave positivas50, aquelas que servem para identificar o corpus a ser descrito. Isto significa que as palavras que aparecem na lista de palavras-chave são aquelas que são mais recorrentes no corpus de estudo do que no

corpus de referência, o que é chamado de chavicidade: “A chavicidade reporta o res ltado de

um procedimento estatístico pelo qual a ferramenta levanta o quão importante cada palavra- chave positiva é para o corpus de pesq isa em relação ao de referência” (VIARO, 2011, p. 64).

A terceira ferramenta utilizada é o concordanciador (FIGURA 14) que permite a análise de uma palavra em seu cotexto51. Os resultados dessa ferramenta são dispostos em

O WST também exibe as palavras-chave negativas (as positivas aparecem no início da lista, as negativas, no fim). A diferença entre as palavras-chave positivas e negativas é que, enquanto nas positivas a frequência é significativamente mais alta no corpus de estudo, nas negativas a frequência será mais alta no corpus de referência (BERBER SARDINHA, 2009, p. 194).

51 _{Refere-se ao am iente lin ístico, isto é, os itens lexicais q e estão “à direita e à esq erda de ma dada palavra} de sca” (VIANA, , p. 1).

linhas de concordância, fragmentos dos textos que são exibidos, a partir de uma palavra selecionada pelo usuário.

Figura 14 Linha de concordância para o termo Deus – História e Geografia Bíblica

Fonte: Elaboração própria.

Como já referenciamos, anteriormente, o objetivo deste estudo foi apresentar parte do processo de planejamento de um corpus em área específica para análise linguística. Nesse processo, consideramos a elaboração de árvore de domínio a metodologia para a aproximação inicial de uma área específica porque, por meio dessa estrutura, é possível delinearmos toda a arquitetura organizacional dos corpora da área objeto de pesquisa.

Além de nossa aproximação à área de conhecimento da Teologia, a elaboração da árvore de domínio possibilitou, também, a organização das informações para a compilação dos corpora que é, em LC, o ponto de partida para as análises posteriores. Este estudo também nos auxiliou no processo de aprendizagem e domínio das ferramentas do WST:

WordList, KeyWord e Concordance.

No documento UNIVERSIDADE FEDERAL DE UBERLÂNDIA INSTITUTO DE LETRAS E LINGUÍSTICA PROGRAMA DE PÓS-GRADUAÇÃO DOUTORADO EM ESTUDOS LINGUÍSTICOS SOLANGE APARECIDA FARIA CARDOSO (páginas 91-97)