• Nenhum resultado encontrado

4 ANÁLISE DE DADOS

4.2 Estudo piloto 2 Linguística de Corpus: proposta para uma análise lexical contrastiva

A segunda análise piloto foi realizada sob orientação do Professor Doutor Guilherme Fromm, durante o curso de Terminologia e Terminografia Tópicos em estudos analítico- descritivos 2: Terminologia e Terminografia – 1º semestre 2016, PPGEL/UFU.

O objetivo dessa análise piloto foi apresentar o processo de concepção e elaboração de

corpora para a realização de análise contrastiva entre obras elaboradas por dois autores de

diferentes denominações cristãs. Foram tomados como objeto de análise publicações dos dois autores disponíveis gratuitamente em sítios virtuais da Internet.

98

Constituído os corpora, analisamos também a recorrência, ou não, do léxico na estruturação dos textos, pois, segundo Sinclair (2004), a pesquisa de corpus é basicamente centrada na recorrência de objetos; inicialmente entidades de superfície, como palavras.

Além disso, como o corpus foi constituído por textos produzidos em épocas distintas, a análise contrastiva revelou aspectos comuns no que se refere à estrutura lexical desses textos.

A composição do corpus que foi analisado nesse trabalho reúne obras de conteúdo teológico de duas vertentes cristãs produzidas em épocas diferentes: uma evangélica constituída por nove obras do bispo e escritor evangélico Edir Macedo Bezerra. A outra, católica apostólica romana, é constituída por 18 sermões de Padre Antônio Vieira.

Para que não haja nenhum tipo de implicações legais relacionadas aos direitos autorais, a escolha dos textos se deu, basicamente, pela disponibilidade desses textos em formato eletrônico. Assim, todas as publicações que compõem o corpus desta pesquisa possuem acesso virtual gratuito o que, também, possibilita processamentos por meio do uso de ferramentas eletrônicos da LC.

O Quadro 5 a seguir informa o nome das obras que compõem o corpus de estudo e os seus autores.

Quadro 5 – Obras/Autores que compõem o corpus de estudo

Padre Antônio Vieira Edir Macedo Bezerra

Sermão da Sexagéssima (1655) A fé de Abraão (2003)

Sermão da Quarta-Feira de Cinza (1672) Como fazer a obra de Deus (2000)

Sermão do Nascimento da Virgem Maria (1657) Mensagens (2011) Sermão da Terceira Quarta-Feira da Quaresma (1669) Nada a perder (2012) Sermão de Santo Inácio (1669) Nos passos de Jesus (2005) Sermão de Nossa Senhora de Penha de França (1652) O perfeito sacrifício (2004) Sermão da Quinta-Feira da Quaresma (1669) Orixás, caboclos e guias (1983) Sermão no Sábado Quarto da Quaresma (1652) Servir a Deus no altar (?) Sermão das Lágrimas de São Pedro (1669)

Sermão do Mandato (1670)

Sermão da Bula da S. Cruzada (1647) Sermão da Quarta-Feira de Cinza (1673) Sermão da Rainha Santa Isabel (1674)

Sermão da Glória de Maria, Mãe de Deus (1644) Sermão da Primeira Dominga da Quaresma (1655) Sermão da Terceira Dominga da Quaresma (1655) Sermão do Santíssimo Sacramento (1674)

Sermão da Terceira Quarta-Feira da Quaresma (1670)

99

Fizemos a conversão das extensões dos textos/livros selecionados de *.pdf e *.html para *.txt. e os organizamos em diretório criado no computador. Para a identificação de cada arquivo, optamos pelo título que aparece no início de cada texto.

Após essa etapa, procedemos ao tratamento deste corpus por meio do uso do programa de análise lexical WST, versão 6, de Scott (2012).

Inicialmente, usamos a ferramenta WordList para a produção da lista de palavras com todas as palavras do arquivo selecionado.

Figura 15 – WordList – Obras Edir Macedo

Fonte: Elaboração própria.

Figura 16 – WordList – Sermões Padre Antônio Vieira

Fonte: Elaboração própria.

Os dados estatísticos mais gerais do corpus, apresentados nas Figuras 15 e 16, foram obtidos com a função Statistics da ferramenta WordList. De acordo com Berber Sardinha (2004): i) os itens (tokens) ou palavras corridas (running words) indicam a totalidade de ocorrências ou palavras contidas, seja no corpus constituído pelas obras de Edir Macedo (primeira coluna, FIGURA 15), seja no corpus constituído pelos Sermões de Padre Antônio Vieira (FIGURA 16); ii) as formas (types) indicam a quantidade de palavras diferentes, isto é, computadas uma única vez em cada um dos corpora; e iii) a razão forma/item (type/token ratio) é a porcentagem resultante da fórmula apresentada por Berber Sardinha (2004, p. 94): formas : (itens : 100) ou

100 = ã / 52

.

Para essa primeira leitura com a ferramenta do programa, foi utilizado o corpus cru, isto é, os textos em sua versão original, sem a inserção de quaisquer etiquetas. Ressaltamos

52

100

que é considerado corpus cru um texto que é tomado do seu habitat natural (jornal, livro, revista, sítios virtuais etc.), cujo conteúdo é mantido sem qualquer anotação ou tratamento interno.

Como resultado da contagem final das palavras, obtivemos os seguintes resultados apresentados na Tabela 3.

Tabela 3 Quantidade itens/formas Obras Edir Macedo e Sermões Padre Antônio Vieira

Obras Edir Macedo Sermões Padre Antônio Vieira

Itens (quantidade total de palavras nos textos)

248.019 Itens (quantidade total de palavras nos textos)

208.627 Formas (quantidade de palavras

diferentes nos textos)

16.351 Formas (quantidade de palavras diferentes nos textos)

17.646

Razão forma/item % 6,59 Razão forma/item % 8,46

Fonte: Elaboração própria.

Tendo por base o critério de medição desenvolvido por Berber Sardinha (2004), podemos afirmar que o conjunto de material selecionado para essa pesquisa é constituído por um corpus de tamanho médio53. Como resultado da arquitetura por nós delineada, temos a seguinte tipologia para o corpus dessa pesquisa (QUADRO 6):

Quadro 6 – Tipologia dos corpora

Fonte: Elaboração própria.

De posse das listas de palavras, foi utilizada como corpus de referência a coletânea de textos do Lácio-Web, para que então fosse realizada a extração de palavras-chave por autor.

53

É válido ressaltar que a diferença notada no número de palavras entre os textos produzidos pelos dois autores não afeta os resultados desta pesquisa, pois trata-se de um estudo baseado em probabilidade.

Tipologia dos Corpora: obras Edir Macedo e Sermões Padre Antônio Vieira

Língua Monolíngue (português)

Modo Escrito (livro)

Data de publicação Sincrônico

Seleção Amostragem, Estático

Conteúdo Especializado (Teologia)

Autoria Falantes nativos (português), individual Disposição Interna Comparável

Uso na pesquisa Estudo (análise terminológica/terminográfica) Tamanho Médio (250 mil a 1 milhão de palavras) Nível de Codificação Com cabeçalhos, sem etiquetas

101

Aplicando a KeyWords Tool, obtivemos duas listas com 50054 palavras-chave em cada um dos corpora. Dessas listas, optamos por investigar somente as frequências de vocábulos, que, prioritariamente, atuam como substantivos, visto que esta é uma das categorias morfossintáticas que tende a evidenciar traços relativos à renovação, ou não, do léxico de uma língua.

A Figura 17 apresenta as 20 primeiras palavras-chave do corpus Obras Edir Macedo.

Figura 17 – KeyWords – Obras Edir Macedo

Fonte: Elaboração própria.

A Figura 18 apresenta as 20 primeiras palavras-chave do corpus Sermões Padre Antônio Vieira.

54

O valor de 500 palavras-chave foi definido por meio do menu settings (configurações) no WST, no qual é possível estabelecer um default maximum wanted, ou seja, um padrão máximo esperado de palavras-chave. Para o corpus de estudo também seguimos o mesmo padrão.

102

Figura 18 – KeyWords – Sermões Padre Antônio Vieira

Fonte: Elaboração própria.

Para a elaboração da Tabela 5, inicialmente, observamos as 10 primeiras palavras que aparecem na Figura 17 (Obras Edir Macedo) e em seguida, verificamos se essas palavras constavam e, se com a mesma frequência na lista das palavras-chave da Figura 18 (Sermões Padre Antônio Vieira). Destacamos, dentre as duas listas, as palavras comuns: Cristo, Deus, Santo.

No quadro geral das palavras-chave dos dois corpora, analisando apenas o grupo das 10 mais recorrentes, não são comuns:

 Edir Macedo: Fé, Senhor, Jesus, Espírito, Demônios, Igreja e Diabo.

 Padre Antônio Vieira: Olhos, Demônio, Est (Latim), Pó, Homens, Davi e Amor. Intuitivamente, tomamos por base as sete outras palavras que aparecem na Figura 17 (Obras Edir Macedo) e iniciamos uma busca dessas palavras na KeyWords – Sermões Padre Antônio Vieira (FIGURA 18) e vice-versa. Ou seja, buscamos as sete outras palavras que aparecem na Figura 17, na KeyWords – Obras Edir Macedo. Finalizada a busca, não foi localizada apenas uma palavra: Pó. Essa palavra é recorrente nos Sermões Padre Antônio Vieira, entretanto, não aparece na lista das 500 palavras-chave e nem na WordList – Obras Edir Macedo.

A observação e análise contrastiva, ainda que intuitivamente, das listas de palavras- chave nos permitiu a elaboração da Tabela 4 apresentada a seguir.

103

Tabela 4 KeyWords Obras Edir Macedo em contraste com KeyWords Sermões Padre Antônio Vieira

Fonte: Elaboração própria.

A análise contrastiva, ainda que no nível apenas das palavras lexicais selecionadas por meio da ferramenta KeyWords, nos permitiu elencar algumas considerações.

Tendo em vista o fato de que os textos que constituem os corpora foram produzidos em momentos e por a tores diferentes, os dados revelam m “núcleo inicial q e constit i a própria ase de a r pamento semântico” (MAR INS, , p. ). Em outras palavras, pode- se assegurar que mesmo sendo textos diversos, as palavras revelam um mesmo tema/sentido que não poderia ser outro senão o religioso. Em relação, principalmente, ao distanciamento no tempo, e ainda, no que se refere à constante possibilidade de renovação do léxico, os dados analisados não revelaram a presença de arcaísmos e nem de neologismos.

Outro aspecto a ser ressaltado são os dados numéricos apresentados pela análise computacional. Com exceção de uma única palavra (Pó), todas as outras elencadas inicialmente foram localizadas. As palavras Diabo e Espírito apresentam alto índice de chavicidade na KeyWords – Obras Edir Macedo e não aparecem na KeyWords – Sermões Padre Antônio Vieira. Para proceder a real averiguação da presença ou não dessas palavras no

corpus – Sermões Padre Antônio Vieira, recorremos à WordList (acionando o dispositivo que

104

Tabela 5 – WordList: Diabo/Espírito

Fonte: Elaboração própria.

O objetivo dessa análise piloto foi apresentar parte do processo de planejamento de um

corpus em área específica para análise linguística e apresentar indícios de que semelhanças e

ou diferenças léxicas entre autores podem ser perceptíveis por meio de análise quantitativa nos corpora estudados. Os resultados sugerem que, mesmo as diferenças de autoria e momentos de produção, o léxico analisado (substantivos) não apresentou variação. Significando que, os autores, mesmo distantes na linha do tempo e pertencendo a denominações diferentes do cristianismo, fazem uso de uma mesma base léxico-semântica inserida em uma mesma temática: a religiosa. Afirmamos isso com base não somente na observação das KeyWords, mas também na observação comparativa dos corpora de estudo (WordList), nos quais pudemos perceber que não apareceu um sinônimo para Diabo, por exemplo, Satanás, nos mesmos contextos, tendo os autores optado somente pelo uso do item lexical Diabo.

Pudemos constatar que a observação das listas de palavras-chave é imprescindível na análise linguística contrastiva porque podem possibilitar a identificação/confirmação da temática dos corpora. Além disso, pode auxiliar na descrição da organização interna de textos, localização de marcas indicativas de posicionamento ideológico dentre outros aspectos que esperamos poder desenvolver em na pesquisa principal.

Finalmente, as análises apresentadas nessa segunda análise piloto, confirmam que a aplicação dos conceitos e ferramentas da LC ampliam as possibilidades de análise de corpora cada vez maiores e certificam resultados, também, cada vez mais precisos.