Identificação e listagem de UFEs e AASs presentes no corpus

4.5 Procedimentos de análise do corpus

4.5.1 Identificação e listagem de UFEs e AASs presentes no corpus

Para realizar este primeiro procedimento de análise, por meio da ferramenta Concord do WST foram geradas linhas de concordâncias para o nódulo de busca “língua/portugu*”. Este nódulo de busca foi selecionado considerando a sintaxe de busca indicada no manual do WST (SCOTT, 2015). De acordo com o manual, o símbolo “/” permite que dois nódulos de busca sejam utilizados em uma mesma busca, ao passo que o símbolo “*” ligado a partes de palavras permite identificar itens que contêm o mesmo agrupamento de letras. No caso desta pesquisa, utilizamos este segundo símbolo para que a busca retornasse as palavras “português”, “portuguesa”, mas não “Portugal”, por exemplo. Optamos por mapear as UFEs a partir das palavras “língua”, “português” e “portuguesa”, pois no estudo exploratório realizado (LISBOA, 2020), estas palavras constavam em todas as UFEs e CUFEs identificados na terminologia designativa de área e subáreas do PLNM (cf. Quadro 3).

Por meio do procedimento descrito, obtivemos o total de 24.934 linhas de concordância, sendo 14.813 para o nódulo de busca “língua” e 10.121 para “portugu*”. A partir da geração das linhas de concordância, utilizamos o recurso Concordance Sort desta mesma ferramenta

para organizar as linhas de concordância por ordem alfabética a partir dos nódulos de busca (língua e portugu*) até os segundos itens à direita de cada ocorrência dos nódulos de busca. A Figura 6, a seguir, apresenta um recorte das linhas de concordância anteriormente à utilização do Concordance Sort e após a utilização deste recurso.

Figura 6 – Recorte das linhas de concordância antes e depois da utilização do Concordance Sort

Fonte: Elaborada pelo autor no WST.

Este procedimento foi realizado de modo a facilitar a identificação de padrões de (co)ocorrência e, por conseguinte, para identificar de maneira mais célere as UFEs. A título de exemplo, a partir das linhas de concordância organizadas por meio do Concordance Sort, apresentadas na Figura 6, é possível identificar uma mesma UFE recorrendo em todas as linhas de concordância (Português como L2). O procedimento seguinte consistiu na análise de cada uma das 24.934 linhas de concordância e na listagem, em um documento word, de todas as UFEs e AASs identificados nas linhas de concordância geradas e analisadas.

Dois critérios foram utilizados para determinar se um agrupamento lexical seria inserido na listagem de UFEs e AASs, e, portanto, selecionado para análise: (i) (co)ocorrência mínima

ANTES

de duas vezes no corpus e (ii) potencial valor designativo da área ou de subáreas do PLNM. O primeiro critério, de caráter quantitativo, foi utilizado de modo a desconsiderar casos de formas variantes únicas, e para auxiliar na delimitação da extensão das UFEs. Já o segundo critério, de caráter qualitativo, foi eleito, pois há vários agrupamentos lexicais com frequência de (co)ocorrência estatisticamente significativa no corpus, que inclusive se enquadram o primeiro critério eleito (como, por exemplo, língua falada, língua-alvo, língua comum, português na China etc.), mas que evidentemente não funcionam como designação de área ou subáreas do PLNM e, portanto, não são relevantes para esta pesquisa.

Nesta listagem, desconsideramos a utilização de letras maiúsculas e minúsculas, ou seja, itens como “Português Língua Estrangeira” e “português língua estrangeira” foram listados sob uma única forma, pois em etapas posteriores geraríamos linhas de concordância para cada uma das formas listadas e então seria possível verificar as variações formais concernentes à utilização de letras maiúsculas e minúsculas.

Em relação aos AASs, houve alguns casos em que tivemos que recorrer ao texto-fonte (por meio de clique duplo na linha de concordância no Concord) para verificar se eles seriam relevantes para a pesquisa. A título de exemplo, no momento da identificação de PNL, PCH e PPA, realizamos o procedimento descrito para verificar o que estes AASs designavam e percebemos que se referiam, respectivamente, a “Plano Nacional de Leitura”, “Projeto de Contação de Histórias” e “Português Popular Angolano”. Em vista disso, concluímos que, apesar de ocorrerem mais de duas vezes no corpus, estes AASs e as UFEs às quais eles se referem não seriam relevantes para a pesquisa e, portanto, não foram incluídas na listagem. Ressaltamos a relevância de não ter excluído as listas de AASs das dissertações e teses no momento da limpeza dos documentos que compõem o corpus de estudo, pois elas foram essenciais para verificar de forma mais célere casos similares aos relatados neste parágrafo.

Como resultado dos procedimentos descritos neste subcapítulo, obtivemos uma listagem composta por 602 UFEs e 68 AASs. No entanto, durante as etapas posteriores de análise, houve a necessidade de filtrar esta primeira listagem devido a três principais motivos: (i) analisar cada item presente na listagem seria inviável, em virtude do limite de tempo para a defesa desta dissertação; (ii) ao longo dos procedimentos seguintes de análise, tivemos dificuldade em delimitar a extensão das UFEs, mesmo tendo aplicado o critério de (co)ocorrência mínima; (iii) havia muitas UFEs e AASs (co)ocorrentes, porém unicamente no escopo de um mesmo arquivo

e que, portanto, por não serem representativos e considerando o objetivo da pesquisa, seriam de relevância secundária para a proposta de harmonização terminológica almejada.

Isto posto, para reduzir a listagem e filtrar de maneira mais satisfatória as UFEs e AASs a serem analisados, foi necessário repensar o critério de (co)ocorrência mínima. Tendo em vista a natureza da pesquisa e da metodologia utilizada, chegamos a um novo critério de (co)ocorrência mínima: o de ocorrência do mesmo agrupamento lexical e do mesmo AAS em, no mínimo, três arquivos de autoria distinta.

Elegemos esse novo critério considerando um ponto central para esta pesquisa: variações terminológicas resultantes de escolhas estilísticas de determinados autores que, por não recorrerem em uma quantidade considerável de arquivos de autoria distinta, não são representativas, apesar de poderem possuir frequência de (co)ocorrência estatisticamente significativa e serem relevantes para uma descrição completa da terminologia-alvo. Em outras palavras, para a nossa proposta de harmonização terminológica, o que vai realmente definir se uma UFE é mais representativa frente a outras é a sua utilização por uma parcela significativa de autores distintos. É por meio dessa análise de utilizações terminológicas em arquivos de autoria distinta que será possível aproximar nossa proposta a um resultado mais “consensual” (cf. Subcapítulo 3.1.3).

A aplicação deste novo critério auxiliou na delimitação mais precisa da extensão das UFEs e a excluir da listagem casos isolados de variação terminológica, que, apesar de serem relevantes para descrever a variação na terminologia designativa da área, são de relevância secundária para a proposta de harmonização terminológica, como comentado no parágrafo anterior.

Para reduzir a listagem com base no novo critério de (co)ocorrência mínima, geramos linhas de concordância para cada item presente na listagem anterior e excluímos os agrupamentos e AASs que não se enquadravam no critério em questão. Para verificar se os arquivos em que os agrupamentos e AASs ocorriam eram realmente de autoria distinta, utilizamos a coluna da ferramenta Concord referente ao nome dos arquivos (cf. Figura 6). Este procedimento resultou numa nova listagem composta por 67 UFEs e 26 AASs. Esta listagem está apresentada no Apêndice B.

4.5.2 Agrupamento de UFEs e AASs, e levantamento e descrição da variação formal no escopo

No documento JOEL VICTOR REIS LISBOA PROPOSTA DE HARMONIZAÇÃO DA TERMINOLOGIA DESIGNATIVA DE ÁREA E SUBÁREAS DO PORTUGUÊS COMO LÍNGUA NÃO MATERNA BASEADA EM CORPUS (páginas 100-104)