Constituição do Corpus POL - º Informante Sexo Idade Nível de instrução

Capítulo II Enquadramento teórico-metodológico de base sociolinguística

N. º Informante Sexo Idade Nível de instrução

2.3.5. Constituição do Corpus POL

Os dados recolhidos foram processados e organizados; isto é, para que esses dados “brutos” constituíssem um verdadeiro corpus linguístico, necessitaram de ser trabalhados em diferentes fases.

A seguir, após um breve enquadramento teórico sobre a noção de “corpus linguístico”, e refletindo as tarefas principais pós-recolha dos dados, referimos os aspetos associados à transcrição do corpus (2.3.5.1) e à identificação e seleção dos empréstimos (2.3.6), antes de passar à análise dos dados obtidos, em 2.4.

Os dados da fala real, considerados nas abordagens sociolinguísticas, uma vez sujeitos a procedimentos apropriados, constituem o “corpus linguístico”, ou simplesmente “corpus”, o material de base, do qual se extraem os elementos necessários ao estudo. O corpus consiste, deste modo, numa coleção de textos de linguagem natural que é armazenada e processada eletronicamente (Bijeikienė e Tamošiūnaitė 2013:77). Ou, como definido por Baker (2010:5-6), partindo de uma perspetiva etimológica do termo (do latim corpus ‘corpo’ (sg) e corpora ‘corpos’ (pl)), corpus é linguisticamente entendido como um “corpo” de linguagem, ou mais especificamente, uma coleção (normalmente) muito grande de linguagem natural, armazenada como arquivos de computador. Como se pode notar, a noção envolve naturalmente o material linguístico e o aspeto tecnológico do seu processamento e conservação. Mas são os dados que

propostas de pesquisa, para uma revisão interna. Freitas (2010:32) remete para as orientações da BAAL (British Association for Applied Linguistics), no caso daquelas instituções que não tenham regulação para as pesquisas linguísticas (https://baal.org.uk/ [16/03/2018]). Também vale referir, aqui, a “Comissão de Ética para Investigação” (CEI) da FLUL (cf. http://www.letras.ulisboa.pt/pt/investigacao/comissao-de- etica-para-a-investigacao; acesso: 27.04.2012).

100

constituem a substância básica de um corpus linguístico (Tagliamonte 2006:51).

Em princípio, um corpus é parte do projeto de investigação e a sua construção deve obedecer a um plano previamente definido, para melhor servir os interesses do estudo88_.

A natureza e as características desse material dependem muito dos objetivos e da dimensão da pesquisa; ou seja, o pesquisador define inicialmente o tipo de dados com que quer trabalhar, ou orais ou escritos, como recolhê-los e processá-los. Em suma, pode obter-se um corpus de tamanho reduzido ou de grandes dimensões, de referência ou especializado (Baker 2010:12), cuja relevância é determinada, sobretudo, pela sua utilidade no estudo das línguas89_{. Por isso, Bacelar do Nascimento (2002:2) defende que}

“um corpus se define não só por factores tão importantes como a sua dimensão, constituição, diversificação, estrutura e dinâmica de atualização, mas também, decididamente, pela variedade de utilizações que proporciona”. Atualmente, reconhece- se o papel relevante dos corpora linguísticos na interpretação e explicação de diferentes fenómenos linguísticos, sendo cada vez mais alargada a aplicação desses recursos, em diferentes áreas de estudo. De facto, considera-se “de uma forma abrangente, que os corpora proporcionam novas maneiras de estudar as línguas, das quais resultam descrições, generalizações e hipóteses teóricas de grande consistência porque fortemente enraizadas nos dados empíricos” (Bacelar Nascimento 2002:1), à semelhança do que já realçámos acima, sobre o “estudo do vernáculo”, em abordagens sociolinguísticas (2.1).

Na investigação sociolinguística, em particular, os corpora ocupam um espaço privilegiado, já que toda a abordagem sobre os factos linguísticos na sociedade assenta na análise de dados recolhidos num determinado contexto social e tratados com métodos próprios. Reiteramos, baseiando-nos em Milroy e Gordon (2003:2), que o uso de um corpus, em qualquer estudo sociolinguístico, constitui uma das preocupações metodológicas importantes da qual todos os investigadores devem ter consciência.

Passando à constituição do Corpus POL: o material empírico que suporta a análise dos empréstimos linguísticos resultantes do contacto linguístico, uma das formas de enriquecimento e inovação lexical da língua de acolhimento, caracteriza-se como um

88_{Ver Tagliamonte (2006:50), sobre os componentes de um corpus e a sua construção.}

89_{Sobre as noções de corpora de referência e corpora especializados, considere-se a abordagem de Baker} (2010:12-16). Hoje em dia existem grandes bases de dados linguísticos, quer orais quer escritos. Para o caso particular do PE, destaca-se o trabalho do CLUL, na elaboração desse tipo de material (cf. a lista de recursos desta instituição, em http://www.clul.ulisboa.pt/en/resources-en; acesso: 20/04/2017).

101

corpus oral e especializado, pelo seu tamanho e por privilegiar um assunto específico. Como referido em 2.3.4.1, trata-se de um corpus que resulta das 36 entrevistas informais a 36 informantes, gravadas em Luanda, em 2012 e 2013, com a duração total de 25 horas, 25 minutos e 15 segundos, no âmbito da investigação de Doutoramento em Linguística na FLUL. Os informantes foram selecionados de acordo com os princípios metodológicos da Sociolinguística (2.3.4.3). Este material acompanha a nossa tese, em versão digital.

O corpus reunido permitiu-nos:

• Identificar um número considerável de empréstimos lexicais, produzidos em contextos discursivos, os mais naturais possíveis.

• Extrair dados necessários à compreensão dos processos de integração morfológica e fonológica desse tipo de palavras na subvariedade em estudo.

• Interpretar ou aferir o grau de integração das referidas unidades lexicais na LA, com realce para a mudança de classe lexical e de significado.

• Explicar os fatores externos implicados na adoção de empréstimos no POL, partindo do aspeto básico da copresença de línguas diferentes na mesma comunidade.

A opção por trabalhar sobre um corpus oral justifica-se pela relevância que os dados da oralidade têm no estudo dos factos linguísticos, em geral: “contrariamente à escrita, ela [a fala] não se vislumbra tão prescritiva e possibilita um maior leque de variações, o que não significa que não haja limites para estas mesmas variações” (Ribeiro 2012:38; apud Adriano 2014b:147-148). Por outro lado, o discurso oral é caracterizado por marcas específicas que o diferenciam do discurso escrito, mais controlado, o que permite uma maior possibilidade de observar a variação e a mudança linguística que, como é sabido, ocorrem primeiro na oralidade. Esta constatação parece encaixar-se perfeitamente naquilo que acontece com os empréstimos lexicais, sobretudo no primeiro momento da sua ocorrência na comunidade. Os empréstimos são condicionados por fatores sociais e muitos deles são específicos a usos informais ou do uso comum numa determinada comunidade de fala, como é o nosso caso. Assim, a utilização de dados do discurso oral propicia a obtenção do vernáculo da comunidade em estudo.

Fazendo notar que já existem estudos da variedade do PA com base em corpora, estes são escassos (ver, p.e., Adriano 2014a, 2014b; Chavagne 2005; Inverno 2005, 2008, 2009a, 2009b, quase todos dissertações de mestrado e teses de doutoramento), sendo urgente a construção de corpora linguísticos mais vastos, quer de referência quer

102

especializados, uma tarefa para a qual pensamos contribuir com o nosso corpus e para a qual gostaríamos de contribuir mais, no futuro.

2.3.5.1. Transcrição do Corpus

A transcrição do corpus é o processo de representação de um texto oral sob forma escrita, incluindo a transposição, o mais fiel possível, das marcas da oralidade no texto escrito.

Desde as primeiras formas de transcrição, feitas manualmente no local, passou-se para a transcrição com meios tecnológicos, cada vez mais avançados, que concorrem para resultados melhores e racionalização de recursos90_{. No entanto, seja qual for o mecanismo}

adotado, a transcrição revela-se como tarefa bastante complexa, árdua, exigente, longa e onerosa; envolve muito esforço, tempo e dedicação, conforme reconhecido por muitos autores, daí que se requeira a adoção de certas estratégias para atenuar as dificuldades (Vaux e Cooper 2003:27; Tagliamonte 2006:53-54; Bowern 2008:39; Baker 2010:103; Freitas 2010:37-38).

Quanto ao tempo requerido para a tarefa, dependerá muito do tipo de transcrição adotado. Por exemplo, as transcrições sobre questões fonético-fonológicas são mais demoradas do que as referentes à sintaxe ou ao léxico, sobretudo quando se pretende representar todos os aspetos de variação nesse domínio. Contudo, mesmo em termos gerais, a tarefa requer muito tempo e certa paciência (Ribeiro 2012:46; apud Adriano 2014b:149). Para ultrapassar ou reduzir dificuldades, recomenda-se que se opte por uma transcrição seletiva, que envolva escolhas, tendo em conta o interesse do trabalho (Ochs 1979:44; Milroy e Gordon 2003:144).

Para o nosso caso, optámos por uma transcrição que consistiu na simples transposição do material oral para a escrita, privilegiando a ortografia canónica. Para o

90_{Ver, por exemplo, Bacelar do Nascimento (2002:1), Baker (2010:103) e Freitas (2010:34). Atualmente,} os linguistas (transcritores) dispõem de diversos sistemas ou programas eletrónicos que facilitam a manipulação dos dados, desde a transcrição, anotação/codificação até à análise dos mesmos. Algumas dessas ferramentas são: CHAT – Codes for the Human Analysis of Transcripts e CLAN – Computerized

Language Analysis, ligados a CHILDES – Child Language Data Exchange System (cf. Bijeikienė e

Tamošiūnaitė 2013:73; Antunes et al. 2016:48); o GoldVarb – programa de análise de dados da variação linguística (cf. Tagliamonte 2006:127-128, 159ss.); o Software EXMARaLDA –

Extensible Markup Language for Discourse Annotation (cf. Antunes et al. 2016:48); o TEI – Text Encoding Initiative (cf. Baker 2010:15; Antunes et al. 2016:46); e o Transcriber – programa de transcrição,

103

efeito, adotámos algumas convenções, usadas em transcrições de corpora orais, aplicadas em muitos trabalhos sobre o português (ver, por exemplo, Adriano 2014b:156; Antunes et al. 2016:48; Cardoso 2012:56; Ramilo e Freitas 2010:69-71). Os aspetos convencionais relevantes da nossa transcrição refletem-se num documento orientador, o “protocolo de transcrição” (cf. novamente, o Anexo 3), assim definido em Tagliamonte (2006:55):

The transcription protocol is a reference document of transcription practice. It is a permanent record that ensures consistent representation of words, phrases, features of natural discourse, and particular features to the data within and across all the transcriptions in a corpus.

O nosso protocolo de transcrição apresenta as diferentes convenções (com símbolos específicos), que ajudam na representação gráfica de determinados aspetos da oralidade (como, por exemplo, contrações, pausas, hesitações, palavras incompletas, etc.), informações extralinguísticas (p.e., risos, tosse). Conforme realçado por Ramilo e Freitas (2010:67-69), a representação de muitas dessas marcas da oralidade na escrita é problemática, por não existir correspondência direta entre os dois tipos de discurso91_.

Definidas as convenções de transcrição e salvaguardados todos os critérios inerentes ao processo, passámos para a digitalização e gravação do corpus no computador. Esta tarefa envolveu a transcrição manual e o arquivamento dos ficheiros criados no sistema informático disponível. A transcrição foi executada usando o sistema de processamento de textos Word e os ficheiros, gravados numa pasta criada para o efeito92_.

Cada ficheiro de transcrição foi codificado com as informações metalinguísticas (metadados) sobre os informantes que constam do cabeçalho do texto da transcrição e arquivado numa paste específica (ver Tabela 5, na secção seguinte)93_.

91_{Sobre os diferentes sistemas de transcrição, ver Vaux e Cooper (2003:28-29) e Freitas (2010:18). Para} uma compreensão aprofundada dos diferentes aspetos a considerar num “protocolo de transcrição”, ver também Tagliamonte (2006:55-60) e Bijeikienė e Tamošiūnaitė (2013:109-110).

92_{Segundo Bijeikienė e Tamošiūnaitė (2013:111), a transcrição pode ser feita utilizando qualquer um dos} processadores de texto, por exemplo, MS Word, Notepad, Pages, etc. Os ficheiros de texto mais tarde podem ser alimentados em programas de software. No entanto, existe software especializado para transcrições, permitindo ao pesquisador combinar arquivos textuais com áudio e gravações de vídeo. 93_{Sobre os critérios de codificação dos ficheiros transcritos e os elementos constituintes de uma base de} dados, ver as autoras citadas na nota anterior e Tagliamonte (2006:51-52).

104

2.3.6. Primeira fase de trabalho sobre o Corpus: a identificação dos empréstimos

No documento Integração morfológica e fonológica de empréstimos lexicais bantos no português oral de Luanda (páginas 121-126)