• Nenhum resultado encontrado

2 LINGUÍSTICA DE CORPUS

2.4 COMPILAÇÃO DE CORPORA FALADOS

Hoje, o número de corpora disponíveis para pesquisadores está crescendo rapidamente a cada ano. Por isso, como foi dito por Reppen (2010, p. 31), ―antes de abortar a tarefa de construir um corpus, verifique se não há um corpus já existente, atendendo às suas necessidades‖. No entanto, ao longo de tais verificações, observamos facilmente que entre os inúmeros corpora escritos, compilados por mais de bilhões de palavras, os corpora falados, por sua vez, tendem a ser muito menores em tamanho e, consequentemente, incapazes de oferecer o mesmo nível de representatividade quando comparados com os escritos correspondentes (ADOLPHS & KNIGHT, 2010).

A razão para este pequeno número é óbvia, pois além da complexidade da transcrição,

57 Corpus Multilíngue para Ensino e Tradução

– http://www.fflch.usp.br/dlm/comet/

58 Corpus Técnico-Científico.

59 Corpus Multilíngue de Aprendizes. 60 Corpus de Tradução.

os pesquisadores precisam prestar atenção ainda a elementos especiais, tais como o gesto, a entonação e estrutura do discurso falado, que não são tão facilmente explorados. Contudo, ―os corpora falados fornecem um recurso único para a exploração de ocorrência natural de discurso‖ (ADOLPHS & KNIGHT, 2010, p. 38) e tornam-se muito interessantes para estudos linguísticos.

Conforme O´Keeffe, McCarthy e Carter (2007, p. 5-7), há cinco critérios para a criação de um corpus falado. Eles são: (1) crie um plano de coleta; (2) grave os dados; (3) transcreva as gravações e salve-as como arquivos de texto; (4) crie um banco de dados de texto; (5) verifique a transcrição. O passo anterior sempre determina aquele que vem depois. Nesse sentido, o critério mais importante seria a primeira etapa de planejamento.

 O plano de coleta:

Sinclair (2005, p. 1-16) propõe dez princípios para a construção de um corpus: 1) O conteúdo de um corpus deve ser selecionado sem levar em conta a língua que ele

contém, mas sim sua função comunicativa na comunidade em que está inserido;

2) Elaboradores de Corpus devem tornar o seu corpus o mais representativo possível da língua escolhida;

3) Somente os componentes de corpora, que tenham sido projetados para ser independentemente contrastivos, devem ser contrastados;

4) Os critérios para determinar a composição de um corpus devem ser pequenos em número, claramente separados um dos outros, e eficientes como um grupo em delinear um corpus que seja representativo da língua ou da variedade em exame;

5) Qualquer informação sobre um texto, que não seja a sequência alfanumérica de suas palavras e pontuação, deve ser armazenada separadamente do texto limpo e combinada, quando for exigida nas aplicações;

6) As amostras de língua para um corpus devem, sempre que possível, consistir em documentos inteiros ou transcrições de eventos de fala completos, ou devem ficar o mais próximo possível do seu objetivo. Isso significa que as amostras diferirão substancialmente de acordo com seu tamanho;

7) O planejamento e a composição de um corpus devem ser completamente documentados, com informações sobre os conteúdos e os argumentos para justificar as decisões tomadas;

8) O elaborador do corpus deve ter como objetivo a manutenção da representatividade e o equilíbrio desta. Enquanto esses objetivos não estiverem precisamente definidos e viáveis, eles devem ser utilizados para orientar o planejamento da compilação de um corpus e a seleção dos seus componentes;

9) Qualquer controle do assunto em um corpus deve ser imposto pelo uso de critérios externos e não internos;

10) Um corpus deve objetivar a homogeneidade de seus componentes, mantendo a cobertura adequada e evitando os textos desonestos.

Os princípios sugeridos pelo autor representam um plano ideal de coleta de dados. Podemos somente nos empenhar para atingir o máximo possível essas diretrizes, mas nunca haverá um corpus com maior representatividade ou sendo totalmente homogêneo. Aliás, há uma série de questões que dizem respeito à construção de corpora falados; por exemplo, a escolha de local e de horário deve ser combinada conforme a conveniência dos informantes para garantir a qualidade da gravação. É importante também levar em conta que antes de fazer a gravação, é preciso pedir autorização e assinatura do formulário de consentimento, no qual as informações de como a gravação será publicada e com quem os informantes podem entrar em contato, no caso de dúvidas, devem ser esclarecidas. No Brasil, tais documentos precisam ser avaliados, junto com o projeto de pesquisa e os roteiros de pergunta (no caso de entrevistas) por comissão de ética, antes da realização da pesquisa.

 Gravação

No processo de gravação, o pesquisador tem que estar bastante atento para garantir a fluição de conversa, conseguir capturar as informações necessárias e anotar o ambiente contextual do discurso. Em uma conversa informal de uma hora, de acordo com O´Keeffe, McCarthy e Carter (2007), apresentam-se aproximadamente 12,000 a 15,000 palavras. O modo de gravar precisa também ser levado em consideração. Hoje, quase não se usam mais as fitas cassetes por serem difíceis de armazenar e alinhar. O áudio-gravador digital é o mais escolhido, mas já existe a tendência de utilização de gravadores audiovisuais.

 Transcrição:

Após a gravação, os dados devem ser transcritos manualmente e registrados no computador. Segundo Reppen (2010, p. 34), cada hora do discurso gravado pode demorar de 10 até 15 horas para transcrever. Sugerimos que esta fase seja realizada logo depois da gravação, para que o pesquisador consiga lembrar mais informações possíveis, tanto linguísticas, quanto extralinguísticas sobre o evento de fala.

Na maioria dos casos, cada palavra, hesitação, truncamento, entonação enfática, superposição de vozes etc., serão transcritos mas cada corpus possui suas necessidades específicas, dependendo do objeto e objetivo de investigação. Por exemplo, para uma análise morfossintática, não é necessário se preocupar muito com os detalhes prosódicos. Abaixo estão a tabela das normas e um recorte de exemplo de transcrição do corpus LCIE61, apresentados por O´Keeffe, McCarthy & Carter (2007, p. 6-7).

Sinais Ocorrências

<$1>, <$2>, etc. Marcações de diferentes falantes;

+ Interrupções marcadas a partir de onde elas ocorrem e até onde elas terminam (latched turns);

= Palavras não terminadas ou truncadas; <?> Incompreensão de palavras ou segmentos; <$E> laugh <\$E> Informações extralinguísticas como ‗riso‘,

‗som de alguém saindo de sala‘, ‗tosse‘, ‗latido de cachorro‘ etc..

Tabela 2 - Normas de Transcrição de LCIE

<$1> So what's the problem?

<$2> We needed to replace the print head. <$1> Oh right.

<$2> So that's the problem. <$E> noise of printer in background <\$E> <$3> <$E> shouting from another room <\$E> Hello.

<$2> <$E> looking at printer manual <\$E> Changing the ink cartridge <?> <$3> <$E> from the other room <\$E> Change the+

<$1> Changing the ink cartridge yeah. What does it say abou= <$2> Open the printer cover.

<$1> All right.

Figura 1 - Recorte da Transcrição do ICIE

Esse tipo de transcrição é mais encontrado nos corpora falados. A representação linear dos turnos permite uma visão clara da estrutura conversacional, facilitando ao pesquisador fazer as anotações e etiquetagens. Além disso, essa forma de texto salvado possibilita a rápida reconstrução de arquivo para adaptar ao uso dos programas de estatística. No entanto, ela não é capaz de evidenciar as falas simultâneas de outras pessoas. Assim, precisamos da transcrição de coluna para demonstrar a sobreposição das vozes. Vejamos o exemplo a seguir (ADOLPH & KNIGHT, 2010, p. 46).

Figura 2 - Transcrição de coluna apresentada por Adolphs & Knight

Há outros tipos de transcrição cuja função é demonstrar a ocorrência temporal de fala, as informações contextuais, as evidências prosódicas, e assim por diante. Chamamo-las todas de transcrição textual, que se diferencia da transcrição fonêmica e fonética.

Grosso modo, a transcrição fonêmica visa representar a pronúncia e a transcrição fonética que, por sua vez, indicam como os determinados sons são produzidos em segmentos específicos do discurso. Em geral, o alfabeto fonético internacional (IPA) é mais utilizado como a norma padrão de transcrição fonética. Porém, para a realização da estatística computacional, usa-se também outra maneira de codificação. A figura 3, é a transcrição fonética do corpus VARSUL62 cujo objetivo foi estudar a fala da palatalização da fricativa em posição de coda63, através do uso de programa GoldVarb X64:

moto'riSta 'meZmu 'awtaS foy 'toduzuZ 'baxkuS 'baxkuS ki kiS'tav~aw 'fOrayS'tav~aw 'mEStri 'toduZ nu 'Eystre's~ati dwis'trES dwis'trES...mas e t~awistre's~ati '~anuS traba'L~adu baS't~ati aw'g~uS...ate j? 'EsaS 'koyzazV fayz~uS...quatro anos

Figura 3 - Exemplo de trascrição fonética para ser lançada no programa GoldVarb X

 Organização

Uma vez que os textos tenham sido transcritos, eles têm que ser armazenados de uma forma coerente, dentro de pastas simples ou hierarquizadas. As informações sobre os textos tais como a origem, a data de coleta, o sistema de transcrição e outras devem ser esclarecidas na parte do cabeçalho de cada texto. Outras informações que indicam as identificações sociais dos participantes, tais como o código do sujeito falante, a idade, o sexo, a profissão etc., podem ser registrados nos cabeçalhos também, ou em um banco de dados separado. Abaixo, está um exemplo de cabeçalho de uma entrevista:

62 Variação Linguística Urbana da Região Sul.

63 Dados obtidos através de disciplina ministrada no PPLG da PUCRS, pela Dr. Cláudia Brescancini em 2009. 64 Um programa que auxilia análises variacionsitas, verificando os fatores linguísticos e extralinguísticos. O

< data e horário de entrevista > < local > < entrevistador > < código do informante > < sexo > < idade > < grau de instrução > < profissão > < pergunta 165>

< resposta 1 > fala do informante < / resposta 1 > < pergunta 2 >

< duração da entrevista >

< nome da pessoa que transcreveu o texto >

 Verificação

Por fim, os textos devem ser revisados com sua gravação original para garantir a maior fidelidade de transcrição. Se for possível, talvez seja melhor que um outro pesquisador na área, que já conheça a pesquisa, faça a revisão para evitar que as sutilezas do problema sejam ignoradas em função de terem sido transcritas pelo próprio pesquisador.

Até agora, fizemos um breve estudo teórico de hedges e descrevemos concepções básicas sobre LC. No próximo capítulo, apresentaremos a metodologia do nosso trabalho e os corpora elaborados durante o processo da pesquisa.