• Nenhum resultado encontrado

2 REVISÃO DE LITERATURA

3.3. PROCEDIMENTOS PARA A CRIAÇÃO DOS TEMPLATES

Visto que a maioria das dissertações em ESFTBC lidam com um corpus paralelo bilíngue (inglês/português) de pequena dimensão, os

Templates aqui criados buscam responder às necessidades de compilação

e de processamento deste tipo de corpus, elaborando alternativas automáticas de: edição de textos para serem alinhados, alinhamento e correção de desalinhamento, flexibilização do modo de rotulação, geração de tabelas e gráficos para visualização e quantificação dos dados. Os procedimentos de criação dos Templates são listados nesta seção.

No caso desta tese, esses Templates são desenvolvidos nos programas do MS Word e do MS Excel. Pelo fato de o Excel não ser muito apropriado para se lidar com edição de textos, apesar de ser um bom recurso para visualizar tabelas e gráficos, a combinação com o MS Word faz-se necessária. Utiliza-se o MS Word para editar os textos tornando possível seu alinhamento em sentenças mais automático: eliminam-se pontos de abreviações e quebra-se o texto em sentenças. O MS Excel é utilizado para alinhar o corpus paralelo de pequena dimensão, rotular o corpus e quantificar os dados em tabelas e gráficos.

Operar com o corpus no MS Excel e no MS Word apresenta a vantagem de se encontrar ferramentas que permitem realizar tarefas automaticamente, tais como a ferramenta: (i) de Macros em ambos os programas, (ii) de geração de Fórmulas e Gráficos, no Excel, e (iii) de busca automática possibilitada pelo Find & Replace através de linguagem dos Wildcards, no Word. Além disso, o Excel permite, por exemplo, que: as alterações dos dados sejam recalculadas automaticamente nos gráficos; a revisão dos rótulos e elementos rotulados seja facilitada devido à organização dos dados em tabelas; o pesquisador faça anotações referentes a decisões metodológicas, dentro das próprias planilhas, durante o processo de análise, sendo mais fácil para o pesquisador resgatar as decisões metodológicas tomadas.

Tomando as consideração de Barnbrook (1996) em relação ao projeto em pesquisas em corpus, no caso de escolher lidar com esses programas durante a compilação e processamento do corpus, o pesquisador deve, antes de planejar a elaboração dos Templates, observar as características de seu corpus e identificar as necessidades que este corpus apresenta no momento de sua compilação e seu processamento, de

acordo com seus objetivos de pesquisa (ver seção 2.2 desta tese). Se for identificada a necessidade de formatar textos, aconselha-se criar um

Template no Processador de texto e se a necessidade for de lidar com

textos alinhados ou tabulados, tabelas numéricas e gráficos e/ou cálculos e geração de dados quantitativos automáticos aconselha-se criar um

Template no Aplicativo de Planilha.

Como mencionado, nesta pesquisa elaboro dois Templates: o

Template Editor no Processador de Textos MS Word, para editar os textos

que compõem o corpus a ser alinhado e o Template Corpus Paralelo, no Aplicativo de Planilha MS Excel, que organiza o alinhamento, rotulação dos elementos linguísticos/textuais e quantificação e visualização dos dados em tabelas e gráficos. Os passos a se seguir no planejamento e construção do Template Editor, são:

(i) Digitalizar uma amostra do corpus e criar um corpus-teste; (ii) Observar suas necessidades de edição e definir os elementos

textuais que demandam edição/correção. No caso desta tese são alguns erros de escaneamento mais recorrente, pontos de abreviações, quebra do texto em sentenças etc.;

(iii) Estudar os recursos de edição automática que respondem à necessidade da edição. No caso desta tese o recurso estudado foi o de Find & Replace52;

(iv) Caso observa-se a necessidade de se criar uma linguagem de programação em Macros ou WildCards53 (caso o Find & Replace seja utilizado), estudar tais linguagens;

(v) Caso verifique-se a necessidade de utilizar os Wildcards, estudar possíveis combinações de Wildcards e de substituições;

(vi) Testar tais combinações e substituições em uma amostra do corpus;

(vii) Gravar essas combinações em shortcuts através da programação de Macros.

Os passos a se seguir no planejamento e construção do Template

Corpus Paralelo, são:

(i) Definir o tipo de corpus e as necessidades de processamento deste corpus. No caso desta tese, o corpus é paralelo bilíngue (inglês/português) de pequena dimensão e precisa ser

52 http://office.microsoft.com/en-us/word-help/find-and-replace-text-and-other- data-in-your-word-2010-files-HA102350610.aspx

alinhado, ter elementos textuais e linguísticos rotulados e quantificados;

(ii) Definir os recursos de Excel que devem ser utilizados na elaboração do Template; estudar tais recursos, que podem ser:

Find & Replace, tabela (como Pivot Table e de formatação de

tabela), gráficos, filtros e de ordenação, ferramentas de dados, janelas, fórmulas e macros. No caso desta tese, estudam-se os recursos de tabela, de gráficos, de filtros e de ordenação, de fórmulas e de macros.

(iii) Se nesta fase de estudo são consultados fóruns54, deve-se

elaborar perguntas cujas respostas solucionem o problema encontrado. O elemento-chave, nesta etapa, não é descobrir exatamente a informação, mas obter das fontes disponíveis as informações que auxiliam na formulação de perguntas sobre o que se busca criar. Antes de formular perguntas vê-se necessário: (i) estudar o básico da linguagem computacional, (ii) levantar hipóteses, (iii) testá-las, (iv) observar os erros, (v) criar alternativas e então (vi) elaborar a pergunta que expressa o problema relacionado ao que se pretende realizar (ver as perguntas dos fóruns em anexo)55;

(iv) Criar as tabelas com fórmulas e macros; (v) Gerar gráficos a partir destas tabelas;

(vi) Testar em uma amostra do corpus e executar um teste; (vii) Editar o desenho das planilhas e das pastas de trabalho (Work

Sheets).

As informações sobre os recursos e ferramentas do Word e Excel podem ser encontrados online, em links relacionados ao Microsoft e manuais56 impressos e online do MS Word e Excel, tutoriais no Youtube e

fóruns sobre MS Word e Excel. Os fóruns representam um importante meio de ter perguntas específicas respondidas por especialistas das áreas mostra-se muito útil na fase de elaboração de fórmulas e programação de

54 O fórum mais acessado foi http://answers.microsoft.com/en-us ao qual o usuário tem que se registrar antes de realizar suas perguntas (ver anexo para as perguntas e respostas realizadas no fórum durante o processo de criação dos Macros).

55 O fórum foi acessado sob o nome de Victor Carreto, no anexo lê-se Lilian Fleuri onde se encontra a pergunta de “Victor Carreto”.

56 Microsoft Office Specialist Excel 2003: Study Guide Computers/Cerfitifation

guides / Wiley AutorLinda F. Johnson Edição ilustrada Editora John Wiley & Sons, Num. págs.504 páginas, Ano 2006.

Macros em VBA. Esses fóruns correspondem à consulta a um programador, mencionada por Garretson (2008), na seção 2.1.2.4.3 desta tese.

Esses são alguns possíveis procedimentos que sugiro seguir para compilar e processar corpus nos programas MS Word e MS Excel. A seguir expõe-se as etapas de elaboração do Template Editor e Template

Corpus Paralelo propostos nesta tese.

3.3.1. Template Editor

Os procedimentos de criação do Template Editor desta tese são: (3.3.1.1) criar o corpus-teste; (3.3.1.2) estudar os recursos de edição automática, como o Find & Replace e a linguagem de Wildcards; (3.3.1.3) criar os códigos de Wildcard; (3.3.1.4) realizar testes e reestruturar códigos conforme os resultados; (3.3.1.5) fixar uma sequência de substituições e gravar macros em shortcuts. A seguir cada procedimento é detalhado com mais passos e com exemplos de o que se realizou nesta tese.

3.3.1.1. Montagem de um corpus-teste

Como apontado na seção 2.2.1.2. Compilação do corpus, é praticamente impossível, com a tecnologia atual realizar um alinhamento completamente automático, sem que se tenha que passar antes por uma preparação ‘manual’ do texto pelo pesquisador, que consiste em: eliminar os pontos de abreviações, realizar a quebra do texto em sentenças e reestruturar as unidades de alinhamento, após alinhamento. Considerando esses procedimentos, nesta tese montou-se um ‘corpus-teste’ que englobasse os problemas previstos em Alves e Morinaka (2004) e que isolasse alguns problemas detectados no corpus que seria utilizado no Estudo Piloto, ou seja, o corpus utilizado na minha dissertação, Fleuri (2006). O corpus-teste é composto pelos seguintes textos e elementos a seguir:

1) Texto original: Translators Through History (doravante TTH) (Deslile e WoodsWorth, 1995), salvo no MS Word, processado no MS

Word 2010, fonte Verdana tamanho 10, parágrafo simples, 148

páginas, 104.811 palavras.

2) Texto traduzido: Os Tradutores na História (idem, tradução por