• Nenhum resultado encontrado

Estágio 2 – Limpeza dos textos com o uso de funcionalidades do Microsoft Word e

3.3 O CoCLI

3.3.3 Os projetos de construção do CoCLI

3.3.3.1 Parte comum entre os métodos 1 e 2

3.3.3.1.2 Estágio 2 – Limpeza dos textos com o uso de funcionalidades do Microsoft Word e

O Estágio 2 consistiu na realização de parte da limpeza dos textos, em formato DOC, por meio de funções do programa MW136, desenvolvido pela Microsoft, e do uso de scripts em VBA. Nessa etapa, tratamos os textos provenientes da conversão realizada no Estágio 1 (convertidos do formato PDF para DOC) e os textos cujo formato original era o DOC. É válido ressaltarmos que as formatações presentes nos textos no formato PDF são mantidas pelo Acrobat XI durante a conversão dos textos para o formato DOC. A manutenção das formatações possibilitou a realização de procedimentos de limpeza no MW durante o Estágio 2.

O MW é um aplicativo137 de processamento de textos (word-processing application) projetado para a criação e edição de documentos de texto. O formato de

136 Utilizamos a versão desktop do Word 2016, obtida gratuitamente no pacote Office 365 Education para alunos e professores de instituições acadêmicas, no endereço eletrônico https://products.office.com/pt- br/student/office-in-education.

137 Aplicativos são tipos específicos de programas que realizam determinadas tarefas como, por exemplo, o processamento de textos.

arquivo padrão do MW é o DOC ou DOCX e as extensões padrão associadas aos documentos criados no programa são .doc ou .docx.

O MW possui um conjunto de funcionalidades que possibilitam a manipulação de textos. Podemos usar a ferramenta para editar, arranjar e aplicar formatações ou, ainda, para configurar os documentos de textos, definindo o tamanho, as margens, o cabeçalho e rodapé de uma página. Além da manipulação textual, o MW oferece funcionalidades para a localização de partes do texto.

O comando Localizar e Substituir (doravante LS) do MW nos permite localizar partes de um texto e substituí-las por outros conteúdos. Podemos classificar as formas de Localizar em dois tipos: com base em conteúdos e com base em formatações. Ao primeiro tipo, atribuímos o nome Localização por Conteúdo (LpC) e, ao segundo, o nome Localização por Formato (LpF).

O LS pode ser acionado, na interface do MW, ao clicarmos na opção “Localização Avançada” da seção “Edição”, presente na guia “Página Inicial”, conforme a Figura 27, ou por meio do atalho de teclado Ctrl+U138.

138 Atalhos de teclado (keyboard shortcuts) permitem o acionamento de funcionalidades de programas por meio de combinações de teclas. O atalho Ctrl+U refere-se ao acionamento da tecla Ctrl em conjunto com a tecla U.

Figura 27 – Acionamento da LS na interface do MW

Fonte: o autor.

Ao acionarmos o comando LS, o MW exibe a caixa de diálogo139 “Localizar e substituir”, ilustrada na Figura 28, com a guia “Substituir” ativada. Para realizarmos a substituição de um conteúdo textual por outro, devemos digitar o conteúdo a ser substituído na caixa de texto140 “Localizar:”, o conteúdo que irá substituí-lo na caixa de texto “Substituir por:” e, em seguida, pressionarmos o botão “Substituir” caso queiramos que a substituição seja feita somente no primeiro elemento correspondente ao conteúdo da caixa de texto “Localizar:”, ou o botão141 “Substituir Tudo” caso desejemos que todas as ocorrências correspondentes ao conteúdo da caixa de texto “Localizar:” sejam substituídas.

Figura 28 – Caixa de diálogo “Localizar e substituir”

Fonte: o autor.

139 Caixas de diálogo são elementos de interface dos programas que apresentam controles para a interação com o usuário.

140 Caixas de texto são elementos de interface dos programas nas quais o usuário pode inserir textos para processamento.

141 Botões são elementos de interface dos programas que podem ser acionados para a chamada de uma ação (call to action).

Ao acionarmos o botão “Mais >>” da caixa de diálogo “Localizar e substituir”, são exibidas opções adicionais para a localização de dados. Dentre as adicionais, ao clicarmos sobre o botão “Formatar”, aparecem as opções referentes à LpF. A realização da limpeza dos textos dos nossos corpora com o uso da LS ocorreu, principalmente, com o uso da LpF, que possibilitou a substituição dos elementos textuais indesejados com base nas suas formatações características que os distinguiam do restante do texto. Para a realização das exclusões, criamos um procedimento para a identificação dos padrões de formatação característicos dos elementos textuais indesejados e configuramos a LpF da forma adequada à execução da tarefa.

Para demonstrarmos o método de identificação de padrões de formatação utilizado na nossa pesquisa, descrevemos, por exemplo, o procedimento realizado no texto Basics about Cloud Computing, que aparece na Figura 29 em seu estado original (no formato PDF). Na demonstração, contemplamos apenas os elementos da primeira página do texto.

Figura 29 – Primeira página do texto de exemplo Basics about Cloud Computing no formato original PDF

Fonte: o autor.

Por questões didáticas, optamos por explicar o procedimento de remoção de elemento com LpF em duas etapas. A primeira envolve a identificação do padrão de formatação do elemento a ser removido. Considerando que o texto de exemplo apresentava-se no formato PDF, inicialmente realizamos a sua conversão para formato DOC, depois, abrimos o texto no MW.

Figura 30 – Primeira página do texto de exemplo Basics about Cloud Computing após conversão para o formato DOC

Fonte: o autor.

A Figura 30 nos mostra que a formatação original do texto não foi perdida após a sua conversão. Por isso, ao selecionarmos os elementos, fomos capazes de verificar, na guia “Página Inicial” do MW, quais as formatações que eles apresentavam. O Quadro 11 exibe, na coluna “Formatações”, os recortes da seção “Fonte”, da guia “Página Inicial” do MW, com as formatações de cada um dos elementos identificados na coluna “Elemento”.

Quadro 11 – Elementos e descrição das formatações do texto Basics about Cloud Computing

Elemento Formatações

Elemento 1 – Cabeçalho: Por ser uma imagem, não aplicamos a verificação de formatações.

Elemento 2 – Título do texto:

Elemento 3 – Autoria e data:

Elemento 4 – Primeiro parágrafo:

Elemento 5 – Segundo parágrafo:

Elemento 6 – Terceiro parágrafo:

Elemento 8 – Informações editoriais:

Fonte: o autor.

Ao analisarmos os elementos e fontes do Quadro 11, chegamos à conclusão de que: a) o elemento 2 foi formatado com a fonte Arial, tamanho 22 e negrito;

b) o elemento 3 foi formatado com a fonte Arial, tamanho 10 e itálico; c) o elemento 4 foi formatado com a fonte Arial e tamanho 11;

d) os elementos 5 e 6 foram formatados com a fonte Times New Roman e tamanho 10, 5;

e) os elementos 7 e 8 foram formatados com a fonte Arial e tamanho 8.

A segunda etapa alude à retirada de elementos indesejados por meio da LS e da LpF. A identificação dos padrões de formatação dos elementos do texto de exemplo nos permitiu usar o comando LS com base na LpF para a remoção dos elementos que não queríamos no texto. Para demonstrarmos esse procedimento de limpeza, tomamos como exemplo a eliminação dos elementos 7 (Notas de rodapé) e 8 (Informações editoriais) do texto Basics about Cloud Computing. A seguir, descrevemos os caminhos que percorremos:

1) Acionamos a caixa de diálogo “Localizar e substituir” por meio do comando Ctrl+U e, em seguida, clicamos na opção “Mais >>” para termos acesso à opção “Formatar”;

2) Acionamos a opção “Formatar” e, dentre as opções exibidas, selecionamos “Fonte…”. O MW exibiu a caixa de diálogo “Localizar fonte” de acordo com a Figura 31;

Figura 31 – Caixa de diálogo “Localizar fonte”

Fonte: MW.

3) Na guia “Fonte”, selecionamos as formatações correspondentes ao padrão dos elementos que identificamos anteriormente, ou seja, no campo “Fonte”, colocamos Arial e, no campo “Tamanho”, escolhemos 8. Em seguida, clicamos no botão “OK”;

4) O MW exibiu a caixa de diálogo “Localizar e substituir”, com a indicação, no campo “Localizar”, dos formatos selecionados no passo anterior, conforme a Figura 32:

Figura 32 – Caixa de diálogo “Localizar e substituir” com indicação dos formatos selecionados

Fonte: MW.

5) Deixamos o campo “Substituir por” vazio e clicamos no botão “Substituir Tudo”.

Ao efetuarmos o procedimento 5, solicitamos ao MW a substituição de todos os conteúdos do texto que possuíam a fonte Arial e o tamanho 8 por nada. Em outras palavras, fizemos com que o aplicativo removesse todas as notas de rodapé e informações editoriais do texto. O método de remoção de elementos apresentado pode ser aplicado a outros elementos do texto desde que eles apresentem formatações características que permitam contrastá-los dos demais elementos do texto. A utilização do método citado é eficaz, mas exige do pesquisador o cuidado de certificar-se de que elementos que devam ser mantidos no texto não possuam as mesmas características de formatação de elementos indesejáveis.

O MW faz também a localização e substituição de conteúdos por meio de scripts em VBA, que é a linguagem de programação utilizada no MW para a criação de macros que podem ser editadas no Visual Basic Editor, uma ferramenta de edição de scripts em VBA incorporada ao MW. A Figura 33 exibe a interface do Visual Basic Editor, que pode ser aberta pelo usuário do MW pelo acionamento da sequência de teclas Alt+F11 no Windows.

Figura 33 – Interface do Visual Basic Editor

As Figuras 34 e 35 apresentam exemplos142 de scripts em VBA que utilizamos para a limpeza dos textos do CoCLI. A Figura 34 apresenta um script simples para a remoção de cabeçalhos e rodapés de documentos do MW e a Figura 35 exibe um script para a retirada de todas as tabelas de um documento do MW.

Figura 34 – Script de remoção de cabeçalhos e rodapés de documentos do MW

Fonte: Beyond VBA Tutorial143.

Figura 35 – Script de remoção de tabelas de um documento do MW

Fonte: o autor.

142 Os exemplos apenas demonstram o uso do VBA e não trazem explicações sobre a linguagem de programação ou esclarecimentos sobre os seus códigos. A compreensão do VBA exige um estudo aprofundado da linguagem e foge do escopo da nossa pesquisa.

143 Disponível em: http://vba.relief.jp/word-macro-delete-all-headers-and-footers-active-document/. Acesso em: 20 fev. 2019.

3.3.3.1.3 Estágio 3 – Conversão dos textos para o formato TXT e realização de limpeza e