• Nenhum resultado encontrado

2 METODOLOGIA

2.1 Metodologia de Coleta de Dados

2.1.1 Compilação dos corpora

A compilação dos corpora comparáveis desta pesquisa resultou da coleta de textos autênticos e originais da medicina (subárea triagem neonatal para anemia falciforme) provenientes do Núcleo de Ações em Pesquisa em Apoio Diagnóstico da Faculdade de Medicina da Universidade Federal de Minas Gerais (NUPAD/FM/UFMG).

Esse Núcleo conta com uma biblioteca virtual gerenciada por meio do programa Personal Home Library (PHL)14. Toda a produção acadêmica e técnico-científica gerada e recebida pelo Núcleo é cadastrada nesse programa por uma bibliotecária, utilizando-se palavras-chaves da área da saúde, conforme consta nos Descritores em Ciências da Saúde (DeCS), criados pelo Centro Latino-Americano e do Caribe de Informação em Ciências da Saúde (Scielo), para servir como uma linguagem única na indexação de produções acadêmicas e técnico- científicas. Para a obtenção dos textos, foi realizada uma pesquisa nessa biblioteca, utilizando-se a ferramenta de busca do PHL e inserindo-se os descritores “anemia falciforme” / “doença falciforme” para os textos em português e “sickle cell disease” / “sickle cell

anemia/anaemia” para os textos em inglês, para o período de 2010 a 2012, com o objetivo de

restringir o número de documentos a serem encontrados. As siglas DF (doença falciforme) ou SCD (sickle cell disease) não foram utilizadas nas buscas pelos textos.

Todos os textos selecionados estavam em formato .pdf (portable document format) e precisaram ser convertidos na íntegra para o formato .docx, arquivo do programa Microsoft Word (a partir da versão 2007), para que os corpora pudessem ser organizados cada qual em um corpus específico de acordo com o tipo de texto ou rótulo a eles atribuído, denominado nesta análise de “registro”, e língua. Nesse sentido, investiga-se se dados empíricos provenientes dos corpora facilitam o processo de busca por padrões de uso linguístico nesses textos, com o seguinte objetivo:

 Extrair palavras e combinações de palavras no intuito de identificar padrões de uso linguístico específicos para cada tipo de corpus.

14 Para mais informações sobre o PHL, cf.: <http://glima.eci.ufmg.br/guiaprograma/pages/biblioteca/

Para a seleção da amostra para o estudo, adotou-se a metodologia descrita em Biber (1990), retomada por Neumann (2005). De acordo com Biber (1990 apud NUNES, 2010, p. 60), o termo amostra é entendido como “a escolha (aleatória ou não) de um subconjunto de elementos pertencentes a uma população”. Biber (1990) propõe que cada texto dos diferentes

corpora seja identificado por um cabeçalho (header) que contenha informações como:

classificação do tipo de texto, autoria, título, local e ano de publicação, editora, edição, número de páginas, status do texto (original ou tradução) e tipo de amostra (parcial ou integral).

A amostra foi selecionada aleatoriamente, aplicando-se a fórmula “randbetween” do programa Microsoft Excel©. Essa fórmula permite que seja escolhida uma página aleatória dentro de um intervalo entre o número da primeira página e o número da última página de cada um dos registros, não se considerando a capa, contracapa e páginas contendo informações sobre as referências.

Após a seleção aleatória do número da página, foram contadas aproximadamente três mil palavras correntes de cada um dos três tipos de texto, certificando-se de que foram selecionados parágrafos completos (cf. NUNES, 2010). Assim, os textos selecionados foram copiados e colados em um novo arquivo .docx. Esse novo arquivo foi salvo ainda em formato .docx e passou a ser considerado o corpus da pesquisa.

Com esse procedimento, os textos analisados não foram selecionados na íntegra. A escolha do número de tokens inclusos em cada corpus foi planejada inicialmente com a finalidade de contemplar cerca de 1.000 palavras para cada um dos tipos de texto. Esse número de tokens foi o mesmo proposto no estudo de Biber (1990), que tece algumas considerações sobre tendências de repetição de alguns padrões representativos em um mesmo tipo textual, após analisar dez textos do mesmo tipo de texto com trechos de pelo menos 1.000 tokens. Como o propósito desta pesquisa é identificar padrões de uso linguístico mais frequentes, optou-se por compilar os corpora mais extensos de forma a contemplar 3.000 para cada um dos três tipos de textos (artigos acadêmicos; manuais técnicos; e cartilhas e folders de divulgação) e para cada uma das línguas (português e inglês). Cumpre relembrar que para tal compilação foram selecionados textos aos quais se atribui esses rótulos nos respectivos contextos pelas respectivas comunidades de usuários. Esses corpora foram compilados conforme mostra o QUADRO 5 a seguir.

QUADRO 5. Compilação dos corpora comparáveis bilíngue por tipo de texto conforme processos sociossemióticos Processo socios-

semiótico Rótulo Língua

Total de tokens (aproximado)

EXPLORAR

Artigos acadêmicos Português 3.000

(interação especialista – especialista) Inglês 3.000

HABILITAR Manuais técnicos Português 3.000

(interação especialista – técnico da área da saúde) Inglês 3.000

HABILITAR Cartilhas e folders de divulgação Português 3.000

(interação especialista – leigo) Inglês 3.000

Em seguida, os textos que compuseram os corpora foram copiados e colados no Bloco de Notas, devidamente salvos em formato .txt e, posteriormente, tratados de forma rigorosa para que pudessem ser lidos pelo ambiente de programação R, por meio de scripts. A maneira de preparar os corpora e o desenvolvimento desses scripts são abordados mais detidamente na Seção 2.2, a seguir.

A FIG. 17 ilustra o cabeçalho (header) de um dos textos comparáveis utilizados. Vale ressaltar que cada um dos seis textos analisados durante o desenvolvimento deste estudo foi identificado por um cabeçalho como este.

<KIKUCHI, Berenice. São Paulo: OPAS/OMS, 2012. Trecho do livro: Anemia Falciforme

manual para trabalhadores de saúde e educação nas Américas, p. 53-61. Original. Manual técnico. Parcial. Português brasileiro. Brasil.>

FIGURA 17. Exemplo de cabeçalho de um dos textos comparáveis para o tipo de texto manual técnico

Por fim, para a análise com o aporte da Linguística Sistêmico-Funcional a partir da aplicação dos perfis metafuncionais, foi selecionado um texto do tipo EXPLORAR e dois textos do tipo HABILITAR, com a finalidade de fazer uma diferenciação entre os registros da área da medicina, subárea triagem neonatal para anemia falciforme.