• Nenhum resultado encontrado

2 METODOLOGIA

2.1 Metodologia de Coleta de Dados

2.1.2 Coleta de dados

2.1.2.3 Anotação e etiquetamento dos corpora por meio do UAM CorpusTool

O UAM CorpusTool foi desenvolvido por O’Donnell (2008) com a finalidade de anotar tanto textos quanto imagens. Para este estudo, foram selecionados excertos dos textos que compuseram os corpora com mil palavras (Anexo 3), utilizando-se a fórmula “randbetween” do programa Microsoft Excel© para selecionar uma página aleatória dentro de um intervalo entre o número da primeira página e o número da última página de cada um dos corpora.

Após a seleção aleatória do número da página, foram contadas aproximadamente mil palavras correntes de cada um dos três tipos de texto, em inglês e português (cf. BIBER, 1990), certificando-se de que foram selecionados parágrafos completos (cf. NUNES, 2010). Assim, os textos selecionados foram copiados e colados em um novo arquivo .txt, para que pudessem ser lidos e armazenados pelo programa UAM CorpusTool, passando a ser considerados os

corpora para esta etapa de análise.

Após a inserção dos textos no programa, foi possível criar os esquemas necessários para a análise de cada um deles. Para que esses esquemas sejam gerados, é necessária intervenção manual, observando-se até qual nível da delicadeza da teoria sistêmico-funcional se pretende analisar. No caso deste estudo, os esquemas foram gerados de acordo com os sistemas de TRANSITIVIDADE (processos), MODO (Modo e função discursiva), TEMA (complexidade e seleção temática) (HALLIDAY; MATTHIESSEN, 2004) e MENSAGEM (contextualização, arranjo e focalização) (MARTIN; ROSE, 2007) de modo a contemplarem a descrição do perfil metafuncional dos textos. A seguir, cada um dos esquemas criados para anotação semiautomática dos textos foi ilustrado de acordo com os quatro sistemas, quais sejam: 1) TRANSITIVIDADE; 2) MODO e 3) TEMA e 4) MENSAGEM:

1) TRANSITIVIDADE

Conforme explicado anteriormente, a metafunção ideacional (experiencial) é realizada pela TRANSITIVIDADE por meio de processos, participantes e circunstâncias (cf. Subseção 1.3.1). Assim, por ser o processo o elemento central em uma figura, os esquemas de análise foram criados de acordo com os tipos de processos: material, relacional (atributivo e identificativo), mental, existencial, comportamental e existencial.

A FIG. 31 mostra o esquema do sistema gramatical de TRANSITIVIDADE criado no programa UAM CorpusTool.

FIGURA 31. Exemplo do Esquema do Sistema Gramatical de TRANSITIVIDADE no UAM CorpusTool

2) MODO

A metafunção interpessoal estabelece a relação entre autor e leitor e é realizada pelo sistema de MODO. Neste estudo, para ilustrar a interação especialista-especialista (artigo acadêmico), especialista-técnico da área da saúde (manuais técnicos) e especialista-leigo (cartilhas e

folders de divulgação) foram criados esquemas de análise de acordo com:

1. Funções discursivas, classificadas em: (i) tuno (turnos inicial ou respondente); (ii) papel do falante (inicial ou respondente) e (iii) mercadoria (informações de bens e serviços);

2. Modo: classificado em Indicativo Declarativo, Indicativo Interrogativo ou Imperativo.

A FIG. 32 mostra o esquema do sistema gramatical de MODO criado no programa UAM CorpusTool®:

FIGURA 32. Exemplo do Esquema do Sistema Gramatical de MODO no UAM CorpusTool

3) TEMA e MENSAGEM

A metafunção textual é a responsável por organizar as metafunções ideacional e interpessoal ao longo do texto. Para analisar essa organização, foram criados três esquemas com base nos sistemas de TEMA do inglês (HALLIDAY; MATTHIESSEN, 2004) e do português (FIGUEREDO, 2011) e, também, no sistema de MENSAGEM (MARTIN; ROSE, 2007).

O esquema com base no sistema de TEMA em inglês foi criado de acordo com:

1. Complexidade: dividida em temas simples e múltiplo, sendo o múltiplo subdividido em: (i) textual e tópico; (ii) interpessoal e tópico; ou (iii) textual, interpessoal e tópico; e

2. Seleção temática: subdivida em tema não marcado e tema marcado.

A FIG. 33 mostra o esquema do sistema gramatical de TEMA em inglês criado no programa UAM CorpusTool.

FIGURA 33. Exemplo do Esquema do Sistema Gramatical de TEMA em inglês no UAM CorpusTool

Já o sistema de TEMA em português foi criado com base na:

1. Complexidade: subdividida em temas elemental, ângulo, textual, interpessoal e tema-

default; e

2. Seleção temática: subdividida em temas default e proeminente.

A FIG. 34 ilustra o esquema do sistema gramatical de TEMA em português criado no programa UAM CorpusTool.

FIGURA 34. Exemplo do Esquema do Sistema Gramatical de TEMA em português no UAM CorpusTool

Por fim, o esquema para a análise do sistema de MENSAGEM foi criado a partir dos seguintes parâmetros:

1. Contextualização: dividida em inicial e fase. A fase se subdivide em: (i) continuidade e (ii) descontinuidade (desvio ou mudança);

2. Arranjo: subdividido em arranjo-default e arranjamento (explícito ou implícito); e 3. Focalização: focalizado (particularizado ou contraste) e não focalizado.

A FIG. 35 apresenta o esquema do sistema gramatical de MENSAGEM criado no programa UAM CorpusTool.

FIGURA 35. Exemplo do Esquema do Sistema Gramatical de TEMA em português no UAM CorpusTool

Após a criação de todos esses esquemas, iniciaram-se os procedimentos para a anotação semiautomática a partir dos corpora já inseridos no programa. Para a anotação semiautomática dos dados, foram organizados dois projetos, sendo um específico para os

textos em língua portuguesa e o outro para os textos em língua inglesa. Cada um dos projetos recebeu um título de acordo com a língua dos textos. A FIG. 36 exemplifica a tela de um dos projetos criado no UAM CorpusTool, intitulado “Project Anemia Falciforme Inglês”. Para fins de visualização, os esquemas com base nos sistemas de TRANSITIVIDADE, MODO, e TEMA e MENSAGEM estão destacados na cor vermelha; os corpora prontos para a análise estão destacados na cor azul.

FIGURA 36. Exemplo de tela de projeto do UAM CorpusTool

Em seguida, os seguimentos dos textos foram anotados de acordo com cada um dos sistemas.

A FIG. 37 mostra um exemplo de análise feita no programa UAM CorpusTool.

FIGURA 37. Exemplo de análise realizada no UAM CorpusTool por meio de esquema previamente criado

Terminadas as análises, os dados estatísticos de cada um dos tipos de textos foram extraídos de forma comparada automaticamente, como apresenta a FIG. 38.

FIGURA 38. Exemplo da extração dos dados estatísticos dos tipos de textos de forma comparada UAM CorpusTool

Para ilustrar graficamente os dados extraídos (transformá-los em tabelas, gráficos ou dendrogramas), foram atribuídas cores às funções dos sistemas, ou seja, MODO = X, cor azul; TRANSITIVIDADE = Y, cor vermelha; TEMA = Z, cor verde e MENSAGEM = W, cor lilás.

Além disso, foram atribuídos valores às categorias (1,2, 3, 4 etc.). Esses valores são correlacionados de acordo com a disposição topológica de cada categoria no sistema linguístico, conforme ilustrado na FIG. 39.

FIGURA 39. Disposição topológica das categorias

Os dados obtidos após as análises por meio dos esquemas foram organizados em quadros (cf. QUADRO 8).

QUADRO 8. Exemplo de tabela gerada a partir dos dados extraídos pelo UAM CorpusTool

Oração Modo X Transitividade Y Tema Z Mensagem W 1 1 3 1 1 2 1 2 1 2 3 2 1 2 4 4 1 1 1 2 5 1 2 1 2

A parte destacada no QUADRO 8 representa a terceira oração do texto do tipo cartilha e

folder de divulgação:25 “For more information about beta thalassaemia contact the Thalassaemia Society or one of the specialist centres”. A classificação dessa oração pode ser

descrita de acordo com os dados da FIG. 39, ou seja, Modo X = 2 (imperativo); Transitividade Y = 1 (processo material); Tema Z = 2 (simples marcado) e Mensagem W = 4 (fase descontinuidade:desvio). Para a descrição dos dados, foram criadas duas legendas que especificam cada uma das categorias de acordo com as funções do sistema que foram evidenciadas durante a análise dos corpora desta pesquisa. Essas legendas foram organizadas de acordo com os dados que foram passíveis de análise nos textos em português e nos textos em inglês:

25 Os exemplos desta seção foram selecionados de forma aleatória, apenas no intuito de ilustrar os dados

obtidos por meio do programa UAM CorpusTool. MODO indicativo declarativo interrogativo imperativo elemental polar 1 2 4 5 PROCESSO material verbal existencial relacional (atributivo) 2 relacional (identificativo) 3 6 1 5 CONTEXTUALIZAÇÃO fase FASE continuidade descontinuidade TIPO DE DESCONTINUIDADE desvio mudança inicial1 2 3 4 MENSAGEM SELEÇÃO proeminente defaul1 TEMA TEMÁTICA 2 TRANSITIVIDADE 1 3 mental 4

1) Legenda para os textos em português (legenda inserida também no Anexo 2)

Modo

1 – Modo Indicativo Declarativo - Oferta de Informação 2 – Imperativo - Demanda de Bens e Serviços

Transitividade 1 – Processo Material

2 – Processo Relacional Atributivo 3 – Processo Relacional Identificativo 4 – Processo Mental

5 – Processo Verbal 6 – Processo Existencial

Tema

1 – Tema Default - Default 2 – Ângulo: Fonte - Default 3 – Textual - Default 4 – Interpessoal - Default

Mensagem

1 – Inicial Arranjamento Explícito Não Focalizado 2 – Fase Continuidade Arranjo-Default Não Focalizado

3 – Fase Descontinuidade Mudança Arranjo Default Não Focalizado 4 – Fase Descontinuidade Desvio Arranjo Default Não Focalizado 5 – Inicial Arranjamento Implícito Não Focalizado

2) Legenda para os textos em inglês(legenda inserida também no Anexo 2)

Modo

1 – Modo Indicativo Declarativo - Oferta de Informação 2 – Imperativo - Demanda de Bens e Serviços

Transitividade 1 – Processo Material

2 – Processo Relacional Atributivo 3 – Processo Relacional Identificativo 4 – Processo Existencial

Tema

1 – Simples – Não Marcado 2 – Simples – Marcado

3 – Múltiplo – Textual e Tópico – Não Marcado 4 – Múltiplo – Textual e Tópico – Marcado

5 – Múltiplo – Interpessoal e Tópico – Não Marcado

Mensagem

1 – Inicial Arranjamento Explícito Não Focalizado 2 – Fase Continuidade Arranjo-Default Não Focalizado

3 – Fase Descontinuidade Mudança Arranjo Default Não Focalizado 4 – Fase Descontinuidade Desvio Arranjo Default Não Focalizado

Por fim, essas tabelas possibilitaram organizar os dados de cada um dos tipos de texto para que fossem transformados em gráficos tridimensionais (scatterplot 3D) e dendrogramas a partir de scripts específicos (cf. Anexo 1) no ambiente de programação R, conforme ilustrado

na FIG. 40. Para a construção dos gráficos e dendrogramas, não foram utilizados os dados do sistema de MENSAGEM, apenas os dados dos obtidos por meio da análise dos sistemas de TRANSITIVIDADE, MODO e TEMA. A Mensagem faz parte do sistema de MENSAGEM que é um sistema semântico e não gramatical. Sendo assim, não foi considerada para a criação do gráfico tridimensional e nem para a criação do dendrograma. Ela foi analisada juntamente com o sistema de TEMA por ser responsável pela estrutura do tipo de texto e permitir entender as fases de cada um dos textos.

FIGURA 40. Gráfico tridimensional e dendrograma a partir dos dados obtidos pelo programa UAM CorpusTool

O diagrama tridimensional é um gráfico que apresenta os pontos no espaço cartesiano XYZ. Esses pontos são usados para representar simultaneamente os valores de três variáveis quantitativas em cada elemento do conjunto de dados (cf. valores categóricos na FIG. 39). No caso desta pesquisa, as variáveis são os dados provenientes dos sistemas de TRANSITIVIDADE, MODO e TEMA para fins de visualização da configuração do texto no contínuo de instanciação. Já os elementos do conjunto de dados são as orações que estão tabuladas nas tabelas extraídas a partir do programa UAM CorpusTool (Anexo 2).

Para uma melhor visualização da distribuição das orações, os dados categóricos foram organizados também em dendrogramas. Os pontos ilustrados nos gráficos coincidem, neste estudo, com o número total de agrupamentos criados a partir de cada texto. No caso da FIG. 40, por exemplo, há oito pontos no espaço e cada um desses pontos está relacionado com um agrupamento do dendrograma.

O dendrograma é uma estrutura de apresentação de dados que se assemelha a uma árvore cujos ramos podem formar grupos semelhantes (agrupamentos) – ou clusters – (GRIES, 2013) de acordo com o grau de similaridade entre as variáveis. As variáveis são dadas pelos

1.0 1.2 1.4 1.6 1.8 2.0 1 2 3 4 5 1.0 1.5 2.0 2.5 3.0 Modo T ra n si ti vi d a d e T e m a 25 3 34 10 4541 3932 1 1343 48 5049 47 4638 36 3531 27 2624 23 2221 20 1918 16 1514 12 119 87 6 52 4 44 4240 37 3330 2917 28 0 1 2 3 4 hclust (*, "complete") Cartilha_Inglês D ist ân ci a

ramos da árvore, que é construída a partir de ramos individuais que se juntam de acordo com a distância Euclidiana26, de forma a agrupá-las em classes, até chegar à raiz da árvore. Toda vez que a sequência de um grupo é quebrada tem-se um indício de redução dessa similaridade. De acordo com Gries (2013, p. 338), a análise de clusters ou agrupamento aglomerativo hierárquico (hierarchical agglomerative cluster analysis) é usada para detectar padrões de semelhança entre os dados obtidos, mas não fornece resultados passíveis de interpretação, mas sim resultados exploratórios.

Para analisar o dendrograma, é necessário iniciar pela raiz e ir em direção às folhas. À medida que se move para a direita, aumentam-se as distâncias e agrupamentos cada vez maiores são formados. Esses agrupamentos apresentam as diversidades entre eles, ilustrando a divisão dos dados em grupos ou classes. Tanto os gráficos ou dendrogramas contribuíram para a caracterização dos tipos de textos analisados nesta pesquisa.

Na sequência, descrevem-se os procedimentos de análises dos dados extraídos dos corpora comparáveis desta pesquisa.