“Discurso Relatado” - Quantidade de registros no corpus

Quantidade de registros no corpus

Dimensão 6 “Discurso Relatado”

A dimensão 6 tem apenas o polo positivo com sete características linguísticas. As variáveis que carregaram no polo positivo e negativo que estão entre parênteses, tem maior peso em outros fatores e, por isso, não são consideradas como altamente marcadas para descrição das dimensões. Com base nas funções compartilhadas por esses recursos, o rótulo interpretativo para essa dimensão foi ‘Discurso Relatado’, como segue:

Quadro 9: variáveis do fator 6 (BERBER SARDINHA et al. 2014).

Pronomes pessoais raros, posição de objeto - incluem a forma arcaica de

pronomes pessoais no português do Brasil, tais quais: ‘vos’ (2ª pessoa do plural) e ‘los’ (3ª pessoa do plural). Também incluem contrações entre os pronomes e preposições, tal qual: ‘convosco’ - junção da preposição ‘com’ com o pronome ‘vos’. Esses traços são infrequentes na maioria dos registros, porém são encontrados em discursos religiosos.

Pronomes possessivos – referem-se a posse de elementos animados e

Dimensão 6 – “Discurso Relatado”

Características linguísticas ^{Peso –} Positivo

1 Pronomes: raros na posição de objeto [objprnrare] 0.628

2 Verbos: 2ª pessoa [vb2] 0.466

3 Pronomes: possessivos 0.424

4 Oração subordinada final [cjfinal] 0.413

5 (QUE: oração controlada por preposição) [clqueeprp] 0.380)

6 Pronomes: 3ª pessoa, posição objeto [prn3obl] 0.371

7 (Pronomes: relativo ‘que’) [prnque] 0.340)

8 Verbos: públicos [vbpubl] 0.327

9 Modal: haver que / haver de [mdhaver] 0.311

Características linguísticas ^Peso -Negativo

10 (Adjetivos: avaliativo) [adjeval] - 0.318)

11 (Questões: Sim ou não questões) [qsyn] - 0.330)

12 (Advérbios: amplificador) [advampl] - 0.340)

82 inanimados entre os participantes do discurso.

Verbos em 2ª pessoa – são usadas para se referir ao destinatário. Tanto os

“pronomes possessivos como os verbos na 2ª pessoa estão associados a interatividade” (BIBER, 1988).

Conjunções subordinadas finais – são subordinadores complexos (BIBER et al.,

1999) que marcam o propósito em orações dependentes, caracterizando uma finalidade ou intenção, por exemplo: ‘para que’.

Orações controladas por preposição – executam funções diferentes,

dependendo da preposição integrante da oração, normalmente marcando o discurso formal.

Pronomes 3ª pessoa na posição objeto – referem-se a seres animados e

inanimados citados no discurso.

Verbos públicos – podem funcionar como marcadores do discurso indireto e

falado (BIBER, 1988).

Modal haver – pode ser usado como um marcador formal, indicando existência de

83 Gráfico 7: registros e respectivas médias na dimensão 6

O registro mais marcado da dimensão 6 são textos religiosos, seguido por ficções e histórias. Todos esses registros contêm verbos públicos com intuito de reportar a fala. Os textos religiosos apresentam denso uso de pronomes oblíquos raros (vos, etc.) e formas verbais em 2ª pessoa (tomai, etc.), normalmente no modo imperativo. Além disso, os verbos públicos (dizendo, falando, etc.), pronomes possessivos⁶⁸ (seus, etc.) e a forma arcaica ‘vossa’ como pronome na posição de objeto, são frequentes nestes registros, aumentando os escores da

Esses traços referem-se a pronomes possessivos e não aos determinantes possessivos, conforme as gramáticas do português brasileiro (por exemplo: Bechara, 1999) e, também citado por Biber (1988). Em outras palavras, a função dos pronomes em geral é substituir os substantivos (nomes). Por outro lado, comumente os determinantes acompanham os substantivos (nomes). Como exemplo destaco: “O meu cachorro é vira-lata, o seu é de raça”. Neste caso, ‘meu’ é um determinante possessivo que acompanha o substantivo ‘cachorro’. Já o pronome possessivo ‘seu’ substitui a palavra ‘cachorro’.

-5,0 -2,0 1,0 4,0 7,0 10,0 13,0 Receitas culinárias Bulas Planos de Campanha Manual de Usuário DISCURSO POLÍTICO NOTÍCIAS DE TV Artigos Acadêmicos Editoriais Teses e Dissertações Twitter ENTREVISTA SOCIOLINGUÍSTICA Textos Preparatórios ENTREVISTA TV Exames Universitários Livros didáticos ENTREVISTA IMPRESSA Revista de Celebridade DIÁLOGO LIVROS DIDÁTICOS CANÇÕES História Quadrinhos Reportagem Jornais Piadas Ficção Geral Estórias Curtas

84 dimensão.

Após a identificação das características linguísticas, a pesquisa objetivou verificar se existem diferenças significativas entre as dimensões. Para tanto, foi realizado o teste ANOVA observando os escores de cada dimensão. O resultado apontou que existem diferenças significativas entre os registros que marcam todas as dimensões (1, 2, 3, 4, 5, e 6). Além disso, também foi aplicado o teste estatístico R2 que “mede a percentagem das variações entre as pontuações da dimensão que podem ser previstas ao se conhecer as categorias de registro⁶⁹” (BIBER, 1995). Dimensões F p df R2 1 97.037 .000 46 83.3% 2 19.926 .000 46 48.1% 3 101.521 .000 46 83.7% 4 57.961 .000 46 73.5% 5 4.561 .000 46 67.6% 6 43.525 .000 46 69.2%

Quadro 10: correlação interfatorial (BERBER SARDINHA et al., 2014)

Os valores de R2 sugerem que cinco dimensões (com exceção a Dimensão 2), podem ser consideradas como fortes preditores de diferenças de registros no português brasileiro. Portanto, o estudo de Berber Sardinha (et al., 2014) identificou 6 dimensões de variação de registros da língua portuguesa brasileira, tais quais:

Dimensão 1 – Oralidade versus Letramento; Dimensão 2 – Argumentação;

Dimensão 3 – Envolvimento versus Informação; Dimensão 4 – Discurso Instrucional;

Dimensão 5 – Orientação temporal - Futuro versus Passado Dimensão 6 – Discurso Relatado.

Texto original: “measures the percentage of the variance among dimension scores that can be predicted by knowing the register categories” (BIBER, 1995, p. 119).

85 Berber Sardinha (et al., 2014) conclui que esse estudo pode ter implicações para o ensino de língua portuguesa no Brasil ou em contexto de língua estrangeira como L2, pois as características linguísticas que marcam cada dimensão são incluídas nos currículos de ensino, mas são normalmente ensinadas do ponto de vista puramente estrutural. Um ponto relevante a destacar é que a bula de medicamentos é considerada nos currículos e mencionada nos livros didáticos como um texto instrucional. Contudo, numa análise mais aprofundada por meio das variáveis do fator 4, percebe-se que as características linguísticas diferem de receitas culinárias e manuais de instrução, ambos marcados por uso de imperativo, enquanto o registro bula é marcado por verbos no infinitivo caracterizando um registro informacional. Destaca-se que a classificação de registros do português brasileiro a partir da Análise Multidimensional prevê diferenças linguísticas para os registros com discurso informativo (dimensão 3) e discurso instrucional (dimensão 4). A classificação da bula como um texto instrucional/injuntivo, nos currículos tradicionais, pode ocorrer pela finalidade do registro em trazer instruções ou indicar procedimentos. Berber Sardinha (et al., 2014) sugere que outras pesquisas utilizando a Análise Multidimensional podem focar em outras variedades da língua portuguesa (Portugal, Angola, Macau, etc.), com intuito de verificar se existem diferenças significativas no espaço multidimensional de variação de registro nos principais dialetos do português nos vários países ou continentes do mundo.

No Capítulo Metodologia, descrevemos os passos metodológicos da Análise Multidimensional a partir da descrição da variação de registros, seguindo o estudo de Berber Sardinha (et al., 2014) ‘Dimensões de variação de registro do português brasileiro’ que faz parte das análises propostas para identificação de estilo e, por conseguinte, a identificação ou não da autoria dos textos questionados.

3. METODOLOGIA

A metodologia empregada no trabalho, conforme mencionado anteriormente, é fundamentada na Linguística de Corpus, na qual os princípios condizem com a nossa pesquisa, pois utiliza ferramentas computacionais para análise e exploração de corpora, além de proporcionar uma vasta quantidade de dados para análise. Posto desta forma, o objetivo do estudo foi utilizar a Análise Multidimensional um ramo da Linguística de Corpus, que é uma ferramenta que permite analisar os dados estatisticamente e tem “um grande potencial para nos ajudar a abordar questões relevantes que não podem ser respondidas de outra forma”⁷⁰ (PLONSKY, 2015). Ainda de acordo com o autor (p. 4), “temos que lembrar, porém, que nossas análises devem ser guiadas pelos interesses e relacionamentos substantivos em questão e não o contrário”⁷¹. Desta forma, Análise Multidimensional aditiva nos auxiliou extrair dimensões dos corpora, relacionar, além de calcular os escores das dimensões com base nas dimensões de variação do português brasileiro (BERBER SARDINHA, et al., 2014). Assim, pudemos confrontar os estilos no corpus de autoria comprovada (CAC) de quatro diferentes autores e confrontar estes estilos com corpus de autoria questionada (CAQ), com intuito de verificar se há semelhanças entre os estilos jornalistas selecionados para pesquisa e o estilo nos textos de autoria questionada. Apoiamo-nos em análises de frequência, ocorrência, coocorrência, além da Análise Discriminante.

Nosso trabalho parte do princípio de que a variação de estilos individuais pode ser explicada, pela variação linguística dos textos produzidos pelos jornalistas de autoria comprovada e pelo estilo dos textos questionados. Acreditamos que por meio da Análise Multidimensional aditiva consigamos discriminar os estilos dos autores de autoria comprovada e o (s) estilo (s) dos

Texto original: “they carry great potential to help us address substantive questions that cannot otherwise be answered” (PLONSKY, 2015, p. 4) – Tradução minha.

Texto original: “We have to remember, though, that our analyses must be guided by the substantive interests and relationships in question and not the other way around” (PLONSKY, 2015, p. 4) – Tradução minha.

87 textos questionados e compará-los.

A partir dos passos metodológicos, apresentaremos as etapas da pesquisa. Primeiramente, descreveremos os corpora compostos de textos com autoria comprovada e textos com autoria questionada. Em segundo lugar, os procedimentos de etiquetagem dos corpora. Em terceiro, o mapeamento dos dados nas dimensões de variação do português brasileiro. Em quarto lugar, descreveremos os procedimentos para Análise Multidimensional e Análise Discriminante.

3.1. Coleta dos corpora

Seguindo os passos para a Análise Multidimensional (BIBER, 1988), a primeira etapa consistiu na composição de dois corpora: o primeiro corpus com textos de autoria questionada e, o segundo corpus com textos de autoria comprovada. Para o exame e a análise de marcadores de estilo, não bastava somente a comparação entre os textos de autoria questionada e textos de Mino Carta - a quem é conferida a autoria, com a finalidade de atribuir ou excluir a autoria dos textos questionados. Precisávamos, então, estabelecer um parâmetro comparativo entre marcadores estilos incluindo textos de outros autores nas análises, a fim de estabelecer qual autor tem estilo que se aproxima do idioleto dos textos questionados e, consequentemente atribuir ou excluir a autoria destes textos. Por essa razão, foram selecionados três jornalistas, além de Mino Carta, tais quais: Justino Martins, Roberto Muggiati e Zevi Ghivelder, com experiências no jornalismo brasileiro, também responsáveis pela produção de editoriais na revista Manchete, com escrita de registros semelhantes às de Mino Carta, para que houvesse uma comparação entre o estilo dos textos questionados e estilos dos textos de autoria comprovada, a fim de detectar as semelhanças e dessemelhança e, por conseguinte, identificar ou não a autoria. Conforme mencionado anteriormente, o trabalho aqui proposto analisa 12 textos de autoria questionada que compuseram o Corpus de Autoria Questionada (CAQ), publicados na Revista VEJA, entre os anos 1969 e 1970, em português brasileiro,

88 extraídos de editoriais e matérias jornalísticas, foco da investigação. Salientamos que o CAQ já estava com textos pré-estabelecidos e definidos (editoriais e reportagens), pois foram indicados conforme discussão apresentada no Capítulo 2 e são foco da investigação de autoria⁷².

Compusemos, também um Corpus de Autoria Comprovada (CAC) com 160 textos, sendo 40 editoriais produzidos por Mino Carta publicados na Revista VEJA, a quem a autoria é imputada, além de 120 textos, sendo 40 editoriais de cada autor selecionados para a pesquisa e responsáveis por editoriais da Revista Manchete, quais sejam: Zevi Ghivelder, Justino Martins e Roberto Muggiati. A coleta dos corpora compreendeu um período de seis meses⁷³. Adotamos alguns parâmetros (período e tipo de registro) para coleta do corpus de autoria comprovada (CAC) e estabelecemos alguns critérios, tais quais:

1. O Corpus é formado por 40 textos de cada autor;

2. O Corpus deve conter publicações entre o período de 1969 a 1975; 3. Os textos que compõem o Corpus foram retirados de editoriais; 4. Os textos devem ser escritos em língua portuguesa brasileira⁷⁴;

5. Os autores que selecionados devem responsáveis pela redação de editoriais e ter experiências semelhantes às de Mino Carta.

Todos os textos que compõem os corpora foram descritos detalhadamente

O ‘Histórico dos textos questionados’ foi descrito no Capítulo 2.

O corpus de autoria comprovada foi compilado com textos publicados entre 1969 e 1975, extraídos da Revista Manchete e da Revista VEJA. Neste período, as revistas eram impressas comumente em papel couché e vendidas em bancas de jornais e livrarias. Portanto, não havia o que conhecemos atualmente por revista eletrônica, com acesso on-line. Por essa razão, as revistas foram consultadas e solicitadas cópias reprográficas das matérias e dos editoriais para posteriormente serem digitadas. As cópias foram cedidas gentilmente pela biblioteca da ECA – Escola de Comunicação e Artes, na USP – Universidade de São Paulo, cidade de São Paulo, Estado de São Paulo, na qual conta com um acervo de periódicos de extrema relevância para as pesquisas.

A digitação dos textos manteve a grafia original da escrita entre o período de 1969 a 1975. Ressalta-se que durante esse período houve a Reforma Ortográfica da Língua Portuguesa, no Brasil, imposta pela Lei Federal 5.765, de 18 de dezembro de 1971. Os textos, portanto, compreendem dois períodos de regras ortográficas, quais sejam: primeiro período de 1969 a 1971 e, o segundo período de 1972 a 1975. A proposta para a reforma ortográfica de 1971, era reduzir as divergências ortográficas com Portugal.

89 nos anexos indicando a data de publicação, o autor, início de cada texto (a maioria não apresenta título), total de formas e o total de ocorrência em cada registro, além do total de formas e ocorrências no conjunto de textos de cada autor. A seguir apresentamos o quadro resumido com a formação numérica, obtidos com uso da ferramenta AntConc⁷⁵, dos corpora, como segue abaixo:

Quadro 11: descrição numérica dos corpora da pesquisa

O quadro acima apresenta os corpora usados na pesquisa, seguido pela quantidade de formas (Types) e o total de ocorrências (Tokens) em cada corpus, além do total de textos que compuseram cada corpus. Os corpora, em geral, são formados por 172 textos jornalísticos, sendo 164 editoriais e 8 reportagens, que juntos somam um total de 54.663 ocorrências (Tokens) e são formados por 18.281 formas (Types).

Os corpora são classificados segundo Berber Sardinha (2004, p. 26), como pequeno de acordo com a quantidade de palavras que o compõe, porém, é comum na análise forense que o corpus ou os textos sejam compostos por poucas palavras. Isto é, para a análise forense de autoria não há um número pré-estabelecido do que seria uma amostra adequada de textos ou qual a quantidade

A ferramenta é disponibilizada gratuitamente no site http://www.softpedia.com/get/Science-CAD/AntConc.shtml.

No documento PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO PUC-SP LINGUÍSTICA DE CORPUS E A LINGUÍSTICA FORENSE: A QUESTÃO DA AUTORIA (páginas 81-89)